与陈立功讨论样本空间
A Discussion on Sample Space with
Ligong Chen
[本讨论的话题是由于以下讨论引发的:]
网名houselover (love my house)在MITBBS的Statistics版询问:“四十岁了,从生物研究改到统计硕士生,可行吗?有成功的例子吗?”
smileguy (身在资本主义大农村):“有呀。老陈,陈立功。自强不息搞研究,虽然新的理论不被主流看好,但是仍然不屈不挠。老陈,我看好你。上次你被群殴,我顶你还被关进小黑屋14天。你得空,发个包子吧。”
TNEGIETNI (lovewisdom):“借此机会告诉大家,我百分之百地成功了!统计学的历史将就此被改写!无人能够相信一个国内医学院毕业的卫生统计学硕士以独自一人的能力为统计学筑起了一道崭新的地平线!毫无疑问,这是科学史上的一个奇迹。
当前的所谓统计学的主流,是以数学家们的思维建立起来的,混合着大量的确定性假设等的逻辑思维,因而存在着许多荒谬。是的,他们不会认可自己的错误,但真理终将获胜,因为随机系统不可被假定;我们唯一能够假定的是,它是非确定的,因而任何确定性假设下的方法论都是不可接受的。”
bearJhonson (八棵七七葚):“FT,今天终于明白您老的中心论点是啥了。其实人有梦想真的是最好的,只要不破灭就好。呵呵”
TNEGIETNI (lovewisdom):“如果你依然对此表示怀疑,请你解释一下,如何在随机对应下实现以最大或最小测量为基础的最优化的统计决策?你能吗?”
ningyan (ningyan):“我感觉民科瞄准的都是数学,物理啥的。比如哥德巴赫,永动机。还有前段时间那个号称搞定三等分角的(我猜测是在圆规上加个量角器)。一举搞定一个上千年的学科,多牛B啊。我建议陈大师应该效仿你的前辈们。开辟新的阵地吧。统计历史太短了。你还是去搞数学吧。”
bearJhonson (八棵七七葚)转贴:
忠告:民科需谨慎采取的科学态度
那些在质疑相对论,进化论,万有引力等,并不懈的与公理斗争这个方向上的人,其实也是民科不能得到推广的原因之一,因为他们违背了通常的科学探索的过程。这里指的不是“找到热门、经典的物理理论,提出自己的理论推翻该理论,不证实或用哲学方法证实该物理理论,写书、发资料、邀请记者采访,往非专业大众媒体投稿”这个过程有问题,怀疑经典的精神是需要保持的,但在进行研究的时候还应当换个方法,毕竟我们所有的科学成果并不是在首先就否定前人的基础上进行的,最多也是怀疑并从新的角度用实例证明自己的观点,例如现在化学的开创者波义耳在他的著作《怀疑派的化学家》所做的。事实上每一个否定前人的科学成果是在首先尊重并同意前人的观点上才被发现出来的,甚至有的是在论证和引用前人成果进行实验等行为的时候才发现实际观测与前人的理论有出入,并在反复研究后(这时候的研究态度还不是为了证明前人错了,而是重新审视自己是否错误)才发现前人的错误,例如洛伦兹当年按照伽利略变换计算发现和实际出入太大了,于是自创洛伦兹变换,而前者就作为了新变换中物体速度远小于光速的情况下的特殊情况。如果从一开始就从否定前人的目的出发,那么恐怕很难有审视自己错误的能力。如果你要否定一定东西,你必须了解它并使用它然后在新的试验中怀疑它,这才是真正的科学探索精神。
此外,有人打着“民科”的旗号,自吹自擂,弄虚造假,自欺欺人;败坏了民科的声誉,最终成为笑话。例如,近二十年来在数学领域,国内一些所谓的“民科”以达到炒作自己“成果”的目的,不断声称“破解”著名数学难题或“创立”最新数学理论和数学教育;典型案例有:1)王晓明(四川)自称“发现”素数普遍公式、孪生素数普遍公式、N色定理等;扬言“陈景润当年的证明是造假”、“陈景润、王元、潘承洞偷换概念申报奖项”等。此人弄虚造假已被揭穿。2)李金国(河南)自称“破解”哥德巴赫猜想、孪生素数猜想、费马大定理、黎曼猜想等。此人已成笑柄。3)黄小宁(广东)自称“推翻”已有的数学理论、数学教学方法等。此人出口狂言,被人们当成笑料话题。4)范盛金(湖南)自我命名所谓的“盛金公式”、“盛金定理”、“盛金判别法”等。此人自吹自擂,自欺欺人,最后闹成笑话。
由于中国的科普工作不到位,很多人根本不了解现代科学的内容、思想和方法。 这也在客观上导致了民科的整体水平迅速下滑。因此当务之急是大力发展科普工作。
科学是在质疑中成长壮大的,而反科学和伪科学也经常那个打着“质疑”的旗号出现。那么我们如何才能把“对科学的质疑”和“伪科学”、“反科学”加以区分呢?最简单明了的方法还是我们的“程序正”:如果是对科学有推动作用的“质疑”,就应该发表在专业的学术刊物上。没有学术刊物背景,仅仅发表在传媒、网站上的对科学的“反思”或“质疑”,根据其内容,可以归为“反科学”、“伪科学”或是“废话”。
TNEGIETNI (lovewisdom)答ningyan (ningyan):“我不懂数学,更不懂物理化学。那些高中时期学得不错的东西现在都丢光了。我搞的是认识方法论,这是一门哲学,当然,是一门数学化的哲学。因此,一个没有哲学头脑的数学家搞认识方法论的研究一定会犯错误。
我重申一遍,这里有人能对我在上面就统计学中的最优化提出的问题给出理论解答吗?如果你能,就将你的逻辑提交在这里。如果不能,就不要指责我是民科。
事实上,在我给出了‘随机对应’的数学定义、创建了在三分迭代法基础上的三分回归分析法后,我在统计学的高级方法论领域乃至基础数学中所取得的成就已经足够的大了。我可以不用再干任何事情了。然而,我的梦想依旧存在!更大的成就即将面世,或者说,它实际上已经面世了。”
Actuaries (striving)就TNEGIETNI (lovewisdom)的上述自评讥讽道:“挺好。其实现在data mining competition挺多的,最近还有一个三百万奖金的呢。你要是用你新的方法论随便赢得一个奖回来,甭管是三百万还是三块钱奖金的,那你的理论就很有说服力了。
你说‘我重申一遍,这里有人能对我在上面就统计学中的最优化提出的问题给出理论解答吗?如果你能,就将你的逻辑提交在这里。如果不能,就不要指责我是民科。’我对你这种话评论过很多次了。请问你能明白我家的狗说的语言么?如果你不能的话,是不是说明你的智商连狗都不如?”
TNEGIETNI (lovewisdom):“如果你连我提出的问题是否是一个严肃的学术问题都无法作出判断,你认为自己有资格从事统计工作吗?统计学处理的是“数据”,而所有数据是对事物的定性判断或定量测量。如果你的原始数据中存在着定性判断的错误,无异于包含了垃圾。搞统计的人个个都知道一句名言:
Garbage in, Garbage out!
想必你这位清华毕业的大学子不会不知道吧!我因此而不得不以一个同行的眼光鄙视你!
我早已说过,我不求名,不逐利,只阐述自己的发现和思想。任何人是否接受我所成就的知识和价值,那是他们自己的事情,与我无关。”
Actuaries (striving):“不用你求名求利。你要拿奖了捐出来大家都佩服你。既然认为别人的方法论都有谬误,那你就拿事实来说明。我再说一遍,你的所谓理论完全用的不是现代科学体系的术语。你真的知道什么是连续什么是可测么?你可以从头定义属于你的术语,但是不懂装懂乱用数学术语来推翻数学理论,徒增笑耳。再说,我啥学校毕业的你这么关心干嘛?考清华继院考不上,碰到清华毕业的就不爽了?”
TNEGIETNI (lovewisdom):“看来,你有点不服气。那好,请你对我提出的问题作个简单判断:
它是否是一个严肃的学术问题:1)是;2)否。
请你做出选择,并将答案写着这里。然后再谈谈究竟是谁在此用‘狗’的逻辑说话。如果你依然不能做出选择,那么,请你自找出路,因为这是你自找的,而非别人强加给你的。
最后,我必须澄清一下,这也是被你逼的。我在1989年报考的清华行政管理专业的第二学位班(即按当时的政策与硕士同等学历),不是清华的继(续教育学)院所开设的班级。更何况我并非考不上,而是在总分名列前茅且远高于与我同考的其他200多名考生的情形下由于在89事件上的政审不过关而被清华拒绝入学。这一切都是有据可查的。而无据而出的言论只能被判定为‘胡说’”。
Actuaries (striving):“这个狗的逻辑不是想侮辱人。我的意思是,你用的术语根本就不是这个版上的人所学的术语,所以你的问题根本没法判断对错,因为地球人都没法了解你的问题。你先把你的问题用数学术语表达清楚再说吧,别扯啥可测不可测的,你连连续都不知道是啥吧。
你在89年考的这个清华行政管理专业,我觉得挺山寨的。因为对应的公共管理学院是2000年后才成立的。我还真不知道历史上有过啥行政管理专业。”
TNEGIETNI (lovewisdom):“我是不懂什么狗的逻辑的。既然你的狗的逻辑不是侮辱人的,而你又是人之一,且懂得你的狗的逻辑,那就请你先将这个逻辑翻译成人人能懂的逻辑,然后再来发言。
你不知道自己母校历史中的一个点滴小事,这是你自己的事,与我无关。”
qiqicrq (正蓝少爷):“我真的怀疑你是做统计的?统计最优化决策的最大最小都是概率意义下的。。。路过发帖,不敢跟统计界划时代的牛人做进一步讨论,谢谢!”
TNEGIETNI (lovewisdom):“请问,在一个随机样本空间里,一个可测值作为最大或最小的概率有多大?你的计算根据是什么?如果上面的问题比较抽象不好回答,再请问,给定一个随机样本,例如100个人的身高,其中,哪一个随机身高值是最大或最小的概率是多少?怎么用该样本计算出来?
在统计学历史上对最优化首先感到怀疑的并非是我陈立功,而是美国的大统计学家Tukey,他在1962年发表的文章:The Future of Data Analysis中已经警告了我们‘Danger of Optimization’,遗憾的是,由于数学系统中长期缺乏对‘随机对应’这一重要概念的准确定义,因而,Tukey无法从理论上论证最优化的错误。这个工作最终由我在2009年以不是100%地严谨的方式初步完成了。”
qiqicrq (正蓝少爷):“最后一次回复了!!!!! 如果只有这100个样本,我们还是会用其中最大的或者最小的值作为估计,不过从概率上来说,这个估计误差可能比较大,可靠性不一定高。”
TNEGIETNI (lovewisdom):“如果你的学识已经达到了这个学科目前公认的最高水准,例如拥有了统计学的PhD学位,那么,你对我提出的问题的回答表明了整个学科确实走在了一条错误的道路上。如果不信,请顺着这条思路回答以下问题:
假如再给定那100人的体重测量值,请问,身高和体重之间的对应是什么对应?对应于最高身高的体重值的性质是什么?想必你会回答说,是一个随机的点测量值。这个随机的点测体重绝对不是该样本人群体重的统计期望,……
还需要我进一步阐述下去吗?因此,生存分析以及其它分析方法中的最大似然估计就是一个谬误,只有期望似然估计才能做模型的决策。”
Actuaries (striving):“鸡同鸭讲,夏虫语冰。”
qiqicrq (正蓝少爷)对Actuaries (striving)说:“唉,发现他彻底没有概率基础之后,我彻底放弃跟他讨论了。民科,伤不起啊伤不起!!!BTW:你的工作总结曾经对我找工作有很大的启迪,借这个帖子道个谢!”
Actuaries (striving):“你别谢...自从我工作之后,发现我以前写的经验都挺垃圾的... 哈哈!陈大师还是很好玩的,最好玩的就是他经常一本正经地指责别人没有自知之明。”
TNEGIETNI (lovewisdom)答qiqicrq (正蓝少爷):“你就继续张嘴骂人好了。可是,你的言论已经在此。你还没有回答完我在这里提出的全部问题。你对我下‘民科’结论的资格还不够。
既然你说到了概率论(我承认,我不懂这个概率论),那么,就让我问你两个简单问题:
1) 一个样本统计量,例如平均数,是随机变量还是随机常量?
这个问题会令你那在当前的数学系统中训练出来的脑袋抓狂,因而你可以继续拒绝回答。这类问题也是Hegel藐视数学家的一个原因,也是数学系统拒绝Hegel的辩证逻辑的根本原因,因为这个逻辑可能带给数学某种非确定性,而统计学恰恰是处理非确定性的方法论,因此,统计学需要辩证法。
在当今的概率论中,Kolmogorov的样本空间实际上是一个尺度空间。样本空间只能是一个样本本身,一个概率空间能且只能被定义在这样的一个样本空间上,而不是(Kolmogorov的样本空间=尺度空间)上。这就是我所使用的概念系统中的一部分。由此,我对你提的第二个问题是:
2) 你是否认同我对样本空间的概念的理解和定义:
a.)不同意;b.)同意;c.)不能判定我说的正确与否。
当然,为了避免引起误会,我需要说明的是,我所说的样本不是一个随机的点,而是由n(n>1,即样本量或sample size)个随机点构成的一个来自总体的随机子集,其中没有任何一个随机点是重复的,例如,给定100个成年男女构成的样本,其中,男性48个,女性52个。按照Kolmogorov的理解,这里的‘男’和‘女’各有48次和52次重复,因而,从集合论的角度,他定义的样本空间是{男,女};而按照我的理解,这个样本中根本没有任何重复,因而我定义的样本空间是{第一个男,第二个男,…,第48个男,第1个女,第二个女,…,第52个女},或简单记为{48男,52女}。
最后,我无所谓伤不伤得起。如果我错了,我会放弃自己的东西。‘从错误中学习什么是正确的’从来就是我的人生座右铭之一。”
Actuaries (striving)继续奚落TNEGIETNI:“真好玩。我再问你一次,你真的懂啥叫可测,啥叫连续么?”
TNEGIETNI (lovewisdom):“我感觉到你所理解的可测、连续与我所理解的有点不同。这些概念本是直观而简洁的。没有什么神秘可言。
在统计学的随机样本空间里讨论连续性与在狭义的数学函数空间里讨论连续性是根本不同的两回事。前者需要在推断连接变异发生的抽样误差的大小也就是通过概率推断的基础上考虑连续性的可能性和变异性,而后者是不需要这样的推断的,只需一个简单的确定性假设。
一个样本空间里的连接变异的可测性能且只能通过样本测量得到,绝无任何数学理论可以推导出来,也绝无任何数学理论可以否定它的存在性。从数学角度无视它的存在只能被视为一种无知或蒙昧的状态。”
原文在此:
http://www.mitbbs.com/article_t1/Statistics/31271697_0_2.html
[Comments]
alsoRun (alsoRun):“陈立功, I was also once a 国内医学院毕业的卫生统计学硕士. Can you provide a link to your new theory? I would be happy to study it. An English version would be greatly appreciated as I have not read any Chinese statistical papers for 25 years. Thanks.”
drburnie (专门爆料):“随机常量,大师造词不遗余力啊,哈哈哈哈”
alsoRun (alsoRun):“What is a 随机常量? In frequentist framework, the underlying parameters are treated as fixed but unknown values. In Bayes analysis, they are regarded asrandom draws from a prior distribution. Am I on the right track?”
drburnie (专门爆料):“哈哈,你还真跟陈立功较真啊。他嘴里从来都是胡说一气。”
TNEGIETNI (lovewisdom)答drburnie (专门爆料):“所以,我说我的问题会令那些数学头脑们抓狂!我也就因此而理解了为什么Hegel轻视他同时代的数学家们。之所以称一个统计量是一个随机常量,是因为它对其被给定的样本本身来说是一个常量,而样本对其所来自的总体而言则是一个随机子集。如果说统计量是一个随机变量,这是没有明确指向的一个模糊的说法,是不准确的。显然,一个样本的均数对于该样本自己来说是一个不变的量,而不是可变的量。”
drburnie (专门爆料):“我常常怀疑狗是不是会因为人听不懂狗话而轻视人类。多仔细想想,确实可能哦。”
marole (haha):“老邢不要玩弄我们了。”
alsoRun (alsoRun):“Everybody knows that. A statistic is random in repeated sampling but fixed for a specific sample.”
TNEGIETNI (lovewisdom):“Your statement is partly correct. It is random in any one-time, non-repeated sampling either.”
alsoRun (alsoRun):“Then why did you call it a ‘random constant’?”
TNEGIETNI (lovewisdom):“答案就在前面。”
alsoRun (alsoRun):“Ok, I gave up on this thread. It seems it is some semitic debate. Write a book if you believe in your theory. Indeed, Kolmogorov’s axiom was first published as a book. It was an absolutely amazing piece of intellectual work in the whole math history. By the way, it is rather easy to criticize others but much harder to come up with a better solution or system.”
TNEGIETNI (lovewisdom):“That you give up means you are not 100% confident on what you have received in your education. If your are 100% confident on your knowledge, you should never give up on this issue. You should defeat me!
However, Kolmogorov is still one of the greatest Mathematicians. 尽管在他的理论体系中存在几个瑕疵,柯尔莫戈诺夫依然是最伟大的数学前辈之一,因为他在统计学尚处于萌芽的时期就以自己敏锐的眼光和卓越的思维完成了一项伟大的工作:抽象出了几个简单的基本概念及其相互间的关系,从而为后人提供了一套可行的思维路径。我希望自己能够在他已经完成的工作的基础上进一步作出一点小小的贡献,以便纠正他在概念定义中所犯下的几个微小的、非根本性的偏差。这是我从错误中学习而获得的成功,但这个成功不属于我所有,而是依然属于柯尔莫戈诺夫,因为是他首先发现了那些概念的存在,我不过是象一个学生一样指出了老师因为疏忽而留给后人的瑕疵。”
alsoRun (alsoRun):“I would want to learn and discuss more if I had unlimited amount of time.”
Actuaries (striving):“你完全可以建立起属于你自己的理论,但是你的理论中的一砖一瓦都和现代的科学体系不相容。就比如说你经常说的连续和可测,你只要翻一翻任何一本分析和实分析的教科书,就会发现数学家所用的概念和你所理解的不是一回事。这样一来,你用这些术语来描述你的理论就会有很大的误导性。这就像日语和汉语都使用汉字,但是一个中国人还是不容易读明白一篇不使用片假名的日文文章一样。所以,我建议你使用自己的术语来代替过时的不准确的数学术语,比如说陈连续,陈可测,陈随机变量,陈随机常量,陈样本空间,等等...”
TNEGIETNI (lovewisdom):“数学家们可以继续在他们的抽象数学里讨论实可测、实连续、实变量、实XX、实YY、实……,等等,那是他们在他们的确定性空间里该做的事。
统计学讨论的是抽象样本,就像数学讨论抽象的数字系统一样;但统计学不讨论抽象的数字系统。抽象样本的属性与具体样本的属性具有完全的一致性,因为它们的属性本就是从具体样本抽象出来的。
至于说到样本空间的概念定义,如果一个样本自身构成的空间不能被称为样本空间,还有什么其它的任何事物可以被称为样本空间?你们这些搞所谓的数学的聪明脑袋难道连如此简单的概念都不能正确定义?Hegel或马克思如果依然在世,他们一定会感到苦闷不已。”
Actuaries (striving):“我还是那句话--你不要以为你了解这些术语是什么回事。只要你认真地翻一下入门的数学和统计教材,你就会知道这些术语的定义和你说的不是一回事。所以说,你不应该继续使用这些术语,这会让大家confused。
还是继续我那个汉语和日语的比喻。你用中文说金玉满堂没问题,是一个吉祥的词语。但是日语里金玉是睾丸的意思。你想祝福日本朋友财源广进,但是日本人脑子里只会想到生殖器。明白了吗?”
alsoRun (alsoRun):“The Kolmogorov axiom is absolutely needed when you study more complex probability problem, such as stochastic process.”
TNEGIETNI (lovewisdom)答Actuaries (striving):“如果作为人的你被称为了一只狗,你愿意永远被称为狗吗?维特根斯坦指出,学科术语在其产生的历史过程中会发生歧义,需要后人予以修正。这是科学要想取得进步必须做的事情。”
Actuaries (striving):“吃饭这个俗语也不正确啊,因为我们在吃饭的同时也会吃菜。光说吃饭显然不正确,应该说吃餐。你打算也挑战这个中国人千年以来的谬误么?”
TNEGIETNI (lovewisdom):“莫非你想说,建立科学理论与做一餐饭吃是一样的意义?任何科学理论首先必须拥有一个严谨的概念系统,从而才可能有严谨的逻辑推论和结论。如果概念系统本身不严谨,必然导致无法克服的逻辑障碍。事实上,统计学中的主要问题并非由概率论中的基本概念引起的,而是由一般数学概念引起的,例如最优化理论。这个理论在随机系统中根本不成立。”
Iniesta (Andres Iniesta 小白兔的哥哥):“Can you share some of your publications with me ?”
Actuaries (striving):“没看出来你的理论有多严谨。你喜欢用已经普遍使用的数学术语来描述你的新理论,但是你又完全不理解而且错误地使用了这些数学术语。还是回到那个最基本的问题,什么是连续什么是可测?你给解释一下吧。”
TNEGIETNI (lovewisdom):“你所问的连续和可测抽象得没有了任何存在的意义。我倒是想要问你,在分段回归分析中,什么是分段或临界模型间的连续?什么是临界模型间的连接变异的可测性?在你解释了我的这两个比较具体的问题后,我再回答你的。我手中有全套数学大百科辞典。我抄下来也可以回答你。”
Actuaries (striving):“你先抄下来再说,我可以给点习题给你做一下,看你是不是真懂。”
TNEGIETNI (lovewisdom):“我想,就不必抄了吧。何况wiki上也有,google一下就可以了。借此机会我想说的是,我并非要全盘颠覆目前的概率论,只是希望对其中的几个概念的内涵略作调整,因为它们实在是不好理解。如果将概率空间的概念建立在Kolmogorov的‘样本空间’之上,这是很难令人理解的,因为那不是一个样本本身,而是一个尺度空间,而所谓的尺度不过是一个测量工具(请原谅我在此问题上近乎直观的认知水准离纯数学的高度抽象要求相去甚远)而已,其上是没有任何样本点的,从而也就不可能将概率空间建立在其上。随机事件的发生概率是由样本点的实测分布推断出来的(也就是说是从经验事实归纳出来的),而不是根据尺度空间本身的结构设计定义出来的(也就是说不是在理论假设的基础上解构出来的)。
我所做的一切仅仅是试图将概率论中几个最基本、最原始因而也就是最有用的概念引入到一般统计学中,以便使得任何非数学背景的人能够从简单的逻辑上理解统计学及其方法论的哲学意义。我可能不成功,但我愿意试一试自己的能力。所以,权且让我做了再说。
我有幸在1998年的三月底在武汉大学的数学系聆听了陈希孺院士关于统计学的历史、现状和未来的讲座。而这个讲座,根据他自己的陈述,几乎是转述了美国统计学家Perter John Huber在中国科学院数理统计研究所所作的类似演讲的主要内容。在该演讲的最后,陈希孺引述Huber的话说,统计学的理论体系需要来自数学以外的强大力量来推动其发展。我想,这股力量中首当其冲的非哲学莫属。
我以自己良好的哲学素养开始了这个长达14年的探索。在完成了“泛函化的广义三分回归分析法”后,我强烈地意识到在统计学中需要几个重要的基础概念来帮助构建方法论时的思考。这才开始试图引入概率论中的几个简单概念。例如,当我想要说“分段回归就是将样本空间分解为几个临界空间然后在各临界空间建模型以筛选回归因子”时,我遇到了一个重大的逻辑障碍,即kolmogorov的“样本空间”的定义。在这个样本空间里,是不可能存在临界回归关系的,从而任何分段的企图都是徒劳的。但如果将样本空间理解为实测样本本身,则一切逻辑障碍都将化为灰烬。于是,问题就出来了:我们为什么不可以这样做?是现实世界不允许,还是现有理论体系不允许?答案显然是后者。而理论必须符合现实,从而,修正kolmogorov的定义就成了唯一正确的途径。
即使我的“泛函化的广义三分回归分析法”由于彻底抛弃了最优化的思维逻辑和解决方案而采用了随机加权的期望估计而在某些大家们看来可能不正确(我当然不这么认为,恰恰相反),我所设计的在全样本空间里同步寻找两个临界点的“三分迭代法”也足以令我感到自豪。如果人们想要将我的随机加权估计换成最优化的解决方案,也只能采用这个“三分迭代法”来实现。我本来可以这样做,从而以一篇迎合该领域内所有人的思维习惯和当前数学理论的纯算法文章寻求发表也不是不可能。但我拒绝妥协,而宁可让它呆在JSM的会议论文集中。这就够了,因为无人敢在其它刊物上发表一个类似的东西,并声称是他/她的首创和贡献。学术刊物可以继续拒绝发表它,受损害的不是我,而是统计学乃至整个应用领域。我可能永远也不会为它寻求发表的机会了,从而,人们只能到那个会议论文集中找到其历史上的起点。这将是学术界的一个耻辱。”
alsoRun (alsoRun):“A fundamental component of modern scientific research is the peer review system. Otherwise, everybody can call himself/herself the greatest. Proceedings of joint statistical meetings are not peer reviewed. If you are as confident of your work as you seem to suggest, submit it for peer review. By the way, who wrote that wiki entry about you?”
Actuaries (striving):“我想前辈您很久都没来这个版了。老陈早就试过投各种journal了,后果如他所说,受数学训练的脑袋们不敢接受这个革命性的发现。”
TNEGIETNI (lovewisdom)答alsoRun (alsoRun):“从2007年4月到2009年5月间,我发过很多杂志,包括JASA, Annals of Statistics, Biometrics, Biometrika, Statistics in Medicine, Comput. Stat. and Data analysis, etc, all of them rejected it without any professional comment!
曾经有两个比较积极的评价。一个是JASA的主编,在我于2007年11月第一次发稿后的第一个评论中说我的思想“definite interesting”,但又说我的很多数学表述不合规范(这完全可以理解,我只有国内医学院的教育背景),因而拒绝了它。
另一个是在2009年5月,the editor of the Annals of Statistics suggested me to submit it to 一个稍微低一点的刊物,其理由是1)我所讨论的问题不是该杂志当前关注的热点;2)我的文章的英文表述不够好。
所以,我最终放弃了转投它处,而将它发表在JSM的论文集中。这已经足够了,因为我的思想和算法都已面世了。我无所谓它们出现在哪里。真理的表达还需要选择地方?这真是可笑之极。真理一旦公开了,任何人都无法回避它!谁也不敢继续理直气壮地在统计学中讲授最优化的理论了,因为那是一个荒谬和一个蒙昧!”
alsoRun (alsoRun):“Ok. So you have tried and were not successful. This is a case that you believe in your work passionately but others see it very differently. It also seems that you received the so called "desk rejection" from the editors: the manuscript is considered so different in style, topic scope or quality that it is not worth reviewing. That is understandable as I assume that you usually do not regularly read JASA or Annals. Many great papers were rejected several times before they are accepted. Examples include Rubin and Little's missing data paper and BH's false discovery rate paper. But these authors kept improving the paper in the rejection/resubmission process.
TNEGIETNI (lovewisdom):“你说的基本正确,但不全是。我的文章之所以一再被拒,有非常深刻的原因。实际上我的算法很简单,任何有着高中数学水准而受过统计学基本训练的人都能看懂,但其完整而正确的分析逻辑却具有重大的意义,因为它预示着最优化和spline等在统计学理论和实践中的彻底失败。
因此,我也就知道了我的文章中存在着一个非常大的统计学的理论和实践的问题以及几个值得进一步改进的小地方,这就是,如果最优化被彻底放弃了,有什么更好的办法来取代它?毕竟,它被用来做统计决策已经很多年了,人们也在这个领域形成了一个比较一致的思维模式,放弃它的时候必须是有一个最好的替代方案出现的时候。我相信JSAS和Annals of Statistics的主编对我的文章有深刻的洞悉。他们绝不是平庸之辈。(JSAS的主编在我最后一次发稿的评论中只有一句话:此文不适合发表。这篇文章就是目前JSM上可以通过因特网搜到的那篇文章。在JASA的稿件库里是全文。)
尽管我已经在2009年的文章里提出了“两个相互关联的随机变量(X和Y)的期望之间的对应是唯一确定的对应”,而对应于ext(X)[即min(X)或max(X)]的仅仅是Y的一个随机的点测量而非E(Y),但我们也不能在任何情况下都直接使用算术均数来做统计决策,因为它仅对正态分布是一个无偏估计,而很多的所谓“optimizer”的分布并非服从正态分布。所以,我们需要一个终极的、适合于任何分布类型的无偏期望估计的办法。这个办法终于被我在去年的12月12日找到或发现了。这也就是我为什要大家记住12月12日这一天的缘故,也就是我为什么敢于自称为统计学筑起了一道新地平线的缘故,因为它是统计学自身最基础、最核心因而也就是最通用的方法论,其完整的数学算法已经被公布在会议的abstract之中。这将是2011年JSM会议上一个具有划时代的事件。
顺便说一句,这个新的算法并非来自任何数学公理或理论,而是来自一个深刻的、基于辩证法上的哲学沉思。我毫不怀疑,它是统计学历史上每一个最伟大的人们所梦寐以求的方法,是每一个统计学家都会认同的方法,是每一个搞统计分析的人手中迄今为止最强大的武器。
alsoRun (alsoRun):“I now feel that you are a little delusional.”
PharmD (夜里发呆):“如果没有这个特质,陈大师何以成为版宠呢?”
drburnie (专门爆料):“陈大师真以为自己发现DNA双螺旋结构了呢!”
DaShagen (Unbearable lightness):“Master Chen can invest some money, not much, on hiring a technical writer who can definitely touch up your writing and even write it for yourselves based on your oral description.”
bearJhonson (八棵七七葚)重发:“忠告:民科需谨慎采取的科学态度”
TNEGIETNI (lovewisdom):“你们在这个版就我的问题已经发表过无数的言论了。如果可能,我愿意将它们全部复述在这里,从而人们将发现,没有任何人对我的思想和方法提出过任何学术性的评论(无论是肯定的还是否定的)。当然,我不怀疑其中会有人从我的文章中获取灵感,因而深藏不露,私下拼命耕耘,以便在我的错误中找到自己的正确的解决途径。让我告诉你们,你们已经没有任何机会了。我的最新研究结果已经面世了,它是三分回归分析法中所有可以改进之处的终极解决方案。人们在方法学上唯一可以做的是在我的方法中加入自己的思想使之更加完整。最后,我将不会允许任何人将我的算法变成电脑程序化的软件,除非得到我的授权。我将捍卫我的权利。”
Actuaries (striving):“不知腐鼠成滋味,猜意鹓雏竟未休。”
littlebirds (dreamer):“You guys are merely feeding the troll.”
goldmember (蔬菜<<<菜鸟)答littlebirds (dreamer):“That's the point. Feeding the troll is a lot of fun.”
littlebirds (dreamer):“I would rather use the time playing games :-(”
TNEGIETNI (lovewisdom)答littlebirds (dreamer):“You are right. I am challenging the large body of the whole system in my very weak capability. I believe that I will win since there are some mistakes in it.”
papertigra (长工瘦头猪)(统计版斑竹,注):“最近重读金庸小说,大家说楼主象金庸小说里的谁?哈哈。”
DaShagen (Unbearable lightness):“铁掌水上漂!”
baicaibangzi (白菜帮子):“斑竹是想说白驼山山主?”
goldmember (蔬菜<<<菜鸟):“不对。求欠账至少知道自己是冒充。如果陈大师到这里自称efron的马甲,那就是求欠账了。”
PharmD (夜里发呆):“妾突然发现求欠账和要加薪是很完美的对仗!”
littlebirds (dreamer):“妙!”
goldmember (蔬菜<<<菜鸟):“太有才了!”
daLIElama (达赖这个鸟人):“其实陈大师更像大牛 黄裳。那叫一个真牛。wiki上的这个是谁写的?http://zh.wikipedia.org/wiki/陈立功”
drburnie (专门爆料):“还能有谁?”
baicaibangzi (白菜帮子):“陈教授在哪高就啊?不是在北美吧?”
yzlzzly (Blizzard.FrostHand):“这算不算臆想狂啊。我觉得他最大的工作在于臆想自己的成就,为自己歌功颂德。对错都没搞明白,先忙着到处自吹自擂。我建议他家人赶紧注意下他的精神状态,这是脑子有病,seriously.”
TNEGIETNI (lovewisdom):“各位统计PhD大虾对一个国内医学院毕业的统计master的Wu水泼完了没?如果没有,请继续泼。咱们都是搞统计的,对事物分类采集数据是统计分析中最基础的工作。所以,如果您不想泼了,就请您回头对自己作为一个人分个类,看看自己究竟属于哪一类人?但愿你们不要将自己归错了类,否则,你们将没有资格从事统计行业的工作,因为你们要么没有相当的智力,要么造假以欺骗自己和他人。
一个人以自己顽强的毅力、不畏惧任何权威、不怕个人生活乃至整个家庭被摧毁的后果、在十多年里从中国到美国,挑战自己的极限,提出自己全新的思想。而你们身为该领域的高级学者,却在此发表如此的言论。你们认为可以击垮我的精神?这才是真正的妄想(delusional)。
让我告诉你们,我跨越了十一次生死线、经历过巨大的人生痛苦、享受了完美的人性生活,没有任何力量可以摧毁我的心智!
我善意地建议你们,在不知道我究竟做了什么时,请保持你的缄默(Please keep yourmouth in silence if you don't know what I have done in Statistics.)
在此,请允许我引用两段圣经中的话语:1)最大的戒命:你要尽心、尽性、尽意爱主你的神。这是一切戒命中的第一,且是最大的;其次也相仿,那就是要爱人如己。这两条戒命是律法和先知一切道理的总纲。2)如果有人打你的左脸,你把右脸也伸过去让他打。所以,你们永远别想从我这里得到污言秽语的回敬,因为那种语言是你们身份的象征,与我无关。
如果我错了,没什么,不过是自嘲一下而已。如果我有能力改正的话,我会尽力改正自己;如果没有这个能力,我就放弃之。人生的美景多的是,我何苦跟自己过不去?我说完了我的话,就去干自己的活,或打草、或教小提琴、或听音乐、或看电影、或陪家人玩耍、或出去旅行、或找朋友喝酒聊天、……。
我知道,一个美国大学的统计PhD是很难放下自己的身段对一个国内医学院毕业的统计master表示尊敬的。不过,我的美国老板、同样是拥有统计PhD学历的高级统计专家,却对我提出的理论和方法表示了他的赞同。这是他支持我参加今年JSM年会的主要原因。如果他不认同我的东西,如果他也像你们这样认为我在胡言乱语,他绝对不会用公司的经费支持我去出席会议。
最后,我敢于对自己的工作做出一个自我评价,表明我至少知道它们对于统计学乃至一般应用学科的价值究竟是怎样的。如果我连这一点评判能力都没有的话,我就根本没有资格从事自己的研究工作。如果你们认为我在造假,如果你们想要打假,可以向打假英雄方舟子打个小报告。他已经打倒了我的同事肖传国博士,再打一个仅有国内master学位的假货易如反掌。我等着你们和他共同采取行动。
愿你们大家好自为之。”
goldmember (蔬菜<<<菜鸟):“赞陈大师水火不侵,刀枪不入。这正是金庸书中所载,早已失传千年的金脸罩铁面皮神功~~~~~~啊!!!!”
TNEGIETNI (lovewisdom):“哇噻,你的发现好伟大呀!还不赶紧把那个金脸罩铁面皮神功藏到自己家里?”
goldmember (蔬菜<<<菜鸟):“我既不反传统,也不创理论。就是一同流合污的小虾米。用不上这样的神功啊。话说陈大师,我在板上问了没人回答。你那个英俊无比的头像是你自己么?”
TNEGIETNI (lovewisdom):“让我告诉你:那就是我自己。”
goldmember (蔬菜<<<菜鸟):“葱白呀...难怪版上女士们都偃旗息鼓,不来找陈大师的麻烦了。”
papertigra (长工瘦头猪):“俺觉得陈大师挺有才的,语言组织能力一流,做事认真执着一流,至于统计学上的成就,俺也不懂,那就不提也罢。”
Actuaries (striving):“嗯,我也觉得老陈是大帅锅。要说老陈和凤姐有啥不一样,区别就在于当初他俩降落凡间的时候,凤姐是脸部着地,老陈是后脑勺着地。”
goldmember (蔬菜<<<菜鸟):“哈哈。这个太搞了。必须要跟一下。过了这贴我再也不攻击老陈了。玉女扭头端详了金童良久:‘你两眼无神,不是金童咯咯。说,你是什么妖怪变的?’金童挠挠头:‘谁是金童?芙蓉姐姐,你跑到我玉皇大帝家来干什么?’”
TNEGIETNI (lovewisdom)答Actuaries (striving):“瞧你那因为……而被扭曲的心理!只有上帝才会垂怜你了。”
PharmD (夜里发呆)答Actuaries (striving):“精算,你很久没有换头像了。妾要看你家的小帅宝近照。”
hezhi (荷芝)答PharmD (夜里发呆):“你该自个整一个,hehe”
Actuaries (striving)答hezhi (荷芝):“don't think she can 自个整一个。She should work with her LD together to 整一个。Haha”
关于样本空间的继续讨论
http://www.mitbbs.com/article_t/Statistics/31275951.html
【问题开始:以下文字转载自 Mathematics 讨论区】
发信人: whatsummer (不理猫@St Trinians), 信区: Mathematics
标 题: 一个简单的数学问题,我和我老板争论不停,其中一定有一个人是白痴,哈哈
发信站: BBS 未名空间站 (Wed Apr 27 15:20:03 2011, 美东)
如果你有n个parameters,n个equations,一定可以解出来每个参数,并且只有一个解么?这些equation不是重复的,比如
x+y=3
x+2y=6
不是那种因为重复而少了一个有用equation的情况。
我说:有多解或者无解。我老板说:一定有,且只有一个解。打个比方,我们的equations如下:
xy/(x+y)*(x+y)(x+y+1)=6
2(y-x)*sqrt(x+y+1)/[(x+y+2)*sqrt(xy)]=8
我们还有很多其它equation要解。上面这两是最简单的一个case。多谢各位神仙!
【问题结束:以上文字转载自 Mathematics 讨论区】
DaShagen (Unbearable lightness):“這等高深的問題一定要問陳大師。說不定能在三段回歸分析與樣本空間的交集中找到答案。”
dapangmao (dapangmao):“本来不懂陈大师的样本空间,看了电影source code以后终于明白了,原来就是并行空间啊。”
TNEGIETNI (lovewisdom):“我没看过那部影片,所以不太明白你的话中话。希望你展开说说,多谢指教。
事实上,我认为我所定义的样本空间很直观简单啊。怎么会不好理解?打个比方,我们有两个随机变量X和Y构成的一个联合空间,样本量是35。按照我的定义,这个样本空间就是由这35个随机点及其测量尺度(或坐标)构成的一个空间。这当然是很经验化的了,但依然是一个抽象的空间。而按照Kolmogorov的定义,样本空间仅仅是两个坐标构成的空间,其中没有任何实际的样本点,因为他认为任何实际的样本点都是来自这个可测空间的。也就是说,他所定义的是完全抽象化的空间,与具体样本无关。这是让我感到彻底困惑的逻辑难题(对于那些学数学的来说,没有任何障碍)。
我承认我和kolmogorov在对统计学的理解上存在着哲学上的差异,而我的数学思维极其有限,但我希望以直观的方式建立一套逻辑思维系统。在我看来,统计学中的所有样本都既是具体而实际的,又是抽象而广义的。不仅如此,任何统计方法都是在处理实际样本的过程中构造出来的具有普遍而抽象意义的算法,而非从某个或某几个数学理论直接推导出来的。这是统计学方法与数学方法之间的巨大差别。我可以不懂任何高深的数学理论,但如果我掌握了简单的数学运算法则,我照样可以用实际样本构造出一套分析数据的逻辑以及相应的某个具有特定意义的统计量的计算公式。如果分析的逻辑正确,统计量的构造就是正确的;反之,分析逻辑出错,统计量的构造就可能带给我们某种错误的意义。
从哲学的逻辑系统来看,并非所有符合逻辑的都一定是正确的,我们的思维中存在着大量的伪逻辑,从而带给我们很多伪科学的方法论。一个缺乏深刻的哲学头脑的大数学家从事统计方法学研究对公众来说是危险的。这就是我针对统计学的基本观点之一。”
goldmember (蔬菜<<<菜鸟):“终于看懂了一些陈大师的话。不容易。这个样本空间在高维数据分析中早就不是什么新鲜事了。p>>n的时候,一些算法就是基于n个样本构成的空间的。这两个空间有线性变换的关系。”
scimitar (无限江山):“看懂陈大师的话,发包子吧。”
goldmember (蔬菜<<<菜鸟):“我替你抵挡陈大师,你该给我发几个包子才对。”
TNEGIETNI (lovewisdom):“我不太懂你的p>>n是什么意思。我的思想很单纯和直观。当我们将n个随机点描绘在一个测度空间里时,就得到了一个实际的样本空间。没有这些随机点的存在,就不构成一个切实的样本空间。这是一个简单的逻辑。于是,只有在这样的样本空间里,我们才可以讨论临界分割的问题,而在Kolmogorov定义的样本空间里,是不可以讨论这个问题的,因为那个空间如果是一个连续型随机变量的可测空间的话,就不存在可分性。
我想借此机会谈谈goldmember (蔬菜<<<菜鸟)在这里所说的"n个样本"。这是很多人常用的习惯性语言,但它很不严谨。我想他想要表达的实际应该是"n个随机点"的意思。在统计学里,样本、统计量、参数等都应该有着不容任何混淆的含义。因此,在统计学中,一个样本只能是指的“由来自可定义的同一总体的n个随机点构成的一个随机子集”,而不能指代其中的任何一个。
goldmember (蔬菜<<<菜鸟):“n是样本数,p是维数。做生物的p都几万,n只有几百。自然而然就把两者关系翻过了,否则没法做。没你那么多哲学上的思考。你说“没有这些随机点的存在,就不构成一个切实的样本空间。”在这种情况下是有意义的。因为p>>n所以实际数据支持的维数只有几百。如果考虑p维,covariance matrix是degenerate的。我不是科班出身的。上面说的可能有误。”
TNEGIETNI (lovewisdom):“你就别谦虚了。我问你的那句话表明我可能连……都不是,更别提科班了。我思考统计学的问题时,主要是从哲学而非数学的角度。这是我与众不同的地方。显然,如果我有良好的数学训练的话,我可能会做得更好。遗憾的是,我只能尽自己所能了。可能会造成很多谬误,但我希望我的哲学式陈述能帮助那些数学基础良好的人们更好地思考统计学中的问题。”