《女士品茶》第46章


对图基来说,世上没有什么事情会因为平凡而不值得去发挥原创力,也没有什么事情神圣到不容质疑。就拿最简单的记数过程来说:许多读者在计数某种东西时,或许已使用过一种记数符号。一代代的老师教我们的常用的符号就是先画4条垂直竖短线,第五条线穿过这4条线,表示5个数。不知读者看到过多少这样的场景:衣衫褴褛的犯人在监狱的墙上画下了一串串这样的计数符号。
图基说,这其实是一个愚蠢的记数方法。想想看,它多么容易出错。你可能画了三条竖线就画一个横线,也可能画了五条竖线后才画横线,这种记数法即使错了也很难发现,除非你仔细检查所画垂直线的数量。用一种容易找到误差的记数符号似乎更有意义。图基提出了十笔记数法:首先画四个点作为方型的四个角,然后再把四个点连成四条线,形成一个方型,最后在方型内画两条对角线。画完之后是十笔。
上述这此例子,快速傅立叶变换、探索性数据分析,都只是图基巨大成就的一部分。就像毕加索从立体主义到古典主义,从雕塑再到建筑,图基在20世纪下半叶,畅游于统计学的各领域,从时间序列(time series)、线性模型(linear models),到费歇尔的一些被人遗忘的研究工作的推广,再进一步到稳健估计(robust estimation)及探索性数据分析。他从研究深奥的数学理论起家,又因思考和解决实际问题脱颖而出,最后落脚在研究无结构的数据估计上。在他研究的所到之处,统计变得与以往大不相同。就在2000年夏天,也就是在他去世的当天,他还和朋友、同事们在一起,讨论问题,提出自己的新观点,并对以往的旧观点展开质疑。
第23章 处理有瑕疵的数据
证明统计方法用途的数学定理通常都假设:在科学实验或观察中的测量值都是同样有效的。如果分析者在进行分析时,只选择数据中他认为看起来是正确的数据来分析,那么统计分析结果可能就会产生非常严重的错误。当然,这正是以前科学家们通常的做法。早在20世纪80年代初期,S?施蒂格勒阅读了18世纪和19世纪许多伟大科学家们的笔记本,比如,因为确定了光速而获得1907年诺贝尔奖的艾伯特?迈克逊(Albert Michelson)。施蒂格勒发现,所有这些科学家在开始他们的计算前已经剔除了一些数据,17世纪初就发现行星绕太阳以椭圆轨道运行的科学家约翰尼斯?开普勒(Johannes Kepler),他在研究古希腊天文学家的记录时,发现有一些观测位置记录不符合他正在计算的椭圆轨道,于是他就忽略了这些缺损数据(faulty value)
但是现在,值得尊敬的科学家们不再抛弃那些看起来是错误的数据,统计革命在科学界的广泛影响,教会了现在的实验科学家们不要剔除任何数据。统计学的数学定理要求同等对待所有的数据。但如果有些数据的确错了,我们该怎么办?1972年的一天,一位药理学家带着这样一个问题来到了我的办公室。他在小白鼠身上研究溃疡的预防,正在比较两种不同的处理方法,他确信这会产生截然不同的结果,而且他的数据看起来也显示同样的结论,但是当他依据奈曼-皮尔逊的理论进行正式的假设检验时,比较结果并不显著。他确信问题出在两只小白鼠的观测数据上,这两只小白鼠使用了不足量药剂,尔后都没有发生溃疡,使得它们的结果看起来要远远好于另外一种处理方法的实验结果——而那本应该是最好的。我们在第16章已经看到了非参数方法是如何发展起来去解决这一类问题的。这两个离散数据刚好处于错误的一边,而且数量上还是两项,所以即使用非参数检验结果也不显著。
如果这种事情发生在一百年前,这个药理学家就可以剔除这两个错误的数据,继续进行他的计算,不会有人提出异议。但是,他已经学习了现代统计方法,他知道他不能够这样做。很幸运,当时我手头正好有一本刚读过的新书,书名是《位置的稳健估计:调查与与改进》(Robust Estimates of Location: Survey and Advances),它记述了一项重大的主要应用计算机进行的研究成果,即约翰?图基进行的我们称之为“普林斯顿稳健性研究”(Princeton Robustness Study),在这本书中我们可以找到这位药理学家问题的答案。
“稳健(robust)一词对很多美国人来说,听起来很奇怪。许多统计学术语都来自于英国的统计学家,并且都反映了他们的语言习惯。例如,在英国,把数字微小的随机波动称为“误差”(error)是很普遍的 ,有时候,数据不仅是明显错误的,而且由这引动错误造成的结果的原因也是可能看出来的,例如一块田里的农作物绝产。这样的数据被费歇尔称为“谬误”(blunders)。
是乔治?博克斯(Gee Box)——费歇尔的女婿,在他的英国语言应用习惯的基础上发明了“稳健”(robust)这个词。博克斯有很得的口音,这主要是因为他最初成长在泰晤士河附近。他的祖父当时是一个五金器具批发商,生意很不错,供博克斯的伯父们读完了大学,其中有一位还成了神学教授。当博克斯的父亲成年时,祖父的生意已经失败,他父亲没有受过高等教育,只好去作一个商店主的助理,靠薪水维持全家人的生活。博克斯上了中学,知道他没有钱上大学,所以他开始在一个技校里学习化学。这时,第二次世界大战爆发,博克斯应征入伍。
因为有学习化学的背景,他被分配去化学防御实验部门工作。在那里,许多顶尖的英国药理学家和生物学家正致力于不同毒气解毒方法的研究。约翰?加德姆爵士(Sir John Gaddum)也在这些科学家中,他在20世纪20年代末将统计革命引入药理学,并且为药理学的基本概念赋予了一个牢固的数学基础。
博克斯成为一个统计学家
博克斯的上司是一个陆军上校,他对收集来的大量数据感到束手无策,这些数据记录的是不同剂量的不同毒气在老鼠和小白鼠身上的不同反应。他搞不清楚这些数据说明了什么,就像博克斯在1986年叙述的那样:
有一天,我对长官说:“你知道,我们真的需要有个统计学家来帮我们看看这些数据,因为它们变化太多了。”他说:“是呀,我知道。但是我们找不到一个统计学家,因为它们都很忙。你对统计知道些什么?”我说:“噢,我对此一无所知,但是我曾经读过一本书叫《研究工作者的统计方法》,是一个叫费歇尔的人写的,我没看懂,但是我想我明白了他正在做什么。”于是长官说:“那好,如果你读了这本书,最好由你来做这件事吧。”
于是,博克斯与军队的教育机构联络,要求去进修统计方法的课程。但是当时没有这样的课程,统计分析方法还同有成为大学的正规课程,但是他们送给博克斯一份阅读书目,书目无外乎最新的图书出版信息,其中列有费歇尔写的两本书,一本关于教育研究的统计方法,另外一本关于医学统计学,此外,还有一本书是谈林业和牧场管理的。
博克斯对费歇尔的实验设计非常感兴趣。他在那本关于林业管理的书中发现了几个特别的设计,并将这些设计改造,使之适合于进行动物实验(当时科克伦和考克斯合著的《实验设计》一书尚未出版,书中有许多细心描述的实验设计)。通常由于书中所列的实验设计不是很适用,所以博克斯就参照费歇尔的一般性的描述,结合他的发现,考虑了自己的实验设计。其中有一个最让人感到奇怪的实验是:让志愿者两臂各露一小块皮肤,暴露在不同的毒气下,然后采用不同的治疗方法。每个人的两臂是相关的,因此在分析时必须考虑这个因素,必须做一些处理,但是在这本关于林业的书中没有这方面的论述,在费歇尔的书中也没有类似的论述。所以,博克斯这个只在技校里不完整地进修过一些化学课程的,只好从基本的数学原理开始,创造出适用的实验设计。
博克斯实验设计的实力在一个否定结论的实验中表现出来。一个美国眼科专家带着他认为对刘易士毒气(lewisite)治疗效果极好的解毒剂来到了博克斯的实验室。刘易士毒气毒性极强,一小滴就可导致失明。他在美国已经在兔子身上做了很多次试验,他的厚厚的论文也证明了他的药剂效果极好。当然,他根本不知道费歇尔的实验设计,事实上,在他的实验中漏洞百出,实验设计中有许多与结果无关
小说推荐
返回首页返回目录