《女士品茶》第45章


业姆拧。缓笥昧硪恢址椒ǎ芸熘っ鞒稣飧龌宋壹父鲈虏胖っ鞒龅亩ɡ怼!巴郏 蔽叶宰约核担罢娌焕⑽谴笫Γ ?br /> 图基1915年生于马萨诸塞州的新贝德福德(New Bedford),他那特有的拖长声的波士顿近郊口音,使他的谈话更加风趣。他的父母在他很小的时候就发现了他的过人天赋,因此把他留在身边自己教他,直到图基进入布朗大学(Brown University)。在布朗大学他拿到了化学学士与硕士学位,但后来他被抽象数学所吸引,因此到普林斯顿大学继续研修数学,于1939年获得数学博士学位。他最初的研究领域是拓扑学(topology)。点集拓扑学是数学根本理论产生的基础,而在拓扑学的基础之下,是一个艰深而神秘的哲学支派,称为“哲理数学(或元数学)”(metamathematics)。元数学告诉我们数学问题的解意味着什么,在逻辑应用背后有哪些未明确的假设。图基深入研究这些混沌不清的领域之后,提出了图基引理,成为他在这个领域的主要贡献。
然而图基的学术归宿并不是抽象数学。普林斯顿大学的塞缪尔?S?威尔克斯教授,一直推动那些学生和年轻教员进入数理统计领域。拿到博士学位后图基留在数学系当讲师。1938年,图基在准备论文时发表的第一篇文章就是有关数理统计方面的。后来到了1944年,他发表的所有论文几乎都是数理统计领域的。
二次大战期间,图基加入武器控制研究办公室(Fire Control Research Office)研究枪炮的瞄准、测距仪等与枪炮有关的问题。这种工作经历使他接触到许多统计问题的实例,成为他后来研究的题材,也使他对实践问题的本质有了进一步的认识。他常用精辟的格言总结重要的经验,其中有一句来自他的实际工作,那就是:“对正确问题的近似答案,胜过对错的问题的精确答案。”
多才多艺的图基
20世纪初,出现了一位震惊世界的绘画大师P?毕加索(Pablo Picasso),他的作品风格变化多端。有一段时间,他只用单色绘画,接着他又创造出立体主义,随后他又尝试古典主义形式,然后又去搞雕塑。毕加索每次的风格变化,都对艺术界造成革命性的影响,而其他人只能跟在他的后面,开发他留下恶报东西。图基也是如此。他从50年代开始研究安德烈?柯尔莫哥洛夫的随机过程概念,并发明了一种以电脑为基础的数据分析方法,可以分析一长串相互关联因素的影响结果,被称为“快速傅立叶变换”。就像毕加索的立体主义一样,图基在自然科学领域的影响是无人可比的。
在1945年,图基有关武器的研究把他带到了贝尔实验室设在新泽西州默里丘(Murray Hill)的研究中心,在那里他涉及到了各种不同的实际问题。在1987年的一次访谈中,他说:“我们有位姓布登博姆(Budenbom)的工程师,他造出了一种新奇的雷达跟踪仪,可以用来锁定飞行目标。他希望能到加利福尼亚去发表一篇论文,为此他希望有一份能显示新仪食品跟踪误差的图表。”布登博姆以频率范围来表述他的问题,但不知道如何得到频率振幅的一致估计值。尽管图基作为数学家很熟悉傅立叶变换,但从未把这种技术运用于工程中。最后,图基提出了一个似乎能满足布登博姆需要的方法(还记得他的格言吗?正确问题的近似答案也是有用的)。但他自己对此方法并不满意,于是他继续思考这个问题)。
结果是快速傅立叶变换。他是一种修匀方法,用图基的话说,就是向邻近的频率“借力”,这样即使没有大量的数据,也可得到良好的估计值。此外,快速傅立叶变换也是一种经过慎重思考的理论解决方案,带有最适的特性。50-60年代,在电脑的速度很慢、内存也很小的情况下,快速傅立叶变换还是一种非常有效的电脑演算方法。进入21世纪,这种演算方法依然有用,因为它比用更复杂的变换所得的估计值更精确。
电脑及其能力不断把统计研究的边界向前推进。我们在前面已提到电脑可计算大型逆矩阵的能力(这些如果让约翰?科恩菲尔德(John Cornfield)用手摇计算机做,可能需要数百年时间),此外,电脑在统计理论上还有另一压倒性优势,就是电脑的储存与分析大量数据的能力。
在60年代与70年代早期,贝尔实验室的工程师和统计学家是分析大量数据的先驱。监视电话线路的随机误差和问题,导致成千上万的数据项都存在一个电脑文件中,而用太空探测器传回的火星、木星及其他行星的数据资料,项目也都是数百万笔。你要如何看待如此大量的数据?又要如何整理它,才能加以检验?
按照K?皮尔逊开创的方法,我们总能估计出概率分布的参数,这就需要我们对这些分布做些假设,比方说假设这些分布属于皮尔逊系统。但如果我们不对分布做特别的假设,能不能有方法检验大量的调查数据,得到我们所需的信息呢?从某种意义上说,优秀的科学家一直是这么做的。格雷戈尔?门德尔(Gregor Mendel,奥地利遗传学家)做了一系列植物杂交实验,检验得出的实验结果,逐渐发展出他的显性和隐性基因理论。虽然大量的科学研究涉及到收集数据,并把收集到的数据和预先存在的某种分布模型对比,但有时仅收集数据,仔细地加以检验以发现意外结果也是非常重要和有意义的。
正如美国数学家埃里克?坦普尔?贝尔(Eric Temple Bell)曾经说过的:“数字不会说谎,但它有个偏好,就是在存心说谎的时候讲出真相 。”人类倾向于寻求模式,并往往在只有一些随机的、模糊的信息时,就认为已经找到了模式 。
这种现象在流行病学中比较明显,我们在调查数据时,常常发现在某些地方或某些时段有些疾病容易“群发”。假设我们发现马萨诸塞州的某个小镇,儿童患白血病的人数异常偏高,是否表示该镇上存在某种致癌因素?或者这只是碰巧发生的随机群体,在其他任何地方也有可能发生?假设当地居民发现有化工厂往镇的湖里排放化学废弃物,假设他们同样发现在儿童患白血病例较多的地区,饮水中芳香族胺(aromatic amines)的尝试较高,我们是否可以断定这就是导致儿童患白血病的原因呢?从更广义上说,在多大程度上,我们可以用倾向于模式的目光去检验数据,并且可以期望找到比这些随机的、模糊的讯号更多的信息?
在60年代,图基开始认真地考虑这些问题。他从这些问题中发现一种数据处理方法,可以说是K?皮尔逊方法的精炼版本。他认识到,即使没有武断的概率模型设定,还是可以把观测数据的分布当作一个分布来检验。结果,他发现了一系列论文,参加了很多场演讲,最后写成了几本书,被称之为“探索性数据分析”(exploratory data analysis)。在处理这些问题的过程中,图基采用了一种十分原始的方式来阐述他的观点。为了引起他的听众和读者的注意,使他们重新检验相关的假设,他对以前使用过的数据分布特征重新命名。同样,他脱离以往用标准概率分布的这个分析起点,转向检验数据本身的模式或形态,他还审视极值能改变我们观察模式的方式。为了调整错误的印象,他发展出一套图形工具来显示数据。
例如,他指出我们常用来表示数据分布的直方图(histograms),容易给人造成误导,会引导观测者去注意那些频繁出现的观测值。因此,他建议以观测值次数的“平方根”(square root)来观测值出现的次数,并以此数据画出的图形来取代直方图。他称这种图为“根图”(rootgram)。图基还建议将数据分布的中央区域画成一个小盒子开关,而把极值画成由盒子延伸出去的线段(他称这些线段为“腮须”(whiskers))。他提议的统计工具,有许多都被纳入标准的统计软件包。现在的分析师称它们为“箱形图”(box plots)和“茎叶图”(stem and leaf plots)。图基丰富的想象力扫遍整个数据分析领域,他的许多建议至今还在电脑软件中应用。我们至今用的两个英文单词,bit(位或二进位)和software(电脑程序,相对于电脑硬件)就是图基创造的。
对图基来说,世上没有什么事情会因为平凡而不值得去发挥原创力,也没有什么事情神圣到不容质疑。就拿最简单的记数过程来说:许多读者在计数某种东西时,或许已使用过一种记数符号。一代代的老师教我?
小说推荐
返回首页返回目录