蒲公英 - 制药技术的传播者 GMP理论的实践者

搜索
查看: 1463|回复: 0
收起左侧

喝”沁人绿茶“,感悟统计非礼-第五节

[复制链接]
药士
发表于 2013-8-17 12:48:01 | 显示全部楼层 |阅读模式

欢迎您注册蒲公英

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
核心提示:本节介绍了“方差”、“自由度”、“协方差分析”如何产生的。没学过统计学的,就不要看了,要不你认为这是“盐水”
。对吧?在这里要表扬 @沁人绿茶 童鞋。 @cph2345 {:soso_e154:}{:soso_e155:}

变动如何研究,风险评估的基础
火星人有一次去康涅狄格大学与休?史密斯教授讨论所遇到的问题,他给了我一份礼物,那是一篇论文的复印件。论文有53页长,题目是《作物收成变动研究Ⅲ:降雨量对罗森斯特小麦收成的影响》(Studies in Crop Variation. . The Influence of Rainfall on the Yield of Wheat at Rothamted)。
这是一组杰出的数学论文的第三篇,其第一篇1921年发表在《农业科学期刊》第11郑上。产量变化是实验科学家的大忌,但却是统计方法研究的基本素材。在现代科学文献中,“变动”(variation)这个词已经很少被用到了,它已经被其它术语代替,比方说“方差”(variance),这个术语与特定的参数分布有关。
“变动”对一般的科学用途来说过于含混,但对费歇尔而言,却是合适的,作物产量在年份之间、地块之间的这种变动,正是作者研究的起点,借此,他可以推导出新的分析。
大多数科学论文在结尾都有参考文献目录,一个长长的单子,以确认对所讨论问题曾经有过建树的论文。费歇尔系列论文的第一篇却只有三篇参考文献:其一,指明了1907年一次不成功的尝试,打算探讨降雨量与小麦生长的相关性;其二,1909年以德文写成的,描述了一种计算复杂数学公式最小值的方法;其三,是由K?皮尔逊发表的一组数表。
先前没有什么论文涉足过这一杰出研究系列所涵盖的题目。《作物收成变动研究》是自成一格的,署名的地方写着:罗纳德?A?费歇尔,文学硕士,罗森斯特农业实验站统计实验室,哈盆登(Harpenden)。
1950年,出版商约翰?威利(John Wiley)征求费歇尔的意见,看他是否愿意从所发表的论文中挑选一些最重要的,好单独形成一本文集。后来这本文集的名称叫做《对数理统计的贡献》(Contributions to Mathematical Statistics)。
一打开书,就是费歇尔当时的照片,他一头白发,双唇紧闭,领带稍微有点斜,白胡子梳理得不大好,书中标明费歇尔当时在剑桥大学遗传学系工作。《作物收成变动研究Ⅰ》是该文集中的第一篇文章,作者在文章前面加了一个序言,以明确该文的重要性及其在他全部成果中的地位:
早期在罗森斯特的工作中,作者对研究站多年积累下来的大量观察数据,如天气、收成、收成分析等,给予了极大的关注。气象记录在多大程度上能够提供来年收成的预测?对于这类问题,上述数据是有独特价值的。现在这篇文章是用于此目的的系列研究的首篇。
这个系列研究最多有6篇论文,《作物收成变动研究Ⅱ》发表在1923年,而史密斯先生给我的那篇标号为“Ⅲ”,在1924年问世。《作物收成变动研究Ⅳ》则在1929年发表。标号为“Ⅴ”的论文没有出现在费歇尔的文集中。
在科学史上还很少有这种事件:标题那么不起眼,而其内容却如此重要。在这些论文中,费歇尔开发了用于数据分析的原创性工具,建立了这些工具的数学基础,并描述了如何将它们应用到其它领域中去。这些论文表现了令人眩目的原创性,充满了奇妙的内涵,这足够理论家们在20世纪余下来的日子里忙乎的,也许那之后还会继续激发更多的研究。
《作物收成变动研究Ⅰ》
费歇尔系列研究的后两篇文章是有共同作者的,但《作物收成变动研究Ⅰ》却是他独立完成的,那需要大量的计算工作。他的唯一后援是一台名字叫“百万富翁”的计算器,那是一台原始的带有手摇曲柄的机械计算器。如果要算乘法,比方说算334227,先要将转盘放在个位上,设定3342这个数字,摇动曲柄7次;再将转盘放在十位数上,设定3342这个数,摇动曲柄2次,计算方告结束。这架机械叫“百万富翁”,因为它的转盘大得足够容纳以百万计的数字。
为了体会到这篇论文所耗费的气力,我们来考虑一下《作物收成变动研究Ⅰ》中第123页的表7.如果完成一个多位数乘法需要1分钟,我估计费歇尔需要大概185个小时来完成这张表。
这篇论文中有15张复杂程度相当的数表,还有4张更为复杂的图。只考虑体力劳动本身,准备这些图表至少需要耗去费歇尔8个月的时间,而且每天得工作12个小时!这还不包括其它工作所花费的时间。比方说:思考理论数学问题、整理数据、设计分析框架、修正不可避免的错误等等。
高尔顿回归分析思想的一般化
回顾一下高尔顿所发现的“向平均数回归”,他试图找到一个数学公式,将随机事件彼此联系在一起。费歇尔接过高尔顿“回归”(regression)这个词,建立了某个给定地块小麦收成与年份之间的一般数学关系,这个相当复杂分布的参数描述了小麦产量产业化的不同方面。要深入理解费歇尔的数学式,你得有坚实的微积分基础,得对概率分布理论有好的辨别力,还要对多维几何学有感觉,但理解他的结论并不那么难。
他将小麦产量的时间趋势分成几个部分,一个是由于土地退化导致产量稳定地整体性地下降;另一个是长期的缓慢的变化,每个阶段都要花几年时间;第三个是一组更快的移动变化,考虑的是气候在不同年份的差异。
自从费歇尔开创性的尝试,时间序列的统计分析在他的思想和方法的基础上,建立了起来,现在我们有了计算机,可以用更巧妙的演算法进行大规模的计算,但基本的思想和方法仍然未变。给定一组随时间波动的数据,我们可以将之分解为不同来源导致的结果。
时间序列分析用来检验:美国太平洋海岸拍激的海浪是不是印度洋风暴的起因。这些方法使研究人员能够区分地下核爆破与地震,能够精确地为病理学上的心中节律定位,能够确定环境管制对空气质量的影响,其应用范围还在继续扩大。
农场有一个名称叫“宽田硬”(Broadbalk)的地块,在分析其粮食收成时,费歇尔感到有些困惑,这块地只用了动物粪肥,所以不同年份收成的变动与人工肥料无关。
当土壤得自动物粪肥的养分逐渐耗尽,地力退化的长期因素就可以得到解释,同时费歇尔还可以确定不同年份降雨类型不同所带来的影响。那么,什么是缓慢变化的原因呢?从缓慢变化的形态可以看出,在1876年产量开始下降,比从另两个因素所能预计的程度还要大,这种下降在1880年速度更快了;这种情形在1894年开始改善,持续到1901年,而后又是下降。
费歇尔发现了带有同样缓慢变化的另一种记录,不过形态是相反的,那是关于麦田里野草的。1876年后,野草蔓延得越发严重,而到了1894年突然开始消失,只是在1901年又开始茂盛起来。
后来发现,雇用小男孩到地里去拔草,在1876年以前是通告的做法。在英格兰的大地上,下午经常可以看到瘦弱的小男孩穿行于田间,不停地拔草。到了1876年,教育法(the Education Act)使得上学带有强制性,田间小男孩的大部队开始不见了。而1880年第二部教育法通过,对致使孩子辍学的家长施以罚款,田间剩下的男孩也离开了。没有了拔草的小手,那些野草就又茂盛起来了。
那么,在1894年又是什么事情发生,使得趋势逆转了呢?在罗森斯特附近有一所女子寄宿学校,新校长约翰?劳斯(John Lawes)相信,充满活力的户外活动有助于他那些年轻的被托管人的健康。他和实验站的头儿一起安排,让这些年轻姑娘在周六和傍晚出门,到地里去拔草。1901年劳斯去世后,这些小姑娘恢复久坐的习惯,多是在户内活动,野草也就又回到了“宽田埂”。(结论就是,麦田的收成受到影响的因素很多了,不是那个年代可以计算出来的。)
随机化控制实验寻找麦田收成影响的主要因素或者说关键因素
第二篇研究收成变动的论文也是发表在《农业科学期刊》上,时间是1923年。这篇论文并不处理罗森斯特过去实验所积累下来的数据,取而代之的是新实验:一组不同的人工肥料组合对不同品种马铃薯的影响。费歇尔到了罗森斯特后,实验有了明显的改善。不再将某种实验的人工肥料用于整个农场,现在他们把土地划成小的地块,每个地块进一步区分作物的行,地块中的每一行都给予不同的处理。
基本的想法是简单的,之所以简单,那是因为一经费歇尔提出后,它就简单了,但这之前却没有人想到它。任何人观察土地上的作物时,都会很明显地感到有的地块土质好于其它地块。在某些角落,作物长得又高又密,而其它角落,作物则又细又稀。
这可能是由于排水方式、土壤类型的改变、未知养分的出现、多年生野草的抵制,或者一些其它未能预见的原因。如果农业科学家要测试两种人工肥料间的区别,他可以将一种施于地块的其它角。但这会将肥料的效应与土壤或者排水等的效应混淆在一起。如果试验在相同的地块不同的年份进行,又会把肥料的效应与气候变化的效应相混淆。
如果同一年里,在相同作物上进行肥料的比较,土壤的差别就会减到最低程度,但他们仍然存在,因为所处理的作物不会有绝对相同的土壤条件。如果我们使用足够多的成对比较,在某种意义上,土壤差异所造成的区别就会被平均掉。假定我们要比较两种肥料,其中一种磷肥的含量是另一种的两倍,我们将地分成小块,每一块有两行作物。我们总是将磷肥多的施于北边这行,南边的那行则施磷肥少的。做到这里,反对的声音就会出来了。如果土壤的肥力梯度(fertility gradient)由北向南,那么北边这行的土质就会比南边那行稍好一点,土壤差异的影响就不会被平均掉。
别急!我们正要做调整,在第一个地块,我们把磷肥多的施在北边,到了第二地块,它将被施在南边,就这样来回调整。我的读者中可能有的已经画出地块的草图,将施磷肥较多的行标上了记号。它会指出,如果肥力梯度从西北向东南,施以额外的磷肥的行将总是比别的行土质好。也会有人指出,如果肥力梯度从东北向西南,结论正好相反。
好啦,另一个读者发问了,到底谁对了呢?肥力梯度究竟如何分布?我们的答案只能是:天晓得!肥力梯度这个概念是抽象的,当我们选择从北到南或从东到西时,肥力的真正形态可能以非常复杂的方式上下变动。
我可以想象得出来,当费歇尔提出小地块定型处理将得到更为细心的实验时,罗森斯特的科学家们之间也会有这样的讨论。我也可以想象,当讨论集中到如何确定土地的肥力梯度时,费歇尔笑咪咪地坐在一边,听任他们卷入复杂的争论。他已经考虑过这些问题,并有了简明的答案。了解他的人这样描绘费歇尔:即使是争论触及到他,他仍是静静地坐在那里,吞云吐雾,等等容他给出答案的时机。终于,他拿开嘴上的烟斗,说道:“用随机的方法吧!”
费歇尔的变异数分析(方差分析终于诞生了)
的确简单,科学家以随机的方式设计同一地块里不同行家作物的处理,由于随机处理没有固定模式,任何可能的肥力梯度结构都在平均意义上被抵消掉了。费歇尔猛地起身,兴奋地在黑板上写了起来,一行又一行数学符号,手臂在数学公式间挥来挥去,抵消公式两端相同的因子,最后出现的可能是生物科学中最为重要的工具了,在精心设计的科学实验中,如何分解各种不同处理的效应?费歇尔将这个方法称作“方差分析”(ananlysis of variance)。在《作物收成变动研究Ⅱ》中,方差分析第一次面世。
《研究工作者的统计方法》列出了方差分析某些例子的计算公式,但在这篇论文中,他给出了公式的数学推导,不过推导过程还没有详尽到学院派数学家满意的程度。
所展示的代数式是为了这样一种特殊情形:比较三种类型的人工肥料、十种不同品种的马铃薯和四个地块。如果比较两种人工肥料、五种马铃薯,或者六种人工肥料、一种马铃薯,则需要几个小时的艰苦工作,以调整出新的代数式。
至于搞出适合所有情形的一般公式,就需要更多的数学工作了,恐怕得出几头汗水吧!当然,费歇尔知道一般公式,对他来说,那是如此的明显,以至于没有必要展示它们。
难怪与费歇尔同时代的人对这个年轻人的成果感到困惑!(“协方差分析”也诞生了,这就是风险分析的核心哦。你要是看不懂,我也没办法。你的统计知识太差了,先看我发布的“无水统计学”)
《作物收成变动研究Ⅳ》介绍了费歇尔年说的“协方差分析”(analysis of covariance),这是一种因素分解的方法,存在着并非由实验设计而来的条件,它们的效应是可以测量的。
当时某医学期刊上发表了一篇论文,描写了针对性别和体重所做调整的治疗效应,用的实际上就是费歇尔在Ⅳ号论文中开创的方法。Ⅳ号论文提出了实验设计的精华,Ⅲ号论文,即史密斯教授推荐给我的那篇,将在本章后边一点儿再讨论。
什么是“自由度”
1922年,费歇尔终于第一次在《皇家统计学会期刊》上发表了他的论文。那是一篇短文,适度地指出了K?皮尔逊公式中的一个错误,许多年后谈到这篇论文,费歇尔写道:
这个短文,尽管带着稚气,不那么完整,但却是破冰之举。它是带试验性质的,并且零零碎碎的,有的读者会因此而气恼,可他们不要忘了,它不得不在批判者中找到发表的渠道。对这些批判者来说,摆在第一位的就是绝不相信K?皮尔逊的成果需要改正,即使是承认了这一点,他们也觉得这事轮不到别的人。
1924年,费歇尔得以在《皇家统计学会期刊》发表别一篇论文,更长一些,更为一般化。后来在一份经济学期刊上,他对这篇论文及相关的另一篇做了如下的评论:“(这两篇论文)要借助于‘自由度’(degrees of freedom)这个新概念,来调和由不同作者观测到的有差异和表现异常的结果……”
“自由度”这个新概念是费歇尔的发明(就是说统计分析与风险分析过程中,需要计算和评价的几个维度),这直接得益于他的几何洞察力和将数学问题置于多维几何空间的能力。
所谓“异常的结果(新名词哦,那个GMP异常情况就是这个衍生出来的)”出现在一本不大引人注目的书里,那是一个名叫T?L?凯利(T. L. Kelley)的人在纽约出版的。
凯利发现有一些数据用K?皮尔逊的公式似乎不能得出正确的答案。看来只有费歇尔注意到了凯利的这本书,凯利的异常结果只是作为一个跳板,借此费歇尔彻底推翻了K?皮尔逊另一个最引以为自豪的成就。
《作物收成变动研究Ⅲ》
《作物收成变动研究》第三篇发表在1924年的《伦敦皇家学会哲学学报》(the Philosophical Transactions of the Royal Society of London)上,它是这样开头的:
现在就气候对农作物影响而言我们知之甚少,尽管它对一个大的民族产业如此重要。课题的难解,部分地可以归于问题本身固有的复杂性,还有……缺少在实验或者自然产业条件下所取得的数据……
按下来就是长达53页的精彩论述,其中包含着现代统计方法的基础,任何学术领域,包括经济学、医学、化学、计算机科学、社会学、天文学、药学,只要是需要建立大量相互关联原因的相关效应,就需要应用这些方法。论文中包含了特别精巧的计算方法(回想一下费歇尔只有那台手动的“百万富翁”用来工作),及如何为统计分析组织数据的良策。我将永远感激史密斯教授,他把这篇文章推荐给我,每次我读起它都会有新的收获。
《费歇尔文集》有五卷本,第1卷以1924年的论文作为结尾,靠近卷尾的地方,有一张费歇尔34岁时的照片,他双手交叉在胸前,胡子修理得挺整齐的,眼镜也没有以前照片中的那么厚,神情安详而自信。在这之前的5年里,它在罗森斯特建立了出众的统计部门,雇用了像弗兰克?耶茨(Frank Yates)那样的合作者。在费歇尔的鼓励下,耶茨将继续对统计分析的理论和实践做出贡献。除了少数例外,K?皮尔逊的学生大多默默无闻,当他们在生物统计实验室工作的时候,只能协助K?皮尔逊而不能超越他;反观费歇尔,他的多数学生响应了所得到的鼓励,独辟蹊径,赢得了辉煌。
1947年,英国广播公司(BBC)广播网邀请费歇尔做一个系列讨论,阐述科学的本质与科学研究,在其中一讲的开头,费歇尔这样说道:
科学生涯从某些方面看是奇异的,科学存在的理由,是要增加对自然知识的认知。有时候,虽然会有这种认知的增加,但是这个过程不是顺利的,并且是令人感到痛苦的。理由是:人们不可避免地会发现以前所得出的观点,至少在一定程度上,明显是过时的或者错误的。我想大多数人可以认识到这一点,如果已经教授了10年左右的东西需要修正,他们会以下面的态度加以接受。但有一些人绝对不能接受,就好像打击了他们的自尊心,甚至是对他们一直把持的私有领地的侵犯。他们必然做得像知更鸟和苍头燕雀寻亲残忍,在春天里我们可以看到,当自己的小巢被冒犯里,它们所表现出的愤怒反应。我并不认为能对此做什么补救。这是科学过程中所固有的特性。但年轻的科学家应该得到提醒和指导,当他们奉献出珍宝去丰富人类的宝库时,必然有人会拒绝他或排挤他。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

×发帖声明
1、本站为技术交流论坛,发帖的内容具有互动属性。您在本站发布的内容:
①在无人回复的情况下,可以通过自助删帖功能随时删除(自助删帖功能关闭期间,可以联系管理员微信:8542508 处理。)
②在有人回复和讨论的情况下,主题帖和回复内容已构成一个不可分割的整体,您将不能直接删除该帖。
2、禁止发布任何涉政、涉黄赌毒及其他违反国家相关法律、法规、及本站版规的内容,详情请参阅《蒲公英论坛总版规》。
3、您在本站发表、转载的任何作品仅代表您个人观点,不代表本站观点。不要盗用有版权要求的作品,转贴请注明来源,否则文责自负。
4、请认真阅读上述条款,您发帖即代表接受上述条款。

QQ|手机版|蒲公英|ouryao|蒲公英 ( 京ICP备14042168号-1 )  增值电信业务经营许可证编号:京B2-20243455  互联网药品信息服务资格证书编号:(京)-非经营性-2024-0033

GMT+8, 2025-6-16 04:38

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

声明:蒲公英网站所涉及的原创文章、文字内容、视频图片及首发资料,版权归作者及蒲公英网站所有,转载要在显著位置标明来源“蒲公英”;禁止任何形式的商业用途。违反上述声明的,本站及作者将追究法律责任。
快速回复 返回顶部 返回列表