sunnyjiang 发表于 2021-5-7 17:05:57

菲舍尔的遗憾 近一个世纪之后,在科学研究的许多领域,p值小于0.05被认为是确定实验数据可靠性的金标准。这个标准支持了大多数已发表的科学结论,违反这一标准的论文很难发表,而且也很难得到学术机构的资助。然而,即使是菲舍尔也明白,统计显著性的概念以及支撑它的p值具有相当大的局限性。

sunnyjiang 发表于 2021-5-7 17:06:38

P值经常被曲解,统计的显著性不等于实际的显著性。此外,为了让数据更漂亮,很多研究人员有意无意地将p值向上或向下调整。美国加利福尼亚大学洛杉矶分校的名誉教授、统计学家和流行病学家桑德·格林兰德(Sander Greenland)说:“你可以用统计学方法来证明任何事情。”他是呼吁统计学改革的科学家之一。只依靠达到统计显著性的研究经常会得出不准确的科学结论,这种判断标准可以把真的事情判断为假的,也可以把假的事情判断成真的。在菲舍尔退休,移居澳大利亚后,有人问他,在漫长的职业生涯中他是否有任何遗憾,他明确回答道:“当初不该提出0.05。”

在过去十年里,关于统计重要性的争论以不寻常的强度爆发。援引两篇论文的观点:一篇文章称统计分析的薄弱基础导致了“科学最肮脏的秘密”;另一篇则提到,在检验某些假设时,存在“许多深层次的缺陷”。在争议声中,实验经济学、生物医学研究,特别是心理学被卷入了一场科学实验可重复性的危机之中。在这场危机中,科学家发现相当一部分研究是不可重复的。
一个臭名昭著的例子是“姿态能量”的概念,某篇论文声称,自信的肢体语言不仅会改变你的态度,还会改变你的激素分泌,后来这篇文章还被作者自我否定了。美国哥伦比亚大学的统计学家安德鲁·格尔曼(Andrew Gelman)在他博客写道:“一篇可疑的关于气候经济学影响力的论文,多年之后发表了勘误声明,最终被修正的错误结论几乎与原论文的数据点一样多,这可不是开玩笑!但勘误声明中这些更正都不足以让作者改变结论。” 格尔曼还说道:“嘿,只做理论上的工作就可以了,但不需要用数据分散我们的注意力。”

sunnyjiang 发表于 2021-5-7 17:06:57

统计显著性的概念虽然不是引起问题的唯一因素,但很明显,它是引起问题的一个关键要素。在过去的三年里,数以百计的研究人员呼吁统计学改革,他们在著名期刊上发表文章,重新定义统计显著性,或干脆放弃统计显著这个概念。美国统计协会(ASA)在2016年就这一问题发表了一份强有力且不同寻常的声明,主张“进入一个没有p<0.05的世界”。美国统计协会执行董事罗纳德·瓦瑟斯坦(Ronald Wasserstein)这样说:“科学家总是说,我有小于0.05的p值,这很好。但这种粗糙的判断方法,使得科学因此停止了。”
问题是,事态会不会有什么变化。美国南加利福尼亚大学的行为经济学家丹尼尔·本杰明(Daniel Benjamin)表示:“这已经不是新鲜事了。我们需要清醒地认识到,这一次将与以往一样,大家说要变革统计学,最终却不了了之。”很多人在变革统计学的具体措施上有分歧,正如美国经济学家斯蒂芬·齐利亚克(Stephen Ziliak)所写的那样:“令人吃惊的是,还有不少研究者坚持使用统计显著性检验、统计结论解释和统计分析报告这三个例行公事的传统套路。”

sunnyjiang 发表于 2021-5-7 17:08:07

可重复性危机 科学的目的是描述自然界中的真实情况。科学家使用统计模型来推断真相,比如确定一种治疗方法是否比另一种更有效。每个统计模型的分析结果,取决于科学家如何收集数据,如何分析数据,以及研究人员如何有选择性地展示他们的结果。
以统计方法为中心,实验结果的检验被称为零假设显著性检验,这个过程会产生一个p值。P值只是对事情有一个模糊的描述。“当我们进行实验时,我们想知道的是——我们的假设是真的吗?”本杰明说,“但是,显著性检验回答了一个令人费解的替代问题,那就是,如果我的假设是错误的,我的数据有多大的概率导致错误的结论?”
当然了,p值也有奏效的时候。一个极端但有用的例子是寻找希格斯玻色子(Higgs boson)。希格斯玻色子是物理学家于20世纪60年代首次在理论上提出的粒子。零假设是希格斯玻色子不存在;对立假设是它必须存在。欧洲核子研究中心的物理学家用大型强子对撞机进行了多次实验,得到了极其小的p值,以至于如果假设不存在希格斯玻色子的话,其结果发生的可能性就只有350万分之一。这么小的p值意味着,没有希格斯玻色子的粒子物理标准模型几乎不可能是正确的。

sunnyjiang 发表于 2021-5-7 17:08:59

另一些人则认为,重新定义统计显著性没有好处,因为真正的问题是阈值始终存在。今年3月份,瑞士巴塞尔大学的流行病学家、动物学家瓦伦丁·阿姆莱因(Valentin Amrhein)与美国西北大学的统计学家、市场营销专家布莱克利·麦克沙恩(Blakeley McShane)在《自然》杂志上发表了一篇评论文章,主张放弃统计学显著性的概念。他们建议将p值作为一个连续变量,并将置信区间(confidence intervals)重命名为“相容性区间”(compatibility intervals),以反映它们彰显的实际意义:评估数据的相容性,而不是置信度。 显然,有更好的(至少是更直接的)统计方法可以用。格尔曼经常批评其他人的统计方法,他在工作中根本没有使用零假设显著性检验。他更喜欢贝叶斯方法,这是一种基于初始信念的、更为直接的统计方法,在这种方法中,研究人员接受最初的信念,添加新的证据并更新信念。格林兰德正在推广使用一种叫做稀奇程度(surprisal)的新数学量,可以调整p值以产生信息位(如计算机比特位)。为了检验原假设,0.05的p值仅有4.3比特的信息熵(假设有一枚均匀的硬币,抛硬币出现正面设为0、出现反面设为1,则抛一个硬币事件的信息熵就是1个比特。独立地抛256次硬币的信息熵就是256个比特。那么求解方程0.5x=0.05,解得0.05的概率约为抛掷x=-log20.05=4.3次,于是0.05的p值约为空值的4.3比特的信息熵。
所谓信息熵就是某个概率分布所包含的信息量的多少,这是信息论的基础知识。在信息论中,如果你对一件事情的发生百分之百确定,那么这件事情对你来说的信息熵等于0比特。反过来说,如果你对一件事情是不确定的,那么这件事情对你来说是包含信息熵的。格林兰德认为,如果研究人员不得不在每一个p值旁边加上一个稀奇程度,那么他们将被置于更高的标准之下。强调效应量(effect size),即发现差异的大小,也将有所帮助。

sunnyjiang 发表于 2021-5-7 17:10:06

拥抱不确定性 统计显著性满足了研究人员对确定性的需求。格尔曼说:“这里的原罪是研究人员在得不到确定性的时候却想要确定性。” 或许,现在是时候让我们接受不确定性了。
科学界正在发生微小的变化。《新英格兰医学杂志》的发言人詹妮弗·蔡斯(Jennifer Zeis)说:“我们同意,p值有时被过度使用或被曲解了。对于治疗来说,如果我们认定p<0.05,治疗的结果是有效的;如果p>0.05,治疗是无效的。那么这就是医学的简化主义,它并不总能反映客观事实。”蔡斯同时强调,《新英格兰医学杂志》的研究报告现在已经很少使用p值了,更多是采用置信区间而不是使用p值这个概念。
根据美国食品及药品管理局(FDA)的生物统计学部门的负责人约翰·斯科特(John Scott)的说法,关于p值的应用,临床试验的要求还没有发生任何变化。
麦克沙恩说:“最关键的是,p值不应成为看门人。我们应该采取更全面、更细化和更容易评价的指标。”其实,这个观点在历史上就有人赞同,甚至在与菲舍尔同时代的人中,也有人支持这一观点。比如在1928年,另外两位统计学大师杰尔兹·内曼(Jerzy Neyman)和艾根·佩尔松(Egon Pearson)在撰写统计分析报告时写到:“统计检验本身并没有给出最终的结论,而只是作为一个参考工具帮助人们做出最终的决策。”

sunnyjiang 发表于 2021-5-11 07:10:53

拥抱不确定性

msjg 发表于 2021-7-13 15:47:36

{:1_180:}

yualinnn 发表于 2021-7-15 09:15:41

谢谢分享

chinape 发表于 2021-7-16 09:47:10

{:1_180:}{:1_180:}{:1_180:}
页: 1 2 3 [4] 5 6 7 8 9
查看完整版本: 统计学p值的意义:Fisher P值, Neyman-Person 假设检验思想