品质协会(www.PinZhi.org)

 找回密码
 加入协会

QQ登录

只需一步,快速开始

查看: 30801|回复: 89

统计学p值的意义:Fisher P值, Neyman-Person 假设检验思想

  [复制链接]

7

主题

27

回帖

1

精华

品质协会初级会员

Rank: 2

积分
338
品质币
284
职位
1
发表于 2017-9-15 12:25:39 | 显示全部楼层 |阅读模式
学过六西格玛的人都知道,在学习假设检验模块的时候,让人印象最深的应该是统计学中出现频率最高,让人又爱有恨的P值吧!有很多人甚至认为,只要掌握了P值,就万事大吉!常常在茶余饭后说:“六西格玛绿带黑带,就学了个P,还没学会?”可见P让多少人为之欢喜,为之烦恼!为之疑惑!

统计学p值的意义:Fisher P值, Neyman-Person 假设检验思想.PNG

统计学p值的意义:Fisher P值, Neyman-Person 假设检验思想.PNG


先说说什么是P值:当原假设为真的时候,此结果出现的概率!

从拉普拉斯——->karlPearson——->Fisher P值风靡全球这么多年,Fisher是第一推手,而且还推动了假设检验的思想!在Fisher的假设检验里,是没有备择假设的说法,后来流行的“备择假设”的概念是在一个重要的检验思想里提出的,即Neyman-Person检验思想,这个学派发源于Fisher的思想,但却不太一样。Neyman-Person思想引入了3个不同概念,也是我们现在常用的:

  • 引入备择假设。
  • 引入两种错误,第一类和第二类错误。
  • 使用拒绝域来进行检验。

再说P值应该多大:我们通常使用的0.05,比如P大于0.05 不能拒绝原假设,P小于0.05 拒绝原假设!这算不算在玩数字游戏呢?而且这些结论跟样本量有很大的关系!

问题来了,为什么P是0.05,Fisher先生突然想到0.05,那就一直延续到今天,但还有一种说法:如果是0.1 可接受风险10%=无所谓;如果是0.01 可接受的风险为1%=输不起;所以0.05 正好适合。众说纷纭,总之我们有了标准,而且大家目前都是认可并使用!

最后谈谈P值之应用:很多人可能有疑问,如果我们得出的P值等于0.05,该如何下结论呢?那如果是0.051 或者0.049呢?实际上,我们学习统计学是为了解决问题,而并非为了研究P值本身,就拿0.051来说,P值是判断出现这个值到底有多大可能性,对于0.051来说,比0.05多了千分之一的可能性。你会因为这个千分之一来推翻你既定的假设吗?我想还是要结合实际的情况作出最后的判断,六西格玛的学习者或者应用统计学解决问题者会根据自己的实际情况作出正确的判断!大可不必为了这个P值而纠结是否是0.051还是0.049.单独的P值只能提供有限的信息,用一个略小于0.05的P值来拒绝原假设,或者用一个略大于0.05的P值来不能拒绝原假设都难有说服力。当有其他方法可选时,数据分析不应该以一个简单的P值计算作为结束。

P值的统计显著性知识集
http://www.pinzhi.org/forum.php?mod=viewthread&tid=78821
1. 问答、交流探讨的帖子,回帖时,请不要发纯表情等无价值回帖,无意义,太多了影响用户体验,经常这样账号会被扣分甚至禁号的;
2. 品质协会是个学习、交流分享的平台,所有资料和内容归作者和版权方所有,需要正版标准、资料的请去相关的官方网站等平台购买。

32

主题

265

回帖

2

精华

品质协会高级会员

Rank: 4

积分
8884
品质币
8547
职位
35
发表于 2021-5-7 17:08:59 | 显示全部楼层
另一些人则认为,重新定义统计显著性没有好处,因为真正的问题是阈值始终存在。今年3月份,瑞士巴塞尔大学的流行病学家、动物学家瓦伦丁·阿姆莱因(Valentin Amrhein)与美国西北大学的统计学家、市场营销专家布莱克利·麦克沙恩(Blakeley McShane)在《自然》杂志上发表了一篇评论文章,主张放弃统计学显著性的概念。他们建议将p值作为一个连续变量,并将置信区间(confidence intervals)重命名为“相容性区间”(compatibility intervals),以反映它们彰显的实际意义:评估数据的相容性,而不是置信度。 显然,有更好的(至少是更直接的)统计方法可以用。格尔曼经常批评其他人的统计方法,他在工作中根本没有使用零假设显著性检验。他更喜欢贝叶斯方法,这是一种基于初始信念的、更为直接的统计方法,在这种方法中,研究人员接受最初的信念,添加新的证据并更新信念。格林兰德正在推广使用一种叫做稀奇程度(surprisal)的新数学量,可以调整p值以产生信息位(如计算机比特位)。为了检验原假设,0.05的p值仅有4.3比特的信息熵(假设有一枚均匀的硬币,抛硬币出现正面设为0、出现反面设为1,则抛一个硬币事件的信息熵就是1个比特。独立地抛256次硬币的信息熵就是256个比特。那么求解方程0.5x=0.05,解得0.05的概率约为抛掷x=-log20.05=4.3次,于是0.05的p值约为空值的4.3比特的信息熵。
所谓信息熵就是某个概率分布所包含的信息量的多少,这是信息论的基础知识。在信息论中,如果你对一件事情的发生百分之百确定,那么这件事情对你来说的信息熵等于0比特。反过来说,如果你对一件事情是不确定的,那么这件事情对你来说是包含信息熵的。格林兰德认为,如果研究人员不得不在每一个p值旁边加上一个稀奇程度,那么他们将被置于更高的标准之下。强调效应量(effect size),即发现差异的大小,也将有所帮助。

32

主题

265

回帖

2

精华

品质协会高级会员

Rank: 4

积分
8884
品质币
8547
职位
32
发表于 2021-5-7 17:06:38 | 显示全部楼层
P值经常被曲解,统计的显著性不等于实际的显著性。此外,为了让数据更漂亮,很多研究人员有意无意地将p值向上或向下调整。美国加利福尼亚大学洛杉矶分校的名誉教授、统计学家和流行病学家桑德·格林兰德(Sander Greenland)说:“你可以用统计学方法来证明任何事情。”他是呼吁统计学改革的科学家之一。只依靠达到统计显著性的研究经常会得出不准确的科学结论,这种判断标准可以把真的事情判断为假的,也可以把假的事情判断成真的。在菲舍尔退休,移居澳大利亚后,有人问他,在漫长的职业生涯中他是否有任何遗憾,他明确回答道:“当初不该提出0.05。”

在过去十年里,关于统计重要性的争论以不寻常的强度爆发。援引两篇论文的观点:一篇文章称统计分析的薄弱基础导致了“科学最肮脏的秘密”;另一篇则提到,在检验某些假设时,存在“许多深层次的缺陷”。在争议声中,实验经济学、生物医学研究,特别是心理学被卷入了一场科学实验可重复性的危机之中。在这场危机中,科学家发现相当一部分研究是不可重复的。
一个臭名昭著的例子是“姿态能量”的概念,某篇论文声称,自信的肢体语言不仅会改变你的态度,还会改变你的激素分泌,后来这篇文章还被作者自我否定了。美国哥伦比亚大学的统计学家安德鲁·格尔曼(Andrew Gelman)在他博客写道:“一篇可疑的关于气候经济学影响力的论文,多年之后发表了勘误声明,最终被修正的错误结论几乎与原论文的数据点一样多,这可不是开玩笑!但勘误声明中这些更正都不足以让作者改变结论。” 格尔曼还说道:“嘿,只做理论上的工作就可以了,但不需要用数据分散我们的注意力。”

32

主题

265

回帖

2

精华

品质协会高级会员

Rank: 4

积分
8884
品质币
8547
职位
36
发表于 2021-5-7 17:10:06 | 显示全部楼层
拥抱不确定性 统计显著性满足了研究人员对确定性的需求。格尔曼说:“这里的原罪是研究人员在得不到确定性的时候却想要确定性。” 或许,现在是时候让我们接受不确定性了。
科学界正在发生微小的变化。《新英格兰医学杂志》的发言人詹妮弗·蔡斯(Jennifer Zeis)说:“我们同意,p值有时被过度使用或被曲解了。对于治疗来说,如果我们认定p<0.05,治疗的结果是有效的;如果p>0.05,治疗是无效的。那么这就是医学的简化主义,它并不总能反映客观事实。”蔡斯同时强调,《新英格兰医学杂志》的研究报告现在已经很少使用p值了,更多是采用置信区间而不是使用p值这个概念。
根据美国食品及药品管理局(FDA)的生物统计学部门的负责人约翰·斯科特(John Scott)的说法,关于p值的应用,临床试验的要求还没有发生任何变化。
麦克沙恩说:“最关键的是,p值不应成为看门人。我们应该采取更全面、更细化和更容易评价的指标。”其实,这个观点在历史上就有人赞同,甚至在与菲舍尔同时代的人中,也有人支持这一观点。比如在1928年,另外两位统计学大师杰尔兹·内曼(Jerzy Neyman)和艾根·佩尔松(Egon Pearson)在撰写统计分析报告时写到:“统计检验本身并没有给出最终的结论,而只是作为一个参考工具帮助人们做出最终的决策。”
您需要登录后才可以回帖 登录 | 加入协会

本版积分规则

《品质协会规则》|品质币|手机版|品质B2B|联系我们|注册加入协会|品质协会(www.PinZhi.org) |网站地图

GMT+8, 2024-11-21 20:55 , Processed in 0.095142 second(s), 7 queries , Gzip On, Redis On.

Powered by 品质协会 © 2010-2024

品质人,让生活和环境变得更美好!!!

快速回复 返回顶部 返回列表