统计意义显著

如果假设检验指出某个样本统计量极不可能偶然发生,则该样本统计量和假设参数值之间的差异在统计意义上显著。通过查看检验的 p 值(该值为在原假设成立时,获得至少与根据样本实际计算所得值一样极端的检验统计量的概率)可以评估统计显著性。如果 p 值低于指定的显著性 或 alpha (a) 水平(通常为 0.10、0.05 或 0.01),则可以断定差异在统计意义上显著,并否定检验的原假设。

例如,假设要确定汽车挡风玻璃的厚度是否超过 4mm(如安全规则所要求)。抽取挡风玻璃的样本,并执行 a 水平为 0.05 且有以下假设的单样本 t 检验:H0:m = 4 和 H1:m > 4。如果检验产生的 p 值为 0.001,则断定统计意义显著性并否定原假设,因为 p 值小于您所选择的 a 水平。您的结论是同意备择假设:挡风玻璃厚度超过 4mm。

但如果 p 值等于 0.50,则不能断定统计意义显著性,因为 p 值大于所选择的 a 水平。因此,无法否定原假设;您没有足够证据表明挡风玻璃的平均厚度超过 4mm。

统计显著性并不一定表明在实际中也有显著性。 功效极高的检验可以断定与假设值之间的轻微差异在统计意义上显著,尽管这种小的差异实际上可能毫无意义。例如,一家混装坚果公司声称他们的食品罐中所包含的花生不超过 50%。如果您取样了 100,000,000 个食品罐并观测到花生含量为 50.01%,则假设检验将声明这个没有意义的差值具有显著的统计意义,这完全是因为样本数量非常巨大导致的。因此,结合使用专业知识与假设检验以得出有意义的结论。