功效是对检验能否精确检测原假设为假的能力的度量。特别需要指出的是,功效是具有指定假设(样本数量、差异、标准差、阿尔法水平和备择假设类型)的检验在备择假设为真时正确否定原假设的概率。

如果检验的功效低,则您可能无法检测到效应并错误地得出不存在任何效应的结论。如果检测的功效太高,则那些很小可能没什么意义的效应可能会变得显著。

所有检验都不可能尽善尽美,总存在这样的可能,即当原假设 (H0) 实际为真时您会根据检验结果否定原假设(类型 I 错误),或当原假设实际为假时您根据检验结果未能否定 H0(类型 II 错误)。这是因为为了估计总体均值,您必须使用随机样本,而这些随机样本都是随机抽取的。因此,总有这样的可能,即您最终得出的样本均值与总体均值之间存在很大的差异。

例如,假设某个特定的正态分布的总体的均值 (m) 为 10,标准差 (s) 为 2。这意味着该总体中的 95.44% 的值介于 6 和 14 之间。但是,总存在这样的可能,即您随机选择 10 个观测值而最终得出的样本均值为 4。而根据这样的样本,您永远也不会猜测到该总体的真正均值实际上是 10!

当然,取得这样的样本的几率相当小,但是确实存在这种可能。生活中确实有这样令人遗憾的情况:抽样误差有时可能会导致错误的结论。虽然您不知道会发生这种情况的时间,但是您可以估计它发生的频率。这正是功效的作用。

例如,假设您正在进行一个单样本 t 检验以了解工厂中分装到洗发精瓶中的产品量均值是否与目标量 8 oz 不同。您决定抽取 10 只随机选择的瓶子。如果 m 实际上是 7.5 oz(瓶中的洗发精少装了 0.5 oz),s 实际上是 0.43 oz,则检验的功效为 0.9039。

功效值为 0.9039 意味着如果您进行检验并多次重复同样的试验(每次抽取一个新的随机样本),那么您最终会正确地否定原假设的几率为 90.39%。而剩下的 9.61% 的几率,就是即使 H0 实际上为假而由于抽样误差您未能否定它的几率。当然,您不可能多次重复进行检验,但是最好还是要知道获得错误样本的几率非常小。