识别异常值
主题
 

异常值是大于平均响应值或预测变量值的观测值。Minitab 提供了几种识别异常值的方法,包括残差图和三种存储统计量:杠杆率Cook 距离以及 DFITS,下面将分别加以介绍。 识别异常值非常重要,因为它们会显著影响模型,从而有可能形成误导或导致不正确的结果。如果在数据中识别出异常值,应该检查测量值以了解它为什么异常,并做出相应的补救。

·    杠杆率值告诉我们,与其余数据相比,某个观测值是否具有异常预测变量值。杠杆率度量某个观测值的 x 值与所有观测值的 x 值的均值之间的距离。杠杆率值大表示某个观测值的 x 值离所有观测值的 x 值的中心位置远。具有大杠杆率的观测值可能对拟合值进而对回归模型产生相当大的影响。

杠杆率值介于 0 到 1 之间。大于 2p/n 或 3p/n(其中,p 为预测变量加上常量的数目,n 为观测值的个数)的杠杆率值被视为大杠杆率,应该对其进行检查。Minitab 会在异常观测值表中用 X 标识杠杆率大于 3p/n 或 0.99(以较小者为准)的观测值。

·    Cook 距离或 D 从总体上度量各个观测值对拟合值的综合影响。由于 D 是使用杠杆率值和标准化残差计算的,因此在分析某个观测值是否异常时它会同时考虑 x 值和 y 值。从几何角度看,Cook 距离度量的是使用第 i 个观测值计算的拟合值与不使用第 i 个观测值计算的似合值之间的距离。表示异常观测值的大值之所以会出现,是因为观测值具有 1) 大残差和中等杠杆率,2) 大杠杆率和中等残差,或 3) 大残差和大杠杆率。一些统计学家建议将 D 与 F 分布 (p, n-p) 进行比较。如果在第 50 个百分位数处 D 大于 F 值,则认为 D 相当大,应该对其进行检查。另外一些统计学家则建议将 D 统计量相互对比,从而识别出比其他值大很多的值。有一种简单的 D 值比较方法,就是使用图形 > 时间序列将它们绘制出来,其中 x 轴表示观测值而不是索引或时间周期。

·    DFITS 提供了另一种确定某个观测值是否异常的度量方式。它使用杠杆率和删后(t 化)残差来计算使用和不使用 ith 观测值计算的拟合值之间的差异。DFITS 粗略表示将 ith 观测值从数据中删除后,拟合值改变的估计标准差的数量。一些统计学家认为,DFITS 值大于 sqrt(2p/n) 的观测值为有影响的观测值。另外一些统计学家则建议将 DFITS 值相互对比,从而识别出比其他值大很多的值。有一种简单的 DFITS 值比较方法,就是使用图形 > 时间序列将它们绘制出来,其中 x 轴表示观测值而不是索引或时间周期。