病态数据与预测变量中的问题相关,它们会给统计和计算造成困难。存在两种类型的问题:多重共线性以及小变异系数。对于在 Minitab 中进行病态数据检查的研究,Velleman 等人做出了很大贡献。 [39], [40].
多重共线性意味着某些预测变量与其他预测变量相关。如果这种相关性很高,Minitab 将显示一条警告信息并继续进行计算。预测值和残差的计算在统计上和数字上仍然具有很高的准确度,但系数的标准误将很大,这会影响它们的数字准确度。如果某个预测变量与其他预测变量的相关性非常高,Minitab 将从模型中去掉该预测变量并显示一条消息。
要识别具有高共线性的预测变量,可以检查预测变量的相关性结构并将每个可疑的预测变量回归到其他预测变量上。您也可以查看方差膨胀因子 (VIF),当您的预测变量相关时,它们用于度量估计回归系数的方差增加的幅度。如果 VIF < 1,就不存在多重共线性;如果 VIF > 1,预测变量可能就是相关的。Montgomery 和 Peck 认为,如果 VIF 介于 5 - 10 之间,表示回归系数估计得不准确。
多重共线性问题的可能解决方案包括:
具有小变异系数并接近常量的预测变量会造成一些数字上的问题。例如,包含从 1970 到 1975 多个值的变量 YEAR 具有一个小变异系数,这些变量之间的数字差体现在第四个数位上。如果将 YEAR 平方,这个问题就会复杂化。您可以从数据中减去一个常量,用 YEARS SINCE 1970 替换 YEAR,前者的值为 0 至 5。
如果变异系数小的程度适中,将会部分丧失统计上的准确性。在此情况下,Minitab 会告诉您该预测变量接近常量。如果变异系数非常小,Minitab 将从模型中去掉该预测变量,并显示一条消息。
更多 |
如果数据呈现极度病态,Minitab 会从模型中删除一个有问题的列。您可以结合使用 TOLERANCE 子命令和 REGRESS 强行让 Minitab 将该列保留在模型中。降低公差会很危险,可能会产生不准确的数字结果。有关详细信息,请参见会话命令帮助。 |