最佳子集回归示例
主题
     解释结果     会话命令    另请参见 

作为太阳热能测试的一部分,测量了总热通量。您希望了解怎样通过其他变量预测总热通量:日照、东、南、北方向焦点的位置以及一天中的时间。数据来自 Montgomery 和 Peck [31],第 486 页。

1    打开工作表“回归示例.MTW”。

2    选择统计 > 回归 > 回归 > 最佳子集

3    在响应中,输入热通量

4    在自由预测变量中,输入日照-时间。单击确定

会话窗口输出

最佳子集回归: 热通量 与 暴晒, 东, 南, 北, 时间

 

 

响应为 热通量

 

              R-Sq  R-Sq(预  Mallows          暴          时

变量  R-Sq  (调整)      测)       Cp       S  晒 东 南 北 间

   1  72.1    71.0      66.9     38.5  12.328           X

   1  39.4    37.1      26.3    112.7  18.154  X

   2  85.9    84.8      81.4      9.1  8.9321        X  X

   2  82.0    80.6      74.2     17.8  10.076           X  X

   3  87.4    85.9      79.0      7.6  8.5978     X  X  X

   3  86.5    84.9      81.4      9.7  8.9110  X     X  X

   4  89.1    87.3      80.6      5.8  8.1698  X  X  X  X

   4  88.0    86.0      79.3      8.2  8.5550  X     X  X  X

   5  89.9    87.7      78.8      6.0  8.0390  X  X  X  X  X

 

解释结果

每行输出都代表一个不同的模型。“变量数”是模型中变量或预测变量的数量。Rimage\SQUARED.gif调整的 Rimage\SQUARED.gif 转换为百分比。模型中显示的预测变量由 X 表示。

在此示例中,哪个模型与数据的拟合效果最佳并不明确。含所有变量的模型具有最高的调整的 Rimage\SQUARED.gif(87.7%)、Mallow Cp 值 (6.0) 和最小的 S 值 (8.0390)。含除“时间”以外所有变量的四预测变量模型的 Cp 值较小 (5.8),但是 S 值稍大 (8.16),而调整的 Rimage\SQUARED.gif稍小 (87.3%)。最佳三预测变量模型包括“北”、“南”和“东”,其 Cp 值稍大 (7.6),而调整的 Rimage\SQUARED.gif较小 (85.9%)。

最佳的双预测变量模型包含“北”和“南”,专用于最高预测 R 平方 (81.4%)。这种情况表明包含其他预测变量的模型可能与数据过度拟合。过度拟合模型看似可以对用于模型计算的数据集解释预测变量与响应变量之间的关系,但无法为新观测值提供有效预测的模型。如果您主要关注对新观测值的预测,则这两个预测变量模型可能是最佳模型,并且只需要测量这两个预测变量的数据。并且,多元回归示例表明添加变量“东”并不改进模型的拟合度。

选择模型之前,应该始终使用残差图和其他诊断检验查看模型是否违反任何回归假设。请参见检查模型