偏最小二乘回归示例
主题
     解释结果      会话命令      另请参见
 

您是一位葡萄酒制造商,希望了解酒中的化学成分与感官评价之间的关系。您有 37 个 Pinot Noir 酒样本,每个样本都由 17 种元素浓度 (Cd、Mo、Mn、Ni、Cu、Al、Ba、Cr、Sr、Pb、B、Mg、Si、Na、Ca、P、K) 和一组评审员根据酒的芳香度给出的分值描述。您希望根据 17 种元素预测芳香度分值,并确定 PLS 是适当的技术,因为样本对预测变量的比率较低。数据引用自 [12]。您希望在此模型中包含所有元素 (Cd-K) 和所有包含 Cd 的双向交互作用。

1    打开工作表“葡萄酒芳香度.MTW”。

2    选择统计 > 回归 > 偏最小二乘

3    在响应中,输入芳香度

4    在模型中,输入 Cd-K Cd*Mo Cd*Mn Cd*Ni Cd*Cu Cd*Al Cd*Ba Cd*Cr Cd*Sr Cd*Pb Cd*B Cd*Mg Cd*Si Cd*Na Cd*Ca Cd*P Cd*K

5    单击选项

6    交叉验证中,选择逐一剔除法。单击确定

7    单击图形然后选中模型选择图响应图标准系数图距离图残差与杠杆率载荷图。取消选中系数图

8    在每个对话框中单击确定

会话窗口输出

PLS 回归:芳香度 与 Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, Sr, Pb, B, 毫克, Si, Na, Ca, P, K

 

 

方法

 

交叉验证        逐一剔除法

要估算的分量    集合

已估算的分量数  10

已选定的分量数  4

 

 

芳香度 的方差分析

 

来源      自由度       SS       MS      F      P

回归           4  34.5514  8.63784  41.55  0.000

残差误差      32   6.6519  0.20787

合计          36  41.2032

 

 

芳香度 的模型选择和验证

 

分量    X 方差     误差      R-Sq    PRESS  R-Sq(预测)

   1  0.158849  14.9389  0.637435  23.3439      0.433444

   2  0.442267  12.2966  0.701564  21.0936      0.488060

   3  0.522977   7.9761  0.806420  19.6136      0.523978

   4  0.594546   6.6519  0.838559  18.1683      0.559056

   5             5.8530  0.857948  19.2675      0.532379

   6             5.0123  0.878352  22.3739      0.456988

   7             4.3109  0.895374  24.0041      0.417421

   8             4.0866  0.900818  24.7736      0.398747

   9             3.5886  0.912904  24.9090      0.395460

  10             3.2750  0.920516  24.8293      0.397395

图形窗口输出

解释结果

会话窗口输出

·    此方法表指出了 Minitab 计算的分量数和作为最优模型选择的分量数。可将最优模型定义为具有最高预测 R2 的模型。Minitab 选择了四分量模型作为最优模型,预测的 R2 为 0.56。

·    Minitab 基于最优模型对每个响应显示一个方差分析表。芳香度的 p 值 为 0.000,小于 alpha 值 0.05,从而为此四分量模型的显著性提供了足够的证据。

·    使用“模型选择”和“验证表”选择模型的最优分量数。取决于数据或所研究的领域,您可能会发现由交叉验证所选择之外的模型更合适。由交叉验证选择的四分量模型的 R2 为 83.8%,预测的 R2 为 55.9%。

·    X 方差表明预测变量中由模型解释的方差量。在本例中,四分量模型解释了预测变量中 59.4% 的方差。

图形窗口输出

·    模型选择图是“模型选择”和“验证表”的图形化显示。垂直线表明最优模型有四个分量。您也可以看到具有多于四个分量的所有模型的预测能力将显著降低。

·    响应图表明,由于这些点从左下角到右上角呈线性模式,因此,模型与数据充分拟合。尽管拟合响应交叉验证拟合响应之间存在差异,但其中没有一个严重到足以表明极端的杠杆率点。

·    系数图显示预测变量的标准化系数。您可以使用此图解释系数的量值和符号。元素 Mo、Cu、Sr、Pb、B、Ca、Cd*Sr 和 Cd*B 的标准化系数最大,因此对芳香度的影响也最大。元素 Mo、Pb、B 和 Cd*B 与芳香度正相关,而 Cu、Sr、Ca 和 Cd*Sr 为负相关。

·    载荷图比较各个预测变量对响应的相对影响。在本例中,Cu 和 Ni 的线条很短,表明它们的 x 载荷很小,且与芳香度无关。元素 Sr、Mg 和 Ba 的线条很长,表明它们的载荷较高,且与芳香度更加相关。

·    距离图和残差与杠杆率图显示异常值和杠杆率。通过刷抹距离图,您可以发现与数据的其他部分相比:

-    观测值 14 和 32 在 Y 轴上的距离值较大

-    第 1 行和第 37 行中的观测值在 X 轴上的距离值较大

残差与杠杆率图表明:

-    由于观测值 3 在水平参考线之外,因此,观测值 3 是一个异常值

-    观测值 5、12、14、23 和 37 具有杠杆率极值,因为它们位于垂直参考线的右侧