偏最小二乘中的类别预测变量编码
主题
   
 

要在偏最小二乘模型中包含类别预测变量,Minitab 会对这些类别进行编码,以便它们可以包含在此模型中。偏最小二乘会自动完成此操作。您有两个编码选项:1、0 编码或 - 1、0、1 编码。不论您选择哪种编码方法,类别变量整体效果的检验都将保持不变。

当您具有类别预测变量时,回归系数将相对参考水平进行解释。有关详细信息,请参见设置偏最小二乘中的参考水平

1、0 编码

1、0 编码(也称为二进制编码或虚拟编码)通常用在回归分析中。

例如,您希望在您的模型中包含类别预测变量位置。位置具有三种水平:香港、伦敦和纽约。如果您选择 1、0 编码,Minitab 将按照下列方式对这三种预测变量水平编码。如果按 1、0 编码,则对于文本类别预测变量,参考水平就是按字母顺序排在最前的水平。因此,“香港”就是此参考水平。

如果位置为...

伦敦将编码为...

纽约将编码为...

香港

0

0

伦敦

1

0

纽约

0

1

-1、0、1 编码

您也可以使用 -1、0、1 方案(也称为效应或处理编码)对类别预测变量进行编码。- 1、0、1 编码用于 一般线性模型试验设计 (DOE)

如果按 - 1、0、1 编码,参考水平就是 - 1、0、1 编码中按字母顺序排在最后的水平。因此,“纽约”就是此参考水平。在下面的示例中,如果任意列中的行对应于“纽约”,则会分配一个 -1。

如果位置为...

香港将编码为...

伦敦将编码为...

香港

1

0

伦敦

0

1

纽约

- 1

- 1