二进制 Logistic 回归示例
主题
     解释结果     会话命令    另请参见 

假设您是一位关心吸烟和体重对静息脉搏率有何影响的研究人员。您将响应(脉搏率)分成了两类:高和低,因此适合使用二进制 Logistic 回归分析来调查吸烟和体重对脉搏率的影响。

1    打开工作表“回归_示例.MTW”。

2    选择统计 > 回归 > 二进制 Logistic 回归 > 拟合二进制 Logistic 模型

3    对于数据类型,选择以二进制响应/频率形式的响应

4    在响应中,输入静息脉搏

5    响应事件中,选择

6    连续预测变量中,输入体重

7    类别预测变量下,输入吸烟

8    单击编码

9    增量中,输入 10

10   单击确定

11   单击图形

12   选择三合一

13   在每个对话框中单击确定

会话窗口输出

 

二值 Logistic 回归: 其余脉冲 与 权重, 抽烟

 

 

方法

 

链接函数          Logit

类别预测变量编码  (1, 0)

已使用的行数      92

 

 

响应信息

 

变量      值      计数

其余脉冲  最低价    70  (事件)

          最高价    22

          合计      92

 

 

偏差表

 

                            调整后

来源    自由度  调整后偏差    均值  卡方   P 值

回归         2       7.574   3.787  7.57  0.023

  权重       1       4.629   4.629  4.63  0.031

  抽烟       1       4.737   4.737  4.74  0.030

误差        89      93.640   1.052

合计        91     101.214

 

 

模型汇总

 

           偏差 R-Sq

偏差 R-Sq     (调整)    AIC

    7.48%      5.51%  99.64

 

 

系数

 

                          方差膨

项      系数  系数标准误  胀因子

常量   -1.99        1.68

权重  0.0250      0.0123    1.12

抽烟

  是  -1.193       0.553    1.12

 

 

连续预测变量的优势比

 

      变更

      单位  优势比    95% 置信区间

权重    10  1.2843  (1.0101, 1.6330)

 

 

类别预测变量的优势比

 

水平 A  水平 B  优势比    95% 置信区间

抽烟

  是    否      0.3033  (0.1026, 0.8966)

 

水平 A 相对于水平 B 的优势比

 

 

回归方程

 

P(最低价)  =  exp(Y')/(1 + exp(Y'))

 

 

抽烟

否    Y' = -1.987 + 0.02502 权重

 

是    Y' = -3.180 + 0.02502 权重

 

 

拟合优度检验

 

检验             自由度   卡方   P 值

偏差                 89  93.64  0.348

Pearson              89  88.63  0.491

Hosmer-Lemeshow       8   4.75  0.784

 

 

异常观测值的拟合和诊断

 

        观测到

观测值  的概率  拟合值     残差  标准残差

    56  0.0000  0.8689  -2.0159     -2.04  R

    86  1.0000  0.3828   1.3858      1.46     X

 

R  残差大

X  异常 X

图形窗口输出

 

解释结果

会话窗口输出中包含十个部分。图形窗口中一个图形包含三个图。

方法:显示链接函数和分析的其他信息。此模型使用 logit 链接函数。

响应信息:显示有缺失值的观测值数量以及分别归入这两个响应类别的观测值数量。已指定为参考事件的响应值是“值”下的第一个条目并被标记为事件。在此情况下,参考事件为低脉搏率。

偏差表:显示这些系数的似然比检验 p 值。在输出中,可以看到吸烟 (p = 0.030) 和体重 (p = 0.031) 的估计系数 p 值均小于 0.05。这些结果说明,有足够证据证明,当采用 0.05 a 水平时,系数不为零。总体回归的 p 值检验预测变量的所有系数等于零这一原假设。备择假设为至少一个预测变量的系数不等于零。本示例中 p 值为 0.023。此 p 值表示,在您接受的 a 水平大于 0.023 的情况下,有足够证据证明至少有一个系数不等于零。

模型汇总:显示的统计量可用来比较不同模型的数据拟合程度。偏差 R2 和调整偏差 R2 的值越大说明拟合越好。Akaike 信息准则 (AIC) 的值越小说明拟合越好。当前模型的偏差 R2 值为 7.48%,调整 R2 值为 5.51%,并且 AIC 为 99.64。另一模型可能有更好的拟合统计量。

系数:显示估计系数、系数的标准误和方差膨胀因子 (VIF)。 使用 Logit 链接函数时,您还会看到优势比以及该优势比的 95% 置信区间

吸烟的估计系数 -1.193 表示 P(低脉搏)/P(高脉搏)的对数值所发生的变化。系数所解释的是研究对象吸烟和不吸烟时的对比。系数假定协变量“体重”是固定的。“体重”的估计系数为 0.0250。该系数表示在因子“吸烟”保持恒定的情况下,体重增加 1 单位(1 磅)时 P(低脉搏)/P(高脉搏)的对数值所发生的变化。

连续预测变量的优势比:尽管有证据表明体重的估计系数不为零,但估计系数非常接近零  (0.0250)。此优势比表示,体重增加一磅对于人的静息脉搏率的影响非常小。如果拿具有更大体重差的研究对象与优势比进行对比,就会发现更明显的差别。例如,如果体重单位为 10 磅,优势比变为 1.2843,优势比较大表示体重每增加 10 磅,具有低脉搏率的研究对象的几率就有可能增加 1.2843 倍。

类别预测变量的优势比:对于吸烟,负系数 -1.193 和优势比 0.3033 表明,吸烟的研究对象与不吸烟的研究对象相比,其静息脉搏率有可能更高。在研究对象体重相同的情况下,优势比可以解释为,样本中吸烟者具有低脉搏的几率是非吸烟者具有低脉搏几率的 30%。

回归方程:显示将线性方程转变为预测概率的变换及每个类别预测变量组合的线性方程。在此情况下有两个方程,每个“吸烟”变量的水平对应一个方程。对于吸烟的人来说,常量项更偏向为负数,因而这些人群有较低静息脉搏率的概率更低。由于与模型中的体重没有交互作用,因而两个方程中的系数相同。

拟合优度检验:显示 Pearson、偏差和 Hosmer-Lemeshow 拟合优度检验。拟合优度检验(其 p 值范围从 0.348 到 0.724)表明并没有足够证据说该模型不能与数据充分拟合。如果 p 值小于您接受的 a 水平,检验将否定充分拟合的原假设。

异常观测值的拟合和诊断:显示标准化残差或杠杆率值较大的观测值。在此情况下,模型对观测值 56 的拟合度不高。您可能需要进一步调查此个例才能明白模型为什么与它的拟合度不高。观测值 86 可能对模型的影响较大。可以在去除此个例的情况下拟合模型,以观察该观测值对于结果的影响有多大。

图:在此示例中,您选择了三个残差图。残差的正态概率图非直线,并且残差的直方图为双峰。对于依靠正态理论的输出(例如预测概率的置信区间),解释时应非常小心。