使用自动变量选择过程
主题
变量选择过程可以作为数据分析中一个很有价值的工具,特别是在构建模型的早期阶段。但同时这些过程也有一定风险。以下是一些注意事项:
· 由于这些过程自动“监听”多种模型,因此所选的模型可能会与数据“过度”拟合。也就是说,过程可以查看许多变量,并完全出于偶然选择恰好拟合良好的变量。
· 三个自动过程都是启发式算法,通常运行很好,但可能所选模型的 R 值(对于给定的预测变量数)并非最高。
· 自动过程无法考虑分析人员对数据可能具有的特殊知识。因此,从实用角度看,所选模型可能不是最佳模型。