使用自动变量选择过程
主题
 

变量选择过程可以作为数据分析中一种很有价值的工具,特别是在构建模型的早期阶段。但同时,这些过程也有一定风险。以下是一些注意事项:

·    由于这些过程自动“监听”多种模型,因此所选的模型可能会与数据“过度”拟合。也就是说,过程可以查看许多变量,并完全出于偶然选择恰好拟合良好的变量。

·    三个自动过程都是启发式算法,通常运行很好,但可能所选模型的 R 值(对于给定的预测变量数)并非最高。

·    自动过程无法考虑到分析人员对数据可能具有的特殊知识。因此,从实际观点来看,所选模型可能不是最佳模型。