您对 12 种早餐谷类食品品牌的五种营养元素(蛋白质、碳水化合物、脂肪含量、卡路里和维生素 A 的日摄取量)进行了测量。该示例和数据来自 [6] 的第 623 页。目标是按相似特征将谷类食品品牌分组。您要将观测值聚类与完成联结法(Euclidean 距离平方)配合使用并选择标准化(因为变量的单位不同)。此外,还要请求树状图并为每个聚类指定不同的线条类型和颜色。
1 打开工作表“谷类.MTW”。
2 选择统计 > 多变量 > 观测值聚类。
3 在变量或距离矩阵中,输入蛋白质-维生素 A。
4 从联结法中,选择完成,并从距离量度中选择 Euclidean 平方。
5 选中标准化变量。
6 在指定最终分类,按下,选择聚类数,然后输入 4。
7 选中显示树状图。
8 单击自定义。在标题中,输入谷类食品数据的树状图。
9 在每个对话框中单击确定。
会话窗口输出
观测值的聚类分析: 蛋白质, 碳水化合物, 脂肪, 卡路里, 维生素 A
标准化变量, Euclidean 距离平方, 最长距离法 合并步骤
已合 并的 新聚类号 点群 新聚 中的观测 步骤 点群数 相似性水平 距离水平 号 类号 值个数 1 11 100.000 0.0000 5 12 5 2 2 10 99.822 0.0640 3 5 3 3 3 9 98.792 0.4347 3 11 3 4 4 8 94.684 1.9131 6 8 6 2 5 7 93.406 2.3730 2 3 2 5 6 6 87.329 4.5597 7 9 7 2 7 5 86.189 4.9701 1 4 1 2 8 4 80.601 6.9810 2 6 2 7 9 3 68.079 11.4873 2 7 2 9 10 2 41.409 21.0850 1 2 1 11 11 1 0.000 35.9870 1 10 1 12
最终分割 点群数 4
观测值 到质心的 到质心的 个数 类内平方和 平均距离 最大距离 聚类1 2 2.48505 1.11469 1.11469 聚类2 7 8.99868 1.04259 1.76922 聚类3 2 2.27987 1.06768 1.06768 聚类4 1 0.00000 0.00000 0.00000
聚类质心
变量 聚类1 聚类2 聚类3 聚类4 总质心 蛋白质 1.92825 -0.333458 -0.20297 -1.11636 0.0000000 碳水化合物 -0.75867 0.541908 0.12645 -2.52890 0.0000000 脂肪 0.33850 -0.096715 0.33850 -0.67700 0.0000000 卡路里 0.28031 0.280306 0.28031 -3.08337 -0.0000000 维生素 A -0.63971 -0.255883 2.04707 -1.02353 -0.0000000
聚类质心之间的距离
聚类1 聚类2 聚类3 聚类4 聚类1 0.00000 2.67275 3.54180 4.98961 聚类2 2.67275 0.00000 2.38382 4.72050 聚类3 3.54180 2.38382 0.00000 5.44603 聚类4 4.98961 4.72050 5.44603 0.00000 |
图形窗口输出
Minitab 在会话窗口中显示合并步骤。在每一步,会合并两个聚类。该表显示合并了哪些聚类、它们之间的距离、对应的相似性水平、新聚类的标识号(该编号始终是所合并的两个聚类的编号中的较小者)、新聚类中的观测值数以及聚类数。合并过程将继续到只剩一个聚类为止。
合并步骤表明,相似性水平以大约 6 或更小的增量递减,直到在从四个聚类合并为三个聚类的步骤中递减 13 左右为止。这表示,对于最终分割,四个聚类就足够了。如果此分组对数据而言具有直观意义,则这可能是个不错的选择。
指定最终分割时,Minitab 会显示三个附加表。第一个表汇总每个聚类的观测值数、聚类内平方和、观测值与聚类质心的平均距离以及观测值与聚类质心的最大距离。一般而言,平方和较小的聚类比平方和较大的聚类更紧凑。质心是该聚类中观测值的变量均值的向量,用作聚类中点。第二个表显示单个聚类的质心,而第三个表给出聚类质心之间的距离。
树状图以树形图的形式显示合并表中的信息。在我们的示例中,谷类食品 1 和 4 组成第一个聚类;谷类食品 2、3、5、12、11、6 和 8 组成第二个聚类;谷类食品 7 和 9 组成第三个聚类:谷类食品 10 组成第四个聚类。