观测值聚类示例
主题
     解释结果     会话命令    另请参见 

您对 12 种早餐谷类食品品牌的五种营养元素(蛋白质、碳水化合物、脂肪含量、卡路里和维生素 A 的日摄取量)进行了测量。该示例和数据来自 [6] 的第 623 页。目标是按相似特征将谷类食品品牌分组。您要将观测值聚类与完成联结法(Euclidean 距离平方)配合使用并选择标准化(因为变量的单位不同)。此外,还要请求树状图并为每个聚类指定不同的线条类型和颜色。

1    打开工作表“谷类.MTW”。

2    选择统计 > 多变量 > 观测值聚类

3    在变量或距离矩阵中,输入蛋白质-维生素 A

4    从联结法中,选择完成,并从距离量度中选择 Euclidean 平方

5    选中标准化变量

6    在指定最终分类,按下,选择聚类数,然后输入 4

7    选中显示树状图

8    单击自定义。在标题中,输入谷类食品数据的树状图

9    在每个对话框中单击确定

会话窗口输出

观测值的聚类分析: 蛋白质, 碳水化合物, 脂肪, 卡路里, 维生素 A

 

 

标准化变量, Euclidean 距离平方, 最长距离法

合并步骤

 

 

                                     已合

                                     并的        新聚类号

                                     点群  新聚  中的观测

步骤  点群数  相似性水平  距离水平    号   类号    值个数

   1      11     100.000    0.0000  5  12     5         2

   2      10      99.822    0.0640  3   5     3         3

   3       9      98.792    0.4347  3  11     3         4

   4       8      94.684    1.9131  6   8     6         2

   5       7      93.406    2.3730  2   3     2         5

   6       6      87.329    4.5597  7   9     7         2

   7       5      86.189    4.9701  1   4     1         2

   8       4      80.601    6.9810  2   6     2         7

   9       3      68.079   11.4873  2   7     2         9

  10       2      41.409   21.0850  1   2     1        11

  11       1       0.000   35.9870  1  10     1        12

 

 

最终分割

点群数 4

 

 

       观测值              到质心的  到质心的

         个数  类内平方和  平均距离  最大距离

聚类1       2     2.48505   1.11469   1.11469

聚类2       7     8.99868   1.04259   1.76922

聚类3       2     2.27987   1.06768   1.06768

聚类4       1     0.00000   0.00000   0.00000

 

 

聚类质心

 

变量           聚类1      聚类2     聚类3     聚类4      总质心

蛋白质       1.92825  -0.333458  -0.20297  -1.11636   0.0000000

碳水化合物  -0.75867   0.541908   0.12645  -2.52890   0.0000000

脂肪         0.33850  -0.096715   0.33850  -0.67700   0.0000000

卡路里       0.28031   0.280306   0.28031  -3.08337  -0.0000000

维生素 A    -0.63971  -0.255883   2.04707  -1.02353  -0.0000000

 

 

聚类质心之间的距离

 

         聚类1    聚类2    聚类3    聚类4

聚类1  0.00000  2.67275  3.54180  4.98961

聚类2  2.67275  0.00000  2.38382  4.72050

聚类3  3.54180  2.38382  0.00000  5.44603

聚类4  4.98961  4.72050  5.44603  0.00000

图形窗口输出

解释结果

Minitab 在会话窗口中显示合并步骤。在每一步,会合并两个聚类。该表显示合并了哪些聚类、它们之间的距离、对应的相似性水平、新聚类的标识号(该编号始终是所合并的两个聚类的编号中的较小者)、新聚类中的观测值数以及聚类数。合并过程将继续到只剩一个聚类为止。

合并步骤表明,相似性水平以大约 6 或更小的增量递减,直到在从四个聚类合并为三个聚类的步骤中递减 13 左右为止。这表示,对于最终分割,四个聚类就足够了。如果此分组对数据而言具有直观意义,则这可能是个不错的选择。

指定最终分割时,Minitab 会显示三个附加表。第一个表汇总每个聚类的观测值数、聚类内平方和、观测值与聚类质心的平均距离以及观测值与聚类质心的最大距离。一般而言,平方和较小的聚类比平方和较大的聚类更紧凑。质心是该聚类中观测值的变量均值的向量,用作聚类中点。第二个表显示单个聚类的质心,而第三个表给出聚类质心之间的距离。

树状图以树形图的形式显示合并表中的信息。在我们的示例中,谷类食品 1 和 4 组成第一个聚类;谷类食品 2、3、5、12、11、6 和 8 组成第二个聚类;谷类食品 7 和 9 组成第三个聚类:谷类食品 10 组成第四个聚类。