|
四分位数(Quartile)是将数据样本分成四个相等部分的值。利用四分位数,可以快速评估数据集的展开和中心趋势 – 这是了解数据的重要前期步骤。
下四分位数 (Q1): 25% 的数据小于等于此值。
第二个四分位数 (Q2): 中位数。50% 的数据小于等于此值。
上四分位数 (Q3):75% 的数据小于等于此值。
四分位数极差:下四分位数与上四分位数之间的距离 (Q3-Q1);因此,它跨越数据中间部分,即 50%。
例如,对于以下数据: 7, 9, 16, 36, 39, 45, 45, 46, 48, 51
· Q1 = 14.25
· Q2(中位数)= 42
· Q3 = 46.50
· 四分位间距 = 46.50 - 14.25,或 32.25
注意,这些四分位数不是数据中存在的值。通常需要在两个观测值之间插入间距值才能正确计算四分位数。
箱线图可用来说明这一相同四分位数信息。此处的灰色框表示四分位间距。该框顶部位于上四分位数处,该框底部位于下四分位数处,框中间的线放置在第二个四分位数(或中位数)处。从箱伸出的线称为须,它们表示从下四分位数和上四分位数到其各自极值处的数据范围。
由于不受极端观测值的的影响,因此与均值和标准差相比,中位数和四分位间距是对高度偏斜数据的中心趋势和展开程度的更好度量。 |
|