分布

数据集的形状、展开和位置。 了解数据集的分布即可了解有关数据本身的大量信息,而且在选择适当分析和解释其结果方面非常关键。可以通过图形、描述性统计或更加正式地使用分布识别工具来评估分布。

直观评估

通过图形(如直方图),可以直接深入了解数据集的分布情况。数据围绕单一区域聚类,还是围绕其多个峰值或模式聚类?是稀疏散布于宽广的范围,还是紧密聚集?数据是偏斜的还是对称的?

分布度量

用于描述包含数字值的数据的中心趋势(均值、中位数)和展开(方差、标准差)的描述性统计,这些统计可用于与其他数据集进行比较。

正式定义或理论性定义

最终,可以在可预测图形或数学项的基础上定义某些“完美”分布,并且按名称(如正态、Weibull 和指数分布)进行指代。例如,正态分布始终为钟形,且集中于单个均值。正态分布中的值的一致百分比包含于与均值的任何数量的标准差中;例如,68.26% 的观测值始终在与均值一个标准差的范围内。实际上,数据只是近似于这些完美分布;如果存在紧密的拟合,则认为数据由给定分布“良好模型化”。Minitab 的个体分布标识工具可帮助您找到与数据最佳拟合的分布。

许多分析要求数据以特定方式分布,如果使用其他分布,则可能会产生不准确的结果。了解数据服从特定分布,即可了解数据中的不一致。例如,通常由正态分布良好模型化的向右偏斜的数据可能表示,过程中的某些内容是错误的。