质量数据分析的四个基本原理
我们见到过很多形式的数据分析工具,这些工具均是基于以下四个基本原理的,它们分别是:数据的描述数据的概率数据的推断数据的齐性(一致性)
数据的描述
- 给定一组数据,是否能用算术值,以某种有意义的方式概括这些数字中包含的信息?
统计值=数据+算术
我们来下面这个例子,图中的铲盘里有50颗珠子,其中11颗红色的,39颗白色的。
数据的描述要做的就是将这些数据,用算术值的方式来表达出有价值的信息。
问题:就上图这个例子,我们该用什么算术值来描述数据?均值?中位数还是百分比?
数据的概率
- 给定一组已知的总体,从该总体中取样,我们能对样本做出什么判断?
下图是一个例子,已知那个巨大的碗里有1000颗黑珠子,4000颗白珠子混合在一起,我们就能根据概率推断出一次取出一颗黑球的概率为0.2(20%)。
质量管理中大量运用到概率理论,很多的控制及检验测试都是基于抽样,根据抽样的结果来推断总体的特征,这就是 - 数据的推断
数据的推断
- 对于一个未知的总体,我们从中抽样并了解了样本的所有信息,那么,我们能对总体做出什么推断?
同样,看下面这个例子,从一大堆珠子中抽取了50颗,其中黑珠子5颗,占10%。
根据样本的这些信息,我们能对总体做出什么推断?
这看上去像是概率问题的反向推理,其实是一个归纳过程,而我们知道归纳总是充满了不确定性。
我们能简单地推断总体样本中黑珠子也是占10%吗?
不是的,归纳推理无法保证100%的准确性,因此也就涉及到置信区间的概念。这个例子中,在90%的区间内,我们可以推断总体中黑珠子的占比应该在5.4%到20.5%的范围内。
数据的推断涉及到假设、置信区间和回归检验等领域。
数据的齐性(一致性)
- 给定一个已知的样本数据,我们是否能判断出样本里的数据是来自于一个总体还是多个总体?
正常情况下,从总体中不断抽样,各个样本的特征应该是相似的,一旦各个样本的数据缺乏一致性,这时我们应该知道,很可能是总体样本因为未知因素发生了变化。
怎么样来监控数据的一致性?最简单有效的工具就是过程行为图。
最后,数据分析的基本流程可以简单描述如下:
关注“质量优势”,关注原创质量文章
:Q:Q:Q:Q :Q:Q {:1_101:} :):):):) :Q :Q :Q :Q :Q