品质协会(www.PinZhi.org)

 找回密码
 加入协会

QQ登录

只需一步,快速开始

查看: 7360|回复: 20

样本量大于30就可以认为是正态分布吗?你可能对中心极限...

[复制链接]

4

主题

3

回帖

0

精华

品质协会初级会员

Rank: 2

积分
105
品质币
98
职位
1
发表于 2019-12-27 10:25:50 | 显示全部楼层 |阅读模式
我经常会被问到这么一个问题:样本量多大就不用进行正态性检验了。殊不知,这问题的本身就是错误的,并不是样本大,就一定要服从正态分布。我们可以轻易举出一个反例来说明这个问题。比方说就用1-1000这一千个(甚至更多)自然数,组成一个样本,那么这个样本的分布就不是正态分布,因为1-1000服从的是均匀分布。另外,数据的分布基于形成的机理,有的分布天生就非正态(如寿命数据)。
但有些朋友,并不觉得这是一个错误的问题,甚至在他们的学习中还流传着这么一个说法:样本量大于30就可以认为是服从正态分布。但你向他问为什么的时候,会得到一个专业的解释——中心极限定理。
中心极限定理
中心极限定理(Central Limit Theorem)是统计学中最重要的结论之一。在这里,我并不想给出中心极限定理专业的定义,只需要了解它告诉我们:来自某总体的一个样本,无论该总体服从什么分布,只要样本容量足够大,其样本均值都近似服从正态分布。
请注意这里的说法:“样本均值“近似正态,而不是样本本身服从正态(不是说你抽了30个样品组成的样本数据就正态)。这里又有一个大家疑惑的地方,样本容量足够大,多大才是足够大?这个问题的答案和总体分布的形状相关,如果样本本是来自近似对称分布的总体,那么当样本量取相当小(如样本量取5)的值的时候,正态逼近的结果也会非常好。然后,如果总体的分布严重倾斜,则样本量必须取相当大的值。根据检验,对于大多数总体来说,样本容量取30或者更大,就足以得到令人满意的正态逼近结果。
模拟掷骰子展示中心极限定理
为了展示中心极限定理,模拟多次投掷骰子来说明。
假设您掷骰子 1000 次。您希望得到相等数目的 1、2 等。让我们查看 1000 次骰子的分布(图1)。
1.png

现在假设您将投掷 2 次,并采用两次投掷的平均值。您还将重复此试验 1000 次。让我们来看看两次投掷的平均值的分布。这种分布如图 2 所示。您是否注意到在只进行了两次投掷的情况下,平均值的分布已经呈现出了土堆形?
2.png

假设您现在投掷骰子三次,然后取三次投掷的平均值。再次重复此试验 1000 次。让我们来看看此举对投掷的平均值分布有何影响。这种分布如图 3 所示。同样,分布的形状与正态分布的形状相当接近。您是否注意到分布上发生了其他变化?
3.png

让我们投掷骰子五次,并取其平均值。再次重复此试验 1000 次。这种分布如图 4 所示。您是否已开始注意到所发生的情形中存在任何模式?
4.png

让我们继续增加平均投掷次数。此时您将投掷 10 次,并采用 10 次投掷的平均值。这种分布如图 5 所示。
5.png

现在,随着您增加投掷次数,将看到两个现象。首先,您会看到,平均分布的形状开始与正态分布的形状相似。其次,您会看到,随着投掷次数的增加,分布变得越来越窄。让我们继续增加投掷次数。此时,您将投掷骰子 20 次。这种分布如图 6 所示。
6.png

到现在,您应该确信增大样本数量对样本平均值分布是有影响的。您将再次增大样本数量,以强化这种认知。此时,您将投掷骰子 30 次。这种分布如图 7 所示。
7.png

让我们看看所呈现的情况,在一个图中绘制大小为 2、5、10、20、30 的样本的直方图,以查看变化的分布。
8.png

小结
从上面的模拟结果,可以知道,当样本量大于30的时候,那么样本均值(取了1000次样本,得到1000个均值)的分布基本呈正态分布。

另外该定理还指出,如果根据总体不断重复绘制随机样本数量 n 以及有限均值 mu(y) 和标准Sigma(y),然后在 n 较大时,样本均值的分布将近似呈正态分布,并且均值等于 mu(y),标准差等于 (sigma(y))/sqrt(n)。

1. 问答、交流探讨的帖子,回帖时,请不要发纯表情等无价值回帖,无意义,太多了影响用户体验,经常这样账号会被扣分甚至禁号的;
2. 品质协会是个学习、交流分享的平台,所有资料和内容归作者和版权方所有,需要正版标准、资料的请去相关的官方网站等平台购买。

56

主题

306

回帖

4

精华

品质协会高级会员

Rank: 4

积分
12508
品质币
12066
职位
20
发表于 2023-7-14 08:59:25 | 显示全部楼层
1、独立同分布中心极限定理
不论总体服从何种分布,只要它的数学期望和方差存在,从中抽取容量为n的样本,则这个样本的总和或平均数是随机变量,当n充分大时,Σxi或xbar趋于正态分布
2、德莫佛-拉普拉斯中心极限定理
正态分布和泊松分布都是二项分布的极限分布
当n足够大时,可用正态分布近似计算;当n足够大且p小时,可用泊松分布近似计算

4

主题

3

回帖

0

精华

品质协会初级会员

Rank: 2

积分
105
品质币
98
职位
9
 楼主| 发表于 2020-1-14 15:36:09 | 显示全部楼层
ouranos 发表于 2019-12-29 09:59
何茂林老师的文章
最近也有人正好问这个问题

学习更多可以关注我们的微信公众号Minitab Users Group 我们会分享更多地案例,还有专属的Minitab微课堂微信群, 回复入群

8

主题

1451

回帖

0

精华

品质协会高级会员

Rank: 4

积分
8559
品质币
7100
职位
14
发表于 2022-5-31 08:40:05 | 显示全部楼层
请教下
很多人计算CPK ,PPK的数据只取32个,是否也是根据中心极限定理的定义?计算结果接近125个数据的CPK ,PPK值?

2

主题

233

回帖

0

精华

品质协会高级会员

Rank: 4

积分
8482
品质币
8247
职位
7
发表于 2019-12-29 09:59:03 | 显示全部楼层
何茂林老师的文章
最近也有人正好问这个问题
您需要登录后才可以回帖 登录 | 加入协会

本版积分规则

《品质协会规则》|品质币|手机版|品质B2B|联系我们|注册加入协会|品质协会(www.PinZhi.org) |网站地图

GMT+8, 2024-11-22 06:03 , Processed in 0.062426 second(s), 9 queries , Gzip On, Redis On.

Powered by 品质协会 © 2010-2024

品质人,让生活和环境变得更美好!!!

快速回复 返回顶部 返回列表