欢迎您注册蒲公英
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本帖最后由 蜗牛98 于 2015-5-26 20:40 编辑
统计杂谈——正态分布 说到数据的分布,就要说一说数据的类型。通常数据可以简单的分成离散型数据(计数值数据)和连续型数据(计量值数据)。离散性数据是由可数个或者有限多个的整数值组成的集合,比如:今年生产100批,20批A、30批B、50批C,那{20,30,50}组成的集合或者{……1,2,3,……}的集合都可以看成是离散型数据;至于连续型数据,可以简单的理解成这类数据是测量出来的,不是数出来的,或者说连续型数据是一个数值的区间,这个区间内的数是不可数多个或无限多个,比如,某产品的含量控制范围为95.0~105.0%,这个区间内的数据是不可能数清楚的。
简单说过数据类型以后,就来说说和这些数据类型相对应的数据分布形式。这里说些常用到的类型。
常用的离散型数据的分布图,根据条件的不同有二项分布、泊松分布。二项分布是在已知事件发生几率的情况下,在N次操作中事件发生n次的概率分布。泊松分布则是二项分布的事件发生几率很低,操作次数很多的时候得到的简化公式。这类数据通常有微生物检测数据、产品不合格批次、设备故障次数等类似数据。
常用的连续型数据的分布图,也就是现在大家经常说到的正态分布了。我们正常得到的有小数点的随机数据都可以认为符合这个分布。比如,正常的产量数据、含量数据。
说到正太分布,就要说到现在很热门的质量控制图,还有大家喜欢用来当做警戒线和纠偏限(行动限)制定中的Xbar±2(3)σ。
说到的±3σ其实就是常说的控制图均值两侧间距各为3σ的区间,也就是六次格玛中的控制上限和控制下限。
经常被六次格玛折腾的人都知道,控制图中的Xbar是样本数据集合的均值(算术平方和),而总体均值μ,因为通过样本均值去估算总体均值不太现实,所以在这里就使用Xbar直接替代了μ。
但是为什么在这里又使用代表总体标准差的σ,而不是代表样本标准差的S呢?那是因为在六西格玛统计使用的Minitab中已经通过样本的数据对总体标准差进行估计得到了总体标准差σ,所以就看到是Xbar±3σ这个公式。
这里说到的二项分布图、泊松分布图、正态分布图都应该称为概率密度分布。分布图下面的面积,就代表是事件发生的概率。
大家知道正态分布分布图是个标准的倒钟形,而当二项分布和泊松分布的数据量合适的时候,他们的图形也是一个倒钟形图,形成类似于正态分布的分布。
不过因为数据类型的不同,不建议大家使用这种近似,而是根据它们各自的概率公式计算事件的发生概率。
因为数据类型的不同,他们的控制图也不同,控制图中控制限度的计算公式也不同。所以在进行质量控制图制作的时候,要先分清楚数据的类型,做出合适的、正确的控制图用于质量控制。 |