[原创]配对t检验在实际工作中的应用

九三 · 发表于 2016-8-6 22:03:04

欢迎您注册蒲公英

您需要登录才可以下载或查看，没有帐号？立即注册

x

配对t检验在实际工作中的应用

首儿数据统计学习群王文建

刚参加工作时，有前辈说检验很重要，产品质量就靠你们检验了，于是检验工作高大上起来；几年后，又有前辈讲，产品质量根本不是检验出来，而是生产出来，于是GMP开始风行大地；时光飞逝，到了近两年，又突然冒出个“QBD”，说质量压根就是设计出来的，是顶层设计……，一时间，飓风掀起千层浪，仿佛真相终于大白于天下了。呵呵，我也是要醉了，设计原本就很重要呀，事后诸葛亮，早已被天下耻笑上千年了。

前段时间一朋友，拿了一堆液相的验证数据，说这些数据七七八八的怎么分析呀，一看是呀！什么T检验、F检验都用不上，怎么分析？要来验证方案一看，方案中就没有考虑如何分析的事，只是先照葫芦画瓢做了一大堆工作，再一看从编、审、批一大堆人都签字了。汗颜，又被戴明说中了，签字人越多，差错越多。又是QBD的问题。

言归正传，上个月因为一个产品质量回顾中配对t检验的文章，在论坛里与蒲友进行了讨论，多谢蒲友指出其中的错误，但同时，就配对t检验的理解和应用，产生了不同的看法，为此，本文想从试验设计和应用比较两个方面，就配对t检验如何在工作中应用的问题，在此，再做一个比较完整的介绍。如果没有与这位蒲友的讨论，我也不会对这个问题有比较完整的认识。在这，再次感谢这位蒲友。同时，更要感谢我们学习群的吴遵高老师，是吴老师就这个问题，收集大量专著、文献和实例，不断教导下，才会使我们对这个问题有了与当初不一样的认识。

首先，t检验是以t分布为理论依据的假设检验方法，常用于来自正态总体，小样本资料的均值比较，t 检验从设计到分析有三种设计情况，如下：

一、单样本t检验：

单个样本的均值与已知总体均值比较的t检验，适用于单组设计，给出一组服从正态分布的定量观测数据和一个标准值（总体均值）的数据； 20160806 配对t检验在实际工作中的应用-图1.png

二、配对t检验：

配对t 检验的基本思想是将配对的两组相关数据转化为单组差值，进行配对差值的样本均值file:///C:/Users/ahwjw970/AppData/Local/Temp/msohtml1/01/clip_image002.png与总体均值μd=0比较的t检验。适用于配对设计成功，配对的差值服从正态分布的数据；配对差值的标准误与n1=n2=n时完全随机设计，两均值之差的标准误计算公式如下：

三、成组t检验：

适用于完全随机设计的两均值比较，要求个体之间相互独立，两组资料均服从正态分布且方差齐性，即为标准的双样本t检验。

四、我们重点来看一下，配对t检验，配对t检验从设计上分为3种情况，如下：

1、自身配对设计：

选择K个受试者，分别在甲、乙两个不同的试验条件（即某个因素的两个水平）下，测出每个受试者同一个指标的两个数值，并把它们配成一对。

2、同源配对设计：

选择K窝同种属的动物，将取自同一窝的两只动物配成一对。用随机的方法确定每对中的一只动物接受甲种处理，另一只接受乙种处理，分别从各只动物身上测出同一个指标的数值。将测自同一窝动物的两个数据配成一对。

3、条件相近者配对设计：

将条件（即重要的非处理因素）最接近的每两只受试者配成一对，共选择K对，其他与同源配对设计相同。

4、三种配对设计的比较：

如果甲处理是空白对照，乙处理是真正的处理，则自身配对设计能最大限度地排除个体差异对观测结果的影响，则它的效率最高。

如果甲、乙都是真正的处理（如两种药物），此时不适合选用自身配对设计，因为甲药物的作用可能会影响乙药物的疗效，此时宜选用后两种形式的配对设计，从同一对受试者条件接近程度来看，同源配对设计优于条件相近者配对设计。

5、配对设计数据分析的思路：

先考虑一个指标的情形，无论是采取上述3种配对设计中的哪一种形式，都可将每对中的2个数据相减（各对数据相减的顺序要一致）求出差值d，若处理的2个水平之间本质上没有差别，而且，配对的条件又十分严格，由每对数据所算得的差值d都应接近于零，于是，我们可将d的均值看作样本均值。把零看作理论均值，使配对设计问题转变为单组设计问题，即作d是总体均值与零比较的假设检验。

6、成对（成组、配对）观测数据分析的原则：（如下图）

在比较分析成对数据时，是采用配对t还是双样本t，首先从成对数据的物理意义上，去分析是不是具有相关性，如不具有相关性，则应进行双样本t检验分析；其次，如果成对数据间是有相关性的，则比较相关系数r的大小，如上图所示，也会有3种情况，大于0，小于0和等于0，分别进行配对t或双样本t检验。

而在比较假设检验的效率（准确性）高低时（例如比较配对t和双样本t哪种更高效时），有两种方法可供使用：

A、复杂但准确的方法：计算比较“检验功效或叫检验效能”（minitab 17以前的版本翻译为“检验功效和样本量”，minitab 17这版翻译为“幂和样本数量”），即（1-β），当存在显著效应或差异时找到这些效应或差异的可能性，数值高则效能高。

B、简单快捷方法：用标准差和置信区间进行比较，如下：

1、所得差值的标准差哪个更小，更小者效率高，准确；

2、相同的1-α置信区间，哪个范围更小，更小者效率高，准确；

1、从物理意义上分析，供需双方对同一交检批的原料含量进行检测分析，两对数据是相关的。

2、供需双方含量数据的相关系数r=0.1351>0（minitab 在计算相关系数时没有直接的方法，这里可以用excel中“CORREL”函数比较方便），应当用配对t检验；

3、供需双方数据的差值d，通过正态性检验，P＝0.879 ＞0.05，可以使用配对t检验；

4、做双样本t检验，与配对t检验结果比较：

5、配对t和双样本t的检验功效高低的两种方法比较：

A、用minitab 17 统计→幂和样本数量→配对t（双样本t）计算得下图：

小结：1、双样本t的功效值为14.7%，配对t的功效值为25.4%，配对t功率优于双样本t；

2、但在目前的样本量下，二种方法的功效都低，均小于75%的最低要求；

3、如果功效要达到90%，双样本t样本量要达到156，而配对t达到71，从这一点也可看出在本例中，配对t要比双样本t更高效。

B、用差值标准差和置信区间比较：

小结：1、配对t差值的标准差0.00492<双样本t差值标准差0.005205；

2、两者95%置信区间的范围配对t (-0.00105, 0.00490) <双样本t (-0.00106, 0.00490)

3、从逻辑和数据分析看，本例用配对t比双样本t效率高（准确）。

最终结论：配对t检验的P值＝0.184＞0.05，说明供需双方检验结果没有显著性差别。

再来看一下Minitab 17中的配对t检验的实例，体会一下质量源于设计和顶层设计，也避免做了一堆数据后，不知如何分析的问题，这样也能更好地理解配对t设计思路和原理。

例2：一家制鞋公司要对用于男童鞋鞋底的两种材料 A 和 B 进行比较。在此示例中，研究中的十个男孩都穿了一双特殊的鞋，一支鞋的鞋底由材料 A 制成，另一支鞋的鞋底由材料 B 制成。鞋底类型是随机分配的，以考虑到左右脚在磨损方面的系统差异。三个月后，对鞋的磨损情况进行测量。

对于这些数据，您将使用配对设计，而不是非配对设计（成组设计、或完全随机设计）。配对 t 过程的误差项可能比对应非配对过程的误差项小，因为它消除了由于对之间的差异而产生的变异性。例如，一个男孩可能生活在城市里，大部分时间在铺筑过的地面上行走，而另一个男孩可能生活在乡村，大部分时间在未铺筑过的地面上行走。（同源配对设计）

1、从物理意义上分析，材料A、B制成的鞋底，穿在同一个小孩的左右脚上，进行磨损测试，得到的两对数据是相关的；

2、材料A和材料B两组数据的相关系数r＝0.988226＞0，应当用配对t检验；

3、材料A、B差值d，通过正态性检验，P＝0.622 ＞0.05，可以使用配对t检验；

4、比较双样本t和配对t的差值的标准差：3.504＞0.387，配对t检验效率高；

5、比较双样本t和配对t的95%置信区间的范围：(-2.74, 1.92)＞(-0.687, -0.133)，配对t检验效率高；

6、比较双样本t和配对t的检验功效，配对t84.6%＞＞双样本t5.7%，配对更高效。

九三 · 发表于 2016-8-6 22:06:01

word版文件可同步下载看。

ravenhigh · 发表于 2016-8-6 22:32:55

回忆当年学的统计学，脑袋里冒出一个词“然并卵”...

syhorchid · 发表于 2016-8-6 23:44:43

谢谢分享

大呆子 · 发表于 2016-8-7 10:17:19

这篇文章非常专业，值得学习收藏

九三 · 发表于 2016-8-7 13:44:39

查了一下“然并卵”，原来是这个意思，

九三 · 发表于 2016-8-8 13:29:28

大呆子发表于 2016-8-7 10:17
这篇文章非常专业，值得学习收藏

谢谢，大版主的鼓励。

256k · 发表于 2016-8-10 06:01:58

文中第6项中，原文讲r<0采用两样本t检验，这点我有不同意见。无论是r>0还是r<0，只要ρ<0.05，都认为相关成立，都应使用配对t

globle002 · 发表于 2016-8-10 08:35:04

学习学习了啊

九三 · 发表于 2016-8-10 09:30:55

256k 发表于 2016-8-10 06:01
文中第6项中，原文讲r0还是r

如上图公式1所示，如果r＜0，则在其它条件相同的情况下，其标准差会变大。从理论讲，在这种情况下，配比t的标准差将必然大于双样本t的。

北重楼 · 发表于 2016-8-10 13:12:00

值得认真研究一下，药厂就是用统计学用的少

九三 · 发表于 2016-8-10 21:46:54

北重楼发表于 2016-8-10 13:12
值得认真研究一下，药厂就是用统计学用的少

先用起来就好，慢慢就带动起来了！

清风化雨 · 发表于 2016-8-13 07:43:23

谢谢交流!!

jeffy · 发表于 2016-8-13 10:37:04

写的非常好！可惜没看懂。

rubiae · 发表于 2016-8-13 14:43:00

谢谢分享

rubiae · 发表于 2016-8-13 15:31:56

非统计出身，看得云里雾里的

清风化雨 · 发表于 2016-8-22 09:04:55

谢谢分享!

谢松亭 · 发表于 2016-8-24 07:42:56

楼主，文中提到的统计的微信群可不可以给个微信号拉进去学习学习啊@ahwjw970

九三 · 发表于 2016-8-24 09:25:35

谢松亭发表于 2016-8-24 07:42
楼主，文中提到的统计的微信群可不可以给个微信号拉进去学习学习啊@ahwjw970

不是微信群，是个QQ群，首儿数据统计学习群 264834254；周一和周五晚上7：30到9：30上课，要能坚持才行，我们开始时也有近20人上课，每周3节课，经过2年，现在剩下5人，每周二节课了。

丁之章 · 发表于 2016-8-24 12:40:56

谢谢！很不错的学习材料

[统计应用] [原创]配对t检验在实际工作中的应用

欢迎您注册蒲公英

本帖被以下淘专辑推荐:

相关帖子

点评

点评

点评

点评

浏览过的版块