倾向得分10讲 1.从入门到精通,真实世界研究"倾向得分方法"10讲开启。 2.倾向得分的基本计算方法 倾向得分十讲(3):利用倾向得分开展分层与回归分析控制混杂偏倚 在之前第二讲中,我应用ogistic回归计算了倾向得分,并结合金字塔图分析组间均衡性。本讲在此基础上,谈一谈如何利用分层分析和回归分析发挥倾向得分的作用。 1.本讲案例 某研究团队基于队列研究研究美国初生婴儿中,造成低出生体重结局的影响因素,结局变量为是否娩出低出生体重儿,重点探讨饮酒对出生体重的影响,其它的变量还有产妇妊娠前体重、产妇年龄、种族、早产次数、是否患高血压等。 案例解析: 此案例暴露因素为饮酒(暴露组为饮酒=1,对照组为不饮酒=0),结局是出生体重(是=1,否=0),此外还有一系列的协变量,这些变量可能是混杂因素。在上一讲中,我利用了logistic回归将众多协变量综合形成计倾向得分,并绘制了倾向得分的金字塔图。 人口金字塔X轴是人数,Y轴是不同的倾向得分(0~1),可以看出不饮酒(蓝色)的倾向得分主要分布在0.5以下,而饮酒(红色)主要分布在0.4-0.6之间,两组人群倾向得分分布特征不一致(人口金字塔分布图不对称)。 这意味着暴露组人群倾向得分方法比较高,对照人群倾向得分比较低。在上一讲,我提到,倾向得分不一致,那就意味着分组不均衡。 2.如何利用倾向得分进行控制混杂因素 针对本案例,在绘制倾向得分金字塔图同时,也可以计算出两组的倾向得分均数,并进行t检验。t检验结果显示,饮酒组(均数=0.49)和对照组(均数=0.32)倾向得分存在着统计学差异(P<0.001),意味着分组不均衡,倾向得分很可能是一个混杂变量。 如何控制混杂偏倚呢?存在混杂变量,且整个研究就只有一个混杂变量的情况下,常见处理偏倚的有三种方法:第一种,分层分析;第二种,两因素回归分析(倾向得分变量+饮酒变量);第三种,倾向得分匹配方法进行统计分析。可能很多人一听到倾向得分,就联系到倾向得分匹配。但实则不然,前两种方法结果同样可靠。本系列是长系列推文,所以我想不妨先介绍前两种方法,而倾向得分匹配,我将在下讲进行介绍。 3.利用分层卡方检验分析进行定性结局的统计分析 分层卡方检验,也称为Cochran-Mantel-Haenszel检验(CMH检验),它主要用于定性结局的研究案例中,也就是在研究暴露/处理因素和结局事件关联性的基础上,考虑了分层因素的混杂作用。 CMH检验通过对分层因素进行控制,从而考察调整之后暴露/处理因素与结局事件之间的关联性。实际上CMH检验,已经不再是单纯的单因素分析,而是已经开始融入了多因素分析的思维模式,应该算作为一种最为简单的多因素分析方法。 CMH的优点是信息量比两因素回归分析多,因此CMH分析方法在倾向得分法起到的作用是探索性分析、尽量发掘更多的有用的信息。 在本例中,研究结局是是否低出生体重,暴露因素饮酒,分层变量是倾向得分。分析之前有个问题需要解决,CMH分析要求分层变量是分类变量,因此我们需要把倾向得分分类化。此处我取四分位数和中位数作为分类界值,将倾向得分分为四分类变量(<0.185,0.185-0.406,0.406-0.523,>0.523)<!--0.185,0.185-0.406,0.406-0.523,--> 接着,开展卡方检验(分析—描述统计—交叉表),倾向得分四分组变量作为分层变量 在右侧"统计"选项中,选中卡方和Cochran-Mantel-Haenszel检验(CMH检验,中文翻译很别扭)。 执行分析后,得到了多张结果表。在本例中,主要涉及一下两张表。第一章是卡方检验结果,分别列出分层卡方和原始卡方的分析结果。从下表中可看出,在四组不同倾向得分组中,P值均大于0.05;但最后"总计"一栏,它是2*2 四格表卡方检验的结果,是没有控制偏倚时的结果,P=0.045,却有统计学意义 。分层卡方和原始卡方检验结果不一致,这很可能意味着倾向得分是一个混杂着因素。因为如果不是,分组卡方和不分组卡方结果应该相似。 SPSS CMH检验得到最后一张表是给出OR值、可信区间和P值。P=0.137,是分层卡方检验调整混杂因素后的结果;比值比即为OR。 因此本例结果显示,在控制了倾向得分这一变量的影响后,合并OR=1.711,95% CI为0.843-3.473,OR值的假设检验计算的P值为0.137,饮酒因素对于该低出生体重的发生的影响没有统计学差异(之前未控制倾向得分的P值为0.045,具有统计学意义),此处进一步证实倾向得分导致了偏倚的产生。 4.利用回归进行混杂偏倚的控制统计分析 常见回归方法包括线性回归、logistic回归、COX回归,均可用于控制混杂偏倚。本例结局为二分类变量,因此选择logistic方法 首先,不妨开展单因素的logistic回归分析 单因素logistic显示,OR=1.889,P=0.047,差异有统计学意义。提示饮酒与低出生体重发生有关系。 接着,纳入倾向得分进行多因素的logistic回归分析 多因素logistic显示,OR=1.697,P=0.133,差异没有统计学意义。这提示饮酒与低出生体重发生没有关系,饮酒不是低出生体重的独立危险因素。 结束语:大家可以看出,分层卡方分析和logistic分析结果大同小异,相对来说CMH分析方法相对细致,但操作相对繁琐。logistic回归分析相对简单,在统计分析上更常见。但我认为统计分析不是一蹴而就的事情,应该多种方法加以验证比较,这样才能让你深入了解数据,发现数据背后的奥秘。 预告:下一讲将介绍倾向得分匹配的方法。 本号致力于医学科研方法分享,欢迎点击学习! meta分析 R语言 真实世界研究 统计技巧