倾向评分分层和回归浅析

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw2023110862 日期:2025-08-01 来源:论文网

【关键词】 倾向评分分层 回归分析

在流行病学研究中,分层分析和回归分析是资料分析阶段控制混杂偏倚的重要手段。将倾向评分法与传统的分层和回归结合,则可更有效地控制混杂偏倚,同时可以克服传统方法的一些局限性。

  一、原理和方法

  传统的分层分析是按照可能的混杂因素的不同水平将研究对象分为若干层,处在同一层的研究对象混杂因素趋于一致,可以直接比较效应。分别计算各层统计量(如t值、χ2值)和效应尺度(如OR、均数差值),然后再用某种方法(mantelhaenszel法、条件Logistic回归、Meta法等)合并各层效应尺度和统计量。随着混杂因素的数量增加,分层数将成指数倍数增加。假如所有混杂变量为2分类变量,则平衡k个混杂变量的分层数为2的k次方。如果k很大,很可能在某些层中只有处理组或非处理组的研究对象,从而无法估计这些层的效应。倾向评分分层分析(propensity score stratification)或称为亚分类分析(subclassification)原理与传统的分层分析方法基本相同,只是分层变量不是每个混杂变量,而是倾向评分值[1]。Rosenbaum和Rubin[2]研究发现,按照倾向评分合理地分层后,各层处理因素的效应是实际效应的一个无偏估计。如果分层后两组对象在各层的倾向评分均值非常接近,则各混杂因素在每一层的分布将趋于一致,此时可以认为各层中处理的分配是近似随机的。具体方法是:首先根据协变量和处理分组计算倾向评分值。将倾向评分值排序,然后按照倾向评分值的百分位数将全部研究对象划分若干个亚组或层(一般5~10层)。研究者根据两组人群的倾向评分或某一组人群的倾向评分来确定每一层的临界值。最常用的方法是根据两组共同倾向评分等分为若干层。在每一层内对两组的协变量和倾向评分分布进行均衡性分析。对连续性协变量做方差分析或t检验,对分类协变量作χ2检验。如果均衡性较差,则要重新分层或修改模型重新计算倾向评分值,如增加或减少某个协变量或交互项,然后用与传统分层分析相同的方法计算和合并各层统计量和效应尺度。

  倾向评分回归调整(propensity score regression adjustment)是将倾向评分作为协变量引入最后的模型中,分析处理因素与结局变量之间的因果联系及联系强度[3]。由于倾向评分综合了各协变量在两组中的分布信息,特别是分布差异较大的协变量的信息,因此将倾向评分纳入到最终的模型中就可以调整各协变量的效应。通常有以下几种调整策略。最简单的方法是只将倾向评分和处理因素作为自变量纳入最终模型进行效应分析。倾向评分变量可以是倾向评分值,也可以是分层赋值,如果将评分等分为5层,则赋值为1、2、3、4、5。另外,研究者在实际中还可以把一些重要的变量与倾向评分一同加入最终的模型进行调整,这样可以更好地排除重点变量的影响。还有一种方法是研究者在倾向评分分层的基础上进行倾向评分回归调整,进一步消除层内的残余混杂[3]。

  二、应用实例

  产程中积极管理包括适时阴道检查、早期诊断处理异常分娩、早期人工破膜以刺激宫缩、缩宫素的合理使用等内容。一般认为产程中积极管理有助于降低剖宫产率。产程中积极管理试验(active management of labor trial,ACT)是一项随机对照研究[4]。该研究主要目的是观察产程中积极管理与剖宫产发生率的关系。研究人员利用这一研究的数据,想进一步研究硬膜外分娩镇痛是否影响初产妇剖宫产的发生率[3,5]。由于本研究中硬膜外分娩镇痛不是随机分配的,因此研究者利用倾向评分分层分析来控制各种混杂因素。研究人群共包括1 778名初产妇女,其中1 003名(56.4 %)接受了硬膜外分娩镇痛(处理组),775名(43.6 %)没有接受(对照组)。研究者确定了14个可能需要平衡的混杂变量,各变量在两组中的分布,见表1。表1 分层前后接受和未接受硬膜外分娩镇痛的妇女注:*P&<0.05;**P&<0.01;***P&<0.001。#分层前为双侧t值的平方;分层后为双因素方差分析调整倾向评分分层后处理组作为主效应的F值

  作者将这些变量作为自变量,将硬膜外分娩镇痛作为因变量构建Logistic回归,计算出倾向评分。将人群按照两组共同倾向评分等分为5层后,用双因素方差分析(倾向评分分层和分娩镇痛两因素)评价各变量在两组中的均衡性。从表1结果可以看到,分层后各变量的分布趋于一致。研究者还分析了上述两因素之间的一级交互项。发现倾向评分分层与处理因素之间在入院时宫口扩张程度的交互项差异显著(F=3.16,P=0.013)。进一步比较各层两组之间在入院时宫口扩张程度的均值发现,前4层中两组均值非常相近,而最后1层两组均值相差较大,平衡效果不佳(见表2,图1)。从图1还可以直观地发现,两组均值大小关系在前后各层之间存在交叉现象。这些差异可以解释研究者观察到的倾向评分分层与处理因素之间的交互作用。为了更好地平衡混杂偏倚,研究者把分娩镇痛(处理因素)、倾向评分值以及重点混杂变量(如本例的入院时宫口扩张程度)作为自变量,把结局变量剖宫产(是/否)作为因变量进行多因素条件Logistic回归,分析处理因素的效应。最后发现,平衡各混杂因素作用后,硬膜外分娩镇痛仍然导致剖宫产率显著升高(OR=3.7; 95 %CI: 2.4~5.7)[5]。表2 分层前后两对比组中入院时宫口扩张程度比较

  图1 分层前后两组中入院时宫口扩张程度比较 三、倾向评分分层和回归分析中需要注意的问题

  1.倾向评分分层分析中需要注意的一些问题:在进行倾向评分分层分析时,研究者应该首先对两组的倾向评分值的范围进行分析和比较。处理组和对照组的倾向评分值必须有足够的重叠范围,否则无法做出有效的平衡。如处理组的倾向评分值范围为0.05~0.8,对照组的倾向评分值范围为0.3~0.95,则合理的评价范围大约在0.3~0.8之间。对于对比组中远离倾向评分重叠范围的极端个体,识别和剔除将能够保证边缘层研究对象的可比性。传统的多因素分析方法难以识别这些极端个体,可能受到模型的误判。如Glynn等[6]在新泽西州的研究发现,体质较弱并有多种疾病的老年人较少使用降脂药物。研究者利用计算倾向评分识别出这类极端个体,剔除了这些没有对照的极端个体后进一步进行分析发现,降脂药物对老年人群有明显的益处。

  分层方法可以多种多样,而不是固定不变的。研究者可以根据样本情况决定分层数量和各层临界值,主要原则是分层后能最大限度地保证各层倾向评分值的一致性。理论上讲,分层越多,层间距越小,则层内残余偏倚越小,可比性越强。如果分层过少,则层内可比性差,按层调整后也不能很好地消除组间差异。但是,如果分层过多,就会减少层内样本量,从而影响效应估计的稳定性,使推论可靠性下降。也可能导致某一层中的研究对象太少而无法进行效应估计。Cochran[7]研究发现,将观察性研究中的研究对象按照某个混杂变量分为5层,就可以去除其90%的偏倚。Rosenbaum和Rubin[1]认为按照倾向评分分层具有同样的平衡效果。一般情况下,分层数量在5~10层比较合适。当然,如果研究的样本数量足够大,能够保证对比组在各层中的样本量,适当增加分层数量可以更好地平衡组间差异。

  倾向评分分层降低了由于非随机分组所带来的组间偏倚,改善了组间可比性,从而得到对真实效应更精确的估计。由于倾向评分分层将各种混杂变量综合为一个变量,只按照一个变量进行分层,因此解决了传统分层方法中当需要平衡的混杂因素较多,导致分层数量太大而不可行的问题。与倾向评分配比相比,由于其纳入了全部或绝大多数的研究对象,因此其分析结果外推一般人群的代表性更好。当然,倾向评分分层分析方法也有同倾向评分配比类似的局限性,例如该方法只能调整观察到的变量,而不能像随机化那样同时平衡所有变量的分布,包括观察到的和未观察到的变量。另外,倾向评分估计建立在样本量足够大的条件下。在某些情况下,对于样本量较小的研究或混杂变量组间差异过大的研究(倾向评分重叠范围小),即使使用倾向评分分层进行调整,也无法消除该变量的组间不均衡性。

  2.倾向评分回归分析需要注意的一些问题:Rosenbaum和Rubin[8]发现,如果多变量调整和多变量判别分析所用的协方差矩阵相同,一组协变量X对处理因素效应的多变量调整的点估计值与基于这组协变量X构建的线性判别式函数的单变量调整的结果是相同的。也就是说,如果用Logistic回归计算了倾向评分值,最终效应也用Logistic回归模型估计,计算倾向评分的协变量不变,则直接用各协变量进行调整后的效应点值应该与用倾向评分调整后的效应点值相同。既然如此,为什么还要使用分两步走的倾向评分调整而不是直接用多因素模型进行效应估计呢?主要的优势是研究者可以首先构建复杂的模型(如纳入较多的变量或增加复杂多级交互项)来计算倾向评分,然后在最后的效应模型中使用少量的重点变量与倾向评分共同调整。由于倾向评分计算中不涉及结局变量,因此不用担心参数过多的问题及共线性的问题。在医学生物学研究中,自变量间的相关性或共线性问题,是产生有偏估计的重要来源。倾向评分综合了全部混杂因素的共同作用,将众多的因素综合为一个变量,使估计因果联系的模型简单化,也可以最大限度地减少共线性作用所导致的偏差。由于最终模型中只包括少量的自变量,对模型的诊断比同时纳入较多变量要容易和可靠[7]。此外,当观察的结局发生率较低,而混杂因素又较多的时候,往往很难找到合适的模型来估计最终的效应。如果用倾向评分法首先对混杂因素进行平衡后,再观察处理因素与结局变量的关系,则观察的效应会更为可靠。

  在某些情况下,使用倾向评分回归调整要慎重。Rubin[8]发现,如果处理组和对照组的协方差差别很大,此时判别函数不是倾向评分的单调函数,则倾向评分调整可能增加预期的偏倚。在这种情况下,研究者利用倾向评分配比或分层分析更为合适。

参考文献


  1Rosenbaum PR, Rubin DB. Reducing bias in observational studies using subclassification on the propensity score[J]. J Am Stat Assoc,1984,79: 516524.

  2Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects[J]. Biometrika, 1983, 70, 4155.

  3D’Agostino RB. Propensity score methods for bias reduction in the comparison of a treatment to a nonrandomized control group[J]. Stat Med, 1998, 17: 22652281.

  4Frigoletto FD, Lieberman E, Lang JM., et al. A clinical trial of active management of labor[J]. N Engl J Med, 1995, 333: 745750.

  5Lieberman E, Lang JM, Cohen A, et al. Association of epidural analgesia with caesareans in nulliparous women[J]. Obstet Gynecol, 1996, 88: 9931000.

  6Glynn RJ, Schneeweiss S, Wang PS, et al. Selective prescribing led to overestimation of the benefits of lipidlowering drugs[J]. J Clin Epidemiol, 2006, 59: 819828.

  7Cochran WG. The effectiveness of adjustment by subclassification in removing bias in observational studies[J]. Biometrics, 1968, 24: 205213.

  8Rubin D B. Using multivariate matched sampling and regression adjustment to control bias in observational studies[J]. J Am Stat Assoc, 1979,74: 318324.

如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100