关于多重填补处理有缺失数据的2×2交叉设计资料的计算机模拟

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202397591 日期:2025-03-21 来源:论文网

       者:李清华 夏结来 薛富波


【关键词】 缺失数据
  【Abstract】 AIM: To handle 2×2 crossover data set with missing data by using Multiple Imputation method provided by Rubin and to avoid the difficulties in statistical analysis owing to missing data in medical research. METHODS: We used MI to fill in missing data and analyzed the multiply imputed data sets with standard statistical procedure, then combined the statistical inferences with MIANALYZE procedure. RESULTS: The multiple imputation method imputed missing values of the crossover design and generated valid statistical inferences. CONCLUSION: MI and MIANALYZE procedures provide a valid strategy for handling 2×2 cross over data set with missing data.
  【Keywords】 multiple imputation analyze; missing data;cross over design
  【摘要】 目的: 探讨利用Rubin提出的多重填补的方法处理有缺失数据的2×2交叉设计的资料,以避免医学科研中常常发生观测数据的缺失而造成统计分析的困难. 方法: 用MI对缺失数据进行填补,用标准的统计程序对填补后的数据集分析,最后用MIANALYZE综合各个数据集的统计分析结果. 结果: 多重填补的方法可用于交叉设计中缺失数据的填补并得出正确的统计推断. 结论: MI与MIANALYZE为处理存在缺失数据的2×2交叉设计的资料提供了有效的策略.
  【关键词】 多重填补分析; 缺失数据;交叉设计
  0引言
  交叉设计是临床试验中比较两种处理A,B效应的常用方法. 其优点是减少个体差异对试验结果的影响,减小样本量. 但长期以来如何处理交叉设计的缺失数据是一个棘手的问题,临床试验中最常用的处理缺失数据的LOCF(Last Observation Carried Forward)原则并不适合于交叉设计. 通常,当受试者有一阶段的数据缺失时,则把受试者的信息全部剔除. 这造成了资源的极大浪费,特别是在样本量较小的情况下.
  1976年,Rubin[1]提出了处理缺失数据的多重填补(multiple imputation,MI)的方法[2]. 多重填补用一系列可能的值来替换每一个缺失值,以反映被替换的缺失数据的不确定性. 然后,用常规的方法对多次替换后产生的若干个数据集进行分析,最后用多重填补分析(multiple imputation analyze, MIANALYZE)把来自于各个数据集的统计结果进行综合. 这种方法反映出了由于数据缺失而导致的不确定性,能够产生更加有效的统计推断[3]. 在近二、三十年来,随着计算方法的不断成熟和相应统计软件的出现,这一方法被认为是解决缺失值问题的首选方法.
  根据多重填补与多重填补分析的方法及其统计推断原理,可以利用SAS程序处理有缺失数据的2×2交叉设计的资料. 由于多重填补只处理包含两个变量以上的资料,在SAS程序中先按处理重复资料的方式排列2×2交叉设计的资料,用PROC MI进行填补,然后利用SAS程序对填补后的m个数据集进行转换,对转换后的数据集用GLM分析,最后用PROC MIANALYZE的ods output语句读取对m个数据集分析后得到的参数估计和协方差矩阵,得出综合的统计推断结果. 多重填补与多重填补分析的整个过程可以用Fig 1表示.
  1计算机模拟与分析
  为了验证多重填补方法处理有缺失数据的2×2交叉设计资料的有效性,建立线性模型如下[4]:
yij=β0+β1x1ij+β2x2ij+μ0j+eij
以yij表示第j个患者的第i次测量值,以x1ij表示A, B两种处理的哑变量,x2ij表示两个试验阶段的哑变量,它们均为0, 1变量. j=1,2,…,100,…表示患者,i=1,2,表示重复测量值. β0为固定效应估计值. 残差μ0j为随机变量,μ0j~N(0,σμ02),反映了患者间变异,残差eij即通常的残差项,eij~N(0,σe02).
  交叉试验主要关心A,B处理间的差别,所以在计算机模拟时,重点考虑β1的取值并且在模拟结果中只分析处理效应的检验效能. 先根据建立的模型,利用Monte Carlo模拟创建一个完全数据集,然后用SAS程序把这个完全数据集随机去掉几个测量值,变成缺失数据集,再对有缺失值的数据集进行填补. 用常规的统计方法分别对完全数据集、有缺失值的数据集以及多重填补后的数据集进行统计分析,并比较它们的检验效能. 现用下面几个图表述主要研究结果:
  Fig 2是样本量为24,两总体均数之差为0.1,完全数据集、有不同缺失值的数据集以及对缺失数据集各填补5次后的检验效能的比较. 从Fig 2可以看出,完全数据集的检验效能最高,随着缺失值的增加,检验效能越来越低,对缺失数据集进行多重填补处理后,检验效能明显提高,其中,对缺失3个值的数据集填补5次后,检验效能基本上接近于完全数据集的检验效能.

  Fig 3是样本量为24,两总体均数之差为0.1,完全数据集、有5个缺失值的数据集以及对缺失数据集填补3次、5次和10次后得到的检验效能的比较. 从Fig 3可以看出,对缺失数据集不做任何处理时,检验效能最低,随着对缺失数据集填补次数的增加,检验效能越来越高. 对缺失数据集填补10次后的检验效能基本上接近完全数据集的检验效能.
  Fig 4是两总体均数之差为0.1,样本量从10增加到60,完全数据集、缺失3个值、缺失5个值的数据集以及分别对它们填补5次后得到的检验效能的比较. 从Fig 4可以看出,当样本量很小时,完全数据集、缺失数据集以及对缺失数据集进行填补分析后得到的检验效能都非常低,随着样本量的增加,检验效能都显著上升,对缺失3个值的数据集填补5次后得到的检验效能基本上接近于完全数据集的检验效能.
  Fig 5是样本量为24,两总体均数之差从0.01增加到0.2,完全数据集、缺失3个值、缺失5个值的数据集和分别对它们填补5次后的检验效能的比较. 从Fig 5可以看出,随着两总体均数相差的绝对值越来越大,完全数据集、缺失数据集以及对缺失数据集进行填补分析后得到的检验效能都明显上升. 比较5种数据集的检验效能,随着缺失值的增加,检验效能明显下降,对缺失数据集进行多重填补处理后得到的检验效能优于不对缺失数据集做任何处理.
  Fig 6是两总体均数之差为0.1,样本量从10增加到60,完全数据集、缺失5个值的数据集以及对缺失数据集分别填补3次、5次和10次后的检验效能. 从Fig 6可以看出,随着样本量的增加,5种数据集的检验效能都明显提高,对缺失数据集进行多重填补处理后,检验效能显著提高,随着填补次数的增加,检验效能基本上接近于完全数据集的检验效能.
  Fig 7是样本量为24,两总体均数之差从0.01增加到0.2,完全数据集、缺失5个值的数据集以及对缺失数据集分别填补3次、5次和10次后得到的检验效能的比较. 从Fig 7可以看出,随着两总体均数之差增加,5个数据集的检验效能都明显提高,对缺失数据集进行多重填补处理后的检验效能高于不对缺失数据集做任何处理. 并且,随着填补次数的增加,检验效能越来越接近于完全数据集得出的检验效能.
  2讨论
  Fig 2~7显示了相同参数组合下以及不同参数组合下,完全数据集、缺失数据集以及对缺失数据集多重填补处理后得到的检验效能. 通过对检验效能的比较,可以看出随着填补次数的增加检验效能基本上接近于完全数据集的检验效能.
  MI与MIANALYZE是SAS 9 STAT模块中处理包含多个变量的不完全数据集资料的过程. 用这两个程序处理2×2交叉设计的资料,可以用SAS程序对数据集转换,满足MI要求的数据集包含多个变量这一条件,再做统计分析. 用多重填补的方法处理有缺失数据的2×2交叉设计的资料,改进了以往剔除在任一阶段退出治疗的受试者的全部信息的方法,避免了资源的浪费,尤其在样本量较小的情况下. 经过计算机几十万次的模拟结果可以验证它反映了由于数据的缺失而导致的不确定性,通过对填补后的多个数据集的综合统计推断,能够得出有效的统计分析结果.
  

参考文献


  [1] Rubin DB. Multiple imputation: A primer [J]. Stat Methods Med Res, 1999; 8(1):3-15.
  [2] 曹阳, 谢万军, 张罗曼. 多重填补的方法及其统计推断原理[J]. 中国医院统计,2003; 10(2):77-81.
  Cao Y, Xie WJ, Zhang LM. Multiple imputation and associated statistical inferencial principle[J]. Chin J Hosp Stat, 2003; 10(2):77-81.
  [3] James MR. Inference for imputation estimators [J]. Biometrika, 2000; 87(1):113-124.
  [4] 李晓松, 张文彤, 倪宗瓒. 多水平模型在交叉设计资料分析中的应用[J]. 中国卫生统计, 1999;16(5):273-274.
  Li XS, Zhang WT, Ni ZC. Multilevel models using in crossover design data[J].Chin J Health Stat, 1999;16(5):273-274.
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100