作者:唐俐玲,翟晓红,王萍,何会女
【摘要】 目的 探讨累积比数logit模型在有序分类资料中的正确应用。方法 利用在陕西某地开展的一项队列研究数据,分别采用累积比数logit模型和偏比例优势模型进行分析,对二者的结果进行比较。结果 在资料不符合比例优势假定的情况下,直接采用累积比数logit模型不一定合适。结论 累积比数logit模型的应用有一定的条件限制,当不符合其应用条件时,最好采用其他相应方法。
【关键词】 累积比数logit模型; 比例优势假定; 偏比例优势模型
Abstract: Objective To investigate the correct application of cumulative odds logit model on the ordinal data. Methods The cumulative odds logit model and partial proportional odds model were used for the data from a cohort study in Shaanxi Province, and the results were compared. Results The cumulative odds logit model might not be appropriate when the proportional odds assumption was violated. Conclusion The application of cumulative odds logit model is dependent on certain conditions. It is advisable to adopt other methods when the condition of cumulative odds logit model were violated.
Key words: cumulative odds logit model; proportional odds assumption; partial proportional odds model
累积比数logit模型是二分类logit模型的扩展[1-2],主要用于处理反应变量为有序分类变量的资料。该模型对资料要求不严,解释变量既可以是连续型变量,也可以是无序分类变量或有序分类变量。Amstrong等[3]经模拟实验发现,对于多分类有序反应资料,如果采用一般的二分类logit模型而不是累积比数logit模型,则只能获得50%~70%的检验效能。说明在处理有序分类数据方面,累积比数logit模型要优于二分类logit模型。但目前对该模型的使用条件、拟合优度等内容极少有探讨。最近几年已有不少文章对二分类logit模型的正确应用进行了探讨[4-8],而对累积比数logit模型的研究却不多见。本文通过实例对累积比数logit模型的使用条件和拟合优度评价进行了探讨,为其正确应用提供借鉴。
1 材料和方法
1. 1 资料来源 资料来自于陕西某地开展的胃黏膜病变与幽门螺杆菌关系的队列研究。为探讨幽门螺杆菌与胃黏膜病变进展的关系,对400例浅表性胃炎患者检测幽门螺杆菌感染状态,将其分为感染阳性和阴性2组,同时调查了2组患者的吸烟、饮酒情况,并对所有患者进行随访。
1.2 胃黏膜病理诊断 用胃内镜观察胃黏膜病变,并在胃体大小弯、胃角、胃窦大小弯、前后壁各取胃黏膜活检组织1块。病理切片按照全国胃、十二指肠活检、病理诊断标准进行诊断。每个受检对象以最严重病变为第一诊断。病变严重程度由轻到重依次为浅表性胃炎(superficial gastritis, SG)、慢性萎缩性胃炎(chronic atrophic gastritis, CAG)、肠上皮化生(intestinal metaplasia, IM)和异型增生(dysplasia, DYS)。
1.3 统计学处理 本研究中的反应变量为病变的不同严重程度,为有序分类资料。分析方法分别采用累积比数logit模型和偏比例优势模型进行拟合。数据分析采用SAS 8.1统计软件。P<0.05为差异有统计学意义。
2 结 果
2.1 累积比数logit模型分析 病例随访5年后,共失访26例,剩余的374例中,135例仍为正常或SG,139例进展成为CAG,59例进展为IM,41例进展为DYS。多因素分析结果显示,校正性别、年龄、吸烟、饮酒等因素后,幽门螺杆菌对胃黏膜进展的影响无统计学意义(χ2=2.7439,P=0.0976)。见表1。
对该资料的比例优势假定条件进行检验,结果发现该资料不满足比例优势假定条件(χ2=38.85,P=0.0004),说明该资料采用累积比数logit模型分析可能并不合适。对模型的拟合优度进行分析,结果显示,Deviance值和Pearson χ2值对应的P值均小于0.05,说明模型拟合欠佳。表1 累积比数logit模型的参数估计
2.2 偏比例优势模型分析 偏比例优势模型也是基于累积logit的一种方法,但是它放宽了比例优势假定条件[9-11]。采用偏比例优势模型分析结果显示(表2),幽门螺杆菌对胃黏膜进展的影响有统计学意义(P=0.0113),这一结果与目前临床和流行病学研究结果是一致的。而且从参数估计的标准误来看,表2中的标准误均小于表1中的标准误。表2 偏比例优势模型的参数估计
3 讨 论
本次研究分别采用累积比数logit模型和偏比例优势模型对同一组数据进行分析,结果发现,在数据违反比例优势假定条件的情况下,2种模型拟合结果差别较大。累积比数logit模型结果显示幽门螺杆菌对胃黏膜病变的影响无统计学意义,而偏比例优势模型则表明幽门螺杆菌的影响有统计学意义。从统计学角度和实际角度综合考虑,偏比例优势模型的误差更小,且结果更为符合实际,提示本研究数据采用累积比数logit模型不合理。
实际中应用累积比数logit模型时,主要注意的使用条件就是比例优势假定条件,即自变量的回归系数应与分割点k无关[12]。换句话说,无论从哪一点分类,对所有的累积logit,变量χk都有一个相同的βk估计。对于一个自变量χk而言,不同累积比数发生比的回归线相互平行,只是截距参数有所差别。以前有研究认为,累积比数logit模型对这一条件并不敏感,但本次研究发现,当这一基本假设条件不满足时,结果的检验效率会降低,容易产生假阴性错误。
对于累积比数logit模型的拟合效果,可通过Pearson χ2和Deviance值来判断。Pearson χ2通过比较模型预测的和观测的事件发生和不发生的频数检验模型成立的假设,其自由度为自变量不同水平的组合数目与参数数目之差,χ2统计量小就意味着预测值与观测值之间没有显著性差别,可认为模型较好地拟合了数据。Deviance通常称为偏差,它是通过似然函数来测量所设模型与饱和模型之间的差异程度。当Deviance值较小时,可认为所设模型与饱和模型之间的差异小,即所设模型拟合较好。这2个指标值在多数情况下是一致的,如果存在不一致,一般认为,当用最大似然值拟合logit模型时,Deviance值比Pearson χ2值更适用于测量拟合优度[13]。需注意的是,当模型中含有连续变量时,Pearson χ2和Deviance指标将不再近似于χ2分布,从而也不再适用于拟合优度评价。Bender等[14]建议,如果累积比数logit模型含有连续变量时,最好采用单独的二分类logit模型利用Homser-Lemeshow指标进行评价。Pulksteins等[15]则提出了一种修正Pearson χ2和Deviance值,用于含连续变量的累积比数logit模型的拟合优度评价等。
总之,累积比数logit模型的应用不仅仅是参数求解,而是包含了一系列过程,如变量正确赋值、变量的初步描述、图示检查、变量选择、参数求解、拟合优度评价、结果的合理解释等。它需要对专业和统计学知识的全面了解,也需要一个实事求是的态度。只有准确掌握应用条件,恰当地对模型进行评价,并结合专业知识进行合理的解释,才能得出可靠的结论。
参考文献
[1] Bender R,Gruven U.Ordinal logistic regression in medical research[J].J R Coll Physic Lond,1997,31(5):546-551.
[2] McCullagh P.Regression models for ordinal data [J].J R Stat Soc(B),1980,42(2):109-142.
[3] Amstrong BG,Sloan M.Ordinal Regression models for epidemiologic data[J].Am J Epidemiol,1989,129(1):191-204.
[4] 冯国双,陈景武,周春莲.logistic回归应用中容易忽视的几个问题[J].中华流行病学杂志,2004:25(6):544-545
[5] 赵宇东,刘嵘,刘延龄,等.多元logistic回归的共线性分析[J].中国卫生统计,2001,17(5):259-261.
[6] 罗登发,余松林.条件logistic回归模型的残差分析和影响诊断[J].中国卫生统计,1997:14(1):13-15.
[7] 魏朝晖.logistic回归诊断[J].中国卫生统计,2001, 18(2):112-113.
[8] 赵清波,徐勇勇,夏结来.logistic回归中高杠杆点的检测[J].中国卫生统计,1997,14(2):17-20.
[9] Bender R,Benner A.Calculating ordinal regression models in SAS and S-Plus[J]. Biom J,2000,42(6):677-699.
[10] Peterson B, Harrell F.Partial proportional ordinal model for ordinal response variables[J].Appl Statist,1990,39(2):205-217.
[11] Lall R,Campbell MJ,Walters SJ,et al.A review of ordinal regression models applied to health-related quality of life assessments[J].Stat Methods Med Res,2002,11(1):49-67.
[12] Fahrmeir L, Tutz G.Multivariate statistical modeling based on generalized linear models [M].2nd ed. Berlin:Springer-Verlag,1998:75-79.
[13] 王济川, 郭志刚.Logistic回归模型——方法与应用[M].北京:高等教育出版社,2001:58-65.
[14] Bender R,Gruven U.Using binary logistic regression models for ordinal data with non-proportional odds[J].J Clin Epidemiol,1998,51(10):809-816.
[15] Pulksteins E,Robinson TJ.Goodness-of-fit tests for ordinal response regression models[J]. Stat Med,2004,23(6):999-1014.