作者:张金旺 刘红 华琳 闫岩 李林
【摘要】 运用非线性回归法拟合生存资料。方法:对原始数据作生存函数分析,用PL法估计的生存率作因变量,生存时间为自变量,建立多种非线性回归方程并作比较。结果:若生存资料符合某种特定的分布,选择参数模型分析更准确。
【关键词】 生存分析; 非线性回归; 拟合
在医学研究中,凡涉及到肿瘤治疗的文章都离不开生存分析。生存分析主要有3类方法,分别为非参数法、半参数法和参数法。非参数法只适合处理简单的单因素问题,目前使用较多的是半参数模型,即Cox回归模型。Cox模型适用条件宽,便于作多因素分析,所以被医学工作者广泛使用。但它是在假定不同个体的死亡风险在所有时间都保持一个恒定的比例的条件下提出的,有一定缺陷。当拟合资料服从已知分布时,采用参数模型作回归分析将更加合理,且精度更高[1]。文献[2]讨论了生存分析中确定两种参数模型(指数模型和威布尔模型)的方法,其思想是将两种生存函数表达式作对数线性化,通过线性回归分析及对回归系数的检验和确定系数来判断生存资料更适合哪种模型。而实际应用中,有很多生存函数是非线性的,不能通过简单的取对数后线性化。文献[3]指出在有些情况下,非线性回归模型即使被转化为线性回归模型,但转化后的线性回归模型的正规方程组关于新回归系数是线性的,而关于原回归系数则是非线性的。所以本研究讨论直接使用非线性回归模型拟合生存资料并用实例说明。
1 非线性回归的基本思想
非线性回归的基本思想是采用高斯牛顿(GaussNewton)迭代法求解非线性代数方程组,在最小二乘意义下确定函数中的参数值,使得残差平方和达到最小,确定系数达到最大。在求解非线性代数方程组的过程中必须先给出参数的初始值,若初始值选择不当,会造成迭代不收敛,使非线性回归无法进行下去。使用SPSS软件中的非线性回归模块还可得到回归参数的近似95%置信区间及近似标准差。
2 常见的生存函数模型
常见的生存函数模型主要有以下几种[4]:
① 指数分布: S(t)=e-λt,t≥0,λ&<0 ,λ称为尺度参数。
② 威布尔(Weibull)分布
S(t)=e-(λt)γ,t≥0,λ&<0 ,γ&>0
λ称为尺度参数,γ称为形状参数。
③ 对数正态分布
S(t)=1-P(T≤t)=1-〖JF(Z〗lnt012πσe-(x-u)22σ2dx〖JF)〗
其中u和σ 分别lnT的总体均数和标准差,u称为位置参数, σ称为尺度参数。 其中α称为位置参数,β称为尺度参数。 3 实例分析 3.1 参数初始值的选取(表2) 表2 4种模型的初始值选取(略) 3.2 结果分析 表3 4种模型的拟合结果(略) 从表3中可以看到,以PL法估计的生存率S(t)作为标准,采用威布尔分布函数模型作回归分析,得到的确定系数最高,拟合的效果最好。故该生存资料应选择威布尔模型探讨影响患者生存期的危险因素。4种模型的拟合结果图见图1。 4 讨论 【参考文献】
④ Logistic分布
S(t)=exp{-(t-α)/β}1+exp{-(t-α)/β}, -∞
⑤ 伽玛分布(Gamma)
S(t)=1-P(T≤t)=1-〖JF(Z〗t0≤βαtα-1e-βt/ Γ(α),〖JF)〗α,β&>0,t≥0
其中α称为位置参数,β称为尺度参数。
⑥ 极值分布
S(t)=exp[-exp(t-ub)],-∞
其中u称为位置参数,b称为尺度参数。
⑦ 对数Logistic分布:
S(t)=P(T≥t)=P(lnT≥lnt)=exp{-(lnt-α)/β}1+exp{-(lnt-α)/β},0
其中α称为位置参数,β称为尺度参数。
实例引用文献[5]中的生存数据进行分析,判断数据适合的分布。数据见表1。
设生存时间t为自变量,用乘积极限法(PL)估计的生存率S(t)为因变量,建立非线性回归模型拟合。由于对数正态分布与伽玛分布的模型表达式比较复杂,所以选择生存函数分别为指数分布, 威布尔分布,Logistic分布与极值分布作数据拟合。
表1 乘积极限法估计生存率计算表[5](略)
拟合优度检验证明此资料可以用这4种分布拟合。模型的确定系数,参数估计值及置信区间见表3。
在生存资料分析中Cox模型虽然应用广泛,但有适用范围和局限性,不能随便套用。可通过残差分析检验资料是否满足Cox模型应用的条件[1],以保证结果的准确性。
若生存时间服从特定概率分布(如指数分布、威布尔分布、对数正态分布),应采用参数回归模型进行多因素分析,可提高精度和准确度。
图1 4种模型拟合结果图(略)
采用非线性回归拟合法可以帮助确定生存时间更适合的分布,如本资料威布尔分布的拟合效果最好。只要知道模型的表达式,就可以采用非线性回归模型进行拟合。当然, 还应作拟合优度检验以确定资料适合的分布。对于那些可线性化的非线性回归模型来说,在SS回归=(yi-i)2 极小的意义下,直接作非线性拟合的结果要比线性化后拟合的效果好。但非线性回归必须指定合理的参数初始值,否则可能迭代不收敛。
采用非线性回归拟合法可以得到模型参数的近似95%置信区间。本资料中参数的置信区间较大是因为样本量较小,可通过增大样本量的方法缩小置信区间。
1 贾红英,等.几种生存分析参数模型拟合法及其应用.中国卫生统计,2004,21(4):201~204.
2 杨肇,等.生存分析中确定两种寿命分布的方法.中国卫生统计,2003,20(1):9~11.
3 葛新权.线性化非线性回归预测模型质疑.预测,1999,1:77~78.
4 孙尚拱,编著.医学多变量统计与统计软件.北京:北京医科大学出版社,2000,10.
5 余松林,著.医学统计学.北京:人民卫生出版社,2002.