【摘要】 目的 在时间序列模型理论的基础上,通过时间序列模型对海西州地区的胆结石月发病率进行研究,建立相应的ARIMA模型和ARCH模型并进行预测和评价。方法 通过EViews软件对青海海西州地区胆结石发病例监测登记资料进行统计分析,利用原数据建立ARIMA模型和ARCH模型,并通过所建模型对胆结石月发病率的变化趋势和原始序列的预测,确定所建ARIMA模型和ARCH模型的优劣性。结果 ARCH模型的预测结果较ARIMA模型理想,适合描述海西州地区胆结石月发病率的变动趋势。结论 ARCH模型可作为海西州地区胆结石月发病率的预测模型,且通过此模型可帮助人们了解胆结石月发病率的发展趋势,有重点地对胆结石进行健康防治工作,有效地降低胆结石对人们的危害。
【关键词】 ARIMA模型;ARCH模型;时间序列分析;胆结石
【Abstract】 Objective To buid ARIMA and ARCH models on the basis of time series model theory, and forecast the gallstone month incidence in Haixizhou region.Methods EViews software was used to analyze the gallstone month incidence in Haixizhou region, ARIMA and ARCH models were built to forecast the variation trend of gallstone month incidence. Results The predicted result of ARCH model was much fitted than that of ARIMA model and the ARCH model was much fitted to describe the dynamic characteristics of gallstone month incidence. Conclusions ARCH model can be used as the forecasting gallstone month incidence, which can help people comprehend the variation trend and regularity for seasonal change of gallstone month incidence, focus on the work of gallstone healthy protection, effectively reduce the hazards of gallstone to human.
【Key words】 ARIMA model; ARCH model; Time series analysis; Gallstone
由于人们工作压力的增大和不良的饮食习惯及其他原因,近年来胆结石发病率有增加的趋势〔1,2〕。通过时间序列模型对青海海西州地区2001年1月~2007年12月胆结石月发病率进行时间序列分析,了解人群在各时间段的胆结石发病特征,为胆结石的防治工作提供一定的数学依据。
1 资料与方法
1.1 病例资料 全部病例资料取自青海海西州第一人民医院。经过核对、补漏,从而保证资料的准确和完整。
1.2 理论与模型〔3~9〕
1.2.1 ARIMA模型 如果时间序列{yt}是它的当前和前期的随机误差项以及前期值的线性函数,可表示为:yt=1yt-1+2yt-2+…+pyt-p+εt-θ1εt-1-θ2εt-2-…-θqεt-q (1)
则称该时间序列{yt}是自回归移动平均序列,(1)式为(p,q)阶的自回归移动平均模型,记为ARMA(p,q);1,2,…,p称为自回归系数;θ1,θ2,…,θq称为移动平均系数,都是模型的待估参数。定义差分算子为yt=yt-yt-1 (2)则差分算子和后移算子B有以下关系式:=1-B、2=(1-B)2、d=(1-B)d。称d为差分的阶。设{yt}为非平稳序列,{xt}为ARMA(p,q)序列,存在正整数d,使得xt=dyt,t&>d,则有(B)(1-B)dyt=θ(B)εt (3)称此模型为求和自回归滑动平均模型,记为ARMA(p,d,q)。
1.2.2 ARCH模型理论 对于通常的回归模型yt=xtβ+εt (4)
如果随机干扰项的平方ε2服从AR(q)过程,即ε2t=a0+a1ε2t-1+…+aqε2t-q+ηt t=1,2,… (5)
其中,ηt独立同分布,并满足E(ηt)=0,D(ηt)=λ2,则模型(5)是自回归ARCH模型。称序列εt服从q阶的ARCH过程,记作εt~ARCH(q)。(4)和(5)构成的模型称为回归ARCH模型。ARCH(q)模型还可以表示为εt=ht·vt(6),ht=a0+a1ε2t-1+…+aqε2t-q=a0+∑qi=1aiε2t-i (7)其中,vt独立同分布,且E(vt)=0,D(vt)=1;a0&>0,ai≥0(i=1,2,…,q),且∑qi=1ai&<1(保证ARCH过程平稳)。如果在(4)式右边增加一项ht(或用标准差ht代替),则该模型就变为ARCHM(ARCHinmean)模型,其表达式为:yt=xtβ+γht+εt (8)如果ht的结构为ht=a0+∑qi=1aiε2t-i=a0+a(B)ε2t-i,则模型(8)称为ARCHM(q)模型。
1.2.3 GARCH模型理论 GARCH(Generalized Autoregressive Conditional Heteroskedastic)模型通常用于对回归或回归模型的随机扰动项进醒建模。若有ht=a0+a1ε2t-1+…+aqε2t-q+θpht-1+…+θpht-p=a0+∑qi=1aiε2t-i+∑pj=1θjht-i(9)。则称序列服从GARCH(p,q)过程。
引入滞后算子B,(9)式可改写为ht=a0+a(B)ε2t+θ(B)ht (10)。在模型(10)中,如果ht的结构为ht=a0+a(B)ε2t+θ(B)ht,则模型(8)称为GARCHM(p,q)模型。
1.2.4 TARCH模型理论 TARCH(Threshold ARCH)模型最先由Zakoian(1990)提出,具有如下形式的条件方差ht=a0+∑qi=1aiε2t-i+φε2t-1dt-1+∑pj=1θjht-j (11),其中dt是一个名义变量dt=1 εt&<00 其他(12)
由于引入dt,股价上涨信息(εt&>0)和下跌信息(εt&<0)对条件方差的作用效果不同。上涨时φε2t-1dt-1,其影响可用系数∑qi=1ai代表,下跌时为∑qi=1ai+φ。若φ≠0,则说明信息作用是非对称的。而当φ&>0时,认为杠杆效应。如果ht的结构为ht=a0+∑qi=1aiε2t-i+φε2t-1dt-1+∑p〖〗j=1θjht-j,则模型(8)称为TARCHM(p,q)模型。
1.2.5 EGARCH模型理论 EGARCH模型,即指数(Exponential)GARCH模型,由Nelson在1991年提出。模型的条件方差表达式为
log(ht)=a0+∑pj=1θjlog(ht-j)+∑qi=1aiεt-iht-i+φiεt-iht-i(13)
模型中条件方差采用了自然对数形式,意味着ht非负且杠杆效应是指数型的。若φ≠0,说明信息作用非对称。当φ&<0时,杠杆效应显著。如果ht的结构满足log(ht)=a0+∑pj=1θjlog(ht-j)+∑qi=1aiεt-iht-i+φiεt-iht-i,则模型(8)称为TARCHM(p,q)模型。
1.3 统计学方法 运用Excel2003及EViews3.1对2001年1月至2007年12月海西州地区胆结石发病资料进行整理分析,统计海西州地区胆结石月发病率,研究时间序列模型在胆结石月发病率中的应用,总结海西州地区胆结石月发病率的发展趋势和季节性变动规律。
2 结 果
由于ARIMA模型和ARCH模型要求所采用的样本数量通常较多,为了保证有足够的样本数量,本文采用青海海西州地区2001年1月至2007年12月的胆结石月发病率值,共84个数据。使用这些数据建立估计模型,预测2001年1月至2007年12月的胆结石月发病率值,并验证预测效果。将2001年1月至2007年12月之间的月份用t=1,2,…,84表示,胆结石月发病率值用yt表示。
2.1 基于ARIMA模型的预测 首先对海西州地区胆结石月发病率值进行平稳性检验,若非平稳则进行差分处理。利用自相关函数检验法对海西州地区胆结石月发病率序列进行平稳性检验,利用原始时间序列yt绘制自相关分析图。见图1。图1 胆结石月发病率自相关分析图
自相关分析图给出了显著性水平α=0.05时的置信带,可以看出大部分自相关系数都落入置信区间外,自相关系数的变化幅度较大,说明序列既存在趋势性又存在波动性,即序列yt为非平稳序列。为消除趋势同时减小序列的波动,需要对序列yt进行平稳化处理。
利用差分法将非平稳时间序列yt转化为平稳时间序列,同时剔除趋势因素和季节因素的影响。对序列yt做一阶逐期差分,得到差分后的自相关与偏自相关分析图。经过处理后的时间序列大体上围绕y=0直线上下波动,即序列 的均值基本稳定,是一个零均值时间序列;序列的图像在每一时刻对均值的偏离基本相同,即序列yt的方差恒定。在自相关偏自相关图中,序列yt的样本自相关与偏自相关系数很快落入随机区间,故序列趋势已基本消除。因此,由自相关函数检验法可知,海西州地区胆结石月发病率序列yt在一阶差分后为平稳序列,从而可对一阶差分后的序列建立ARIMA模型。见图2。图2 序列yt差分后的自相关偏自相关分析图
模型的初步定阶可通过差分后时间序列yt的相关特性来判断。从自相关偏自相关分析图可见,序列yt的样本自相关系数呈衰减正弦波趋向于零,样本自相关系数在k&>1后全部落入2个标准差的置信区间,因此认为在k=1后是截尾的;在偏自相关分析图中,在k&>4后的值都在随机区间以内,可以认为序列yt的偏自相关函数具有截尾性。因此,对于序列yt,可以考虑建立ARIMA(p,d,q)模型。阶数p由显著不为0的偏自相关系数的数目决定,观察图2,p可以取1、取2,也可以取3、取4;自相关系数在k=1处显著不为0,可以考虑q=1。由于序列{yt}经过一阶逐期差分后,序列趋势基本消除,故d=1。综上,序列{yt}可以建立ARIMA(1,1,1)、ARIMA(2,1,1)、ARIMA(3,1,1)、ARIMA(4,1,1)模型。借助于信息准则(AIC和SC)对上述模型重新进行模型识别,各模型的评价结果见表1,ARIMA(1,1,1)模型的AIC和SC值最小。表1 各模型不同准则下的评价结果利用模型ARIMA(1,1,1)、ARIMA(2,1,1)、ARIMA(3,1,1)、ARIMA(4,1,1)对模型中的残差序列与2001年1月至2007年12月的胆结石月发病率值进行拟合,可以看出,残差序列基本围绕0上下波动,预测值与实际值的拟合度较高,表明模型的预测效果拟合较好。虽然模型ARIMA(1,1,1)、ARIMA(2,1,1)、ARIMA(3,1,1)、ARIMA(4,1,1)的残差序列拟合结果整体上均不错,但图3中残差序列的拟合效果最佳。模型ARIMA(1,1,1)、ARIMA(2,1,1)、ARIMA(3,1,1)、ARIMA(4,1,1)随着预测期限的延长(尤其在2005年之后),模型预测效果开始出现偏差,说明模型适用于短期预测,长期预测效果差一些。见图3~图6。图3 ARIMA(1,1,1)模型实际拟合残差序列结果图4 ARIMA(2,1,1)模型实际拟合残差序列结果图5 ARIMA(3,1,1)模型实际拟合残差序列结果图6 ARIMA(4,1,1)模型实际拟合残差序列结果
因此,结合AIC和SC准则与模型残差序列拟合图,可以找出最优模型ARIMA(1,1,1),即ARIMA(1,1,1)模型可作为海西州地区胆结石月发病率的最优ARIMA模型。根据参数估计值得到 模型对应的数学表达式:(1-0.355 053B)(1-B)yt=(1+0.926 861B)εt(14)
2.2 基于ARCH模型的预测 考虑到胆结石月发病率的集群性特征,利用ARCH模型对海西州地区2001年1月至2007年12月的胆结石月发病率值进行建模并预测。基于ARIMA模型的分析,并配合残差独立性检验,通过比较发现,建立模型ARIMA(1,1,1)ARCH(1)、ARIMA(1,1,1)ARCH(1)M、ARIMA(1,1,1)ARCH(1,1)、ARIMA(1,1,1)GARCH(1,1)M、ARIMA(1,1,1)TARCH(1,1)、ARIMA(1,1,1)TARCH(1,1)M、ARIMA(1,1,1)EARCH(1,1)、ARIMA(1,1,1)EARCH(1,1)M较为适宜。下借助于信息准则(AIC和SC)对这8个模型重新进行模型识别,其中ARIMA(1,1,1)EARCH(1,1)M模型的AIC和SC值最小。故ARIMA(1,1,1)EARCH(1,1)M为8个模型中较优的模型。见表2。表2 各模型不同准则下的评价结果
其中,vt独立同分布,且E(vt)=0,Dvt=1。(15)是在回归模型(4)式中加入标准差ht得到的结果。在(15)式中,0.560 166是杠杆效应系数φ的估计值。由于φ=0.560 166≠0,说明信息作用是非对称的,且φ=0.560 166&>0,因此杠杆效应不显著。
利用模型(15)对该模型中的残差序列2001年1月至2007年12月的胆结石月发病率值进行拟合,ARIMA(1,1,1)EGARCH(1,1)M模型的预测值与实际值的拟合度较高,表明ARIMA(1,1,1)EGARCH(1,1)M模型的预测效果拟合较好。与ARIMA(1,1,1)模型相比,ARIMA(1,1,1)EGARCH(1,1)M模型的预测期限有所延长(在2007年之前),预测效果有所优化。见图7。图7 模型的实际拟合残差序列结果
3 结 论
ARIMA(1,1,1)模型与ARIMA(1,1,1)EGARCH(1,1)M模型的短期预测效果均优于长期预测。原因在于各模型均是基于过去时间序列数据建立的,并没有考虑预测期相应时间内,实际胆结石月发病率的随机性和波动性以及外界其他因素的干扰。随着预测期的增长,预测效果自然会变差。ARIMA(1,1,1)EGARCH(1,1)M模型的长期预测效果优于ARIMA(1,1,1)模型。原因是ARIMA模型只考虑时间序列本身的特性来预测,没有考虑到胆结石月发病率本身受许多不可预测的复杂因素的影响;而ARCH模型考虑了胆结石月发病率数据时间序列中随机扰动项的波动集群性,模型的预测效果相对较好,较适合长期预测。从拟合结果看,ARCH模型的胆结石月发病率预测效果较ARIMA模型更接近实际值,预测的误差也相对减少。检验结果表明海西州地区胆结石月发病率值的时间序列中存在着ARCH效应,ARIMA(1,1,1)EGARCH(1,1)M模型能够适用于海西州地区胆结石月发病率值的建模,并且拟合效果表明用ARIMA(1,1,1)EGARCH(1,1)M模型预测海西州地区胆结石月发病率是可行的。
疾病发病率是疾病预防工作所参考的重要指标之一。如果能够得到较为精确地胆结石发病率,则能为胆结石的预防工作提供科学的参考依据。时间序列分析法可在一定程度上排除人们的主观任意性,使疾病发病率的预测转向数学化、科学化、人工智能化〔10~13〕。
从论文分析和案例应用角度可以看出,通过采用时间序列模型对胆结石月发病率进行预测研究,取得了令人较为满意的预测效果,预测值与实际值整体上比较接近,较传统的可靠性预计和可靠性试验评价结果有了大幅提高,与新的可靠性预计与预测法相比,该法预测精度也有一定的提高。
本文中的数据是近7年的海西州地区的资料,海西州既是我国西北高原地区,又是我国少数民族聚集的地区,做好该地区胆结石月发病率的预测对高原少数民族地区人民的健康有重要的意义〔14~20〕。
参考文献
1 吴庚申,梁 平,龙新峰.基于ARMA的汽轮机转子振动故障序列的预测〔J〕.华南理工大学学报(自然科学版),2005;33(7):6773.
2 田金方,张小斐.干预ARIMA模型及其在我国人口总量预测中的实证研究〔J〕.数理统计与管理,2007;27(2):2637.
3 欧廷皓.基于ARMA模型的房地产价格指数预测〔J〕.统计与决策,2007;7:923.
4 杨 宇.基于ARMA模型对地价指数的预测〔J〕.统计与决策,2007;5:401.
5 潘晓君.中国棉花产量的时间序列预测模型〔J〕.统计与决策,2007;9:59.
6 孙玉环.ARMA模型在测算重大突发事件影响中的应用〔J〕.统计与决策,2006;7:246.
7 李瑞莹,康 锐.基于ARMA模型的故障率预测方法研究〔J〕.系统工程与电子技术,2008;30(8):158891.
8 曾勇红,王锡凡,冯宗建.基于混合自回归滑动平均潜周期模型的短期电价预测〔J〕.西安交通大学学报,2008;42(2):1858.
9 孙 奕,贾翠平,覃世龙.儿童伤害住院费用ARIMA预测模型研究〔J〕.数理统计与管理,2007;26(6):11248.
10 胡军华,唐德善.时间序列模型在径流长期预报中的应用研究〔J〕.人民长江,2006;37(2):401.
11 贾春生.ARIMA模型在马尾松毛虫发生面积预测中的应用〔J〕.安徽农业科学,2007;35(19):56723.
12 戴晓枫,肖庆宪.时间序列分析方法及人民币汇率预测的应用研究〔J〕.上海理工大学学报,2005;27(4):3414.
13 易丹辉.数据分析与EViews应用〔M〕.北京:中国统计出版社,2005:10634.
14 马亮亮,田富鹏.基于脑梗塞相关因素的逐步回归分析〔J〕.南阳理工学院学报,2009;1(3):1146.
15 马亮亮,田富鹏.基于糖尿病相关因素的主成分分析〔J〕.长春大学学报,2009;19(8):613.
16 马亮亮,田富鹏.基于肺水肿相关因素的因子分析〔J〕.河北北方学院学报,2009;25(4):535.
17 马亮亮,田富鹏.基于季节模型的海西州地区肾炎发病情况研究〔J〕.北京联合大学学报,2009;23(3):668.
18 马亮亮,田富鹏.基于PDL模型的海西州地区脑出血发病情况研究〔J〕.湖南文理学院学报,2009;21(3):179.
19 马亮亮,田富鹏.基于ADL模型的海西州地区胆结石发病情况研究〔J〕.浙江万里学院学报,2009;22(5):69.
20 马亮亮,田富鹏.基于糖尿病与民族因素的多元线性回归分析〔J〕.山西大同大学学报(自然科学版),2009;25(4):24.