【摘要】 目的 比较时间序列分析中指数平滑法、移动平均法、自回归分析及求和自回归滑动平均法(ARIMA)在海西州地区2001年1月至2007年12月高血压发病率预测中的优劣。方法 用时间序列分析各方法建模预测,比较各方法的误差平方和、赤池信息量、施瓦茨信息量、拟合优度和拟合效果,确定最佳预测方法。结果 指数平滑法、移动平滑法、自回归分析法及求和自回归滑动平均法中,ARIMA模型的误差平方和、赤池信息量、施瓦茨信息量最小,拟合优度最大,拟合效果最好。结论 海西州地区2001年1月至2007年12月的高血压发病率预测中,时间序列诸分析方法中求和自回归滑动平均法预测效果最好。
【关键词】 ARIMA模型;预测;时间序列分析;高血压;发病率
【Abstract】 Objective To provide the fittest model for forecasting hypertension incidence in Haixizhou region by comparing the results of exponential smoothing, moving average, autoregressive model and autoregressive integrated moving average model (ARIMA model) from January to December in 2007. Methods The fitting effects of four statistical methods were compared and the fittest model was chosen. Results Among the four statistical methods, the effect of fitting and prediction of moving average model was the best. Conclusions Moving average model seems to be the fittest one in the prediction of hypertension in Haixizhou region from January, 2001 to December,2007.
【Key words】 ARIMA model; Predict; Time series analysis; Hypertension; Incidence
近来,时间序列分析无论在理论上还是在应用方面,都有迅速的发展,成为概率统计学中一个内容丰富的重要分支,作为一种现代数据处理方法,时间序列分析在系统辨识与系统分析中占有十分显著的地位〔1〕。由于疾病发病率是有记忆的随机过程,残差间自相关不独立,所以不能用一般线性回归建模,应当选用适当的模型描述指标变化规律,利用模型作短期预测〔2〕。高血压发病率受到许多因素的制约,且这些因素之间又保持着错综复杂的联系,因此,运用结构性的因果模型分析和预测往往比较困难。本文尝试应用时间序列分析对青海海西州地区高血压发病资料进行分析,以阐明其变化规律,达到快速有效地预测。
1 资料与方法
1.1 资料来源
全部发病资料取自青海海西州第一人民医院。经过核对、补漏,从而保证资料的准确和完整。运用Excel2003及EViews3.1对2001年1月至2007年12月海西州地区高血压发病资料进行整理分析,统计海西州地区2001~2007年的高血压月发病率(记为yt)。
1.2 方法
根据被预测变量自身的变化规律来建立模型,然后利用这个模型来预测该变量未来的变化。时间序列分析包括指数平滑法、移动平滑法、自回归分析及求和自回归滑动平均法(ARIMA法)〔3〕。主要通过比较各方法的拟合优度、误差平方和等实现评价。分析由EViews3.0软件完成。
1.3 建模、预测
1.3.1 指数平滑法
用序列过去值的加权均数来预测将来的值,近期的给以更大的权数,远期的给以较小的权数。表达式为:t=ayt,+(1-a)t-1,yt是当期真实值,t是当期平滑值,t-1是上期平滑值,a是平滑系数,它的取值范围为0≤a≤1。到时期t时,只需要知道实际数值和本期预测值两个数据就可预测下一个时间的数值。
1.3.2 移动平滑法〔4〕
利用一组观察值的均值作为下一期的预测值,设时间序列为y1、y2、y3…可以表示为Ft+1=1N∑tt=N+1yt,其中yt为最新观察值,Ft+1为下一期的预测值,N为一组观察值的个数。q阶移动平均模型的公式为:yt=ε1-θ1εt-1-θ2εt-2-…-θqεt-q。用自相关系数识别,它的自相关系数为:rk=-θk+θ1θk+1+L+θq-kθq 1≤k≤q 0 k>q。时间序列相差k个时期时两项数据序列之间的依赖程度可用自相关系数rk表示为:∑nt=k+1(yt-Y)(yt-k-Y)/∑nt=1(yt-Y)2,其中n是时间序列yt的数据个数;yt-k是其滞后k期数据形成的序列。Y=1n∑nt=1yt是时间序列的平均值。rk取值范围在±1之间,|rk|与1越接近,说明时间序列的自相关程度越高。
1.3.3 自回归分析〔5〕
主要是对时间序列求其本期与不同滞后期的一系列自相关系数和偏自相关系数以识别其特性的方法,主要用偏自相关系数来判定模型的阶数。p阶自回归AR(p)模型的公式为:yt=1yt-1+2yt-2+…+pyt-p+εt,它的偏自相关系数满足:kii 1≤i≤p 0 p+1≤i≤k。偏自相关是时间序列yt在给定了yt-1、yt-2、…yt-k+1的条件下,yt与滞后k期时间序列之间的条件相关。用来度量当其他滞后1、2、…k-1期时间序列作用已知的条件下yt与yt-k之间的相关程度,用Φkk度量。Φkk=(rk-∑k-1i=1Φk-i,i×rk-i)/(1-∑k-1i=1Φk-i,i×ri),k=2、3、…其中Φki=Φ(k-1)k-Φkk×Φ(k-1)(k-i),i=1、2、…k-1。
1.3.4 ARIMA模型〔6〕
首先判定数据有无随机性、平稳性、季节性,然后要在预测之前实现最优拟合、建模,最后进行预测及评价。模型ARIMA(p,d,q)的公式为:yt=1yt-1+2yt-2+…+pyt-p+εt-θ1εt-1-θ2εt-2-…-θqεt-p。其中p、q为模型的阶数;常数系数1、2、…p和θ1、θ2、…θp为模型的参数;yt-1、yt-2、…yt-p是时间序列在t-1、t-2、…t-p时刻的观察值;εt-1、…εt-q为残差序列。ARIMA模型需确定三个参数,即自回归阶数(p)、差分次数(d)、移动平均阶数(q),它首先通过差分把时间序列的季节性消除(达到数据平稳),然后建模,最后估计参数。对非季节性数据,一般求一阶差分即可。若时间序列的季节性变动周期为T,则时间序列yt的一阶季节差分序列Tyt 为Tyt =yt-yt-T(t>T)。自相关分析图将自相关系数和偏自相关系数绘制成图,并标出了置信区间,利用它我们可以分析时间序列的随机性、平稳性和季节性。随机性是指时间序列各项之间没有相关关系的特性,判定准则:自相关系数基本上落在置信区间内。平稳性是指时间序列的统计特征不随时间推移而变化,判定准则:自相关系数rk在k>3时都落入置信区间内并逐渐趋于零。季节性是指在某一固定时间间隔上,重复出现的某种特性,判定准则:某一时间序列在k=2或3以后的自相关系数 rk值存在周期性的显著不为零的值,则有季节性。
1.4 各种方法评价
比较各方法2001年1月至2007年12月的误差平方和(SSE)、赤池信息量(AIC)、施瓦茨信息量(SC)、拟合优度和拟合效果,以SSE、AIC、SC较小者为优,拟合优度较大者为优,拟合效果较佳者为优。
2 结果
2.1 建模、预测
2.1.1 用指数平滑法建模预测
首先通过对数据的平稳性分析,选用简单指数平滑法,确定使得SSE最小的α值为0.5(SSE=561.147 5)。将α代入得:y=0.5yt+0.5yt估,y为下一月的预测值,yt为当月的真实值,yt估是当月的估计值。见表1。
2.1.2 用移动平滑法建模预测
通过做自相关分析图发现偏自相关系数q取12时,拟合优度最大,故选MA(12)模型:yt=εt-0.261 9 εt-1-0.451 6 εt-2-0.519 6 εt-3-0.621 7 εt-4-0.620 0 εt-5-0.450 0 εt-6-0.307 5 εt-7-0.701 6 εt-8-0.538 7 εt-9-0.114 4 εt-10+0.096 4 εt-11-0.173 0 εt-12。见图1、表2。表1 指数平滑法SSE比较,表2 移动平均模型拟合优度比较(略)。
2.1.3 用自回归分析建模预测 由自相关分析图(图1)发现p取1、2、4、7、8比较合理,而由表3可知,当p=8时,拟合优度最大,故选AR(8)模型:yt=0.157 0 yt-1+0.182 3 yt-2+0.084 1 yt-3+0.260 1 yt-4+0.194 2 yt-5+0.005 7 yt-6-0.153 2 yt-7+0.260 4 yt-8+εt。见图1,表3。表3 自回归模型拟合优度比较(略)
2.1.4 用ARIMA模型建模预测
进行分析时,首先确定ARIMA模型的各阶数,模型阶数的确定通过比较不同阶数时拟合优度及分析自相关分析图和偏自相关分析图实现。如表4、图2显示ARIMA(7,1,8)较好,统计量信息包括回归标准误差(standard error of regression)、对数似然比(log likelihood)、AIC、SC。见图2,表4。表4 不同ARIMA模型统计量信息的比较(略)
代入公式得到预测方程,预测方程为:(1+0.471 4 B+0.264 5 B2-0.042 7 B3-0.440 1 B4-0.402 4 B5-0.175 7 B6+0.315 7 B7)(1-B)yt=(1+0.603 1 B+0.119 7 B2+0.436 9 B3+0.304 5 B4+0.027 7 B5-0.087 8 B6-0.221 8 B7+0.065 8 B8)εt
其中,yt为当月高血压的实际发病率值,εt为当月高血压发病率预测值的误差,B为后移算子。
2.2 四种方法预测效果比较
通过比较2001年1月至2007年12月各方法的SSE值、AIC值、SC值和拟合优度来判断预测效果优劣,结果见表5。四种方法的拟合效果,见图3~图6。表5 不同预测方法预测效果比较(略)
3 讨论
在高血压的防治工作中,如何准确、及时地预测高血压的发病率成为卫生机构决策者的难题,目前还没有有效、成熟的方法,而系统地运用时间序列各种方法对高血压的发病率进行预测还未见报道。利用时间序列模型不需要知道影响预测变量的相关因素,这是其他预测方法所不能比拟的,可以通过既往资料快速预测。但也应看到,正是由于未考虑影响预测变量的相关因素,它也有局限性,适合于受预测变量的相关因素影响较小的试点,即相对稳定的试点,如海西州地区〔7,8〕。
时间序列分析法各有特点。指数平滑法需要通过反复试验确定使均方差最小的α值,本例确定的α值为0.5,方程为y=0.5yt+0.5yt估,它只需知道上一年的资料即可。移动平滑法有两个优点:一是计算量少;二是移动平均线能较好地反映时间序列的趋势及变化。自回归分析法依赖于样本量,必须有一组连续变量。而ARIMA法将移动平滑法、自回归分析法及数据的平稳性考虑在了一起,通过自相关系数和偏自相关系数分析确定p和q。四种方法中,理论上讲ARIMA模型更全面,综合考虑因素多,本研究也证实了这一点,但在不同的应用条件下,还要视具体情况而定〔9〕。
本课题组曾对海西州地区2001年1月至2007年12月的高血压发病率与平均气温进行分析,发现了平均气温对高血压月发病率的影响作用,但不能进行定量预测〔10〕。本研究则为定量预测提供了有效工具。时间序列模型预测的偏差大小受数据本身特点、样本量大小等因素影响。其中ARIMA模型预测效果较好。
本文数据是近7年海西州地区的资料,海西州既是我国西北高原地区,又是我国少数民族聚集的地区,尽管国家经济文化迅速发展,卫生条件得到改善,但是政府对这类疾病的预防不够重视,所以近几年来海西州地区高血压的发病率有逐年增高的趋势,提醒医疗卫生部门应加强对高原少数民族地区高血压预防和控制的宣传工作〔11~13〕。做好该地区高血压月发病率的预测对高原少数民族地区人民的健康有重要的意义。
参考文献
1 杨宇.基于ARMA模型对地价指数的预测〔J〕.统计与决策,2007;5(1):401.
2 曾勇红,王锡凡,冯宗建.基于混合自回归滑动平均潜周期模型的短期电价预测〔J〕.西安交通大学学报,2008;42(2):1858.
3 孙玉环.ARMA模型在测算重大突发事件影响中的应用〔J〕.统计与决策,2006;7(1):246.
4 胡军华,唐德善.时间序列模型在径流长期预报中的应用研究〔J〕. 人民长江,2006;37(2):401.
5 贾春生.ARIMA模型在马尾松毛虫发生面积预测中的应用〔J〕.安徽农业科学,2007;35(19):56723.
6 李瑞莹,康锐.基于ARMA模型的故障率预测方法研究〔J〕.系统工程与电子技术,2008;30(8):158891.
7 戴晓枫,肖庆宪.时间序列分析方法及人民币汇率预测的应用研究〔J〕.上海理工大学学报,2005;27(4):3414.
8 吴庚申,梁平,龙新峰.基于ARMA的汽轮机转子振动故障序列的预测〔J〕.华南理工大学学报(自然科学版),2005;33(7):6773.
9 易丹辉.数据分析与EViews应用〔M〕.北京:中国统计出版社,2005:10634.
10 马亮亮,田富鹏.基于ADL模型的海西州地区高血压发病情况研究〔J〕.浙江万里学院学报,2009;22(5):69.
11 马亮亮,田富鹏.基于糖尿病相关因素的主成分分析〔J〕.长春大学学报,2009;19(8):613.
12 马亮亮,田富鹏.基于季节模型的海西州地区肾炎发病情况研究〔J〕.北京联合大学学报,2009;23(3):668.
13 马亮亮,田富鹏.基于PDL模型的海西州地区脑出血发病情况研究〔J〕.湖南文理学院学报,2009;21(3):179.