鄧卓,蘇秉華,張凱
519088 廣東 珠海,北京理工大學(xué)珠海學(xué)院 光電成像技術(shù)與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室(鄧卓、蘇秉華、張凱);100081 北京,北京理工大學(xué) 光電學(xué)院(鄧卓、蘇秉華)
在如今談癌色變的科技時(shí)代,因癌癥而引起的死亡病例明顯上升,癌癥時(shí)刻威脅著人類的生命安全[1-2]。惡性腫瘤是全球人類第三大死因。世界衛(wèi)生組織2002年統(tǒng)計(jì)資料表明,全球惡性腫瘤新發(fā)病例1 090萬,死亡人數(shù)670萬,現(xiàn)患人數(shù)2 460萬[3]。2005年統(tǒng)計(jì)惡性腫瘤死亡人數(shù)已經(jīng)上升到760萬。全球因惡性腫瘤死亡的人數(shù)已占總死亡人數(shù)的12%,20年后全球每年死于惡性腫瘤的人數(shù)將達(dá)到1 000萬,每年新增人數(shù)達(dá)1 500萬。所以對惡性腫瘤的研究與預(yù)測具有十分重要的現(xiàn)實(shí)意義[4]。
隨著科學(xué)技術(shù)的發(fā)展,將科學(xué)技術(shù)手段應(yīng)用于醫(yī)療領(lǐng)域,不僅可以更加有效地提高醫(yī)療手段,而且可以預(yù)測并進(jìn)一步分析實(shí)際出現(xiàn)的問題[5]。在如今的大數(shù)據(jù)時(shí)代,合理地將數(shù)據(jù)分析方法應(yīng)用于醫(yī)療領(lǐng)域是提高醫(yī)療水平的一種方法[6]。本項(xiàng)目將國家統(tǒng)計(jì)局官網(wǎng)公布的實(shí)際數(shù)據(jù)應(yīng)用于差分整合移動(dòng)平均自回歸模型(autoregressive integrated moving average,ARIMA)模型,可以短期預(yù)測數(shù)據(jù)動(dòng)態(tài)。希望可以應(yīng)用于實(shí)際,為我國醫(yī)療科技做出貢獻(xiàn)。
其中ARIMA是一種時(shí)間序列預(yù)測模型[7]。模型要求待預(yù)測的數(shù)據(jù)具有一定的平穩(wěn)性,即樣本的時(shí)間序列曲線具有形態(tài)“慣性”,序列的均值和方差不發(fā)生明顯變化[8]。ARIMA模型簡單,只需要內(nèi)生變量而不需要借助其他外生變量。
本項(xiàng)目采用國家統(tǒng)計(jì)局公布于國家數(shù)據(jù)網(wǎng)上的年度數(shù)據(jù)中,我國城市與農(nóng)村惡性腫瘤死亡人數(shù)占比的1999年到2017年數(shù)據(jù)為實(shí)驗(yàn)樣本,其中利用1999年到2015年數(shù)據(jù)為實(shí)驗(yàn)訓(xùn)練樣本,并利用訓(xùn)練好的模型預(yù)測2016到2017年數(shù)據(jù),并與真實(shí)值進(jìn)行對比,檢驗(yàn)?zāi)P途珳?zhǔn)度。所采用的數(shù)據(jù)如表1所示。對數(shù)據(jù)進(jìn)行可視化處理后,其結(jié)果如圖1所示。
表1 我國城市與農(nóng)村惡性腫瘤死亡人數(shù)占比
圖1 國家數(shù)據(jù)官網(wǎng)的數(shù)據(jù)折線圖
ARIMA主要由自回歸(autoregressive,AR)模型、移動(dòng)平均(moving average,MA)模型和差分三部分構(gòu)成[9]。其中AR模型是描述當(dāng)前時(shí)間的值與歷史時(shí)間的值之間存在的關(guān)系,并且利用變量自身歷史時(shí)間上的數(shù)據(jù)對自身當(dāng)前及之后時(shí)間值進(jìn)行預(yù)測[10],p階自回歸過程的數(shù)學(xué)公式如下:
(1)
這里yt是時(shí)間序列的預(yù)測值;μ是常數(shù)項(xiàng);εt是被假設(shè)為平均數(shù)等于0,標(biāo)準(zhǔn)差為恒值的隨機(jī)誤差值;ri是自相關(guān)系數(shù)。
MA模型通過對自回歸模型中誤差項(xiàng)累計(jì)的移動(dòng)平均,有效地消除預(yù)測中出現(xiàn)的隨機(jī)波動(dòng)[11]。提高模型的魯棒性。模型的數(shù)學(xué)定義公式如下:
(2)
其中yt是時(shí)間序列的預(yù)測值;μ是常數(shù)項(xiàng);εt是被假設(shè)為平均數(shù)等于0,標(biāo)準(zhǔn)差為恒值的隨機(jī)誤差值;θi是MA公式的相關(guān)系數(shù)。差分法是在時(shí)間序列上求t與t-1時(shí)刻的差值,使用差分法可以有效使數(shù)據(jù)滿足平穩(wěn)性。差分運(yùn)算具有很強(qiáng)的確定信息提取能力,許多非平穩(wěn)的序列經(jīng)過差分后顯示出平穩(wěn)序列的性質(zhì)[12]。經(jīng)過上述三種方式的綜合運(yùn)用得出模型ARIMA(p,d,q),其中模型中的參數(shù)q由自相關(guān)函數(shù)(autocorrelation functionl,ACF)圖可以得到,表明t時(shí)刻的數(shù)據(jù)受到t-i時(shí)刻之間的數(shù)據(jù)影響;參數(shù)d是模型的差分階數(shù),目的是使數(shù)據(jù)平穩(wěn)化,更好地提取數(shù)據(jù)特征;模型中的參數(shù)p為自回歸階數(shù),由偏自相關(guān)函數(shù)(partial autocorrelation fanction,PACF)圖獲得。PACF圖是剔除了中間k-1個(gè)隨機(jī)變量x(t-1)、x(t-2)、……x(t-k+1)的干擾之后,x(t-k)對x(t)單純影響的相關(guān)程度。ARIMA(p,d,q)模型實(shí)際上就是將時(shí)間序列上非平穩(wěn)數(shù)據(jù)轉(zhuǎn)換成時(shí)間序列上平穩(wěn)的數(shù)據(jù),然后將時(shí)間變量對數(shù)據(jù)的滯后值以及隨機(jī)誤差項(xiàng)進(jìn)行回歸預(yù)測[13]。模型的數(shù)學(xué)定義如下:
(3)
其中yt是時(shí)間序列的預(yù)測值;μ是常數(shù)項(xiàng);εt是被假設(shè)為平均數(shù)等于0,標(biāo)準(zhǔn)差為恒值的隨機(jī)誤差值,ri是自相關(guān)系數(shù),θi是MA公式的相關(guān)系數(shù)。
從本文實(shí)驗(yàn)數(shù)據(jù)的圖示中可看出,兩條數(shù)據(jù)線均不夠穩(wěn)定,因此需要對數(shù)據(jù)做差分處理。取訓(xùn)練集數(shù)據(jù),即1999年至2015年數(shù)據(jù)做1階差分處理后基本達(dá)到弱平穩(wěn)狀態(tài)(圖2)。因此模型d參數(shù)可確定為數(shù)值1。
圖2 城市/農(nóng)村數(shù)據(jù)1階差分圖
一階差分處理后的數(shù)據(jù)的ACF反映了同一序列在不同時(shí)序的取值之間的相關(guān)性。ACF的數(shù)學(xué)表達(dá)式如下:
(4)
這里,分子是當(dāng)前時(shí)間t與之前時(shí)間t-k序列數(shù)據(jù)的協(xié)方差值,分母是當(dāng)前時(shí)間樣本方差值。ACF取值范圍為-1到1,說明了該函數(shù)對該時(shí)間序列不同時(shí)間點(diǎn)的取值之間的相關(guān)性程度。通過ACF圖可以確定模型的參數(shù)q值,如圖3所示。橫軸表示滯后時(shí)間(年),深色區(qū)間為置信區(qū)間,當(dāng)滯后數(shù)據(jù)落在深色區(qū)域內(nèi),表示數(shù)據(jù)自相關(guān)數(shù)落到了95%的置信區(qū)間。因此只要數(shù)據(jù)落到置信區(qū)間內(nèi)均可行。從圖可知,q值均可取大于等于零的任意值。
圖3 城市/農(nóng)村數(shù)據(jù)ACF圖
PACF是消除干擾后,惡性腫瘤死亡百分比數(shù)據(jù)的時(shí)間序列與先前時(shí)間序列之間的相關(guān)性。通過PACF圖可以確定模型的參數(shù)p值,如圖4所示。參數(shù)取值原理類似ACF,由于實(shí)際具有很多不確定因素,因此只要大部分?jǐn)?shù)據(jù)均落在置信區(qū)間則可行,由圖可知,p值均可取大于等于零的任意值。
圖4 城市/農(nóng)村數(shù)據(jù)PACF圖
為了使模型的參數(shù)取值盡量擬合原始數(shù)據(jù)曲線,且盡量避免出現(xiàn)過擬合現(xiàn)象。選取合適的參數(shù)可以提高模型泛化能力。因此利用赤池信息準(zhǔn)則(Akaike information criterion,AIC)來選取模型參數(shù)可以進(jìn)一步優(yōu)化模型。AIC是權(quán)衡模型復(fù)雜度和擬合優(yōu)良性的一種標(biāo)準(zhǔn)[14]。判別方法如下:
AIC=2k=2ln(2L)
(5)
其中k是參數(shù)的個(gè)數(shù),L是似函數(shù)。因此AIC值越小參數(shù)越合理。通過分析數(shù)據(jù)的AIC熱度圖,如圖5所示,橫軸表示MA模型參數(shù)q的取值從0到3,縱軸表示AR模型參數(shù)p的取值從0到4。顏色越深A(yù)IC值越小,因此由圖可以選出模型最優(yōu)參數(shù)。
圖5 城市/農(nóng)村數(shù)據(jù)AIC圖
綜上,城市模型取ARIMA(2,1,0),農(nóng)村模型取ARIMA(2,1,0)可以使預(yù)測模型復(fù)雜度低,且可實(shí)現(xiàn)較好的實(shí)際時(shí)間序列情況模擬。
為了診斷模型殘差序列是否為白噪聲,即驗(yàn)證序列中有用的信息是否已被提取完畢。選取模型殘差分布圖分析模型合理性[15]。如圖6所示,模型的擬合殘差以0為中心,平均散布在被擬合值點(diǎn)附近,并且在整個(gè)擬合范圍內(nèi)具有大致恒定均勻的擴(kuò)散。因此模型殘差符合建模要求。
圖6 城市/農(nóng)村數(shù)據(jù)殘差圖
Q-Q圖反映了樣本的分布,若樣本的散點(diǎn)圖在直線y=x附近分布,則樣本符合正態(tài)分布[16]。本項(xiàng)目中數(shù)據(jù)經(jīng)過1階差分處理后Q-Q圖如圖7所示。大致符合實(shí)驗(yàn)要求。
圖7 城市/農(nóng)村數(shù)據(jù)Q-Q圖
模型完成后,我們用其對2016年和2017年的惡性腫瘤死亡人數(shù)比重?cái)?shù)據(jù)進(jìn)行了預(yù)測,并與實(shí)際值對比,如圖8所示,圖中紅色曲線是實(shí)際數(shù)據(jù),藍(lán)色是預(yù)測的2016到2017年的預(yù)測數(shù)據(jù)。從圖可知預(yù)測值均接近實(shí)際值。
圖8 城市/農(nóng)村惡性腫瘤死亡人數(shù)占比預(yù)測圖
利用已有的2016年和2017年實(shí)際值與預(yù)測值的差值占實(shí)際值的百分比,作為模型預(yù)測的誤差率值,如表2所示。
表2 實(shí)驗(yàn)預(yù)測值與真實(shí)值對比及模型精確度
由表2可知,預(yù)測最準(zhǔn)確的是城鎮(zhèn)癌癥死亡預(yù)測的2017年的預(yù)測,誤差只有0.027%,幾乎接近實(shí)際值,而其余預(yù)測值的誤差率也均小于1%。模型對近兩年的預(yù)測值都比較準(zhǔn)確,且誤差率較低。因此本項(xiàng)目訓(xùn)練的模型可以應(yīng)用于實(shí)際預(yù)計(jì)城市和農(nóng)村近期的惡性腫瘤死亡人數(shù)占比。
由實(shí)驗(yàn)數(shù)據(jù)分析可知,利用ARIMA模型對我國城市與農(nóng)村惡性腫瘤死亡人數(shù)占比的預(yù)測誤差率均小于1%,模型預(yù)測準(zhǔn)確率均大于99%,因此模型參數(shù)合適,模型預(yù)測結(jié)果具有科學(xué)參考性。
本項(xiàng)目利用我國城市與農(nóng)村惡性腫瘤死亡人數(shù)占比的序列時(shí)間數(shù)據(jù),進(jìn)行ARIMA模型訓(xùn)練與參數(shù)優(yōu)化,并驗(yàn)證了模型預(yù)測數(shù)值的準(zhǔn)確性。結(jié)果表明,此模型可應(yīng)用于實(shí)際死亡人數(shù)占比預(yù)測。通過對城市與農(nóng)村數(shù)據(jù)的分析,可以實(shí)現(xiàn)醫(yī)療資源更加合理的分配。通過對模型的預(yù)測可以進(jìn)一步分析實(shí)際醫(yī)療水平的提升程度與實(shí)際出現(xiàn)的各種意外狀況。
作者聲明:本文全部作者對于研究和撰寫的論文出現(xiàn)的不端行為承擔(dān)相應(yīng)責(zé)任;并承諾論文中涉及的原始圖片、數(shù)據(jù)資料等已按照有關(guān)規(guī)定保存,可接受核查。
學(xué)術(shù)不端:本文在初審、返修及出版前均通過中國知網(wǎng)(CNKI)科技期刊學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)的學(xué)術(shù)不端檢測。
同行評(píng)議:經(jīng)同行專家雙盲外審,達(dá)到刊發(fā)要求。
利益沖突:所有作者均聲明不存在利益沖突。
文章版權(quán):本文出版前已與全體作者簽署了論文授權(quán)書等協(xié)議。