我國惡性腫瘤死亡人數(shù)比重預(yù)測的ARIMA模型*

2020-07-23 07:41:38鄧卓蘇秉華張凱

腫瘤預(yù)防與治療 2020年7期

鄧卓,蘇秉華,張凱

519088 廣東珠海，北京理工大學(xué)珠海學(xué)院光電成像技術(shù)與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室(鄧卓、蘇秉華、張凱)；100081 北京，北京理工大學(xué) 光電學(xué)院(鄧卓、蘇秉華)

在如今談癌色變的科技時(shí)代，因癌癥而引起的死亡病例明顯上升，癌癥時(shí)刻威脅著人類的生命安全[1-2]。惡性腫瘤是全球人類第三大死因。世界衛(wèi)生組織2002年統(tǒng)計(jì)資料表明，全球惡性腫瘤新發(fā)病例1 090萬，死亡人數(shù)670萬，現(xiàn)患人數(shù)2 460萬[3]。2005年統(tǒng)計(jì)惡性腫瘤死亡人數(shù)已經(jīng)上升到760萬。全球因惡性腫瘤死亡的人數(shù)已占總死亡人數(shù)的12%，20年后全球每年死于惡性腫瘤的人數(shù)將達(dá)到1 000萬，每年新增人數(shù)達(dá)1 500萬。所以對惡性腫瘤的研究與預(yù)測具有十分重要的現(xiàn)實(shí)意義[4]。

隨著科學(xué)技術(shù)的發(fā)展，將科學(xué)技術(shù)手段應(yīng)用于醫(yī)療領(lǐng)域，不僅可以更加有效地提高醫(yī)療手段，而且可以預(yù)測并進(jìn)一步分析實(shí)際出現(xiàn)的問題[5]。在如今的大數(shù)據(jù)時(shí)代，合理地將數(shù)據(jù)分析方法應(yīng)用于醫(yī)療領(lǐng)域是提高醫(yī)療水平的一種方法[6]。本項(xiàng)目將國家統(tǒng)計(jì)局官網(wǎng)公布的實(shí)際數(shù)據(jù)應(yīng)用于差分整合移動(dòng)平均自回歸模型(autoregressive integrated moving average,ARIMA)模型，可以短期預(yù)測數(shù)據(jù)動(dòng)態(tài)。希望可以應(yīng)用于實(shí)際，為我國醫(yī)療科技做出貢獻(xiàn)。

其中ARIMA是一種時(shí)間序列預(yù)測模型[7]。模型要求待預(yù)測的數(shù)據(jù)具有一定的平穩(wěn)性，即樣本的時(shí)間序列曲線具有形態(tài)“慣性”，序列的均值和方差不發(fā)生明顯變化[8]。ARIMA模型簡單，只需要內(nèi)生變量而不需要借助其他外生變量。

1 材料與方法

1.1 材料來源

本項(xiàng)目采用國家統(tǒng)計(jì)局公布于國家數(shù)據(jù)網(wǎng)上的年度數(shù)據(jù)中，我國城市與農(nóng)村惡性腫瘤死亡人數(shù)占比的1999年到2017年數(shù)據(jù)為實(shí)驗(yàn)樣本，其中利用1999年到2015年數(shù)據(jù)為實(shí)驗(yàn)訓(xùn)練樣本，并利用訓(xùn)練好的模型預(yù)測2016到2017年數(shù)據(jù)，并與真實(shí)值進(jìn)行對比，檢驗(yàn)?zāi)Ｐ途珳?zhǔn)度。所采用的數(shù)據(jù)如表1所示。對數(shù)據(jù)進(jìn)行可視化處理后，其結(jié)果如圖1所示。

表1 我國城市與農(nóng)村惡性腫瘤死亡人數(shù)占比

圖1 國家數(shù)據(jù)官網(wǎng)的數(shù)據(jù)折線圖

1.2 模型方法

ARIMA主要由自回歸(autoregressive,AR)模型、移動(dòng)平均(moving average,MA)模型和差分三部分構(gòu)成[9]。其中AR模型是描述當(dāng)前時(shí)間的值與歷史時(shí)間的值之間存在的關(guān)系，并且利用變量自身歷史時(shí)間上的數(shù)據(jù)對自身當(dāng)前及之后時(shí)間值進(jìn)行預(yù)測[10]，p階自回歸過程的數(shù)學(xué)公式如下：

(1)

這里yt是時(shí)間序列的預(yù)測值；μ是常數(shù)項(xiàng)；εt是被假設(shè)為平均數(shù)等于0，標(biāo)準(zhǔn)差為恒值的隨機(jī)誤差值；ri是自相關(guān)系數(shù)。

MA模型通過對自回歸模型中誤差項(xiàng)累計(jì)的移動(dòng)平均，有效地消除預(yù)測中出現(xiàn)的隨機(jī)波動(dòng)[11]。提高模型的魯棒性。模型的數(shù)學(xué)定義公式如下：

(2)

其中yt是時(shí)間序列的預(yù)測值；μ是常數(shù)項(xiàng)；εt是被假設(shè)為平均數(shù)等于0，標(biāo)準(zhǔn)差為恒值的隨機(jī)誤差值；θi是MA公式的相關(guān)系數(shù)。差分法是在時(shí)間序列上求t與t-1時(shí)刻的差值，使用差分法可以有效使數(shù)據(jù)滿足平穩(wěn)性。差分運(yùn)算具有很強(qiáng)的確定信息提取能力，許多非平穩(wěn)的序列經(jīng)過差分后顯示出平穩(wěn)序列的性質(zhì)[12]。經(jīng)過上述三種方式的綜合運(yùn)用得出模型ARIMA(p,d,q)，其中模型中的參數(shù)q由自相關(guān)函數(shù)(autocorrelation functionl,ACF)圖可以得到，表明t時(shí)刻的數(shù)據(jù)受到t-i時(shí)刻之間的數(shù)據(jù)影響；參數(shù)d是模型的差分階數(shù)，目的是使數(shù)據(jù)平穩(wěn)化，更好地提取數(shù)據(jù)特征；模型中的參數(shù)p為自回歸階數(shù)，由偏自相關(guān)函數(shù)(partial autocorrelation fanction,PACF)圖獲得。PACF圖是剔除了中間k-1個(gè)隨機(jī)變量x(t-1)、x(t-2)、……x(t-k+1)的干擾之后，x(t-k)對x(t)單純影響的相關(guān)程度。ARIMA(p,d,q)模型實(shí)際上就是將時(shí)間序列上非平穩(wěn)數(shù)據(jù)轉(zhuǎn)換成時(shí)間序列上平穩(wěn)的數(shù)據(jù)，然后將時(shí)間變量對數(shù)據(jù)的滯后值以及隨機(jī)誤差項(xiàng)進(jìn)行回歸預(yù)測[13]。模型的數(shù)學(xué)定義如下:

(3)

其中yt是時(shí)間序列的預(yù)測值；μ是常數(shù)項(xiàng)；εt是被假設(shè)為平均數(shù)等于0，標(biāo)準(zhǔn)差為恒值的隨機(jī)誤差值，ri是自相關(guān)系數(shù)，θi是MA公式的相關(guān)系數(shù)。

從本文實(shí)驗(yàn)數(shù)據(jù)的圖示中可看出，兩條數(shù)據(jù)線均不夠穩(wěn)定，因此需要對數(shù)據(jù)做差分處理。取訓(xùn)練集數(shù)據(jù)，即1999年至2015年數(shù)據(jù)做1階差分處理后基本達(dá)到弱平穩(wěn)狀態(tài)(圖2)。因此模型d參數(shù)可確定為數(shù)值1。

圖2 城市/農(nóng)村數(shù)據(jù)1階差分圖

一階差分處理后的數(shù)據(jù)的ACF反映了同一序列在不同時(shí)序的取值之間的相關(guān)性。ACF的數(shù)學(xué)表達(dá)式如下:

(4)

這里，分子是當(dāng)前時(shí)間t與之前時(shí)間t-k序列數(shù)據(jù)的協(xié)方差值，分母是當(dāng)前時(shí)間樣本方差值。ACF取值范圍為-1到1，說明了該函數(shù)對該時(shí)間序列不同時(shí)間點(diǎn)的取值之間的相關(guān)性程度。通過ACF圖可以確定模型的參數(shù)q值，如圖3所示。橫軸表示滯后時(shí)間(年)，深色區(qū)間為置信區(qū)間，當(dāng)滯后數(shù)據(jù)落在深色區(qū)域內(nèi)，表示數(shù)據(jù)自相關(guān)數(shù)落到了95%的置信區(qū)間。因此只要數(shù)據(jù)落到置信區(qū)間內(nèi)均可行。從圖可知，q值均可取大于等于零的任意值。

圖3 城市/農(nóng)村數(shù)據(jù)ACF圖

PACF是消除干擾后，惡性腫瘤死亡百分比數(shù)據(jù)的時(shí)間序列與先前時(shí)間序列之間的相關(guān)性。通過PACF圖可以確定模型的參數(shù)p值，如圖4所示。參數(shù)取值原理類似ACF，由于實(shí)際具有很多不確定因素，因此只要大部分?jǐn)?shù)據(jù)均落在置信區(qū)間則可行，由圖可知，p值均可取大于等于零的任意值。

圖4 城市/農(nóng)村數(shù)據(jù)PACF圖

為了使模型的參數(shù)取值盡量擬合原始數(shù)據(jù)曲線，且盡量避免出現(xiàn)過擬合現(xiàn)象。選取合適的參數(shù)可以提高模型泛化能力。因此利用赤池信息準(zhǔn)則(Akaike information criterion,AIC)來選取模型參數(shù)可以進(jìn)一步優(yōu)化模型。AIC是權(quán)衡模型復(fù)雜度和擬合優(yōu)良性的一種標(biāo)準(zhǔn)[14]。判別方法如下：

AIC=2k=2ln(2L)

(5)

其中k是參數(shù)的個(gè)數(shù)，L是似函數(shù)。因此AIC值越小參數(shù)越合理。通過分析數(shù)據(jù)的AIC熱度圖，如圖5所示，橫軸表示MA模型參數(shù)q的取值從0到3，縱軸表示AR模型參數(shù)p的取值從0到4。顏色越深A(yù)IC值越小，因此由圖可以選出模型最優(yōu)參數(shù)。

圖5 城市/農(nóng)村數(shù)據(jù)AIC圖

綜上，城市模型取ARIMA(2，1，0)，農(nóng)村模型取ARIMA(2，1，0)可以使預(yù)測模型復(fù)雜度低，且可實(shí)現(xiàn)較好的實(shí)際時(shí)間序列情況模擬。

2 結(jié) 果

2.1 模型殘差正態(tài)分布圖

為了診斷模型殘差序列是否為白噪聲，即驗(yàn)證序列中有用的信息是否已被提取完畢。選取模型殘差分布圖分析模型合理性[15]。如圖6所示，模型的擬合殘差以0為中心，平均散布在被擬合值點(diǎn)附近，并且在整個(gè)擬合范圍內(nèi)具有大致恒定均勻的擴(kuò)散。因此模型殘差符合建模要求。

圖6 城市/農(nóng)村數(shù)據(jù)殘差圖

2.2 模型Q-Q圖

Q-Q圖反映了樣本的分布，若樣本的散點(diǎn)圖在直線y=x附近分布，則樣本符合正態(tài)分布[16]。本項(xiàng)目中數(shù)據(jù)經(jīng)過1階差分處理后Q-Q圖如圖7所示。大致符合實(shí)驗(yàn)要求。

圖7 城市/農(nóng)村數(shù)據(jù)Q-Q圖

2.3 模型預(yù)測

模型完成后，我們用其對2016年和2017年的惡性腫瘤死亡人數(shù)比重?cái)?shù)據(jù)進(jìn)行了預(yù)測，并與實(shí)際值對比，如圖8所示，圖中紅色曲線是實(shí)際數(shù)據(jù)，藍(lán)色是預(yù)測的2016到2017年的預(yù)測數(shù)據(jù)。從圖可知預(yù)測值均接近實(shí)際值。

圖8 城市/農(nóng)村惡性腫瘤死亡人數(shù)占比預(yù)測圖

利用已有的2016年和2017年實(shí)際值與預(yù)測值的差值占實(shí)際值的百分比，作為模型預(yù)測的誤差率值，如表2所示。

表2 實(shí)驗(yàn)預(yù)測值與真實(shí)值對比及模型精確度

3 討論

由表2可知，預(yù)測最準(zhǔn)確的是城鎮(zhèn)癌癥死亡預(yù)測的2017年的預(yù)測，誤差只有0.027%，幾乎接近實(shí)際值，而其余預(yù)測值的誤差率也均小于1%。模型對近兩年的預(yù)測值都比較準(zhǔn)確，且誤差率較低。因此本項(xiàng)目訓(xùn)練的模型可以應(yīng)用于實(shí)際預(yù)計(jì)城市和農(nóng)村近期的惡性腫瘤死亡人數(shù)占比。

由實(shí)驗(yàn)數(shù)據(jù)分析可知，利用ARIMA模型對我國城市與農(nóng)村惡性腫瘤死亡人數(shù)占比的預(yù)測誤差率均小于1%，模型預(yù)測準(zhǔn)確率均大于99%，因此模型參數(shù)合適，模型預(yù)測結(jié)果具有科學(xué)參考性。

本項(xiàng)目利用我國城市與農(nóng)村惡性腫瘤死亡人數(shù)占比的序列時(shí)間數(shù)據(jù)，進(jìn)行ARIMA模型訓(xùn)練與參數(shù)優(yōu)化，并驗(yàn)證了模型預(yù)測數(shù)值的準(zhǔn)確性。結(jié)果表明，此模型可應(yīng)用于實(shí)際死亡人數(shù)占比預(yù)測。通過對城市與農(nóng)村數(shù)據(jù)的分析，可以實(shí)現(xiàn)醫(yī)療資源更加合理的分配。通過對模型的預(yù)測可以進(jìn)一步分析實(shí)際醫(yī)療水平的提升程度與實(shí)際出現(xiàn)的各種意外狀況。

作者聲明：本文全部作者對于研究和撰寫的論文出現(xiàn)的不端行為承擔(dān)相應(yīng)責(zé)任；并承諾論文中涉及的原始圖片、數(shù)據(jù)資料等已按照有關(guān)規(guī)定保存，可接受核查。

學(xué)術(shù)不端：本文在初審、返修及出版前均通過中國知網(wǎng)(CNKI)科技期刊學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)的學(xué)術(shù)不端檢測。

同行評(píng)議：經(jīng)同行專家雙盲外審，達(dá)到刊發(fā)要求。

利益沖突：所有作者均聲明不存在利益沖突。

文章版權(quán)：本文出版前已與全體作者簽署了論文授權(quán)書等協(xié)議。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看