龔風(fēng)云 王凱
【摘 要】目的:分析烏魯木齊市流感樣病例月發(fā)病數(shù)的變化趨勢(shì),建立長(zhǎng)短期記憶(LSTM)模型,對(duì)流感樣病例例數(shù)數(shù)進(jìn)行預(yù)測(cè),為烏魯木齊市流感的預(yù)防與控制提供科學(xué)依據(jù)。方法:利用2015年1月-2018年3月烏魯木齊市的每月氣象數(shù)據(jù)、流感樣病例監(jiān)測(cè)數(shù)據(jù),采用單變量LSTM模型和多變量LSTM模型對(duì)烏魯木齊市流感樣病例例數(shù)的時(shí)間序列進(jìn)行預(yù)測(cè),使用RMSE和MAE值評(píng)價(jià)不同方法的預(yù)測(cè)精度。結(jié)果:?jiǎn)巫兞縇STM模型和多變量LSTM模型的RMSE值分別是66.17和56.91;MAE值分別是60.42和39.07。與單變量LSTM模型相比,多變量的LSTM模型預(yù)測(cè)效果較好。結(jié)論:本研究所建立的多變量LSTM模型能較好地預(yù)測(cè)ILI病例數(shù)的發(fā)病趨勢(shì),為流感監(jiān)測(cè)和預(yù)防控制提供依據(jù)。
【關(guān)鍵詞】LSTM;流感樣病例;氣象因素;預(yù)測(cè)
中圖分類號(hào): TP393.0;TP183 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2019)31-0020-003
DOI:10.19694/j.cnki.issn2095-2457.2019.31.009
Prediction of influenza-like cases in urumqi based on LSTM neural network
GONG Feng-yun1 WANG Kai2*
(1.College of Applied Mathematics,Xinjiang University of Finance and Economis, Urumqi Xinjiang 830012, China;
2.College of Medical Engineering and Technology,Xinjiang Medical University, Urumqi Xinjiang 830011, China)
【Abstract】[Objective]To analyze the change trend of the monthly incidence of influenza-like cases in Urumqi, establish long-short term memory(LSTM) model,and predict the number of influenza-like cases, so as to provide scientific basis for the prevention and control of influenza in Urumqi.[Methods]Monthly meteorological data and influenza-like case monitoring data from January 2015 to March 2018 in Urumqi were used to predict the time series of influenza-like cases in Urumqi using univariate LSTM model and multivariate LSTMmodel, RMSE and MAE values were used to evaluate the prediction accuracy of different methods.[Results]RMSE values of univariate LSTM model and multivariate LSTM model are 66.17 and 56.91 respectively.The MAE values are 60.42 and 39.07 respectively.Compared with the single-variable LSTM model, the multivariable LSTM model has a better predictive effect. [Conclusion] The multivariate LSTM model established in this study can better predict the incidence trend of ILI cases, providing a basis for influenza surveillance, preventionand control.
【Key words】LSTM; Influenza-like cases; Meteorological factors; Prediction
流行性感冒簡(jiǎn)稱流感,是由流感病毒引起的一種傳染性呼吸道疾病[1]。流感病毒主要通過空氣傳播,如咳嗽、噴嚏等[2]。據(jù)統(tǒng)計(jì),全球每年約有10%~20%的人群因流感的季節(jié)性流行而感染流感,其中300萬(wàn)~500萬(wàn)人為重癥病例,25萬(wàn)~50萬(wàn)人為死亡病例[3]。流感的流行不僅對(duì)人群健康造成嚴(yán)重威脅,也對(duì)社會(huì)產(chǎn)生了巨大的經(jīng)濟(jì)損失[4]。在美國(guó),流感每年的總成本超過100億美元,而未來(lái)的流感大流行估計(jì)直接和間接成本高達(dá)數(shù)千億美元[5]。Yang J等[6]一項(xiàng)覆蓋全國(guó)范圍的研究顯示,個(gè)人流感門診病例的平均費(fèi)用為$155,流感住院病例的平均費(fèi)用為$1511。在疾病高峰期,診所和醫(yī)院不堪重負(fù)。接種流感疫苗和阻礙傳播途徑是預(yù)防流感有效的方法[7]。新疆烏魯木齊市是流感多發(fā)地之一,該市作為國(guó)家級(jí)流感監(jiān)測(cè)點(diǎn),對(duì)流感樣病例(influenza-like illness,ILI)進(jìn)行了長(zhǎng)期持續(xù)的監(jiān)測(cè)[8]。為了幫助政府、醫(yī)院、診所、制藥公司和其他公司有效地控制流感爆發(fā),并及時(shí)限制傳播途徑,本研究使用LSTM模型對(duì)烏魯木齊市ILI例數(shù)數(shù)據(jù)進(jìn)行訓(xùn)練擬合、分析及預(yù)測(cè),并比較預(yù)測(cè)精度。
1 資料與方法
1.1? ILI定義
發(fā)熱(體溫≥38℃)、伴咳嗽或咽痛之一者[9]。
1.2 資料來(lái)源
2015年1月—2018年3月烏魯木齊市的每月ILI例數(shù)來(lái)源于“中國(guó)疾病預(yù)防控制信息系統(tǒng)流感監(jiān)測(cè)信息子系統(tǒng)”。氣象數(shù)據(jù)資料來(lái)自烏魯木齊市氣象局,主要包括月平均氣溫(℃)、月降水量(mm)、月平均氣壓(hpa)、月平均最大氣壓(hpa)、月平均最小氣壓(hpa)、月平均相對(duì)濕度(%)、月平均風(fēng)速(m/s)、月日照時(shí)數(shù)(h)。
1.3 長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(long-short term memory,LSTM)
LSTM是一種改進(jìn)的時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[10],它的提出解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中由于輸入序列過長(zhǎng)帶來(lái)的梯度消失問題[11]。一個(gè)LSTM單元包括細(xì)胞狀態(tài)(cell state)、輸入門(input gate)、遺忘門(forget gate)、輸出門(forget gate),且LSTM神經(jīng)元的三個(gè)門的激活函數(shù)均為 Sigmoid[12]。
1.4 模型預(yù)測(cè)效果的比較
本文通過計(jì)算測(cè)試集的均方根誤差(Root Mean Square Error,RMSE)和平均絕對(duì)誤差(Mean Absolute Error,MAE)來(lái)定量地評(píng)價(jià)模型擬合及預(yù)測(cè)效果。該計(jì)算公式如下:
RMSE=■
MAE=■■|Y■-Y■|
式中,Y1t和Y2t均分別為t時(shí)刻的觀測(cè)值和模型輸出值,n為數(shù)據(jù)點(diǎn)個(gè)數(shù)。
1.5 統(tǒng)計(jì)分析
使用Python3.0和R3.6.1軟件建立LSTM模型,其中各變量之間的相關(guān)性分析均采用了統(tǒng)計(jì)學(xué)中的Spearman相關(guān)。檢驗(yàn)水準(zhǔn)α=0.05。
2 結(jié)果
2.1 描述性分析
2015年1月-2018年3月烏魯木齊市的ILI病例總數(shù)為5572例,月平均發(fā)病數(shù)約為143例。其中,月ILI例數(shù)、月平均氣溫(℃)、月降水量(mm)、月平均氣壓(hpa)、月平均最大氣壓(hpa)、月平均最小氣壓(hpa)、月平均相對(duì)濕度(%)、月平均風(fēng)速(m/s)、月日照時(shí)數(shù)(h)分別用fre、temp、rain、press、press_max、press_min、humidity、wind_speed、sunshine_hours表示。該時(shí)間序列圖顯示,流感樣病例數(shù)呈現(xiàn)明顯的季節(jié)性,冬春季發(fā)病數(shù)明顯多于夏秋季。月平均氣溫、月降水量、月平均風(fēng)速和月日照時(shí)數(shù)在冬春季偏低,夏秋季偏高,而月平均氣壓、月平均最大氣壓、月平均最小氣壓和月平均相對(duì)濕度在冬春季偏高,夏秋季偏低。見圖1。2015年1月—2018年3月烏魯木齊市的月平均氣溫、月降水量、月平均氣壓、月平均最大氣壓、月平均最小氣壓、月平均相對(duì)濕度、月平均風(fēng)速、月日照時(shí)數(shù)的均值分別為6.9℃、29.3mm、912.5hPa、917.6hpa、906.7hpa、59.7%、2.0m/s、222.4h。見表1。
2.2 LSTM模型分析
2.2.1 單變量LSTM模型
由于LSTM不需要對(duì)時(shí)間序列進(jìn)行平穩(wěn)性和白噪聲檢驗(yàn),可以直接建立模型。所以,本文首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將時(shí)間序列數(shù)據(jù)轉(zhuǎn)化為學(xué)習(xí)數(shù)據(jù),并且對(duì)數(shù)據(jù)進(jìn)行歸一化處理。然后將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,將2015年1月-2016年1月的數(shù)據(jù)作為訓(xùn)練集,2016年2月-2018年3月的數(shù)據(jù)作為測(cè)試集。最后建立LSTM模型,本文設(shè)置模型的隱藏層數(shù)為4,輸入層和輸出層分別為1和1;時(shí)間步長(zhǎng)(time_step)設(shè)置為1。
圖1 2015年1月-2018年3月烏魯木齊市的每月ILI例數(shù)和氣象因素分布
2.2.2 多變量LSTM模型
由于單變量LSTM的預(yù)測(cè)結(jié)果并不太好,所以本文對(duì)單變量LSTM的輸入層與隱藏層進(jìn)行了改變,進(jìn)而構(gòu)建了一個(gè)可以輸入多個(gè)序列的多變量LSTM模型。本文設(shè)置的多變量LSTM模型的隱藏層數(shù)為50;輸入層和輸出層分別為8和1;每批次訓(xùn)練樣本數(shù)(batch_size)設(shè)置為72;時(shí)間步長(zhǎng)(time_step)設(shè)置為1;在 輸入特征時(shí)需要將tensor轉(zhuǎn)成三維作為L(zhǎng)STM cell的輸入。結(jié)果見圖2。
圖2 多變量LSTM預(yù)測(cè)結(jié)果
2.2.3 模型評(píng)價(jià)
從表2可以看出,與單變量LSTM模型相比,納入多個(gè)變量的LSTM模型預(yù)測(cè)的RMSE和MAE略小。其中,多變量的LSTM模型預(yù)測(cè)的RMSE降低了9.26,預(yù)測(cè)的MAE降低了21.35。表明多變量LSTM模型可以提高模型的預(yù)測(cè)精度。
表2 單變量LSTM模型和多變量LSTM模型的預(yù)測(cè)精度比較
3 討論
本研究采用時(shí)間序列分析方法,分析了2015年 1月~2018年3月新疆烏魯木齊市ILI例數(shù)的發(fā)病趨勢(shì)。時(shí)間序列模型通過使用不同的特性可以分為3種類型[5]。第一類模型是自回歸模型,它使用過去的患者數(shù)量作為特征(“xs”),并預(yù)測(cè)未來(lái)的患者數(shù)量作為響應(yīng)(y)。典型的例子包括自回歸綜合移動(dòng)平均(ARIMA)模型和向量自回歸模型(VAR)。第二類模型使用其他參數(shù)(如溫度、濕度等)代替過去的流感數(shù)據(jù)作為回歸模型(如線性回歸、隨機(jī)森林等)的特征。著名的例子是“谷歌流感趨勢(shì)”,它使用搜索引擎查詢數(shù)據(jù)作為特征和線性回歸模型。第三類模型是第一類和第二類的組合。它使用過去流感患者的數(shù)量作為特征(如第一種類型)和回歸模型(如第二種類型)。本研究采用了第三種模型類型,長(zhǎng)短期記憶(LSTM)模型來(lái)預(yù)測(cè)流感的爆發(fā)。
從描述性分析結(jié)果來(lái)看,2015年1月—2018年3月烏魯木齊市的ILI發(fā)病數(shù)呈現(xiàn)冬春季高發(fā)的特點(diǎn),該特點(diǎn)不同于南方地區(qū)流感流行趨勢(shì),南方春季或初夏流感活動(dòng)較為活躍,這與南北方氣候差異相關(guān)。已有研究表明,地理位置、氣候條件的差異是造成北方地區(qū)與南方地區(qū)流感流行時(shí)間不同的主要因素[13]。由于烏魯木齊市位于中國(guó)西北地區(qū),是溫帶大陸性氣候[14]。溫帶大陸性氣候特點(diǎn)主要包括冬夏2季時(shí)間較長(zhǎng),春秋2季時(shí)間較短,且冬季寒冷,夏季炎熱,年降水量少,比較干旱[15]。所以其發(fā)病呈冬春季高發(fā)的特點(diǎn)。
從LSTM模型結(jié)果分析來(lái)看,本文將氣象因素中的多變量LSTM模型概念引入到ILI發(fā)病數(shù)的預(yù)測(cè)中,為一般基于單變量 LSTM流感樣病例預(yù)測(cè)模型加入了更多氣象因素特征,不再僅僅將ILI例數(shù)看作為一個(gè)簡(jiǎn)單的數(shù)學(xué)概念上的時(shí)間序列。適當(dāng)使用多變量LSTM模型可能有助于預(yù)測(cè)目前和近期的流感傳播。由于本文現(xiàn)有的流感數(shù)據(jù)有限,所以,流感預(yù)測(cè)模型的準(zhǔn)確性還有待提高。但是,與單變量LSTM模型相比,納入多個(gè)變量的LSTM模型預(yù)測(cè)的RMSE和MAE略小,說明多變量LSTM模型可以用于ILI發(fā)病數(shù)的預(yù)測(cè),同時(shí)為公共衛(wèi)生人員提供一個(gè)相對(duì)準(zhǔn)確的參考點(diǎn),進(jìn)而對(duì)預(yù)防和控制流感的流行提出相關(guān)性建議。
然而,本文的研究也有一些不足。預(yù)測(cè)模型的準(zhǔn)確性還有待提高,造成這個(gè)結(jié)果的可能原因是數(shù)據(jù)量較少,研究下一步將擴(kuò)大樣本量,再次對(duì)比單變量LSTM模型與多變量LSTM在預(yù)測(cè)疾病發(fā)病數(shù)上的精度。盡管多變量LSTM模型在預(yù)測(cè)精度上沒有明顯的優(yōu)勢(shì),但是多變量LSTM模型也為預(yù)測(cè)ILI例數(shù)提供了新的方法。
【參考文獻(xiàn)】
[1]譚婭文,萬(wàn)海同,何昱,杜海霞,楊潔紅,彭學(xué)謙,周惠芬.中藥抗流感病毒的作用及機(jī)制研究進(jìn)展[J].中國(guó)現(xiàn)代應(yīng)用藥學(xué),2019(16):2095-2099.
[2]WHO,“Influenza(Seasonal),”http://www.who.int/mediacentre/factsheets/fs211/en/index.html.
[3]崔永梅,杜中強(qiáng),侯瑩.孕婦感染甲型H3N2流感死亡病例的病因?qū)W分析[J].中國(guó)藥物與臨床,2019,19(5):834-835.
[4]李文娟,王大燕.我國(guó)流感疾病負(fù)擔(dān)相關(guān)研究進(jìn)展[J/OL].中國(guó)人獸共患病學(xué)報(bào):1-6[2019-08-31].http://kns.cnki.net/kcms/detail/35.1284.R.20190723.1447.004.html.
[5]Jie Z , Kazumitsu N . A comparative study on predicting influenza outbreaks[J]. BioScience Trends, 2017, 11(5):533-541.
[6]Yang J,Jit M,Leung KS, et al.The economic burden of influenza-associated outpatient visits and hospitalizations in China: a retrospective survey [J]. Infect Dis Poverty,2015,4:44.
[7]張慕麗,彭質(zhì)斌,鄭建東, 等.中國(guó)兒童流感疾病負(fù)擔(dān)和疫苗應(yīng)用現(xiàn)狀[J].中華實(shí)用兒科臨床雜志,2019,34(2):91-97.
[8]高楓,阿不都熱依木,樊旭成,等.2016-2017年烏魯木齊市流感監(jiān)測(cè)結(jié)果分析[J].醫(yī)學(xué)信息,2018,31(19):134-136.
[9]中華人民共和國(guó)衛(wèi)生部.全國(guó)流感監(jiān)測(cè)方案(2010年版)[J].國(guó)際呼吸雜志,2011,31(2):85-88.
[10]張春露.基于Tensorflow的LSTM在太原空氣質(zhì)量AQI指數(shù)中的分析與預(yù)測(cè)[D].中北大學(xué),2019.
[11]裴大衛(wèi),朱明.基于多因子與多變量長(zhǎng)短期記憶網(wǎng)絡(luò)的股票價(jià)格預(yù)測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(8):30-38.
[12]楊意豪,王梅,左銘.基于深度LSTM的甲亢疾病發(fā)展預(yù)測(cè)及應(yīng)用系統(tǒng)[J].智能計(jì)算機(jī)與應(yīng)用,2019,9(4):128-131.
[13]蒲玉嬌. 2012一2017年烏魯木齊市流感流行特征與病原學(xué)監(jiān)測(cè)分析[D].新疆:新疆醫(yī)科大學(xué),2018:36-37.
[14]LI J , LI XM . Response of stomatal conductance of two tree species to vapor pressure deficit in three climate zones[J]. J Arid Land, 2014, 6(6):771-781.
[15]陶燕,顧天毅,王硯,等.蘭州市城關(guān)區(qū)流行性感冒與氣象因素的時(shí)間序列[J].蘭州大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,54(1):137-142.