摘要:篩選出對(duì)病情發(fā)展有重要影響的因素,對(duì)新增確診人數(shù)和新增死亡人數(shù)做出預(yù)測。通過隨機(jī)森林的特征重要性篩選出對(duì)疫情發(fā)展影響最大的因素,使用LSTM(Long Short Term Memory Network)建立預(yù)測模型。機(jī)場的繁忙程度對(duì)確診人數(shù)影響最大,人口密度與死亡人數(shù)的關(guān)聯(lián)性最大。美國地區(qū)的人口密度和機(jī)場交通情況對(duì)感染人數(shù)影響較大,從而影響年齡在80歲以上老人的死亡率,但分析結(jié)果顯示美國疫情發(fā)展已基本趨于穩(wěn)中下降的態(tài)勢。
關(guān)鍵詞:COVID-19;影響因素;LSTM;感染數(shù);死亡數(shù)
中圖分類號(hào):R318;TP183? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):2096-4706(2021)07-0091-04
Disease Prediction and Influencing Factors Analysis of COVID-19
Based on LSTM Model
HU Haiwen
(School of Mathematics and Physics,Lanzhou Jiaotong University,Lanzhou? 730070,China)
Abstract:To screen out the factors that have an important impact on the development of the disease,and to predict the number of new confirmed cases and new deaths. Based on the importance of random forest characteristics,the most influential factors were screened out,and the LSTM(Long Short Term Memory Network)was used to establish the prediction model. The business of the airport has the greatest impact on the number of confirmed cases,and the population density has the greatest correlation with the number of deaths. The population density and airport traffic conditions in the United States have a great impact on the number of infected people,thus affecting the mortality of the elderly over 80 years old. However,the analysis results show that the development of the epidemic situation in the United States has basically tended to a steady decline.
Keywords:COVID-19;influencing factor;LSTM;number of infections;number of deaths
收稿日期:2021-03-11
基金項(xiàng)目:國家自然科學(xué)基金(61863022)
0? 引? 言
2019年底暴發(fā)的新冠肺炎疫情(COVID-19)給全世界的醫(yī)療健康、經(jīng)濟(jì)發(fā)展帶來了巨大影響。由于早期對(duì)病毒(SARS-CoV2)缺乏相應(yīng)的認(rèn)知,未能做到及時(shí)采取有力的應(yīng)對(duì)措施,導(dǎo)致全球的感染人數(shù)急速增長。隨著對(duì)病毒了解程度的加深,各國政府先后采取各種非藥物干預(yù)(non-pharmaceutical interventions,NPIs)措施,例如公共場所佩戴口罩、保持社交距離、對(duì)外來人員實(shí)行集中管控及隔離等措施,在很大程度上抑制了病毒的傳播,使得疫情得到有效的控制。但由于超級(jí)傳播者和無癥狀感染者的存在,使該地區(qū)的感染人數(shù)在短期內(nèi)會(huì)迅速增加,這在一定程度上加大了疫情防控的難度。據(jù)世界衛(wèi)生組織公布的數(shù)據(jù),截至2021年4月29日,全球新冠確診病例達(dá)到149 197 928例,死亡病例為3 146 119例。需要注意的是,當(dāng)傳播概率一定時(shí),即使疫苗注射普及率很高,但疫苗的有效性較低,仍會(huì)有極大可能發(fā)生感染大爆發(fā),光靠疫苗注射控制疫情的效果可能不如采取嚴(yán)格的非藥物干預(yù)措施[1]。所以,針對(duì)新冠傳染情況比較嚴(yán)重的地區(qū),進(jìn)行傳染因素和影響病情發(fā)展因素的分析,對(duì)有針對(duì)性地控制疫情發(fā)展具有重要作用,此外,對(duì)疫情發(fā)展的有效預(yù)測,對(duì)后期疫情的管控和預(yù)防意義重大。
美國作為新冠疫情的重災(zāi)區(qū),確診病例高達(dá)3千多萬例,雖然目前已經(jīng)開發(fā)出疫苗,但早期感染數(shù)量較大,同時(shí)病毒不斷變異,病情還是有很大可能會(huì)繼續(xù)惡化下去。本文分析了疫情發(fā)展過程中導(dǎo)致患者感染和死亡的主要因素,通過對(duì)疫情發(fā)展的預(yù)測,為后期更有針對(duì)性地實(shí)施防御保護(hù)措施提供支撐,同時(shí)也可以為后續(xù)類似呼吸疾病的預(yù)防和管控提供寶貴的參考經(jīng)驗(yàn)。
1? 數(shù)據(jù)、特征選擇與方法
1.1? 數(shù)據(jù)來源與特征選擇
本文從紐約時(shí)報(bào)、美國勞工統(tǒng)計(jì)局、美國人口普查局等網(wǎng)站獲取了2020年美國各個(gè)州的靜態(tài)特征數(shù)據(jù)[2],包括各州的GDP、面積、人口密度、人口分布情況等,具體如表1所示。此外,從Johns Hopkins University Center for Systems Science and Engineering(JHU CSSE)[3]中獲取了美國新冠發(fā)展的具體數(shù)據(jù),其中包括從美國確診第一例新冠病毒開始,到2021年5月為止的每日新增確診數(shù)和死亡數(shù)、7日平均新增病例數(shù)以及總感染人數(shù)和死亡數(shù)。其中,靜態(tài)數(shù)據(jù)可以更好地體現(xiàn)各州的綜合情況,能直接反映出受新冠病毒影響最嚴(yán)重的群體,同時(shí)可得出新冠病毒的發(fā)展與哪些靜態(tài)穩(wěn)定的因素有關(guān)[4-6]。因?yàn)樵摂?shù)據(jù)集涵蓋的因素過多,直接用所有特征進(jìn)行相關(guān)性分析會(huì)比較繁瑣耗時(shí),所以本文首先對(duì)近100多個(gè)相關(guān)的因素進(jìn)行特征篩選,采用隨機(jī)森林的重要性評(píng)分方法進(jìn)行重要性評(píng)估,得到對(duì)新冠感染人數(shù)和死亡人數(shù)影響最大的前10個(gè)因素,然后再對(duì)較重要的因素進(jìn)行相關(guān)性分析,得到影響程度比較大的因素。疫情預(yù)測所使用的數(shù)據(jù)來源于JHU CSSE在GitHub上公開的開源數(shù)據(jù),數(shù)據(jù)質(zhì)量較好,沒有空白數(shù)據(jù),因?yàn)槊咳招略霾±芸闯鲆咔檎w的發(fā)展變化趨勢,所以預(yù)測的重點(diǎn)在于新增病例的情況。
1.2? 理論方法
1.2.1? 隨機(jī)森林
隨機(jī)森林作為一種監(jiān)督式分類算法,可以學(xué)習(xí)數(shù)據(jù)特征與標(biāo)簽的關(guān)系,它通過自助法(bootstrap)重采樣技術(shù),不斷從原始訓(xùn)練樣本集N中有放回地反復(fù)隨機(jī)抽取n個(gè)樣本,生成一個(gè)新的訓(xùn)練樣本集合,最終用來訓(xùn)練決策樹,多次重復(fù)后就得到了多棵樹組成的隨機(jī)森林。而通過隨機(jī)森林的重要性評(píng)估可以實(shí)現(xiàn)對(duì)結(jié)果影響最大的特征選擇,達(dá)到壓縮模型所用的特征數(shù)的作用[6]。計(jì)算公式為:
(1)
其中,袋外數(shù)據(jù)誤差為errOOB1,在計(jì)算過程中,隨機(jī)地為袋外數(shù)據(jù)加入噪聲干擾,會(huì)得到新的袋外數(shù)據(jù)誤差errOOB2,N為隨機(jī)森林樹的個(gè)數(shù)。如果在特征中隨機(jī)加入噪聲后,袋外準(zhǔn)確率呈現(xiàn)較大幅度的降低,則代表該特征對(duì)樣本分類結(jié)果影響很大,該特征的變動(dòng)會(huì)極大程度地影響分類結(jié)果,即證明其重要性程度比較高。
1.2.2? LSTM
長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM)為改進(jìn)后的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。它能解決RNN對(duì)短期的輸入敏感的問題,此外,LSTM在RNN的基礎(chǔ)上增加了一個(gè)狀態(tài)結(jié)構(gòu)和三個(gè)門結(jié)構(gòu),如圖1所示,即:單元狀態(tài)(cell state)、遺忘門、輸入門和輸出門。其中,遺忘門通過函數(shù)控制之前信息的輸入程度,輸入門控制當(dāng)前信息的輸入程度,輸出門則用來控制最終輸出[7-9]。LSTM能夠綜合處理長期和短期的輸入,非常適合處理時(shí)間序列的預(yù)測問題。
遺忘門會(huì)讀取ht-1和xt的信息,當(dāng)ft=0時(shí),該部分被遺忘,當(dāng)ft=1時(shí),信息會(huì)保留,ft的計(jì)算公式為:
(2)
第二個(gè)過程是要將新信息存放在長期狀態(tài)里,此過程包含三個(gè)部分:首先是tanh層創(chuàng)建一個(gè)新的候選值向量,然后輸入門層it控制對(duì)候選向量的哪些元素進(jìn)行更新,最后新信息被加入到長期狀態(tài)中[10],此過程的計(jì)算公式為:
(3)
(4)
(5)
輸出門則基于細(xì)胞的狀態(tài),確定最后輸出的值。首先通過sigmoid層確定輸出的信息,然后通過tanh層對(duì)長期狀態(tài)進(jìn)行處理,將其與經(jīng)過輸出門過濾的信息相乘,得到最終的ht,計(jì)算公式為:
(6)
(7)
1.2.3? 度量指標(biāo)
本文使用R2的大小來衡量模型的預(yù)測精度[11]。R2的計(jì)算公式為:
(8)
其中,為預(yù)測值,y(i)為真實(shí)值,為平均值,有用模型的R2范圍一般是在0到1之間,R2越接近于1,表示模型的預(yù)測效果越好,越接近于0,表示模型的預(yù)測效果越差,如果R2為負(fù)數(shù),則表明模型擬合的預(yù)測誤差過大。
2? 結(jié)果
2.1? 特征篩選結(jié)果
通過隨機(jī)森林中的特征重要性對(duì)所有特征進(jìn)行重要性評(píng)分,然后對(duì)結(jié)果排序,取出前十個(gè)數(shù)據(jù),結(jié)果如表2所示。通過計(jì)算結(jié)果可以得出,新冠肺炎的確診人數(shù)與年齡在25~29歲、50~54歲和85歲以上、距紐約的距離、機(jī)場繁忙程度、地區(qū)GDP、亞裔、流浪者人數(shù)、封鎖天數(shù)有比較大的關(guān)系,而死亡人數(shù)與年齡在55~59歲、80歲以上、距紐約州、紐澤西州的距離、機(jī)場繁忙程度、地區(qū)GDP、人口密度和封鎖前的檢測人數(shù)有關(guān)。
進(jìn)一步對(duì)選出的因素做相關(guān)的關(guān)系分析,結(jié)果如圖2所示。
得出結(jié)論:確診人數(shù)主要與地區(qū)機(jī)場的繁忙程度、地區(qū)GDP水平、年齡在50~59歲、80~84歲、85歲以上、人口密度和流浪者人數(shù)有較大的關(guān)系,可以推測,某地區(qū)GDP水平比較高時(shí),該地區(qū)的人口密度較高,交通會(huì)比較繁忙,所以當(dāng)某地區(qū)的人流較大時(shí),新冠肺炎確診的人數(shù)會(huì)比較多,老年群體,尤其是年齡在80歲以上的老人,更有可能被確診感染新冠病毒。死亡人數(shù)與人口密度、地區(qū)機(jī)場的繁忙程度、年齡在80歲以上的老人人數(shù)相關(guān)性較大,當(dāng)人口密度高、交通繁忙時(shí),會(huì)使病毒傳染更快,確診人數(shù)的增加,加之老年人的抵抗能力較弱,使得死亡病例更多集中在80歲以上的老年群體中,且死亡率沒有呈現(xiàn)種族偏好。
2.2? LSTM預(yù)測結(jié)果
預(yù)測采用的數(shù)據(jù)是從2020年1月22日美國出現(xiàn)第一例確診病例開始,到2021年3月1日為止,全美國每日出現(xiàn)的確診病例和死亡人數(shù)。由于數(shù)據(jù)從0開始增加到萬,為減少量綱對(duì)預(yù)測結(jié)果的影響,對(duì)數(shù)據(jù)進(jìn)行歸一化處理。模型輸入層為1層,隱藏層為6層,可以達(dá)到較佳的擬合情況,優(yōu)化器選擇了隨機(jī)梯度下降(SGD),能夠有效避免陷入局部最優(yōu),同時(shí)也能加快收斂速度。預(yù)測時(shí),采用了的間隔取數(shù),避免局部數(shù)據(jù)的影響。最終得到模型的R2=0.830 3,最終的預(yù)測模型擬合情況如圖3、圖4所示。從預(yù)測圖中可以看出,美國每日新增確診和死亡人數(shù)已基本穩(wěn)定且不斷減少,疫情得到緩解。
3? 結(jié)? 論
本文首先對(duì)影響美國疫情發(fā)展的一些靜態(tài)數(shù)據(jù)指標(biāo)進(jìn)行了分析,篩選出比較重要的特征后進(jìn)行確診病例和死亡病例的相關(guān)性分析,發(fā)現(xiàn)美國新冠的確診人數(shù)與年齡在85歲以上、地區(qū)的交通繁忙程度和GDP發(fā)展水平等因素的相關(guān)性最大,而死亡人數(shù)則與人口密度和年齡在80歲以上的相關(guān)性最大。得到此結(jié)論后,本文采用了LSTM建立模型,對(duì)美國疫情的每日發(fā)展情況進(jìn)行了預(yù)測,通過預(yù)測結(jié)果可以看出,美國的疫情目前已經(jīng)趨穩(wěn),確診人數(shù)和死亡人數(shù)都在不斷下降。
參考文獻(xiàn):
[1] TANG B,ZHANG X,LI Q,et al. The minimal COVID-19 vaccination coverage and efficacy to compensate for potential increase of transmission contacts,and increased transmission probability of the emerging strains [J/OL].BNE Public Health,2021:[2021-02-24].https://www.researchsquare.com/article/rs-140717/v1.
[2] CDC. Covid data tracker [EB/OL].[2021-03-01]. https://covid.cdc.gov/covid-data-tracker/#datatracker-home.
[3] Johns Hopkins University & Medicine. COVID-19 Dashboard by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University (JHU) [EB/OL].[2021-03-01].https://coronavirus.jhu.edu/map.html.
[4] RANDHAWA G,SOLTYSIAK M,EL ROZ H,et al. Machine learning using intrinsic genomic signatures for rapid classification of novel pathogens:COVID-19 case study [J/OL].PLOS One,2020,15(4):[2021-03-01].https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0232391.
[5] 胡小亮,路方紅,劉振東,等.原發(fā)性高血壓患者血壓晨峰與心血管疾病危險(xiǎn)因素相關(guān)性分析 [J].中國循環(huán)雜志,2012,27(2):95-98.
[6] 湯正義,李向利,張煒,等.2型糖尿病神經(jīng)病變的發(fā)病情況與有關(guān)因素相關(guān)性分析 [J].中華內(nèi)科雜志,2003(12):47-48.
[7] 黃梅,朱焱.基于隨機(jī)森林特征重要性的K-匿名特征優(yōu)選 [J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(3):266-270.
[8] 李俊卿,李秋佳,石天宇,等.基于隨機(jī)森林重要性的LSTM網(wǎng)絡(luò)風(fēng)電功率缺失數(shù)據(jù)補(bǔ)齊 [J].電器與能效管理技術(shù),2018(13):47-52+58.
[9] 歐陽紅兵,黃亢,閆洪舉.基于LSTM神經(jīng)網(wǎng)絡(luò)的金融時(shí)間序列預(yù)測 [J].中國管理科學(xué),2020,28(4):27-35.
[10] ALIMADADI A,ARYAL S,et al. Artificial intelligence and machine learning to fight COVID-19 [J].Physiological Genomics,2020,52(4):200-202.
[11] WANG P P,ZHENG X Q,LI J Y,et al. Prediction of epidemic trends in COVID-19 with logistic model and machine learning technics [J/OL].Chaos,Solitons & Fractals,2020,139:[2021-03-01].https://doi.org/10.1016/ j.chaos.2020.110058.
作者簡介:胡海文(1995—),女,漢族,甘肅嘉峪關(guān)人,碩士研究生在讀,研究方向:應(yīng)用統(tǒng)計(jì)。