楊芷銘 謝歐 謝文武
摘? 要:文章針對新型冠狀病毒(COVID-19)管控難以及疫情治理難等普遍性問題,對國內外疫情數據進行預處理并實現數據的可視化顯示,然后通過時序分析方法中的趨勢分析和突變分析識別,建立基于神經網絡的數據分析模型——ANN模型和LSTM模型。通過訓練模型展示出疫情相關結果,預測疫情發(fā)展趨勢。其結果與實際趨勢能夠很好地對應起來,進一步驗證了兩種模型的有效性和實用性。
關鍵詞:神經網絡;數據預測;數據分析;COVID-19
中圖分類號:TP18? ? 文獻標識碼:A? 文章編號:2096-4706(2023)13-0032-07
Analysis and Prediction of COVID-19 Data Based on Neural Networks
YANG Zhiming, XIE Ou, XIE Wenwu
(School of Information Science and Engineering, Hunan Institute of Science and Technology, Yueyang? 414006, China)
Abstract: In view of the common problems such as the difficulty of COVID-19 management and control and the difficulty of epidemic management, this paper preprocesses the domestic and foreign epidemic data and realizes the visual display of the data. Then, through the trend analysis and muta-tion analysis identification in the time series analysis method, the data analysis model based on neural networks - ANN model and LSTM model are es-tablished. Display epidemic related results through training models and predict the development trend of the epidemic. The results correspond well with the actual trends, further verifying the effectiveness and practicali-ty of the two models.
Keywords: neural network; data prediction; data analysis; COVID-19
0? 引? 言
新冠疫情期間,如何精確有效的預測疫情的走向成為研究的熱點問題,許多研究團隊對新冠感染的情況進行了分析[1,2]。文獻[3]建立了一個城市級結構化疫情預測模型,并基于最新的傳染病動力學理論,將SEIR模型與社會網絡模型結合起來對新冠感染狀況進行分析。文獻[4]提出了一種改進的SIR模型來預測新冠感染狀況,其中還考慮了新冠感染的死亡者因素。文獻[5]建立了時間序列模型,對湖北省新冠感染確診人數進行預測分析,并給出相應的建議。文獻[6]提出了一種基于組合式神經網絡的新冠預測模型,并對湖北省確診人數進行了預測,最后驗證了模型的準確性。文獻[7]通過建立數學模型以及擬合的方式來對中國的疫情狀況進行預測分析。
本文通過建立基于神經網絡的新冠感染預測模型,對新冠感染的情況進行趨勢分析,并通過可視化的方式來對新冠感染的走勢進行預測,進而對全世界范圍內的疫情發(fā)展有一個清晰的認知,最后對新冠感染的情況進行評估。數據分析的目標為:
1)實現疫情狀況預測,幫助國家快速發(fā)現爆發(fā)地,確保當地民眾可以提前做好病毒預防準備,實現發(fā)現和控制兩頭抓。
2)基于以往疫情數據,綜合考慮節(jié)假日、天氣、交通等因素對疫情趨勢預測,方便國家提前做出調控與準備。
3)基于疫情大數據,尋找對疫情發(fā)展有較好抵制作用的因素,以便國家及時進行策略調整。
本文在分析新冠感染數據的基礎上,綜合考慮時間空間復雜度以及限制條件的影響,構建了兩種基于神經網絡的新冠感染預測模型。本文的主要貢獻如下:
1)首先對新冠感染數據進行預處理,然后將清洗后的數據采用的PyEcharts模塊進行可視化分析,其中包括趨勢分析和突變識別。
2)建立了ANN和LSTM兩種神經網絡模型對新冠感染狀況進行分析和預測,將兩種模型的預測效果進行對比,最后通過分析給出相應的建議。
1? 數據預處理
本文主要從數據清洗、缺失值處理兩方面對新冠感染數據進行處理。
1.1? 數據清洗
數據清洗的主要目的是從建模等方面考慮,篩選出實驗所需要的數據。由于原始數據中不是所有數據都需要進行分析,因此需要在數據處理時,將贅余的數據進行過濾。
1.2? 缺失值處理
數據缺失主要包括記錄缺失和字段信息缺失等情況[8],對數據分析會有較大影響導致結果的不確定性會更加顯著。一般采用的缺失值處理方法有:刪除記錄、數據插補和不處理。對于數據插補來說,有五種方式,即均值、中位數、眾數插補、臨近值插補、拉格朗日插值法。本文在進行缺失值處理采用了臨近值插補和拉格朗日插值法。
臨近值插補一般是用該數據的前一個數據或者后一個數據直接填補。拉格朗日插值法則是通過確定原始數據集中的因變量和自變量,隨后取出缺失值前后5個數據,根據拉格朗日插值公式計算后所得到的數據插入缺失值處,所用到的公式為:
其中x為缺失值對應的下標序號,Ln(x)為缺失值的插值結果,xi為非缺失值yi的下標序號。對全部缺失數據進行依次插補,直到不存在缺失值為止。
2? 數據分析
本文進行數據分析所使用到的所有國內新冠感染數據均來自國家衛(wèi)生健康委員會所公布的官方報告,所有的國外新冠感染數據均來自世界衛(wèi)生組織官網,且所有數據時間范圍均為2020年1月21日至2020年7月3日。
本文的研究主要從疫情時序分析和疫情可視化分析兩個方面展開。對于疫情時序分析,主要思路為:通過時間序列方法對局部地區(qū)的單日病例時間序列進行分析,從而能夠發(fā)現每日新增病例的變化趨勢、疫情演變階段、疫情拐點特征。在時序統(tǒng)計數據中記錄了各種地方新冠感染的確診人數、死亡人數和治愈人數等。
對于疫情可視化,本文采用了曲線圖、直方圖、餅狀圖以及地圖的方式進行展示,通過不同的專題圖形表述各地疫情,更加直觀地展示了新冠感染的狀況。
2.1? 國內疫情對比分析
以2020年1月28日到2020年6月12日湖北省的新冠感染狀況為例,如圖1所示。
由圖1可知,新冠感染爆發(fā)的時間是在1月到2月份,且確診人數的增長趨勢很快。原因在于武漢市出現了新冠確診患者,武漢是中國交通的大動脈,其人員流動性非常大,導致了疫情從武漢開始蔓延,逐漸擴散到全國。但到了3月底之后確診人數的增長趨勢明顯變緩。這是由于中國下達了武漢封城的指令,隨后中央舉全國之力援助武漢,大量醫(yī)護人員前往武漢支援,大量醫(yī)療物資往武漢輸送,在武漢集中救治確診患者,這才在3月底逐漸控制住了疫情。
再以同時段福建省的新冠感染狀況為例,如圖2所示。
由圖2可知,春節(jié)期間福建省的確診病例在快速增加,覆蓋的區(qū)域也在擴大,原因在于1月23號武漢市封城前后回福建省的人員、福建本地的密切接觸者、湖北旅行史人員較多,并且與以武漢市為主的湖北地區(qū)商務、生活流動頻繁有關,故造成較多的輸入性病例。同時,福建省是沿海地區(qū),沿海地區(qū)人口密度大,有境外輸入的風險,也會造成大規(guī)模感染。
將中國的部分省份的新冠感染狀況整合成直方圖,如圖3所示。
由圖3可知,湖北省的新冠確診人數是各省中最高的,但其治愈人數與確診人數相差不大,大部分確診患者在湖北省都能成功治愈,這也說明了我國的醫(yī)療水平先進和醫(yī)療設施完善,我國對于湖北省投入的醫(yī)療物資齊全,同時也派遣了大量優(yōu)秀的醫(yī)務人員,而且普通民眾對疫情防控措施也十分配合,這也是其他省份感染不嚴重的原因。
2.2? 國外疫情對比分析
本節(jié)以國外部分典型國家的新冠感染狀況為例繪制了餅狀圖進行分析,如圖4至圖6所示。
從圖4至圖6中可以看出,全世界確診人數、治愈人數和死亡人數排名前三的國家全都是美國、印度和巴西,尤其以美國最為嚴重,該國確診人數、死亡人數均為最多,原因在于美國政府未能及時發(fā)布限制令,使得境外輸入病例持續(xù)增加;來自不同地區(qū)的人員參加大規(guī)模聚會在早期傳播中扮演顯著角色;美國還缺少防護措施,使得病毒在傳入人口密集區(qū)域后迅速擴散;在美國疫情早期,新冠病毒檢測難度高,美國疫情起始和加速擴散階段存在大量未被察覺的傳播。而印度的情況也相當嚴重,是由于印度醫(yī)療條件落后、醫(yī)療技術落后,而且疫情初期沒有對疑似病例進行檢測,無法排除新冠感染的可能性;印度面積不大,但人口多,故人口流動的頻率也很高,從而為新冠病毒的傳播創(chuàng)造了有利的條件。巴西則是因為地域廣大,而且巴西是南美中心,與大量國家有著密切來往,從而導致輸入病例過多,造成大規(guī)模傳染。
為了更加直觀地看出全世界新冠感染狀況,此處以世界地圖建立了新冠感染分布圖,如圖7所示(該世界地圖是采用Python的Map庫直接生成)。
由圖7可知,全世界疫情比較嚴重的地區(qū)基本集中在美洲地區(qū)和歐洲地區(qū)。原因在于這些地區(qū)對于新冠感染疫情的重視程度不夠,在新冠感染初期沒有及時采取有效的措施。部分歐美國家在疫情擴散時也采取了很多措施,但效果遠遠不如中國。其原因在于當地民眾對于新冠病毒的無知,以及對防疫措施的不配合。部分疫區(qū)民眾對自己不負責,對社會中的其他人也不負責,把所有責任都推給政府的防疫不利,推給媒體的錯誤報道。這也是導致歐美地區(qū)新冠感染大爆發(fā)的一個重要原因。以美國為例,各個州發(fā)布了抗疫措施,大量民眾都不支持,許多人寧可冒著生命危險與州政府要求解除居家令,也不愿居家隔離,因此造成了新冠病毒迅速傳播。而亞洲、非洲和大洋洲等地區(qū)疫情相對沒有那么嚴重。以東亞地區(qū)為例,不管政府措施如何,在疫情的真實數據面前,普通民眾都保持了較高的警覺意識,對于各類防疫措施也愿意接受。因此抗疫的關鍵需要民眾的支持,否則一切防疫措施和政策都是空洞的。
3? 數據挖掘建模
本文在進行可視化分析后,建立了兩種模型來進行分析和預測,分別為ANN模型和LSTM模型。預測曲線的類型則分為兩種:J型曲線和S型曲線。
ANN模型:ANN是指由大量的處理單元(神經元)互相連接而形成的復雜網絡結構,是對人腦組織結構和運行機制的某種抽象、簡化和模擬,它以數學模型模擬神經元活動,是基于模仿大腦神經網絡結構和功能而建立的一種信息處理系統(tǒng)[9]。
LSTM模型:LSTM是一種特殊的RNN模型,是為了解決RNN模型梯度彌散的問題而提出的[10]。在傳統(tǒng)的RNN中,訓練算法使用的是BPTT,當時間比較長時,需要回傳的殘差指數下降,導致網絡權重更新緩慢,無法體現出RNN的長期記憶的效果,因此需要一個存儲單元來存儲記憶,因此LSTM模型被提出。
3.1? 國內疫情分析預測
本文通過對國內新冠感染數據進行訓練得出了湖北省和全國新冠感染的ANN模型和LSTM模型,訓練和預測結果如圖8至圖11所示。
通過對比湖北省和全國的疫情預測數據曲線,可以看出兩者均為S型曲線,即新冠感染達到最高點后增長速度趨于平緩,其原因在于中國及時采取防控措施,集中救治患者。初期的增長是因為最初國內還沒有引起重視和采取防范措施,從湖北省流出的人口較多,導致疫情在全國范圍內迅速擴散。湖北省預測曲線中原始數據與預測數據是存在一定的偏差的,但趨勢走向基本一致,表明預測結果相對準確。
湖北省和全國的LSTM模型曲線趨勢與對應的ANN模型曲線趨勢一致,即均為S型曲線。但LSTM模型中湖北省疫情預測曲線和全國疫情預測曲線原始數據和預測數據有著明顯的差距,LSTM模型在此處對于新冠感染的預測相比于ANN模型不夠準確,主要原因在于LSTM主要采用門控的機制,能夠在一定程度上解決梯度爆炸、梯度消失問題,但LSTM有不能并行的缺點,導致其性能有所損失。
3.2? 國外疫情分析預測
通過對國外新冠感染數據進行訓練得出了美國和全球疫情的ANN模型和LSTM模型,訓練和預測結果如圖12至圖15所示。
通過對比美國和全球疫情預測數據曲線,可以看出兩者均為J型曲線,即確診人數增長速度一直在增加。這就說明疫情根本就沒有得到控制,原因在于美國沒有集中控制疫情,民眾不支持政府的措施,且大部分國家的醫(yī)療水平不夠高,醫(yī)療設施不夠完善,造成了大量的病毒感染。
美國和全球的LSTM模型曲線趨勢與對應的ANN模型曲線趨勢一致,即均為J型曲線。但二者的LSTM模型的預測效果均不如ANN模型的預測效果好,與國內的兩種模型的曲線對比一致。
4? 結? 論
通過上述宏觀、微觀分析,可以得出如下重要結論:
針對國內疫情,新冠感染重災區(qū)分布在祖國中部和東南沿海地區(qū),這些地區(qū)均與湖北省接壤和相鄰,湖北省的疫情增長速度較快,其他省份增長速度相對平緩。原因在于湖北省武漢市為重大交通中心,全國大部分地區(qū)與湖北地區(qū)有著商務往來,且湖北地區(qū)人口密度較大,造成較多的輸入性病例。因此疫情的傳播與交通的發(fā)達程度和地區(qū)人口密度有著不可分割的關系,需要采取的措施為限制部分湖北地區(qū)的人口流動,呼吁全國市民居家隔離,以免造成交叉感染。
針對國外疫情,以美國、巴西、印度三個國家最為嚴重,主要原因在于各個國家政治體制不同,民眾對于政府的態(tài)度有差異,不配合政府的措施行動,部分國家醫(yī)療水平的欠缺,許多國家之間有著業(yè)務上的來往,都會造成新冠病毒的擴散。要想從根本上解決這個問題,其他國家需要制定相應的防疫政策,將民眾調動起來積極配合政府行動,防止感染進一步擴大。
針對預測結果,ANN模型的訓練和預測效果更優(yōu)于LSTM模型,且兩種模型下的國內疫情均呈現S型曲線,而兩種模型下的國外疫情均呈現J型曲線,與上述對于新冠感染的分析結果能夠很好地對應起來,更加說明了所建立的兩種模型的正確性。
參考文獻:
[1] 周丹,陳安.時空尺度差異下疫情嚴重程度的比較研究 [J].科技導報,2020,38(6):103-114.
[2] 張海冰.全球抗擊新冠肺炎疫情:國際合作與路徑選擇 [J].當代世界,2020(5):4-10.
[3] 王金愷,張虎,賈鵬,等.城市級新冠肺炎(COVID-19)疫情預測和仿真模型 [J].計算機輔助設計與圖形學學報,2022,34(8):1302-1312.
[4] 張艷霞,李進.基于SIR模型的新冠肺炎疫情傳播預測分析 [J].安徽工業(yè)大學學報:自然科學版,2020,37(1):94-101.
[5] 白璐,郭佩汶,范晉蓉.湖北省新冠肺炎確診人數的建模與預測分析 [J].檢驗檢疫學刊,2020,30(2):10-12.
[6] 吳志強,王波.基于組合神經網絡模型的新冠疫情傳播預測分析 [J].軟件導刊,2020,19(10):15-19.
[7] 金啟軒.中國新冠肺炎疫情預測建模與理性評估 [J].統(tǒng)計與決策,2020,36(5):11-14.
[8] 胡文瑜,應康輝.實例層數據清洗技術研究 [J].計算機技術與發(fā)展,2022,32(5):22-28.
[9] 張海波,王富強.基于ANN預測模型快速檢測改性瀝青SBS含量的方法研究 [J].西部交通科技,2020(7):1-3+44.
[10] 李晶晶,張永敏,田桂林,等.基于LSTM神經網絡的數據驅動空間負荷預測方法 [J].電子設計工程,2022,30(22):154-157+164.
作者簡介:楊芷銘(1997.10—),男,侗族,湖南
懷化人,碩士在讀,研究方向:物聯網及區(qū)塊鏈;謝歐(1996.12—),女,漢族,湖南株洲人,碩士在讀,研究方向:復雜系統(tǒng)建模及仿真;謝文武(1979.12—),男,漢族,湖北荊州人,副教授,博士,研究方向:無線通信算法研究。
收稿日期:2023-02-07