吳兆鑫 蔡丹敏 許梓炫
◆摘? 要:本文探討GDP排名全球靠前國家新型冠狀病毒的數(shù)學模型和預測問題。首先,爬取了2019年GDP排行前十的國家的新型冠狀病毒實時數(shù)據(jù);其次,利用Matlab軟件對數(shù)據(jù)進行標準化和主成分分分析,構建了主成分的方差貢獻率模型;再次,運用趨勢二次移動平均法、聚類分析等統(tǒng)計方法,建立了世界主要國家的新型冠狀病毒的發(fā)展趨勢預測模型;最后,總結出GDP排名全球靠前國家新型冠狀病毒的管控能力,分析了各國政府防控措施手段的有效性。
◆關鍵詞:新型冠狀病毒;趨勢二次移動平均法;聚類分析;疫情預測
1引言
2019年12月,新型冠狀病毒疫情在湖北省武漢市爆發(fā),并迅速在全國及全世界蔓延,目前已成為全球流行性傳染疾病,對全球各個國家的經濟、生活、生命財產產生巨大的影響。由于各個國家本身的經濟能力、政治體制、文化差異、各國人民對疫情重視程度的差異及各國醫(yī)療水平等因素,導致了每個國家在抗擊疫情的道路各不相同。為此,搜集各國疫情數(shù)據(jù),進行大數(shù)據(jù)數(shù)據(jù)分析,建立數(shù)學模型,最終得到新冠病毒疫情發(fā)展的基本特點和規(guī)律,是本文研究的主要目的。
2研究思路和方法
為評價各主要國家管控新冠疫情的效果,我們選取了疫情發(fā)展最為嚴重的且全球GDP排行靠前的國家,通過網(wǎng)站“http://hao.199it.com/ncov.html”爬取世界主要國家疫情數(shù)據(jù),然后對數(shù)據(jù)進行標準化等預處理,利用主成分分析構建方差貢獻率,求出方差貢獻率累計占比超過于95%的第一、第二主成分,根據(jù)各指標數(shù)據(jù)與主成分相關性得出國家的綜合得分,最終獲取各主要國家管控效果。
為建立主要國家疫情發(fā)展趨勢的模型并進行預測,我們根據(jù)時間序列模型的二次移動平均法,改進后采用趨勢移動平均法,得到了各主要國家疫情發(fā)展的趨勢預測模型,最后在相關軟件推演中通過推導和實證。
3世界主要要國家疫情發(fā)展特點
我們在matlab中對世界GDP靠前的十個國家的數(shù)據(jù)進行處理并繪制成趨勢圖,新增確診、新增治愈、新增死亡的趨勢變化如圖1所示:
其中紅色曲線為新增確診,綠色曲線為新增治愈,黑色曲線為新增死亡。其中部分出現(xiàn)負值的原因為人為更改統(tǒng)計方式導致的,因此將出現(xiàn)負值的數(shù)據(jù)一并處理為0,這對結果并不會有很大的影響。根據(jù)圖3.1可將十個國家各自的疫情程度進行分類,其中USA(美國)、India(印度)、Brazil(巴西)這三個國家新增確診人數(shù)都大致呈線性上升的趨勢,說明疫情程度在一直在惡化,而其他國家都大致呈先上升后下降再趨向于平穩(wěn)的趨勢,說明疫情程度得到有效的控制,根據(jù)圖表分析,可以粗略的分為兩類,USA(美國)、India(印度)、Brazil(巴西)這三個國家為一類,其他國家為一類。
將十個國家的新增確診、新增治愈、新增死亡進行匯總后求平均值,且計算出累計的確診人數(shù),如圖2所示。并用Q型聚類法中的歐氏距離計算出各個國家之間的距離。
根據(jù)圖2的聚類分析圖可得出最終的分類結論:印度、美國、巴西各為一類,剩余國家為一類。
4世界主要國家疫情綜合評價模型
將GDP排名前十的國家在疫情期間的各數(shù)據(jù)指標取平均值,
通過計算得出了主成分的方差貢獻率,并對方差貢獻率進行可視化,通過計算得出前兩個主成分的方差貢獻率累計已達到96.5%,其中第一主成分的主要方差貢獻率為87.94%,第二主成分的主要方差貢獻率為8.57%,由于前兩個主成分分析占比超過95%,則考慮國家管控效果時可只考慮前兩個主成分分析。圖6為第一主成分和第二主成分各自主要方差貢獻率的各個指數(shù)。
根據(jù)據(jù)以上數(shù)據(jù),利用主成分綜合評價模型求得
根據(jù)各個指數(shù)與兩個主成分分析的相關性 可發(fā)現(xiàn)綜合得分越低則代表該國家對疫情的管控效果越強。世界主要國家的綜合得分由低到高排序如表1所示:
因此可得出在世界主要國家當中,日本、加拿大、中國是疫情期間管控效果最好的,而印度、巴西、美國是疫情期間管控效果最差的。
5基于趨勢二次移動平均法的新冠肺炎疫情的數(shù)學模型
根據(jù)時間序列模型中的二次移動平均:二次移動平均法,是對一次移動平均數(shù)再進行第二次移動平均,再以一次移動平均值和二次移動平均值為基礎建立預測模型,計算預測值的方法。使用一次移動平均法的平均數(shù)計算公式為
6結論
本文運用了趨勢二次移動平均法,構建了世界主要國家的發(fā)展趨勢預測模型,很好的對世界各國疫情及抗疫成效進行分類評價及預測,在建模的過程中,堅持從數(shù)據(jù)本身出發(fā)尋找合適的模型,從而保證模型與數(shù)據(jù)之間具有較好的擬合效果,為后續(xù)的統(tǒng)計分析提供了便利,也保證了模型的可靠性。
參考文獻
[1]卓金武,王鴻鈞.MATLAB數(shù)學建模方法與實踐(第3版)[M].北京航空航天大學出版社,2018.
[2]白曉東.應用時間序列分析[M].北京:清華大學出版社,2017.
[3]范晉蓉,白曉東,郭佩汶,等.廣西壯族自治區(qū)病毒性肝炎發(fā)病數(shù)的建模與預測分析[J].檢驗檢疫學刊,2019,29(06):1-5.
[3]姜啟源,謝金星等.數(shù)學建模(第四版)[M].北京:高等教育出版社,2011.
[4]胡雷芳.五種常用系統(tǒng)聚類分析方法及其比較[J].浙江統(tǒng)計,2007.
[5]馬知恩.傳染病動力學的數(shù)學建模與研究[M].北京科學出版社,2004.
作者簡介
吳兆鑫(2001.03—),男,廣東科學技術職業(yè)學院計算機工程技術學院大數(shù)據(jù)專業(yè)在讀學生;
蔡丹敏(2001.08—),女,廣東科學技術職業(yè)學院計算機工程技術學院大數(shù)據(jù)專業(yè)在讀學生;
許梓炫(2001.01—),女,廣東科學技術職業(yè)學院計算機工程技術學院移動應用開發(fā)在讀學生。
基金項目:廣東省普通高校重點研究項目(編號:2019GZDXM013);廣東省教育廳特色創(chuàng)新類項目(教育科研)(編號:2017GGXJK017);廣東科學技術職業(yè)學院校級培育項目(編號:XJPY2018003)。