武佳琪 張慧慧 李夢(mèng)潔
【摘 要】 世界衛(wèi)生組織將新冠狀病毒定義為“大流行病”,這充分證明了該流行病毒的巨大破壞性,對(duì)于大流行病的定義標(biāo)準(zhǔn),世界衛(wèi)生組織還未給出具體的定義?;诖?,本文使用主成分分析法建立綜合評(píng)價(jià)模型,參考現(xiàn)代學(xué)者對(duì)流行病和大流行病的研究成果,并結(jié)合樣本數(shù)據(jù)集中的變量選取死亡人數(shù)、感染人數(shù)和康復(fù)人數(shù)等作為模型指標(biāo),通過(guò)SPSS軟件對(duì)樣本數(shù)據(jù)集進(jìn)行計(jì)算,提取指標(biāo)主成分,在世界衛(wèi)生組織對(duì)大流行病的定義基礎(chǔ)上,根據(jù)疾病得分劃分大流行病的閾值范圍。
【關(guān)鍵詞】 大流行病 主成分分析法 SPSS
1 引言
新型冠狀病毒的出現(xiàn)立即引起了全球各個(gè)國(guó)家和世界衛(wèi)生組織等國(guó)際社會(huì)組織的高度關(guān)注,此次冠狀病毒不同于普通的流行病,它在短時(shí)間內(nèi)傳播到全球主要國(guó)家地區(qū),對(duì)全球經(jīng)濟(jì)造成嚴(yán)重影響,對(duì)全人類造成極大的恐慌。對(duì)于新型冠狀病毒傳播規(guī)模的巨大和造成的影響,世界衛(wèi)生組織現(xiàn)已將其定義為“大流行病”。
2 數(shù)據(jù)預(yù)處理
本文通過(guò)整理世界衛(wèi)生組織以及各地政府公示疫情數(shù)據(jù)等作為原始數(shù)據(jù)集經(jīng)過(guò)分析發(fā)現(xiàn),部分?jǐn)?shù)據(jù)含有噪聲,而考慮到數(shù)據(jù)的質(zhì)量會(huì)對(duì)模型結(jié)果產(chǎn)生重要的影響,所以本文原始數(shù)據(jù)集進(jìn)行清洗和統(tǒng)一的集成變換,也就是數(shù)據(jù)預(yù)處理。通常數(shù)據(jù)預(yù)處理的方法是通過(guò)填補(bǔ)遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù),以及糾正不一致數(shù)據(jù),去掉數(shù)據(jù)中的噪音、填充空值、缺失值和處理不一致數(shù)據(jù)。[1]
3主成分分析法評(píng)價(jià)
由于大流行病的界定標(biāo)準(zhǔn)并沒有明確,因此本文通過(guò)結(jié)合上述現(xiàn)有學(xué)者的研究成果和數(shù)據(jù)預(yù)處理后的樣本數(shù)據(jù)集變量,選取各個(gè)國(guó)家在此次新冠肺炎疫情中的死亡人數(shù)、感染人數(shù)、康復(fù)人數(shù)、持續(xù)時(shí)間以及人口密度和經(jīng)濟(jì)狀況建立多指標(biāo)體系。對(duì)于多指標(biāo)體系,本文選取主成分分析法對(duì)問(wèn)題進(jìn)行分析,該方法降低了主觀因素的影響,有較好的客觀性,現(xiàn)被廣泛引用于多個(gè)領(lǐng)域的指標(biāo)計(jì)算。[2]
Step1:對(duì)樣本數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,定義死亡人數(shù)、感染人數(shù)、康復(fù)人數(shù)、持續(xù)時(shí)間以及人口密度和經(jīng)濟(jì)狀況為。由于樣本數(shù)據(jù)的量綱不完全相同,為了使得各個(gè)指標(biāo)之間有可比性,需要消除數(shù)據(jù)的量綱,一般使用的方法是最大最小法。
Step2:計(jì)算樣本矩陣的相關(guān)系數(shù),得到相關(guān)矩陣,并計(jì)算特征根及特征向量。特征矩陣R可以得到多個(gè)非負(fù)特征根,由此得到對(duì)應(yīng)的特征向量,構(gòu)成正交矩陣。[3]
Step3:從多指標(biāo)體系中選擇主成分。運(yùn)用SPSS軟件對(duì)所建立的多指標(biāo)體系進(jìn)行分析,列出個(gè)主成分對(duì)應(yīng)的特征值、相應(yīng)的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率。由于前2個(gè)指標(biāo)累計(jì)已達(dá)87.98%,因此提取主成分1,主成分2構(gòu)成模型的新指標(biāo)。
Step4:計(jì)算主成分指標(biāo)的因子載荷狀況,從下表中可以分析出,感染人數(shù)X1,康復(fù)人數(shù)X2,死亡人數(shù)X3和經(jīng)濟(jì)狀況X6對(duì)于主成分1的作用較為明顯,而持續(xù)時(shí)間X4和人口密度X5對(duì)于主成分2的作用較為明顯。第一主成分集中反映了大流行病時(shí)期對(duì)人類社會(huì)產(chǎn)生的影響,也可概括為大流行病的危害。第二主成分則反映了大流行時(shí)期世界的基本狀況,可概括為當(dāng)局現(xiàn)狀。
為了更清楚地解釋各變量在各主成分上的載荷意義[4],對(duì)各主成分載荷做方差最大化正交旋轉(zhuǎn),分別得到主成分F1與主成分F2的表達(dá)式,并根據(jù)主成分表格中的貢獻(xiàn)率可以得到流行病的綜合評(píng)價(jià)函數(shù)如下:
Step5:帶入流行病數(shù)據(jù), 劃分流行病與大流行病的定量條件。查詢相關(guān)資料可知,黑死病、甲型H1N1是已經(jīng)被世界衛(wèi)生組織認(rèn)定的“大流行病”,它們的綜合得分分別為0.857,0.663,而非典和肺結(jié)核雖然也對(duì)全球的社會(huì)發(fā)展造成影響,但是卻因?yàn)槠淠軌虮挥行Э刂?,且擴(kuò)散規(guī)模并沒有超出預(yù)期范圍,因此只是被定義為“流行病”,它們的綜合得分分別為0.568,0.231。
根據(jù)目前學(xué)者研究成果和世界衛(wèi)生組織現(xiàn)階段流行病標(biāo)準(zhǔn)定義,對(duì)于“大流行病”考量的指標(biāo)有疾病的致死性高、疾病的擴(kuò)散規(guī)模大、疾病的傳播速度快[9]。在此基礎(chǔ)上,本文結(jié)合上述主成分分析法得到的綜合得分,給出劃分“大流行病”的得分范圍是{0.6~1.0},不在這個(gè)范圍內(nèi)的可視為“流行病”。
4 總結(jié)
新冠狀病毒肺炎于3月12日被世界衛(wèi)生組織認(rèn)定為大流行病,其得分為0.714,在本文模型劃分的閾值范圍內(nèi),符合模型結(jié)果。本文所建立的PCA模型為解決大流行病劃分問(wèn)題提供了較好的思路,且現(xiàn)代學(xué)者對(duì)此類模型已經(jīng)有了很多方面的研究,也就是說(shuō)有著堅(jiān)實(shí)的理論基礎(chǔ),合理性較強(qiáng)。
【參考文獻(xiàn)】
[1] 陳楠. 基于數(shù)據(jù)預(yù)處理的鐵路貨運(yùn)量SVM預(yù)測(cè)[D].石家莊鐵道大學(xué),2019.
[2] 蔣之犇.基于GIS的2009年甲型H1N1流感大流行影響因素研究[D].陜西師范大學(xué),2013.
[3] 李化成. 論14世紀(jì)英國(guó)的聚落環(huán)境與黑死病傳播[J]. 世界歷史,2011(04):79-88+160.
[4] 簡(jiǎn)天天. 英屬北美殖民地天花傳播及其防治研究[D].重慶師范大學(xué),2019.
[5] 苗新利,郎英,楊俊.主成分分析在農(nóng)村居民消費(fèi)性支出研究中的應(yīng)用[J].中國(guó)商論,2018(35):69-71.
作者簡(jiǎn)介:武佳琪(出生年份1999年),性別:女,民族:漢族,籍貫:河北邯鄲,學(xué)歷:大學(xué)本科,單位:華北理工大學(xué),研究方向:智能科學(xué)與技術(shù)。
張慧慧(出生年份2002年),性別:女,民族:漢族,籍貫:河南新鄉(xiāng),學(xué)歷:大學(xué)本科,單位:華北理工大學(xué),研究方向:智能科學(xué)與技術(shù)。
李夢(mèng)潔(出生年份2000年),性別:女,民族:漢族,籍貫:河北保定,學(xué)歷:大學(xué)本科,單位:華北理工大學(xué),研究方向:智能科學(xué)與技術(shù)。