安傳波,劉宇航,周子欣,朱家明
一種優(yōu)化的Logistic模型的流行病分類方法
安傳波,劉宇航,周子欣,朱家明
(安徽財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院,安徽 蚌埠 233030)
對(duì)流行病的分類進(jìn)行定量約束,為了確定某感染病是否為大流行病,分別搜集了以H1N1為代表的“大流行病”重災(zāi)區(qū)樣本和以SARS為代表的“流行病”重災(zāi)區(qū)樣本,并定義每次流行病的“重災(zāi)區(qū)”。其次分別選取感染率、病死率、醫(yī)療條件、人口密度等指標(biāo)作為解釋變量建立二分類Logistic模型,通過(guò)得到的被解釋變量的預(yù)測(cè)值(即該病是否為大流行病的概率)來(lái)判斷該病是否為大流行病。最后,由于疾病流行性問題的復(fù)雜性,在模型中依次引入平方項(xiàng)重新回歸,通過(guò)定義不同的訓(xùn)練集和測(cè)試集,得到最優(yōu)的回歸方程,最終得到將病死率的平方項(xiàng)引入回歸模型中,模型分類的準(zhǔn)確率更高。
分類Logistic模型;重災(zāi)區(qū);訓(xùn)練組;測(cè)試組;病死率
定義某個(gè)傳染病是否為大流行病,對(duì)國(guó)家的宏觀調(diào)動(dòng)、疾病的防控、減少疫情帶來(lái)的損失具有重大意義。在冠狀病毒引發(fā)的病毒性肺炎(COVID-19)爆發(fā)之前,世衛(wèi)組織只在2009年的H1N1流感爆發(fā)期間,宣布該傳染病為大流行病。WHO表示:“大流行?。≒andemic)”是指某疾病的發(fā)病蔓延迅速,涉及地域廣,人口比例大,在短時(shí)間內(nèi)可以越過(guò)省界國(guó)界甚至洲界形成世界性流行。本文分別對(duì)H1N1(大流行?。┖蚆ERS、SARS(流行?。┍l(fā)期間“重災(zāi)區(qū)”的相關(guān)指標(biāo)數(shù)據(jù)進(jìn)行采樣,構(gòu)造出模型的數(shù)據(jù)源,以該病是否為大流行病為因變量(二分類)進(jìn)行邏輯回歸,通過(guò)求出的回歸系數(shù)構(gòu)造判斷表達(dá)式,再對(duì)模型引入非線性解釋變量進(jìn)行優(yōu)化,對(duì)每一個(gè)回歸方程的數(shù)據(jù)分為訓(xùn)練組和測(cè)試組,用訓(xùn)練組的數(shù)據(jù)來(lái)估計(jì)出模型,再用測(cè)試組的數(shù)據(jù)來(lái)進(jìn)行測(cè)試,得到最優(yōu)的回歸方程,用解釋變量依概率收斂的數(shù)值判斷傳染病是否為大流行病。
國(guó)內(nèi)學(xué)者對(duì)傳染病的分類問題展開了大量的研究工作,但大多都只局限于定性的研究。如袁鴻昌[1]指出流行病學(xué)研究方法可以分為實(shí)驗(yàn)和觀察兩大類別進(jìn)行定性分類。同時(shí),也有少量學(xué)者進(jìn)行了定量分析的研究。如李曉毅等[2]將貝葉斯判別和逐步判別相結(jié)合,對(duì)突發(fā)傳染病的實(shí)際監(jiān)控?cái)?shù)據(jù)進(jìn)行分析, 與歷史數(shù)據(jù)庫(kù)中的被人們所認(rèn)知的各類傳染病進(jìn)行對(duì)比研究,對(duì)突發(fā)傳染病進(jìn)行分類判別。林寰等[3]結(jié)合實(shí)例論述了累積比數(shù)模型、不約束的部分比例模型、連續(xù)比模型及相鄰比模型等4種模型的構(gòu)成、特點(diǎn)、適用條件及可以對(duì)流行病有序分類得到的結(jié)果。胡龍飛等[4]將傳染病的醫(yī)學(xué)本質(zhì)、流行病學(xué)原則、檢疫等處理檢驗(yàn)的有效性等影響因素進(jìn)行等級(jí)評(píng)估,通過(guò)賦值加權(quán)法、危險(xiǎn)因素聚類分析,對(duì)傳染病進(jìn)行分類。李傅冬[5]通過(guò)對(duì)近些年浙江省傳染病暴發(fā)疫情和突發(fā)公共衛(wèi)生事件進(jìn)行全面整理分析,得出浙江省常見的傳染病病種作為本研究的疾病范圍。應(yīng)用貝葉斯分類算法建立分類模型,采用SAS軟件完成程序編寫,進(jìn)行流行病的定性分類。
綜上所述,學(xué)者們從定性定量?jī)蓚€(gè)角度確定了流行病分類的主要標(biāo)準(zhǔn)。在定性方面,主要通過(guò)感官分析和實(shí)驗(yàn)觀察,在定量方面則主要采用貝葉斯判別分類和聚類等分類模型進(jìn)行流行病的判別,都取得了豐碩的成果。
本文對(duì)流行病深入分析,查閱相關(guān)文獻(xiàn),最終從流行病的客觀反映、傳播途徑、感染環(huán)境等影響因素中選取6類指標(biāo),分成定量和定性兩類,并對(duì)兩類指標(biāo)進(jìn)行以下幾點(diǎn)說(shuō)明:
(1)感染人數(shù)和死亡人數(shù)為絕對(duì)量,其大小受該國(guó)的面積、氣溫、相關(guān)政策等多方面的影響,因此,本文只將感染率和病死率這兩個(gè)相對(duì)量作為回歸自變量引入回歸方程。
(2)為了增加模型的精確度,用某地區(qū)人均GDP(美元)定量衡量該地區(qū)的經(jīng)濟(jì)狀況[6]
(3)對(duì)于醫(yī)療條件變量,根據(jù)相關(guān)文獻(xiàn),發(fā)達(dá)地區(qū)的醫(yī)療設(shè)備、醫(yī)療條件都處在領(lǐng)先地位,因此,以某地區(qū)否為發(fā)達(dá)地區(qū)將全世界各個(gè)地區(qū)的的醫(yī)療條件分為“優(yōu)”和“良”兩類。
(4)世界人口密度主要分為兩個(gè)梯度。中國(guó)、印度、美國(guó)三國(guó)人口總量占到全球人口總量的44%左右,遠(yuǎn)高于其他國(guó)家。因此,以中國(guó)、印度、美國(guó)為代表的第一梯度為人口大國(guó),其余國(guó)家均并入第二梯度。具體指標(biāo)分類如圖1所示。
重災(zāi)區(qū)是指在流行病爆發(fā)期間,按照確診人數(shù)的數(shù)量,確診人數(shù)總量在總確診人數(shù)中占比超過(guò)1%的區(qū)域。從百度百科搜索引擎和快易數(shù)據(jù)網(wǎng)得到H1N1和SRAS兩類流行病的樣本數(shù)據(jù)。根據(jù)上述定義,分別從H1N1流感樣本中選擇8個(gè)地區(qū),從SARS流感樣本中選擇4個(gè)地區(qū)。
(1)目前,由于新冠疫情在全球仍處在爆炸式增長(zhǎng)階段,且流行病的傳播機(jī)理和影響因素錯(cuò)綜復(fù)雜,用某個(gè)確定的模型來(lái)預(yù)測(cè)流行病相關(guān)問題的準(zhǔn)確性有待商榷。
(2)由于大規(guī)模流行病爆發(fā)的次數(shù)不多,一些尚有記載的流行病的具體信息較少,該類數(shù)據(jù)的獲取十分復(fù)雜和模糊。因此,如果以疾病種類為采樣點(diǎn),樣本數(shù)據(jù)較少,以各類疾病下疫情較為嚴(yán)重的“重災(zāi)區(qū)”作為采樣點(diǎn),提高結(jié)果的準(zhǔn)確度和普適性。
(3)是否為“大流行”病是病毒本身的屬性,其具體反應(yīng)在某個(gè)地區(qū)或者某個(gè)國(guó)家在某個(gè)時(shí)間段內(nèi)的流行程度。因此,應(yīng)該用該病在傳播期間在某個(gè)地區(qū)的流行程度來(lái)定義,最終選擇將不同流行病的“重災(zāi)區(qū)”相關(guān)指標(biāo)代入的分類模型,以判斷其是否為“大流行”。
2.3.1 定量數(shù)據(jù)的處理
為了減弱數(shù)據(jù)的異方差性,反映被解釋變量和解釋變量的彈性,將人均GDP取對(duì)數(shù),作為獨(dú)立的解釋變量進(jìn)行回歸。
2.3.2 定性數(shù)據(jù)的分類
根據(jù)上述指標(biāo)解釋,本文將醫(yī)療條件、人口密度創(chuàng)建為啞變量。
2.3.3 數(shù)據(jù)的可視化
在定義“重災(zāi)區(qū)”后,以不同流行病爆發(fā)期間的“重災(zāi)區(qū)”為采樣點(diǎn),由于不同疾病的爆發(fā)和流行地區(qū)不同,通過(guò)對(duì)相關(guān)樣本點(diǎn)的數(shù)據(jù)進(jìn)行采集,作為邏輯回歸的回歸數(shù)據(jù)。最終確定H1N1選擇美國(guó)、中國(guó)、墨西哥、法國(guó)、英國(guó)、意大利、印度、挪威8個(gè)地區(qū)為采樣點(diǎn),SARS選擇中國(guó)香港、中國(guó)臺(tái)灣、中國(guó)、加拿大、新加坡、越南6個(gè)地區(qū)為采樣點(diǎn),具體數(shù)據(jù)如圖2所示。
圖2 H1N1和SARS重災(zāi)區(qū)折線圖
在社會(huì)科學(xué)諸如社會(huì)學(xué)、心理學(xué)、人口學(xué)以及經(jīng)濟(jì)學(xué)當(dāng)中,Logistic回歸模型是對(duì)二分類因變量進(jìn)行回歸分析時(shí)應(yīng)用最為普遍的多元量化分析方法,既可以有連續(xù)的自變量,也可以有分類的自變量,通過(guò)Logistic回歸分析,可以得到自變量的權(quán)重,進(jìn)而預(yù)測(cè)事件發(fā)生的可能性,其公式如下:
(1)創(chuàng)建因變量。以是否為大流行病的0-1變量為因變量,“0”表示該病不是大流行病,“1”表示該病為大流行??;以之前篩選后的因素為自變量,分別為感染率、病死率、人口密度、經(jīng)濟(jì)狀況、醫(yī)療條件的Logistic模型。
(2)建立連接函數(shù)。為了把看成事件發(fā)生的概率,選擇Sigmoid函數(shù)作為連接函數(shù):
求出樣品的對(duì)數(shù)似然函數(shù),帶入數(shù)據(jù)求出事件發(fā)生概率:
由于引入的變量中存在虛擬變量,為了防止多重共線性的影響,只抽取兩個(gè)設(shè)定啞變量的其中一個(gè)進(jìn)行回歸分析。代入提取的數(shù)據(jù)集,通過(guò)SPSS進(jìn)行邏輯回歸,迭代5次得到的回歸方程以及回歸系數(shù)顯著性結(jié)果為
根據(jù)回歸結(jié)果可以看出,該疾病是否為大流行與該病的病死率(0.01*)、持續(xù)時(shí)間(0.001**)和醫(yī)療條件(0.01*)有很大關(guān)系,與該地區(qū)經(jīng)濟(jì)狀況關(guān)系不大,由于此次虛擬變量中選取人口密度小和經(jīng)濟(jì)狀況差這兩類情況作為參照,可以得到以下結(jié)論[7]:
(1)病死率以及疫情持續(xù)時(shí)間是判斷該病是否為大流行的主要依據(jù),某類流行病的持續(xù)時(shí)間越長(zhǎng),病死率越高,該流行病更有可能為大流行病。這也與現(xiàn)實(shí)情況相同,某些病雖然存在很大的傳播性和感染率,但是病死率較低,生命是任何防疫工作的中心,只要病死率維持在很低的水平,該病就不會(huì)造成太大的恐慌和損失。
(2)可以看到,疫情在醫(yī)療條件好的地區(qū)爆發(fā)的可能性比醫(yī)療條件差的地區(qū)爆發(fā)的可能性小,疫情在人口密度大的地區(qū)比人口密度小的地區(qū)爆發(fā)的可能性大,這也與現(xiàn)實(shí)情況相符合。
根據(jù)SPSS生成的結(jié)果對(duì)該回歸模型的已知參數(shù)進(jìn)行再預(yù)測(cè),結(jié)果如表1。
表1 再預(yù)測(cè)結(jié)果表
根據(jù)表1,該回歸模型對(duì)已知樣本再預(yù)測(cè)的準(zhǔn)確率為100%,說(shuō)明該預(yù)測(cè)模型較為準(zhǔn)確。此外,由于目前中國(guó)的新冠疫情處于收尾階段,根據(jù)附錄提取出此次中國(guó)新冠疫情的相關(guān)指標(biāo)進(jìn)行模型的驗(yàn)證,相關(guān)指標(biāo)具體值如表2所示。
表2 相關(guān)指標(biāo)值表
將感染率和病死率分別平方,依次加入到模型中進(jìn)行回歸,得到3個(gè)回歸方程的表達(dá)式如下:
利用Matlab自帶的Randperm()函數(shù)在所取樣本中隨機(jī)抽出3個(gè)樣本,作為測(cè)試組,其余樣本作為預(yù)測(cè)組,對(duì)以上4組回歸函數(shù)進(jìn)行多次預(yù)測(cè),平均成功率如表3所示。
表3 多次預(yù)測(cè)結(jié)果表
通過(guò)上述研究,本文利用選取感染率、病死率、醫(yī)療條件、人口密度等指標(biāo)作為解釋變量建立二分類Logistic模型,通過(guò)得到的被解釋變量的預(yù)測(cè)值(即該病是否為大流行病的概率)來(lái)判斷該病是否為大流行病。最后利用交叉驗(yàn)證的思想對(duì)模型進(jìn)行了修正,定義不同的訓(xùn)練集和測(cè)試集,得到最優(yōu)的回歸方程,最終得到將病死率的平方項(xiàng)引入回歸模型中,模型分類的準(zhǔn)確率更高。為此可以為有關(guān)部門防范“大流行病”提供一下建議[8]:
(1)嚴(yán)格控制病死率是防范該流行病成為“大流行病”的首要考慮因素,相關(guān)醫(yī)療和生物部門需要及時(shí)了解各類疾病的病理結(jié)構(gòu),加緊藥物研發(fā)和臨床診斷,將病死率控制到最低。
(2)進(jìn)行緊急隔離,防止疫情持續(xù)擴(kuò)散。人口密度和疫情持續(xù)時(shí)間對(duì)該病是否為“大流行病”都有著決定性作用,要及時(shí)疏散人群,堅(jiān)決落實(shí)感染者的隔離工作,及時(shí)反饋感染者信息,同時(shí)加大社交媒體的宣講普及,提醒未感染市民做好自我防護(hù),避免疫情大規(guī)模擴(kuò)散。
(3)加強(qiáng)醫(yī)療衛(wèi)生體系的建設(shè),目前全球一體化的進(jìn)程愈發(fā)明朗,國(guó)家與國(guó)家之間的連接更加緊密,任何地區(qū)受到流行病的影響都會(huì)波及其他國(guó)家,各國(guó)之間應(yīng)該精誠(chéng)合作,積極建設(shè)全球化的醫(yī)療衛(wèi)生系統(tǒng),為全球人民的生命安全保駕護(hù)航。
[1] 袁鴻昌. 流行病學(xué)研究方法的類型及其分類原則[J]. 哈爾濱醫(yī)藥,1988(01): 61-64
[2] 李曉毅,徐兆棣. 突發(fā)傳染病的貝葉斯逐步分類判別[J]. 中國(guó)衛(wèi)生統(tǒng)計(jì),2009, 26(03): 323-324, 327
[3] 林寰,潘曉平,李苑. 流行病學(xué)中有序分類結(jié)果變量的回歸模型介紹及應(yīng)用[J]. 現(xiàn)代預(yù)防醫(yī)學(xué),2006(05): 704-706
[4] 胡龍飛,呂志平,林愛華. 中國(guó)國(guó)境口岸監(jiān)測(cè)傳染病分類研究(一)——應(yīng)用賦值加權(quán)和聚類分析法對(duì)傳染病進(jìn)行分類[J].中國(guó)國(guó)境衛(wèi)生檢疫雜志,2006(02): 65-72
[5] 李傅冬. 基于貝葉斯分類算法的浙江省常見傳染病輔助分類模型研究[D]. 杭州:浙江大學(xué),2013
[6] 原華榮. 世界人口分布的趨勢(shì)及特征[J]. 西北人口,1991(04): 25-30
[7] Weiss R A, Mcmichael A J. Social and environmental risk factors in the emergence of infectious diseases[J]. Nature Medicine, 2004, 10(12): S70-76
[8] 熊成龍,蔣露芳,姜慶五.-冠狀病毒引起人類疾病的流行與控制[J]. 上海預(yù)防醫(yī)學(xué),2020(1): 20-20
Epidemiological classification method based on optimized logistic model
AN Chuan-bo,LIU Yu-hang,ZHOU Zi-xin,ZHU Jia-ming
(School of Statistics and Applied Mathematics, Anhui University of Finance and Economics, Anhui Bengbu 233030, China)
In this paper, we quantitatively restrict the classification of epidemics. In order to determine whether an infectious disease is a pandemic, we collected samples of "pandemic" severely affected areas represented by H1N1 and "epidemic" severely affected areas represented by SARS. Define the "heavy disaster area" for each epidemic sample. Secondly, select the infection rate, mortality, medical condition, population density and other indicators as explanatory variables to establish a binary classification logistic model, and judge the disease by the predicted value of the explained variable (that is, the probability of whether the disease is a pandemic) whether it is a pandemic. Finally, due to the complexity of the disease epidemic problem, we re-regressed by introducing square terms in the model in turn, by defining different training sets and test sets, we got the optimal regression equation, and finally got the square term of the mortality rate into the regression model in the model classification accuracy is higher.
classification logistic model;heavy disaster area;training group;test group;mortality
2020-09-21
國(guó)家自然科學(xué)基金項(xiàng)目“自然資源資產(chǎn)與經(jīng)濟(jì)增長(zhǎng)、經(jīng)濟(jì)安全的協(xié)調(diào)機(jī)制與策略研究”(71934001);安徽省教研項(xiàng)目“大數(shù)據(jù)背景下學(xué)科競(jìng)賽對(duì)新經(jīng)管人才創(chuàng)新能力培養(yǎng)研究”(2018jyxm1305);大數(shù)據(jù)背景下數(shù)學(xué)類專業(yè)課程“數(shù)學(xué)建?!苯虒W(xué)內(nèi)容的研究(acjyyb2018006)
安傳波(2000-),男,安徽六安人,本科,主要從事經(jīng)濟(jì)統(tǒng)計(jì)學(xué)應(yīng)用研究,839072347@qq.com。
朱家明(1973-),男,安徽宿州人,副教授,碩士,主要從事應(yīng)用數(shù)學(xué)研究,zhujm1973@163.com。
R181.3;O212.1
A
1007-984X(2021)01-0083-06