劉樹(shù)穎
(福州大學(xué)梅努斯國(guó)際工程學(xué)院,福建 福州 350108)
新型冠狀病毒的爆發(fā)對(duì)全球公共衛(wèi)生造成了巨大的破壞性影響。通過(guò)構(gòu)建隔室模型預(yù)測(cè)重要指標(biāo),例如感染病例、解釋疫情的動(dòng)態(tài)變化和爆發(fā)機(jī)制,使衛(wèi)生保健系統(tǒng)能及時(shí)采取有效措施應(yīng)對(duì)相關(guān)問(wèn)題。
新冠肺炎(COVID-19)疾病符合流行病在不同隔室的物理傳播機(jī)制。彭源源[1]定性分析了多種傳染病模型在COVID-19 的應(yīng)用??紤]政府可能采取管控措施,例如封鎖政策,各學(xué)者對(duì)模型進(jìn)行優(yōu)化。劉擁民等[2]使用Elman神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)COVID-19 的傳播特性,以了解疫情的關(guān)鍵節(jié)點(diǎn)。
基于上述分析,該文結(jié)合隔室模型的可解釋性和神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性,考慮疫苗對(duì)疫情的影響,增加疫苗接種隔室,以?xún)?yōu)化隔室模型,將基礎(chǔ)的SEIRD 和優(yōu)化的SEIRDV的隔室模型作為主干網(wǎng)絡(luò),通過(guò)PINN 神經(jīng)網(wǎng)絡(luò)對(duì)微分方程參數(shù)進(jìn)行學(xué)習(xí)。重點(diǎn)關(guān)注感染隔室的數(shù)據(jù),應(yīng)用4 種評(píng)估指標(biāo)(平均絕對(duì)誤差、均方誤差、均方根誤差和決定系數(shù))驗(yàn)證模型的準(zhǔn)確性,并對(duì)神經(jīng)網(wǎng)絡(luò)得到的參數(shù)進(jìn)行合理性檢驗(yàn)。
采用基礎(chǔ)的SERID、優(yōu)化的SERIDV 隔室模型以及PINN 神經(jīng)網(wǎng)絡(luò)結(jié)合隔室的模型。
隔室模型常應(yīng)用于傳染病動(dòng)力學(xué),包括隔室:易感者(S)、暴露者(E)、傳染者(I)、康復(fù)者(R)和死亡者(D)。易感者指未感染病毒且可能被感染的人群;暴露者指已感染病毒但還不具有傳染性的人群,這意味他們處于病毒的潛伏期;感染者指已感染病毒且具有傳染性的人群;康復(fù)者指已恢復(fù)、因體內(nèi)有抗體而不易被病毒再次感染的人群;死者指死于病毒的人群。
以廣泛被研究的SEIRD 隔室模型為基礎(chǔ),其微分方程如公式(1)~公式(5)所示。
式中:S(t)為易感者數(shù)量;t為時(shí)間;I(t)為傳染者數(shù)量;E(t)為暴露者數(shù)量;R(t)為康復(fù)者數(shù)量;D(t)為死亡者數(shù)量;β為感染率;γ為潛伏期倒數(shù);λ為恢復(fù)期倒數(shù);ρ為死亡期倒數(shù);κ為死亡率。
在SEIRD 隔室模型的基礎(chǔ)上,考慮疫苗對(duì)疫情的影響,該文創(chuàng)新性地加入了疫苗接種(V)隔室。這個(gè)隔室指已經(jīng)完全接種疫苗的人群,當(dāng)疫苗有效時(shí),他們因獲得病毒抗體而不易被感染;當(dāng)疫苗無(wú)效時(shí),認(rèn)為他們成為感染者。SEIRD 隔室模型的微分方程如公式(6)~公式(11)所示。
式中:V(t)為接種疫苗者數(shù)量;σ為疫苗無(wú)效率。
PINN 利用先驗(yàn)知識(shí)來(lái)指導(dǎo)學(xué)習(xí),其由2 個(gè)部分組成,一部分是負(fù)責(zé)輸出預(yù)期結(jié)果的網(wǎng)絡(luò),另一部分是計(jì)算導(dǎo)數(shù)的殘差模塊,殘差由物理定律定義的預(yù)期導(dǎo)數(shù)與獲得的導(dǎo)數(shù)生成,先驗(yàn)知識(shí)是不同隔室之間的傳輸流。PINN 與SEIRD 隔室模型組合形成的結(jié)構(gòu)如圖1 所示,與SEIRDV隔室模型組合形成的結(jié)構(gòu)與其類(lèi)似。
圖1 PINN+SEIRD 模型的結(jié)構(gòu)(包括1 個(gè)神經(jīng)網(wǎng)絡(luò)和1 個(gè)微分方程系統(tǒng))
該文采用一個(gè)密集連接的神經(jīng)網(wǎng)絡(luò),它有2 層16 個(gè)隱藏單元,以時(shí)間t為輸入,產(chǎn)生SEIRD 和SEIRDV 隔室模型的所有組成部分(S、E、I、R、D 和V)。殘差模塊對(duì)這些成分進(jìn)行自動(dòng)微分,以獲得計(jì)算殘差的導(dǎo)數(shù),這個(gè)模型的損失函數(shù)是由第一部分的回歸損失和微分模塊的殘差損失組成的。
主要數(shù)據(jù)來(lái)自世衛(wèi)組織COVID-19 儀表板,包括美國(guó)每日病例、死亡和疫苗使用的官方計(jì)數(shù)以及世界實(shí)時(shí)統(tǒng)計(jì)數(shù)據(jù)的美國(guó)每日確診病例數(shù)據(jù)。將2 個(gè)數(shù)據(jù)集的數(shù)據(jù)合并,采用7 d 移動(dòng)平均過(guò)濾器來(lái)平滑數(shù)據(jù)。選擇確診病例的3個(gè)上升趨勢(shì)作為3 個(gè)獨(dú)立的訓(xùn)練期,3 個(gè)數(shù)據(jù)集在選定時(shí)間的數(shù)據(jù)變化趨勢(shì)如圖2 所示。
圖2 3 個(gè)階段的感染者、恢復(fù)者、死亡者和疫苗接種者數(shù)據(jù)圖
該文使用4 個(gè)評(píng)估指標(biāo)(平均絕對(duì)誤差(MAE)、均方誤差(MSE)、均方根誤差(RMSE)和決定系數(shù)(R2_score))來(lái)定量評(píng)估所提出的模型的性能。當(dāng)MAE、MSE和RMSE越接近于0、R2_score越接近1 時(shí),模型表現(xiàn)越好。其中,MSE和RMSE是在MAE的基礎(chǔ)上進(jìn)行改進(jìn)的,如公式(12)~公式(14)所示。
式中:y為需要進(jìn)行評(píng)估的結(jié)果;為原始的數(shù)據(jù);m為數(shù)據(jù)的大小。
以上3 種評(píng)估指標(biāo)容易受變量量綱大小的影響,當(dāng)人數(shù)較多時(shí),指標(biāo)數(shù)值較大,不易看出效果,因此引入R2_score進(jìn)行評(píng)估,如公式(15)所示。
式中:y為需要進(jìn)行評(píng)估的結(jié)果;N為數(shù)據(jù)的大小。
展示PINN 神經(jīng)網(wǎng)絡(luò)和隔室模型的試驗(yàn)設(shè)置、試驗(yàn)過(guò)程、結(jié)果數(shù)據(jù)、對(duì)結(jié)果的評(píng)估以及對(duì)結(jié)果的合理性解釋。
設(shè)置PINN 神經(jīng)網(wǎng)絡(luò)的迭代次數(shù)為5 000,有1 層輸入層、4 層隱含層和1 層輸出層。其中輸入層輸入數(shù)據(jù)集的感染者、恢復(fù)者、死亡者和疫苗接種者數(shù)據(jù),4 層隱含層每層有32 個(gè)節(jié)點(diǎn)用于學(xué)習(xí)隔室模型的微分方程參數(shù),最后的輸出層輸出隔室模型中各隔室的數(shù)據(jù)。因?yàn)楸┞墩撸‥)隔室的數(shù)據(jù)不易從數(shù)據(jù)集中獲取,所以在對(duì)其他隔室的數(shù)量進(jìn)行學(xué)習(xí)后,從總?cè)藬?shù)中減去其他隔室,得到E 隔室數(shù)據(jù)。
在3 個(gè)階段的數(shù)據(jù)集上分別進(jìn)行PINN+SERID 組合模型和PINN+SEIRDV 組合模型的試驗(yàn),因?yàn)榈谝浑A段缺失疫苗接種人數(shù)的數(shù)據(jù),所以只應(yīng)用PINN+SERID 組合模型。數(shù)據(jù)集中80%的數(shù)據(jù)用于學(xué)習(xí),剩下20%的數(shù)據(jù)用于預(yù)測(cè)。
首先,對(duì)神經(jīng)網(wǎng)絡(luò)的輸出來(lái)說(shuō),分時(shí)間階段呈現(xiàn)感染者的數(shù)據(jù),以大致觀(guān)察輸出結(jié)果對(duì)其增長(zhǎng)趨勢(shì)的學(xué)習(xí)效果。其次,用4 個(gè)評(píng)估指標(biāo)對(duì)學(xué)習(xí)和預(yù)測(cè)的感染者數(shù)據(jù)與原始感染者數(shù)據(jù)進(jìn)行誤差分析,以驗(yàn)證組合模型的準(zhǔn)確性。最后,對(duì)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的參數(shù)進(jìn)行合理性分析,驗(yàn)證用隔室模型補(bǔ)充神經(jīng)網(wǎng)絡(luò)的可解釋性。
3 個(gè)階段的感染者人數(shù)的試驗(yàn)結(jié)果如圖3 所示,PINN+SEIRD 組合模型可以很好地?cái)M合和預(yù)測(cè)數(shù)據(jù),還可以較準(zhǔn)確地判斷峰值,說(shuō)明SEIRD 隔室模型可以反應(yīng)疫情的基本情況,PINN+SEIRDV 組合模型也可以很好地?cái)M合和預(yù)測(cè)數(shù)據(jù),較準(zhǔn)確地判斷峰值,但是效果比PINN+SEIRD 組合模型的效果差,應(yīng)用4 個(gè)評(píng)估指標(biāo)可以得到更準(zhǔn)確的判斷結(jié)果。
圖3 PINN+SEIRD 和PINN+SEIRDV 組合模型在3 個(gè)數(shù)據(jù)集上擬合和預(yù)測(cè)的感染者結(jié)果
由表1 可知,PINN 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的SEIRD 隔室模型的效果普遍比SEIRDV 隔室模型的效果好,其原因可能是隨著隔室增加,微分方程更復(fù)雜,需要神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的參數(shù)增加了2 個(gè),在相同的神經(jīng)網(wǎng)絡(luò)下,學(xué)習(xí)效果會(huì)減弱。但是R2_score的值均大于0.9,可以認(rèn)為2 種組合模型有良好的效果。
表1 PINN+SEIRD 和PINN+SEIRDV 組合模型在3 個(gè)數(shù)據(jù)集上擬合和預(yù)測(cè)的感染者的評(píng)估指標(biāo)
對(duì)PINN 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的隔室模型微分方程參數(shù)進(jìn)行合理性判斷。PINN 神經(jīng)網(wǎng)絡(luò)對(duì)2 種隔室模型學(xué)習(xí)的參數(shù)見(jiàn)表2。由表2 可知,階段一是疫情初期,染率較高,為0.997,在6 d 左右被感染的人就開(kāi)始存在感染性,且死亡率較高,被感染的人情況嚴(yán)重。因?yàn)槿笔Р糠忠呙缃臃N者的數(shù)據(jù),所以得到的死亡率參數(shù)值較大,一般認(rèn)為死亡率為0.15。緩解這一問(wèn)題的方法可能是將參數(shù)κ的學(xué)習(xí)與其他的學(xué)習(xí)分開(kāi),根據(jù)參數(shù)κ的圖表可知,它的值相當(dāng)小,而且隨著時(shí)間變化得很穩(wěn)定。由于該文PINN+SEIRDV 模型引入了更多的參數(shù),因此會(huì)導(dǎo)致欠擬合,可能需要一個(gè)更大的數(shù)據(jù)集或增加優(yōu)化器來(lái)找到其最佳參數(shù)。對(duì)階段二和階段三來(lái)說(shuō),在考慮疫苗接種的情況下,2 種隔室模型的感染率均降低,新增加的疫苗接種率較高,且疫苗無(wú)效率較低。一般認(rèn)為疫苗接種率為0.6,疫苗無(wú)效率為0.1,疫苗接種的參數(shù)不太準(zhǔn)確,考慮為疫情后期,大部分人已接種疫苗,新增的接種疫苗人數(shù)不高。因此通過(guò)PINN 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的參數(shù)較合理,模型有良好的可解釋性。
表2 PINN 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的隔室模型微分方程參數(shù)值
綜上所述,在3 個(gè)數(shù)據(jù)集上通過(guò)PINN 學(xué)習(xí)SEIRD 和SEIRDV 隔室模型的微分方程參數(shù)得到的感染隔室的擬合和預(yù)測(cè)結(jié)果良好,對(duì)峰值的動(dòng)態(tài)性預(yù)測(cè)良好,驗(yàn)證了疫苗接種隔室的有效性,且神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的參數(shù)有一定合理性,針對(duì)有偏差的參數(shù)提出了可能的原因和解決方法,驗(yàn)證了隔室和神經(jīng)網(wǎng)絡(luò)組合模型具有良好的解釋性。
上述試驗(yàn)是在美國(guó)的COVID-19 數(shù)據(jù)集上進(jìn)行的,未來(lái)可以專(zhuān)注于不同國(guó)家的、更廣泛的數(shù)據(jù)集。