王 娜,崔秀云,冉 亮,駱 方,高 雅,趙衍斌,蘆 華
(1.重慶市渝北區(qū)氣象局,重慶 401120;2.甘肅省氣象局,蘭州 730020;3.重慶市防雷中心,重慶 401147;4.重慶市氣象信息中心,重慶 401147;5.重慶市氣象科學(xué)研究所,重慶 401147)
呼吸道疾病是指感冒、氣管炎、支氣管炎、肺炎等呼吸道的急性炎癥,是常見多發(fā)的疾病。2020年我國(guó)城市居民呼吸系統(tǒng)疾病死亡率為55.36/(10萬(wàn)),位列城市居民主要疾病死亡率第4位[1]。大量研究表明,呼吸道疾病的發(fā)生與一定的氣象條件有密切關(guān)系[2-7]。氣象因素如溫度、濕度、氣壓等均有對(duì)健康適宜的閾值范圍,偏離該范圍后可能對(duì)人群健康造成負(fù)面影響[8]。研究表明,全球變暖和天氣模式的可變性都會(huì)對(duì)人類呼吸健康產(chǎn)生負(fù)面影響,氣候變化將導(dǎo)致全世界呼吸系統(tǒng)發(fā)病率和死亡率顯著增加[9]。呼吸系統(tǒng)疾病死亡人數(shù)與氣象因子的相關(guān)程度隨季節(jié)變化[10],不同氣象要素對(duì)呼吸系統(tǒng)的影響具有協(xié)同效應(yīng)[11]。此外,多項(xiàng)研究表明,氣象要素對(duì)呼吸道疾病的影響存在明顯的滯后性[12-15]。
重慶是我國(guó)西部唯一的直轄市,屬東亞季風(fēng)區(qū),冬季受東北季風(fēng)控制,夏季受西南季風(fēng)影響。該地區(qū)位于四川盆地東南部,地形起伏較大,具有獨(dú)特的立體天氣氣候特點(diǎn),區(qū)域內(nèi)江河縱橫,水汽充沛,常年處于高濕環(huán)境,年平均相對(duì)濕度多為70%~80%,而日照百分率僅為25%~35%,為年日照時(shí)數(shù)最少的地區(qū)之一。相關(guān)研究指出,呼吸系統(tǒng)疾病引起的死亡人數(shù)位于重慶市居民總死亡人數(shù)的前三位[16]。過去研究多著重分析大氣污染對(duì)重慶地區(qū)呼吸道疾病的影響[17-20],對(duì)氣象因子的影響研究甚少,尤其是基于氣象因子的疾病預(yù)測(cè)還未見報(bào)道。而重慶天氣氣候條件特殊,其對(duì)于呼吸道疾病的影響值得精細(xì)化研究。本文以重慶市醫(yī)科大學(xué)附屬第三醫(yī)院為例,對(duì)氣象因子和呼吸道疾病的關(guān)系進(jìn)行研究,并建立預(yù)測(cè)模型,為當(dāng)?shù)刂贫☉?yīng)對(duì)政策和科學(xué)防控呼吸道疾病提供參考依據(jù)。
本文氣象資料來(lái)自重慶市渝北國(guó)家氣象觀測(cè)站,包括2017年1月1日-2019年12月31日的日平均氣壓、日最高氣壓、日最低氣壓、日平均氣溫、日最高氣溫、日最低氣溫、日平均相對(duì)濕度、日最低相對(duì)濕度、日最大風(fēng)速、日照時(shí)數(shù)、日降雨量等。同期呼吸道疾病資料來(lái)自重慶市醫(yī)科大學(xué)附屬第三醫(yī)院,該醫(yī)院為國(guó)家三級(jí)甲等綜合醫(yī)院,位于重慶市渝北區(qū),在地域和人員上具有一定的代表性,數(shù)據(jù)包括逐日全人群就診人次,男性就診人次,女性就診人次。
日平均水汽壓(VP)通過日平均氣溫和日平均相對(duì)濕度計(jì)算得到,公式如下:
(1)
式中,T0為參考?xì)鉁?73.15 K,es(T0)為T0時(shí)的飽和水汽壓,L為水的蒸發(fā)熱量,RV為水蒸氣的氣體常數(shù),T為日平均氣溫,RH為日平均相對(duì)濕度。
氣溫日較差(δT)為日最高氣溫Tmax與日最低氣溫Tmin之差:
δT=Tmax-Tmin
(2)
前n天的日平均氣溫最大值max(Tn)與最小值min(Tn)之差得到變溫幅度(ΔT):
ΔT=max(Tn)-min(Tn)
(3)
Jarque-Bera檢驗(yàn)是對(duì)樣本數(shù)據(jù)是否具有符合正態(tài)分布的偏度和峰度的擬合優(yōu)度的檢驗(yàn),定義JB統(tǒng)計(jì)量:
(4)
式中,N是觀測(cè)數(shù),S是樣本偏度,K是樣本峰度。若樣本數(shù)據(jù)來(lái)自具有正態(tài)分布的總體,JB統(tǒng)計(jì)量近似服從自由度為2的卡方分布,因此該統(tǒng)計(jì)量可以用于檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布。
本文對(duì)呼吸道疾病就診人次進(jìn)行Jarque-Bera檢驗(yàn),若呼吸道疾病就診人次x服從數(shù)學(xué)期望為μ、方差為σ2的正態(tài)分布,對(duì)其概率密度函數(shù)進(jìn)行積分,將積分值S作為呼吸道疾病風(fēng)險(xiǎn)等級(jí)的閾值:
(5)
把概率密度函數(shù)積分值等于0.15、0.35、0.65和0.85時(shí)的就診人次x確定為呼吸道疾病風(fēng)險(xiǎn)1、2、3、4、5級(jí)的分級(jí)指標(biāo)[21],對(duì)應(yīng)發(fā)病風(fēng)險(xiǎn)低、較低、中等、較高、高(表1)。
表1 呼吸道疾病風(fēng)險(xiǎn)等級(jí)閾值及含義
1.3.1 逐步回歸分析
選取可能影響呼吸道疾病的多個(gè)氣象變量作為預(yù)報(bào)因子,對(duì)呼吸道疾病就診人次進(jìn)行預(yù)測(cè),應(yīng)用多元線性回歸方法建立回歸方程:
(6)
式中,Y表示呼吸道疾病就診人次,b為常數(shù)項(xiàng),ai為回歸系數(shù),xi為氣象因子,m為氣象因子的數(shù)量。為保證在已選定的氣象因子中得到最優(yōu)回歸方程,采用逐步回歸分析方法,即利用因子的方差貢獻(xiàn)大小對(duì)待選的氣象因子進(jìn)行逐步篩選,建立最優(yōu)回歸方程。
1.3.2 KNN算法
K最近鄰分類算法(K-Nearest Neighbor,KNN)通過給定測(cè)試樣本,找出訓(xùn)練集中與其最靠近的K個(gè)訓(xùn)練樣本,選擇K個(gè)樣本中出現(xiàn)最多的類別標(biāo)記作為預(yù)測(cè)結(jié)果[22-23]。首先給定一組由n個(gè)樣本組成的歷史樣本集D,其中每個(gè)樣本由m個(gè)屬性變量和1個(gè)標(biāo)志量構(gòu)成:
(7)
本文屬性變量xij指影響呼吸道疾病發(fā)生的氣象因子經(jīng)數(shù)據(jù)歸一化處理后的值,標(biāo)志量yi為呼吸道疾病風(fēng)險(xiǎn)等級(jí)。
給定由氣象因子組成的預(yù)測(cè)樣本集X′={x′1,x′2,…,x′m},采用歐式距離法計(jì)算預(yù)測(cè)樣本集X′與歷史樣本集中屬性變量集X的距離Li:
(8)
從計(jì)算得到的n個(gè)距離中找出距離最近的K個(gè)近鄰(K通常取奇數(shù))對(duì)應(yīng)的標(biāo)志量集合Y={y1,y2,…,yk},根據(jù)投票多數(shù)原則,選取最多的量yi作為預(yù)測(cè)樣本x′i的預(yù)測(cè)結(jié)果。
KNN算法中的K值選取對(duì)模型準(zhǔn)確率有較大影響。本文利用交叉驗(yàn)證法確定K參數(shù)。具體來(lái)講,通過將訓(xùn)練集再次劃分為n組訓(xùn)練/驗(yàn)證集,對(duì)n組訓(xùn)練/驗(yàn)證集進(jìn)行n次訓(xùn)練和驗(yàn)證,返回n次驗(yàn)證結(jié)果的均值,即“n折交叉驗(yàn)證”,預(yù)設(shè)不同K值條件,通過交叉驗(yàn)證評(píng)估出最優(yōu)K值。文中取K=1、3、5、7、9、11,n=10,分別計(jì)算每個(gè)K值條件下10折交叉驗(yàn)證結(jié)果的均值,選取均值最大的K值作為最終K參數(shù)。
采用平均值、第25、50和75百分位數(shù)(P25、P50、P75)、最大值和最小值統(tǒng)計(jì)2017-2019年重慶市呼吸道疾病逐日就診人次。結(jié)果顯示,2017年1月1日至2019年12月31日就診日數(shù)共計(jì)1086天,呼吸道疾病就診共計(jì)84415人次,平均每天77.7人次。其中男性43627人次,平均每天40.2人次;女性40782人次,平均每天37.6人次。性別缺失6人次(表2)。
表2 2017-2019年重慶市呼吸道疾病逐日就診人次統(tǒng)計(jì) 人次
為了消除醫(yī)院春節(jié)放假和各月天數(shù)本身不一致造成的呼吸道就診人次差別,本文計(jì)算逐月的日平均值來(lái)表示逐月就診人次變化趨勢(shì)。圖1為2017-2019年重慶市逐月呼吸道疾病全人群及男女呼吸道疾病就診人次分布圖。由圖1可以看出,重慶市呼吸道疾病一年四季均有發(fā)生,與四川地區(qū)春季為高發(fā)期[14]及吉林地區(qū)秋冬、夏秋之交發(fā)病較高[24]不同,重慶市冬季(12月、1月、2月)為疾病高發(fā)期,發(fā)病占全年的28.7%;夏季(6月、7月、8月)為低值期,占全年的21.6%。對(duì)比各月,發(fā)病最多的是1月,占比9.6%;最少的是8月,占比6.8%。這與雷小英[25]等統(tǒng)計(jì)的重慶地區(qū)2009-2011年病毒檢出率、總檢出陽(yáng)性率冬季最高、夏季最低的結(jié)論一致。逐月的男女就診人次顯示,36個(gè)月份中僅2017年3月、2019年1月、2019年4月、2019年12月這4個(gè)月份就診人次女性多于男性,三年平均逐月就診人次僅1月份女性略多于男性,其余月份男性均多于女性,這可能和男性喜吸煙的生活習(xí)性、工作環(huán)境相對(duì)較惡劣等有關(guān)。
圖1 2017-2019年重慶市逐月呼吸道疾病就診人次分布圖
本文根據(jù)2017-2019年重慶市呼吸道疾病就診人次及同期氣象數(shù)據(jù),共計(jì)算7組不同的潛伏期(M=1~7天)氣象因子平均值與6組發(fā)病期(N=1~6天)平均就診人次的相關(guān)性,并用時(shí)效M_N表示,例如時(shí)效6_3表示過去6天氣象因子平均值與未來(lái)3天平均就診人次的相關(guān)關(guān)系。不同時(shí)效氣象因子與呼吸道疾病就診人次(Spearman)相關(guān)分析結(jié)果顯示(表3),氣溫(包括平均值、最高和最低值)與呼吸道疾病相關(guān)程度最高,其中又以最低氣溫與呼吸道疾病的關(guān)系最為緊密,最小相關(guān)系數(shù)達(dá)-0.40(P<0.05)。多項(xiàng)研究表明,低溫對(duì)呼吸道疾病的健康風(fēng)險(xiǎn)大于高溫的風(fēng)險(xiǎn)[26-28]。氣溫較低時(shí),鼻腔局部血管收縮,鼻腔內(nèi)局部分泌的免疫球蛋白A明顯減少,為病毒入侵提供了有利條件[29];另外,低溫冷卻黏膜層,寄宿在上呼吸道的病毒更穩(wěn)定,有利于其進(jìn)一步擴(kuò)增進(jìn)而引起病毒再次感染[28]。水汽壓與呼吸道疾病的相關(guān)性僅次于氣溫的相關(guān)性,均為顯著負(fù)相關(guān)。值得注意的是,呼吸道疾病就診人次與水汽壓相關(guān)程度較高,但與相對(duì)濕度的相關(guān)性較低,這和劉欣等[28]相較于相對(duì)濕度,絕對(duì)濕度對(duì)病毒的影響更加穩(wěn)定的結(jié)論一致。由于相對(duì)濕度隨氣溫升高而降低,間接抵消了氣溫對(duì)呼吸道疾病的影響,而水汽壓為大氣中水汽的分壓力,表示水汽的絕對(duì)含量。水汽壓比相對(duì)濕度更能反映濕度環(huán)境對(duì)呼吸道疾病的影響。氣壓(包括平均值、最高和最低值)與呼吸道疾病具有顯著正相關(guān),日照時(shí)數(shù)、氣溫日較差、日降雨量與呼吸道疾病均為負(fù)相關(guān)。其余氣象因子與呼吸道疾病相關(guān)性較低。相關(guān)程度由高到低的前10個(gè)變量分別為日最低氣溫、日平均氣溫、日平均水汽壓、日最高氣溫、日最高氣壓、日平均氣壓、日最低氣壓、氣溫日較差、日照時(shí)數(shù)、日降雨量。
表3 不同時(shí)效重慶市呼吸道疾病就診人次與氣象因子的Spearman相關(guān)系數(shù)
選取與呼吸道疾病就診人次相關(guān)程度最高的兩類氣象因子(氣溫和水汽壓),繪制不同時(shí)效的氣象因子和就診人次相關(guān)系數(shù)(R)變化圖(圖2)。氣溫、水汽壓的相關(guān)系數(shù)絕對(duì)值隨發(fā)病期與潛伏期的增加均呈增加趨勢(shì)。隨著發(fā)病期的增加,氣溫、水汽壓與就診人次的相關(guān)性迅速增加,表明氣溫、水汽壓對(duì)呼吸道疾病的影響具有滯后性。R值隨潛伏期的變化相對(duì)較緩,表明氣溫、水汽壓的前期變化對(duì)呼吸道疾病影響較小。這與張書余等[24]的研究結(jié)果一致,該研究指出,一次明顯的天氣變化過程對(duì)應(yīng)的不是一個(gè)高發(fā)病日,而是一個(gè)持續(xù)的高發(fā)病狀態(tài)。
圖2 不同時(shí)效呼吸道疾病就診人次與日平均氣溫(a)、日平均水汽壓(b)的相關(guān)系數(shù)變化圖
選取不同發(fā)病期(N=1~10天)平均就診人次的對(duì)數(shù)值做Jarque_bera正態(tài)分布檢驗(yàn),結(jié)果顯示,當(dāng)N=1~6時(shí),P>0.05,樣本服從對(duì)數(shù)正態(tài)分布。根據(jù)不同發(fā)病期(N=1~6天)的平均就診人次的概率密度函數(shù)積分值劃分5個(gè)發(fā)病等級(jí),確定呼吸道疾病風(fēng)險(xiǎn)1、2、3、4、5級(jí)的分級(jí)指標(biāo),得到不同發(fā)病期呼吸道疾病風(fēng)險(xiǎn)等級(jí)天數(shù)(表4)。
表4 不同發(fā)病期呼吸道疾病風(fēng)險(xiǎn)等級(jí)天數(shù) 天
選取14個(gè)氣象因子作為預(yù)報(bào)因子X,包括日平均氣壓、日最高氣壓、日最低氣壓、日平均氣溫、日最高氣溫、日最低氣溫、日平均相對(duì)濕度、日最低相對(duì)濕度、日最大風(fēng)速、日照時(shí)數(shù)、日降雨量、日平均水汽壓、氣溫日較差、變溫幅度。將樣本集按7∶3劃分訓(xùn)練集和測(cè)試集,在訓(xùn)練集中通過逐步回歸方法建立最優(yōu)方程,測(cè)試集的預(yù)報(bào)因子代入最優(yōu)方程得到預(yù)報(bào)值。
本文設(shè)計(jì)了7組不同的潛伏期(M=1~7天)和6期發(fā)病期(N=1~6天),采用逐步回歸方法建立了42個(gè)預(yù)測(cè)模型,即根據(jù)過去M天潛伏期的氣象因子平均值預(yù)測(cè)未來(lái)N天發(fā)病期的平均就診人次,各方程復(fù)相關(guān)系數(shù)為0.10~0.61,均方根誤差為14.2~30.1。將測(cè)試集的平均就診人次實(shí)際值和預(yù)報(bào)值劃分呼吸道疾病風(fēng)險(xiǎn)等級(jí),對(duì)比測(cè)試集的預(yù)報(bào)等級(jí)與實(shí)際等級(jí)得到模型準(zhǔn)確率。不同時(shí)效的逐步回歸模型預(yù)測(cè)呼吸道疾病風(fēng)險(xiǎn)等級(jí)與實(shí)際完全一致的準(zhǔn)確率為22.1%~47.9%(表5),預(yù)測(cè)等級(jí)與實(shí)際相差1級(jí)以內(nèi)的準(zhǔn)確率為71.2%~91.7%(表6)。
表5 不同時(shí)效逐步回歸模型預(yù)測(cè)重慶市呼吸道疾病風(fēng)險(xiǎn)等級(jí)與實(shí)際完全一致的準(zhǔn)確率 %
表6 不同時(shí)效逐步回歸模型預(yù)測(cè)重慶市呼吸道疾病風(fēng)險(xiǎn)等級(jí)與實(shí)際相差1級(jí)以內(nèi)的準(zhǔn)確率 %
選取上述14個(gè)氣象因子經(jīng)標(biāo)準(zhǔn)化處理后的值作為屬性變量X,根據(jù)呼吸道疾病就診人次劃分的疾病風(fēng)險(xiǎn)等級(jí)作為標(biāo)志量Y,基于KNN算法建立呼吸道疾病風(fēng)險(xiǎn)等級(jí)預(yù)測(cè)模型。標(biāo)志量和屬性變量組成的樣本集按照7∶3的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,采取交叉驗(yàn)證法確定最優(yōu)K值,建立KNN模型。
根據(jù)7組不同潛伏期(M=1~7天)和6組發(fā)病期(N=1~6天),采用KNN算法建立42個(gè)預(yù)測(cè)模型,利用測(cè)試集的預(yù)報(bào)等級(jí)與實(shí)際等級(jí)的差別得到準(zhǔn)確率。結(jié)果顯示,不同時(shí)效的KNN模型預(yù)測(cè)呼吸道疾病風(fēng)險(xiǎn)等級(jí)與實(shí)際完全一致的準(zhǔn)確率為23.6%~64.4%(表7),預(yù)測(cè)等級(jí)與實(shí)際相差1級(jí)以內(nèi)的準(zhǔn)確率為59.5%~92.3%(表8)。
表7 不同時(shí)效KNN模型預(yù)測(cè)重慶市呼吸道疾病風(fēng)險(xiǎn)等級(jí)與實(shí)際完全一致的準(zhǔn)確率 %
表8 不同時(shí)效KNN模型預(yù)測(cè)重慶市呼吸道疾病風(fēng)險(xiǎn)等級(jí)與實(shí)際相差1級(jí)以內(nèi)的準(zhǔn)確率 %
對(duì)兩種模型預(yù)測(cè)的呼吸道疾病風(fēng)險(xiǎn)等級(jí)與實(shí)際完全一致的準(zhǔn)確率進(jìn)行對(duì)比,結(jié)果顯示,M≤2時(shí),逐步回歸模型的準(zhǔn)確率更高,即逐步回歸模型利用過去1~2天的氣象因子對(duì)呼吸道疾病風(fēng)險(xiǎn)等級(jí)的預(yù)測(cè)具有更高的準(zhǔn)確率。在歷史氣象資料充足的情況下(使用過去3~7天的氣象因子),KNN模型預(yù)報(bào)未來(lái)1~6天的呼吸道疾病風(fēng)險(xiǎn)等級(jí)的準(zhǔn)確率均明顯高于逐步回歸模型的準(zhǔn)確率。
(1)重慶市呼吸道疾病患者男性略多于女性,冬季為高發(fā)期,占全年的比例為28.7%;夏季為低值期,占全年比例的21.6%。發(fā)病最多的是1月,占比9.6%,最少的是8月,占比6.8%。
(2)各類氣象因子與就診人次的相關(guān)性分析顯示,氣溫、水汽壓與呼吸道疾病相關(guān)性最高,均具有顯著負(fù)相關(guān),其中最低氣溫對(duì)呼吸道疾病影響最大,并且氣溫、水汽壓對(duì)呼吸道疾病的影響具有滯后性。與呼吸道疾病相關(guān)程度較高的10個(gè)變量分別為日最低氣溫、日平均氣溫、日平均水汽壓、日最高氣溫、日最高氣壓、日平均氣壓、日最低氣壓、氣溫日較差、日照時(shí)數(shù)、日降雨量。
(3)不同時(shí)效的逐步回歸模型預(yù)測(cè)呼吸道疾病風(fēng)險(xiǎn)等級(jí)與實(shí)際完全一致的準(zhǔn)確率為22.1%~47.9%,預(yù)測(cè)等級(jí)與實(shí)際相差1級(jí)以內(nèi)的準(zhǔn)確率為71.2%~91.7%。不同時(shí)效KNN模型預(yù)測(cè)呼吸道疾病風(fēng)險(xiǎn)等級(jí)與實(shí)際完全一致的準(zhǔn)確率為23.6%~64.4%,預(yù)測(cè)等級(jí)與實(shí)際相差1級(jí)以內(nèi)的準(zhǔn)確率為59.5%~92.3%。在歷史氣象資料充足的情況下(使用過去3~7天的氣象因子),KNN模型預(yù)報(bào)未來(lái)1~6天的呼吸道疾病風(fēng)險(xiǎn)等級(jí)的準(zhǔn)確率均明顯高于逐步回歸模型的準(zhǔn)確率。
由于呼吸道疾病的誘發(fā)因素很多,氣象因素只是其中一部分,根據(jù)模型預(yù)測(cè)的結(jié)果無(wú)法排除其他致病因素的干擾,對(duì)預(yù)報(bào)準(zhǔn)確率會(huì)產(chǎn)生一定的影響,有待后續(xù)收集到更完整的資料作進(jìn)一步探討。