王玥瑤,梁 澤,丁家祺,孫福月,李雙成*
城市自然與社會環(huán)境對新型冠狀病毒肺炎發(fā)病率的影響
王玥瑤1,2,梁 澤1,2,丁家祺1,2,孫福月1,2,李雙成1,2*
(1.北京大學(xué)城市與環(huán)境學(xué)院,北京 100871;2.北京大學(xué)地表過程分析與模擬教育部重點實驗室,北京 100871)
在城市尺度上探究了2020年1月1日~3月5日期間城市規(guī)模、醫(yī)療資源水平等城市自然與社會經(jīng)濟因素對新冠肺炎人群發(fā)病率的影響.基于多種傳統(tǒng)統(tǒng)計模型與機器學(xué)習(xí)方法識別了新冠肺炎發(fā)病率的關(guān)鍵影響因子.基于新興的可解釋機器學(xué)習(xí)框架,探究了發(fā)病率與關(guān)鍵影響因子之間的非線性聯(lián)系.結(jié)果表明:城市新冠肺炎發(fā)病率受到人口遷入、城市規(guī)模、城市醫(yī)療資源水平等方面的多要素影響,其中武漢遷入率具有最高的相關(guān)系數(shù)(相關(guān)系數(shù)達(dá)到0.43),其次為人口增長率(相關(guān)系數(shù)為0.38);人口遷徙、城市規(guī)模以及醫(yī)療服務(wù)資源水平均為關(guān)鍵影響因子;關(guān)鍵影響因子與人群發(fā)病率存在非線性關(guān)系:武漢遷入率對新冠肺炎發(fā)病率的影響曲線呈現(xiàn)S形,在遷入率大于2%進(jìn)入平臺期,人口密度的影響近似線性;人均GDP的影響呈現(xiàn)出明顯的倒U型曲線特征,以人均GDP超過10萬元為拐點;城市建設(shè)需要適當(dāng)控制人口密度,避免城市人口分布過于緊湊.提升高經(jīng)濟水平地區(qū)的經(jīng)濟發(fā)展,從而帶來更多健康收益.
人群發(fā)病率;自然因素;社會經(jīng)濟因素;XGBoost模型;全子集回歸;SHAP
新型冠狀病毒肺炎(COVID-19)疫情的爆發(fā),使城市系統(tǒng)同時面臨病毒檢測、感染者收治、醫(yī)務(wù)力量組織、阻斷病毒傳播鏈等多重挑戰(zhàn)[1-3].城市作為一個復(fù)雜的巨系統(tǒng),其自然與社會經(jīng)濟要素從多方面對疫情的蔓延與控制起到直接或間接的作用[4-5].然而大部分自然與社會經(jīng)濟要素對疫情蔓延的影響機制與作用路徑復(fù)雜,兼具正向與負(fù)向影響. 但另一方面,大規(guī)模城市通常具備更高的醫(yī)療衛(wèi)生水平和應(yīng)急管理能力[6-7],這對傳染病的防控起到重要的作用.識別城市尺度上自然、社會與經(jīng)濟要素對疫情傳播的復(fù)雜作用方式,具有重要科學(xué)意義.
識別影響城市傳染病傳播因素的實證研究已取得一定進(jìn)展,但存在研究結(jié)論不一致、影響傳染病傳播的關(guān)鍵因子不明確等問題.如Melanie等[8]的研究表明,較高的溫度與較低的COVID-19發(fā)病率相關(guān)聯(lián),而Peter等[9]的研究卻發(fā)現(xiàn),溫度與新冠肺炎發(fā)病率不具備相關(guān)關(guān)系.Dalziel等[10]認(rèn)為,城市人口規(guī)模越大,流感的流行強度越低.而Haroldo等[11]的研究表明,規(guī)模越大的城市,新冠肺炎患病率越高.此外,Stojkoski等[12]、許小可等[13]、Mario等[14]分別認(rèn)為城市人口密度、外來人口輸入以及空氣污染物排放是新冠肺炎疫情傳播的重要影響因素.這些研究在影響因素分析方面,多側(cè)重于與溫度等要素進(jìn)行單變量分析,缺乏對于城市自然、社會與經(jīng)濟要素的綜合考慮.且研究區(qū)大多為國外的城市與地區(qū),而我國全國層面的跨區(qū)域尺度研究相對較少,已有研究結(jié)果存在的不一致性在全國城市是否適用也有待進(jìn)一步科學(xué)驗證.已有研究結(jié)論中的矛盾具有多方面成因,包括研究尺度選擇的不同,也包括自然、社會與經(jīng)濟要素選擇的不同.研究尺度方面,國家層面城市樣本的分析可以為定量探究新冠肺炎疫情的影響因子與影響能力提供良好的數(shù)據(jù)基礎(chǔ),有效減少基于單個或少量城市進(jìn)行分析帶來的小樣本偏差.在社會經(jīng)濟要素的選擇上,城市交通運輸能力、城市發(fā)展規(guī)模、城市人居綠色環(huán)境以及城市公共衛(wèi)生資源等方面都會對城市防疫政策的落實、資源的調(diào)度、人員流動的管控等產(chǎn)生影響.因此,基于單方面少量因子進(jìn)行統(tǒng)計模型分析容易導(dǎo)致模型遺漏重要變量,對評估結(jié)果產(chǎn)生負(fù)面影響.綜合考慮城市自然、社會與經(jīng)濟發(fā)展的各方面因素對疫情蔓延可能帶來的影響,有助于在回歸模型中控制變量,更準(zhǔn)確地實現(xiàn)對各要素作用的評估.在城市尺度上,從多維度影響因素中識別關(guān)鍵影響因子.
本文基于我國新冠肺炎疫情暴發(fā)初期的城市人群發(fā)病數(shù)據(jù),采用Spearman秩相關(guān)分析、全子集多元回歸模型、XGBoost模型以及SHAP解釋框架,在城市尺度上探究影響城市自然、社會與經(jīng)濟多維度因素對新冠肺炎發(fā)病率的影響.
1.1.1 城市人群發(fā)病率 本文以中國市級及以上行政區(qū)為研究單元,研究范圍包括全國22個省與5個自治區(qū)的4個直轄市、15個副省級以及219個地級市共計238個城市單元(不包括香港、澳門特別行政區(qū)與臺灣地區(qū)).新冠肺炎每日累計確診數(shù)據(jù)來自2020年1月1日~3月5日期間國家衛(wèi)生健康委的網(wǎng)絡(luò)公開數(shù)據(jù)集,年平均人口數(shù)量指標(biāo)來自《2018中國城市統(tǒng)計年鑒》[15].通過每日累計確診數(shù)據(jù)以及從統(tǒng)計年鑒獲取的城市年平均人口數(shù)量指標(biāo)計算得到城市尺度的人群新冠肺炎發(fā)病率指標(biāo)(式1).
1.1.2 人口遷入率 傳染病的流行需要同時具備傳染源、傳播途徑以及易感人群3個環(huán)節(jié)[16].控制傳染源和切斷傳播途徑是阻止疫情蔓延的有效手段.湖北武漢是疫情早期的重災(zāi)區(qū),并且是我國重要的交通樞紐.另外,全國范圍內(nèi)大規(guī)模的人口流動,對疫情的擴散也具有重要影響.因此本文構(gòu)建了全國遷入率與武漢遷入率指標(biāo)來表征每個城市在疫情期間的人口流入特征.
人口遷移數(shù)據(jù)來自百度遷徙數(shù)據(jù)平臺(http: //qianxi.baidu.com/),該數(shù)據(jù)基于百度慧眼技術(shù)獲取國內(nèi)手機用戶定位信息,真實記錄數(shù)以億計的國內(nèi)人口流動軌跡,為塑造區(qū)域間人群遷徙特征提供了可能[17-19].本研究獲取了2020年1月1日~3月5日的人口遷移數(shù)據(jù),該數(shù)據(jù)包括遷入地、遷出地、流動時間、熱度值、遷移規(guī)模等屬性.遷移規(guī)模表示當(dāng)天遷入或遷出該城市的總量,熱度占比計算了其他城市遷入該城市人流量占遷移規(guī)模的比例,熱度值為遷移規(guī)模與熱度占比的乘積.通過計算研究期間全國所有城市到目標(biāo)城市的平均遷入熱度與該城市年平均人口的比值得到異地遷入率指標(biāo)(式2).通過武漢到目標(biāo)城市的遷入熱度與該城市年平均人口的比值得到武漢遷入率指標(biāo)(式3).
1.1.3 自然因素指標(biāo) 本文使用氣溫、濕度以及海拔高度作為自然要素指標(biāo).其中氣溫與濕度來自中國高時空分辨率氣象數(shù)據(jù)集(http://data.cma.cn),空間分辨率0.1度,時間分辨率3h.該數(shù)據(jù)采用嚴(yán)格的數(shù)據(jù)質(zhì)量控制,統(tǒng)一的站點數(shù)據(jù)、衛(wèi)星數(shù)據(jù)和再分析數(shù)據(jù)的融合方法,避免了不同學(xué)者對同一研究區(qū)域氣象數(shù)據(jù)的重復(fù)處理.通過計算處理得到平均氣溫指標(biāo)與平均相對濕度指標(biāo)作為城市氣象條件指標(biāo).海拔高度(DEM)數(shù)據(jù)來源于美國奮進(jìn)號航天飛機的雷達(dá)地形測繪SRTM數(shù)據(jù)(下載自http://www.igadc. cn/nearests/ubfda).空間分辨率為90m.該數(shù)據(jù)具有現(xiàn)實性強,免費獲取等優(yōu)點,被廣泛應(yīng)用于大中尺度研究[20-21].
1.1.4 社會經(jīng)濟指標(biāo) 從城市發(fā)展規(guī)模、交通運輸能力、生態(tài)環(huán)境水平、污染物排放強度以及公共衛(wèi)生資源水平等方面選取指標(biāo)用于分析城市社會經(jīng)濟因素對新冠肺炎疫情傳播的影響.城市交通運輸方面,選取了人均陸路貨運量、人均航空貨運量、人均水路貨運量、人均陸路客運量、人均航空客運量與人均水路客運量指標(biāo)以衡量城市的客運和物流運輸強度.使用人口規(guī)模作為城市發(fā)展規(guī)模指標(biāo),同時增加了人口密度,人口自然增長率以及人均GDP指標(biāo)更全面的反映城市發(fā)展規(guī)模.使用建成區(qū)綠化覆蓋率與人均綠地公園面積指標(biāo)表征城市生態(tài)環(huán)境水平,使用人均工業(yè)廢水排放量、人均工業(yè)氮氧化物排放量和人均工業(yè)二氧化硫排放指標(biāo)作為城市污染物排放維度的指標(biāo).此外,使用了人均下水管道長度、人均醫(yī)院數(shù)量、人均醫(yī)院床位數(shù)以及人均職業(yè)醫(yī)師數(shù)量代表城市公共衛(wèi)生資源水平.以上社會經(jīng)濟指標(biāo)均來源于《2018年中國城市統(tǒng)計年鑒》
表1 城市自然、社會與經(jīng)濟要素的類別和指標(biāo)
1.2.1 相關(guān)分析 使用Spearman相關(guān)系數(shù)(又稱Spearman秩相關(guān)系數(shù))初步診斷上述24個自然、社會與經(jīng)濟要素對新冠疫情發(fā)病率的影響[22-23].
1.2.2 全子集回歸分析模型 基于新冠肺炎發(fā)病率與Spearman相關(guān)性分析的結(jié)果,本研究進(jìn)一步構(gòu)建了全子集多元回歸模型,以有效控制變量,實現(xiàn)對城市自然與社會經(jīng)濟多要素影響的準(zhǔn)確評估[24-25].本研究設(shè)立了調(diào)整2方和貝葉斯信息準(zhǔn)則2種模型評估準(zhǔn)則.
在構(gòu)建全子集多元回歸模型之前,首先進(jìn)行變量共線性檢驗剔除冗余變量.通過對各要素進(jìn)行方差膨脹因子(VIF)檢驗,篩選VIF小于10的變量[26-27].此外,對所有自變量與因變量進(jìn)行了z-score標(biāo)準(zhǔn)化處理以獲得標(biāo)準(zhǔn)化系數(shù).
1.2.3 Extreme Gradient Boosting模型 研究基于新興的數(shù)據(jù)挖掘與可解釋的機器學(xué)習(xí)方法挖掘城市各因素與新冠肺炎發(fā)病率的復(fù)雜關(guān)聯(lián).在諸多機器學(xué)習(xí)算法中,XGBoost模型被認(rèn)為具有集合預(yù)測能力強、超參數(shù)調(diào)優(yōu)較簡單等諸多優(yōu)越性[28].為了檢驗?zāi)P偷念A(yù)測性能,采用平均絕對誤差(MAE)均方根誤差(RMSE)和擬合優(yōu)度2作為模型的評價指標(biāo).
1.2.4 Shapley Additive Explanations歸因解釋方法 近年來,可解釋機器學(xué)習(xí)(IML)方法在理論和應(yīng)用層面實現(xiàn)了一系列突破[29-30].新的IML方法用于解釋模型學(xué)到的規(guī)則,成為數(shù)據(jù)驅(qū)動下發(fā)現(xiàn)新關(guān)聯(lián)、新認(rèn)識與新知識的重要途徑[31]以及機器學(xué)習(xí)的重要研究方向.
使用SHAP解釋模型定量分析XGBoost模型中關(guān)鍵因子對新冠肺炎發(fā)病率影響的非線性特征.這一方法建立在Shapely值之上, Shapely值來源于一種基于博弈論的最優(yōu)利益/貢獻(xiàn)分配理論[29].在此基礎(chǔ)上,Lundberg等[32]提出了基于Shapely值的可加性SHAP解釋框架,這一方法具有全局一致性、解決特征多重共線性、支持逐樣本特征作用力及其影響方向評估等多種優(yōu)點[33].利用SHAP值對特征重要性進(jìn)行衡量,假設(shè)第個樣本為x,第個樣本的第個特征為x,模型對該樣本的預(yù)測值為y,整個模型的基線(通常是所有樣本的目標(biāo)變量的均值)為base,對于每一個樣本的預(yù)測值y,有:
式中(x)即為x的SHAP值.與此前在隨機森林等算法中所使用的基于模型誤差的feature importance等模型解釋指標(biāo)相比,使用SHAP框架最直觀的優(yōu)勢是能夠度量各個特征影響目標(biāo)變量預(yù)測值的方向.此外,feature importance往往只能從模型整體出發(fā),展示對模型性能影響較大的特征.應(yīng)用SHAP框架,能夠分解單個樣本預(yù)測值的組成,了解各個特征對單個個案預(yù)測值的影響,這對于研究醫(yī)學(xué)領(lǐng)域相關(guān)問題非常有價值[31].
我國新冠肺炎人群發(fā)病率的空間分布格局如圖1所示,發(fā)病率高值區(qū)主要分布于湖北省以及湖北周邊省份,如湖南省、河南省等.值得注意的是,東北部分地區(qū)如黑龍江省北部等同樣為發(fā)病率相對高值區(qū).而內(nèi)蒙古、廣西與云南大部分地區(qū)的新冠肺炎發(fā)病率相對較低.總體來說,武漢周邊、東南沿海部分地區(qū)以及東北北部部分地區(qū)新冠肺炎發(fā)病率位于全國前列.北部城市與西部內(nèi)陸城市地區(qū)的新冠肺炎發(fā)病率普遍低于東南沿海地區(qū).
圖1 城市尺度新冠肺炎人群發(fā)病率空間分布格局
底圖源自國家測繪地理信息局(http://bzdt.nasg.gov.cn).審圖號:GS(2019)1697號
圖2所示,在24種變量中,武漢遷入率、全國遷入率、溫度、濕度、人均陸路與水路貨運量、人均陸路客運量、人口增長率與新冠肺炎發(fā)病率具有顯著的正相關(guān)關(guān)系(30.2).其中武漢人口遷入率的相關(guān)系數(shù)最高(相關(guān)系數(shù)=0.43),表明武漢人口遷入對其他城市的新冠肺炎發(fā)病率具有重要的影響.人均水路客運量、人均工業(yè)廢水排放量、人口密度、人均GDP以及人均下水管道長度的正相關(guān)程度次之(30.1).人均醫(yī)院數(shù)量與發(fā)病率具有最顯著的負(fù)相關(guān)關(guān)系,相關(guān)系數(shù)為-0.21.
圖2 整體相關(guān)系數(shù)結(jié)果
總體而言,在自然、社會與經(jīng)濟多方面相關(guān)指標(biāo)中,人口遷徙仍然是最重要的影響因素,其次為人口增長率,相對最小的是工業(yè)污染物排放.這表明,在不考慮因素間相互影響、僅僅考慮單因子影響的情況下,突發(fā)的新冠肺炎疫情既受到人口遷徙的影響,還與社會經(jīng)濟發(fā)展有密切關(guān)聯(lián).其中交通類指標(biāo)越高,代表城市的交通運輸水平越高,人流與貨流量更大,會增加病毒的傳播速率.而人口增長率指標(biāo)越高,代表城市的發(fā)展活力越大,與更加活躍的城市社會經(jīng)濟活動可能有密切關(guān)聯(lián).結(jié)果還顯示,豐富的公共衛(wèi)生資源(如人均醫(yī)院數(shù)量)和發(fā)病率有較強的負(fù)關(guān)聯(lián),這表明,醫(yī)療資源水平的提升對提升醫(yī)療服務(wù)水平、增加及時確診可能性等可能有重要作用,進(jìn)而影響疫情的傳播.
此外,研究進(jìn)一步按六大地理分區(qū)統(tǒng)計人群發(fā)病率的相關(guān)系數(shù)(表2).結(jié)果顯示,城市自然社會經(jīng)濟各因素與發(fā)病率的關(guān)聯(lián)有明顯的空間異質(zhì)性.其中公園綠地面積、氣溫及濕度、人口規(guī)模、經(jīng)濟水平等指標(biāo)影響的空間異質(zhì)性相對最強.在自然因素方面,氣溫對疫情傳播的影響在東北地區(qū)相對明顯,氣溫越高,發(fā)病率越低.在社會和經(jīng)濟因素方面,人均GDP代表的城市經(jīng)濟發(fā)展水平指標(biāo)的相關(guān)系數(shù)在華東地區(qū)明顯為負(fù),而在其他地區(qū)為正.意味著,經(jīng)濟發(fā)展在華東地區(qū)已經(jīng)帶來了眾多的健康收益,如民眾防護(hù)意識、政策執(zhí)行力、精細(xì)化的管控以及醫(yī)療基礎(chǔ)設(shè)施的增強等等,導(dǎo)致經(jīng)濟發(fā)展對控制疫情傳播起到明顯的控制作用.
表2 六大地理分區(qū)的相關(guān)系數(shù)結(jié)果
多重共線性檢驗結(jié)果(表3)顯示,所有變量的方差膨脹因子(VIF)均小于10,可以推斷各解釋變量之間不存在嚴(yán)重的多重共線性,故全部投入到多元回歸模型分析之中.
全子集回歸結(jié)果如圖3所示,尋找最優(yōu)模型的過程中,人均二氧化硫排放量、人口規(guī)模、人均醫(yī)院數(shù)量、人均醫(yī)院床位數(shù)等指標(biāo)被較多的納入了模型的構(gòu)建之中.人均陸路貨運量、人均航空客運量、人均工業(yè)氮氧化物排放量、建成區(qū)綠化覆蓋率、人均綠地公園面積、人口增長率等指標(biāo)被選擇次數(shù)較少.結(jié)果表明,人口流動、交通運輸、空氣污染物排放、城市生態(tài)環(huán)境水平以及城市發(fā)展規(guī)模、城市公共衛(wèi)生資源等因素都對新冠疫情的人群發(fā)病率具有一定影響.其中,武漢人口遷入率、人均水路貨運量、人均工業(yè)氮氧化物排放量、人均工業(yè)二氧化硫排放量、人口規(guī)模、人均航空客運與貨運量及人均醫(yī)院數(shù)量可能是關(guān)鍵影響因子.
表3 各解釋變量的方差膨脹因子
圖3 全子集模型回歸結(jié)果
橫軸表示通過顯著性檢驗的解釋變量,方框表示變量已進(jìn)入回歸模型,系數(shù)由低到高對應(yīng)顏色由淺到深.Adj2表示回歸模型的調(diào)整決定系數(shù)
基于以上準(zhǔn)則得到了2種最優(yōu)模型評估結(jié)果如表4所示.由全子集回歸得到的最優(yōu)模型計算得到標(biāo)準(zhǔn)化系數(shù),可以得到關(guān)鍵影響因子及其重要性排序.其中Adj2準(zhǔn)則下,關(guān)鍵影響因素的重要程度排序依次為:武漢遷入率、城市人口規(guī)模、人均工業(yè)二氧化硫排放量、人均醫(yī)院床位數(shù)、人均水路貨運量、人口增長率.BIC準(zhǔn)則下,關(guān)鍵影響因素重要程度排序結(jié)果為:武漢遷入率、人口規(guī)模、人均工業(yè)二氧化硫排放.
表4 多元回歸分析模型結(jié)果
注: ‘***’、‘**’和‘*’分別表示在1%、5%和10%的水平上顯著.
由最優(yōu)模型結(jié)果可知,武漢遷入率的標(biāo)準(zhǔn)化系數(shù)最高,這說明新冠肺炎疫情早期在武漢以外城市的蔓延受到武漢市人口流入的影響最大.城市規(guī)模的標(biāo)準(zhǔn)化系數(shù)次之,這說明城市規(guī)模的擴大帶來的資源豐富、運輸可達(dá)性高、通訊網(wǎng)絡(luò)發(fā)達(dá)等益處,可能減少了居民不必要的工作出行,從而避免了與他人的接觸,一定程度上抑制了疫情的蔓延.人均工業(yè)二氧化硫排放指標(biāo)的重要性排在第3位,這表明地區(qū)空氣污染水平可能會對疫情的蔓延產(chǎn)生促進(jìn)作用.此外,已有研究表明二氧化硫可對人體多個系統(tǒng)和器官造成損害,對呼吸系統(tǒng)、心肺等多方面疾病的發(fā)生具有一定影響[34-36],因此,二氧化硫的排放可以改變?nèi)巳夯A(chǔ)健康狀況,并提高人群感染病毒的潛在風(fēng)險.在基于Adj2準(zhǔn)則下的最優(yōu)模型中關(guān)鍵影響因子還有人均醫(yī)院床位數(shù)、人均水路貨運量與人口增長率.這說明,新冠肺炎疫情的爆發(fā)帶來了較大的醫(yī)療資源需求,充足的醫(yī)院數(shù)量也是應(yīng)對疫情沖擊的重要因素.另外,人均水路貨運量對新冠肺炎發(fā)病率的正向作用可能是由于交通運輸為疫情蔓延提供了途徑.因此在人口流動與交通運輸流量較大的城市,為抑制疾病的蔓延應(yīng)當(dāng)采取更加積極嚴(yán)格的防疫措施,例如呼吁公眾盡可能減少出行,做好防護(hù)措施等.人口增長率與新冠肺炎發(fā)病率也具有正向作用,這表明,城市人口的快速增長可能會提高病毒的傳播風(fēng)險,從而提高發(fā)病率.
以上述關(guān)鍵因子為特征,以新冠肺炎發(fā)病率為學(xué)習(xí)目標(biāo),建立了XGBoost回歸模型,模型運行結(jié)果顯示預(yù)測2高達(dá)0.89,RMSE為15.12,MAE為10.09,性能評估指標(biāo)顯示模型具有良好的預(yù)測效果.通過SHAP分析得到SHAP依賴圖,如圖4所示. SHAP依賴圖是對偏依賴圖(PDP)和累積局部效應(yīng)圖(ALE)的改進(jìn)方法,在挖掘潛在關(guān)聯(lián)規(guī)則方面具有更可靠的理論基礎(chǔ).該圖基于SHAP解釋方法獲取的SHAP value,以特征值為,在軸上繪制相應(yīng)的Shapley值.
結(jié)果顯示,武漢遷入率對新冠肺炎發(fā)病率的影響呈現(xiàn)明顯的S型曲線特征.在武漢遷入率達(dá)到1%之后,提升新冠肺炎發(fā)病率的作用開始迅速提升,而在武漢遷入率達(dá)到2%左右,該提升作用趨于平穩(wěn),呈現(xiàn)飽和的平臺期.對于人口密度而言,整體呈現(xiàn)單調(diào)上升的趨勢,這說明高人口密度對于突發(fā)的流行病暴發(fā)起到重要的促進(jìn)作用.盡管國際上高度提倡緊湊城市的建設(shè),但是在應(yīng)對突發(fā)的新興傳染病等公共衛(wèi)生事件中,高人口密度的城市設(shè)計可能會加劇城市的脆弱性,降低城市應(yīng)對疫情沖擊的韌性.對于人均GDP而言,SHAP曲線呈現(xiàn)出了規(guī)律非常明顯的倒U型曲線特征.結(jié)果表明,在經(jīng)濟發(fā)展初期,城市經(jīng)濟發(fā)展帶來的社會經(jīng)濟活動增強、人員流動性增加等因素對疫情傳播的促進(jìn)作用似乎更強,但是當(dāng)年人均GDP超過10萬元/人后,城市社會經(jīng)濟進(jìn)一步發(fā)展帶來的降低傳染病發(fā)病風(fēng)險收益明顯更強,呈現(xiàn)出抑制新冠疫情發(fā)展的作用.這可能與較高經(jīng)濟發(fā)展水平帶來的社會治理能力提升、人民防護(hù)意識增強、醫(yī)療服務(wù)資源供應(yīng)增加等諸多因素有關(guān).研究表明,在理解城市社會經(jīng)濟因素對新冠肺炎等新型傳染病危機過程中,不但要針對關(guān)鍵的影響因子進(jìn)行高度關(guān)注與把握,還要充分考慮這些影響因素可能形成的非線性作用.
圖4 武漢遷入率(a)、人口密度(b)與GDP(c)的SHAP依賴圖
研究利用機器學(xué)習(xí)模型量化評估了城市社會經(jīng)濟要素對新冠肺炎發(fā)病率的影響,模型擬合優(yōu)度較高,但仍可能存在一些誤差.首先,在采用SHAP方法分析非線性關(guān)系時,人口密度與經(jīng)濟發(fā)展水平高值區(qū)數(shù)據(jù)量相對較小,仍需要更多的數(shù)據(jù)支持,以挖掘和發(fā)現(xiàn)更具一般意義的要素作用規(guī)律.其次,本研究在城市尺度上探究了影響新冠肺炎發(fā)病率的社會經(jīng)濟要素,社會經(jīng)濟數(shù)據(jù)基于城市統(tǒng)計年鑒數(shù)據(jù),未來應(yīng)結(jié)合更加精細(xì)的時空地理大數(shù)據(jù)對人群進(jìn)行更細(xì)粒度的建模與評估,可以更好的控制信息偏倚.
3.1 總體來看,城市尺度上新冠肺炎發(fā)病率與人口遷徙、城市規(guī)模、醫(yī)療資源以及城市污染物排放方面的因素顯著相關(guān),其中武漢遷入率與發(fā)病率的Spearman相關(guān)系數(shù)最高,達(dá)到了0.43,其次是人均醫(yī)院數(shù)量,相關(guān)系數(shù)為-0.21.基于六大地理分區(qū)的相關(guān)系數(shù)結(jié)果表明,城市自然社會經(jīng)濟各因素與發(fā)病率的關(guān)聯(lián)有明顯的空間異質(zhì)性.其中,公園綠地面積、氣溫及濕度、人口規(guī)模、經(jīng)濟水平等指標(biāo)影響的空間異質(zhì)性相對最強.
3.2 全子集回歸模型結(jié)果顯示,影響城市新冠肺炎發(fā)病率的關(guān)鍵因子(按重要性排序)為武漢遷入率、城市人口規(guī)模、人均工業(yè)二氧化硫排放量、人均醫(yī)院床位數(shù)、人均水路貨運量、人口增長率等.非武漢城市的新冠肺炎發(fā)病率受到武漢市人口流入的影響最大,這表明控制來自疫情重災(zāi)區(qū)人口輸入應(yīng)作為疫情防控工作的重要任務(wù).此外,提升城市規(guī)模、減少污染物的排放以及提升醫(yī)療資源水平均有助于城市具備更強的疫情應(yīng)對能力,降低人群發(fā)病率,從而減輕突發(fā)重大公共衛(wèi)生事件對城市秩序的沖擊.
3.3 城市社會經(jīng)濟因素對新冠疫情發(fā)病率的影響有一定的非線性特征.武漢遷入率對新冠肺炎發(fā)病率的影響呈現(xiàn)明顯的S型曲線特征.在武漢遷入率達(dá)到1%之后,提升新冠肺炎發(fā)病率的作用開始迅速提升,而在武漢遷入率達(dá)到2%左右,該提升作用趨于平穩(wěn),呈現(xiàn)飽和的平臺期.對于人口密度而言,整體呈現(xiàn)單調(diào)上升的趨勢,說明高人口密度對于突發(fā)的流行病暴發(fā)起到重要的促進(jìn)作用.對于人均GDP而言,SHAP曲線呈現(xiàn)出了規(guī)律非常明顯的倒U型曲線特征.在經(jīng)濟發(fā)展初期,城市經(jīng)濟發(fā)展帶來的社會經(jīng)濟活動增強、人員流動性增加等因素對疫情傳播的促進(jìn)作用似乎更強,但是當(dāng)年人均GDP超過10萬元/人后,城市社會經(jīng)濟進(jìn)一步發(fā)展帶來的降低傳染病發(fā)病風(fēng)險收益明顯更強.
[1] World Health Organization (WHO). WHO director-general's opening remarks at the media briefing on COVID-19-11March 2020 [EB/Z]. https://www.who.int/zh/dg/speeches/detail/who-director-general-s-opening-re-marks-at-the-media-briefing-on-covid-19-11-march-2020,2020-04-19.
[2] 中華預(yù)防醫(yī)學(xué)會新型冠狀病毒肺炎防控專家組.新型冠狀病毒肺炎流行病學(xué)特征的最新認(rèn)識 [J]. 中國病毒病雜志, 2020,10(2):86-92.
Special Expert Group for Control of the Epidemic of Novel Coronavirus Pneumonia of the Chinese Preventive Medicine Asociation. An update on the epidemiological characteristics of novel coronavirus pneumonia (COVID-19) [J]. Chinese Journal of Viral Diseases, 2020,10(2):81-87.
[3] Sun K, Chen J, Viboud C. Early epidemiological analysis of the coronavirus disease 2019 outbreak based on crowdsourced data: a population-level observational study [J]. The Lancet Digital Health, 2020,2(4):e201-e208.
[4] 房城.城市綠地的使用與城市居民健康的關(guān)系初探 [D]. 北京:北京林業(yè)大學(xué), 2008.
Fang C, Study on relationship between the use of urban green space of urban residents and their health [D]. Beijing: Beijing forest university, 2008.
[5] 廖一齡.城市化對居民健康需求影響的實證分析 [D]. 上海:復(fù)旦大學(xué), 2009.
Liao Y L, An empirical analysis of the impact of urbanization on the health needs of the population [D]. Fudan university, 2008.
[6] Sun GQ, Wang SF, Li MT, et al. Transmission dynamics of COVID- 19 in Wuhan, China: effects of lockdown and medical resources [J]. Nonlinear Dynamics, 2020, 24:1-13.
[7] 劉小楠.關(guān)于加強我國城市公共安全應(yīng)急管理的思考 [J]. 中國管理信息化, 2020,23(9):171-173.
Liu X N. Reflections on strengthening public safety emergency management in China’s cities [J]. China Management Information, 2020,23(9):171-173.
[8] Bannister-Tyrrell M, Meyer A, Faverjon C, et al. Preliminary evidence that higher temperatures are associated with lower incidence of COVID-19, for cases reported globally up to 29th February 2020 [J]. medRxiv, 2020:2020-2023.
[9] Juni P, Rothenbühler M, Bobos P, et al. Impact of climate and public health interventions on the COVID-19 pandemic: a prospective cohort study [J]. Canadian Medical Association Journal, 2020,192:200920.
[10] Dalziel B D, Kissler S, Gog J R, et al. Urbanization and humidity shape the intensity of influenza epidemics in U.S. cities [J]. Science, 2018,362(6410):75.
[11] Ribeiro H V, Sunahara A S, Sutton J, et al. City size and the spreading of COVID-19 in Brazil [M]. PLoS One, 2020, 23;15(9):e0239699.
[12] Stojkoski V, Utkovski Z, Jolakoski P, et al. The socio-economic determinants of the coronavirus disease (COVID-19) pandemic [J]. SSRN Electronic Journal, 2020.04.15.20066068.
[13] 許小可,文 成,張光耀,等.新冠肺炎爆發(fā)前期武漢外流人口的地理去向分布及影響 [J]. 電子科技大學(xué)學(xué)報, 2020,49(3):324-329.
Xu X K, Wen C, Zhang G Y, et al. The geographical destination distribution and effect of outflow population of Wuhan when the outbreak of COVID-19 [J]. Journal of University of Electronic Science and Technology of China, 2020,49(3):324-329.
[14] Tahmasebi P, Shokri-Kuehni S M S, Sahimi M, et al. How do environmental, economic and health factors influence regional vulnerability to COVID-19? [J]. medRxiv, 2020.04.09.20059659.
[15] 國家統(tǒng)計局城市社會經(jīng)濟調(diào)查司.中國城市統(tǒng)計年鑒[M].北京:中國統(tǒng)計出版社, 2018.
Urban Social and Economic Investigation Department of National Provincial Bureau of Statistics. China city statistical yearbook[M]. Beijing: China Statistics Press, 2018.
[16] 李建軍,何 山.人口流動、信息傳播效率與疫情防控——基于新型冠狀肺炎(COVID-19)的證據(jù) [J]. 中央財經(jīng)大學(xué)學(xué)報, 2020,(4): 116-128.
Li J J, He S, et al. Population movement, information dissemination efficiency and disease [J]. Journal of Central University of Finance & Economics, 2020,(4):116-128.
[17] 馮章獻(xiàn),張 瑜,魏 冶,等.基于百度遷徙數(shù)據(jù)的長春市春運人口流動時空格局與動力機制 [J]. 經(jīng)濟地理, 2019,39(5):101-109.
Feng Z X, Zhang Y, Wei Y, et al. Spatial-Temporal pattern and dynamic mechanism of population flow of Changchun city during chunyun period based on baidu migration data [J]. Economic Geography, 2019,39(5):101-109.
[18] 劉望保,石恩名.基于ICT的中國城市間人口日常流動空間格局——以百度遷徙為例 [J]. 地理學(xué)報, 2016,71(10):1667-1679.
Liu W B, Shi E M. Spatial pattern of population daily flow among cities based on ICT: a case study of "baidu migration" [J]. Acta Geographica Sinica, 2016,71(10):1667-1679.
[19] 楊 冕,謝澤宇.新冠肺炎疫情防控對中國人口流動的影響——基于百度地圖遷徙大數(shù)據(jù)的實證研究 [J]. 人口研究, 2020,44(4):74- 88.
Yang M, Xie Z Y. Impacts of fighting COVID-19 on China’s population flows: an empirical study based on baidu migration big data [J]. Population Research, 2020,44(4):74-88.
[20] 張朝忙,劉慶生,劉高煥,等.SRTM 3與ASTER GDEM數(shù)據(jù)處理及應(yīng)用進(jìn)展 [J]. 地理與地理信息科學(xué), 2012,28(5):29-34.
Zhang Z M, Liu Q S, Liu G H, et al. Data processing and application progress of SRTM 3 and ASTER GDEM [J]. Geography and Geo- Information Science, 2012,28(5):29-34.
[21] 武文嬌,章詩芳,趙尚民.SRTM1DEM與ASTER GDEM V2數(shù)據(jù)的對比分析 [J]. 地球信息科學(xué)學(xué)報, 2017,19(8):1108-1115.
Wu W J, Zhang S F, Zhao S M. Analysis and comparison of SRTM1DEM and ASTER GDEM v2data [J]. Journal of Geo- information Science, 2017,19(8):1108-1115. DOI:10.3724/SP.J.1047. 2017.01108.
[22] Gauthier T D. Detecting trends using spearman's rank correlation coefficient [J]. Environmental Forensics, 2001,2(4):359-362.
[23] Myers J L, Arnold DW. Research design and statistical analysis[M]. Second edition. Lawrence Erlbaum, 508.
[24] Lawless J F, Mcleish D L. All subsets regression in a proportional hazards model [J]. Biometrika, 1984,71(3):587-592.
[25] Peng J, Jinglei J, Yanxu L, et al. Seasonal contrast of the dominant factors for spatial distribution of land surface temperature in urban areas [J]. Remote Sensing of Environment, 2018,215:255-267.
[26] Schwarz G. Estimating the dimension of a model [J]. The Annals of Statistics, 1978,6(2):461-464.
[27] Vrieze, Scott I. Model selection and psychological theory: a discussion of the differences between the Akaike information criterion (AIC) and the Bayesian information criterion (BIC) [J]. Psychological Methods, 2012,17(2):228-243.
[28] Chen, T. and C. Guestrin. XGBoost: a scalable tree boosting system [J]. in Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016:785-794.
[29] Ribeiro M T, S Singh, and C Guestrin. "Why should I trust you?": explaining the predictions of any classifier [J]. The 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016:1135-1144.
[30] Molnar C, Casalicchio G, and Bischl B, Interpretable machine learning -- a brief history, state-of-the-art and challenges [J]. arXiv: 2010.09337.
[31] Carlsson L S, Samuelsson P B, J?nsson P G. Interpretable machine learning—tools to interpret the predictions of a machine learning model predicting the electrical energy consumption of an electric arc furnace [J]. Steel research international, 2020, 91(11): 2000053.
[32] Roth A E, L S Shapley, The shapley value: essays in honor of lloyd s. shapley [J]. Economic Journal, 1988,101(406):235-264.
[33] Scott M L, Gabriel G E, Su I L. Consistent feature attribution for tree ensembles [J]. arXiv: 1802.03888.
[34] Schwartz A Z A J. The effect of fine and coarse particulate air pollution on mortality: a national analysis [J]. Environmental Health Perspectives, 2009,117(6):898-903.
[35] Khaniabadi Y O, Goudarzi G, Daryanoosh S M, et al. Exposure to PM10, NO2, and O3and impacts on human health [J]. Environmental Science and Pollution Research, 2017,24(3):2781-2789.
[36] 劉迎春,龔 潔,楊念念.武漢市大氣污染與居民呼吸系統(tǒng)疾病死亡關(guān)系的病例交叉研究 [J]. 環(huán)境與健康雜志, 2012,29(3):241-244.
Liu Y C, Gong J, Yang N N. Association between air pollution and mortality of respiratory diseases in Wuhan: a case-crossover study [J]. Journal of Environment and Health, 2012,29(3):241-244.
Identify the natural and socio-economic influencing factors of the new coronavirus pneumonia (COVID-19) incidence rates in Chinese cities.
WANG Yue-yao1,2, LIANG Ze1,2, DING Jia-qi1,2, SUN Fu-yue1,2, LI Shuang-cheng1,2*
(1.College of Urban and Environmental Sciences, Peking University, Beijing 100871, China;2.Key Laboratory for Earth Surface Processes of the Ministry of Education, Peking University, Beijing 100871, China)., 2022,42(3):1418~1426
This study explored the effects of both natural and socio-economic factors, such as city size and healthcare capacity, on the spreading of COVID-19 in China’s urban population from January 1 to March 5, 2020. Several statistical models and machine learning methods were used to identify the key determinants of the incidence rate of COVID-19. Based on the interpretable machine learning framework, possible nonlinear relationships between incidences and key impact factors were explored. The results showed that the incidence rate of COVID-19 in cities was influenced by several factors simultaneously. Among the factors, the population inflow rate from Wuhan was the factor that showed the highest correlation coefficient (0.43), followed by the population growth rate (0.38). Population migration size, city size and healthcare capacity were the key influencing factors.Nonlinear relationships existed between the key influencing factors and incidence rates. To be specific, the inflow rate from Wuhan had a S-shaped relationship and reaches an asymptote after 2%; the population density had an approximately linear relationship; the per capita GDP showed an evident inverted U curve with the per capita GDP over 100,000yuan as the inflection point. City development needs to pay more attention to population density control and economic growth in order to bring more health benefits.
incidence;natural factors;socioeconomic factors;XGBoost model;all-subset regression;SHAP
X24
A
1000-6923(2022)03-1418-09
王玥瑤(1997-),女,遼寧大連人,北京大學(xué)博士研究生,主要研究方向為城市環(huán)境與人群健康.發(fā)表論文28篇.
2021-06-30
國家自然科學(xué)基金資助重大項目(41590843)
*責(zé)任作者, 教授, scli@urban.pku.edu