陳穗穗,吳玲倩,趙 煜
(蘭州財經(jīng)大學(xué) a.統(tǒng)計學(xué)院;b.甘肅經(jīng)濟(jì)數(shù)量分析研究中心,甘肅 蘭州 730020)
結(jié)核病是一種慢性傳染病,其發(fā)病規(guī)律與流行特征決定了其危害性,結(jié)核病是世界上最大的傳染病殺手[1]。我國的結(jié)核病疫情也相當(dāng)嚴(yán)峻,首先,我國一直是全球肺結(jié)核疫情最為嚴(yán)重的國家之一,其次,我國肺結(jié)核的報告發(fā)病在甲、乙類傳染病中僅次于乙型肝炎,位居第二位。近年來,我國加大了對公共衛(wèi)生的關(guān)注與資金的投入,我國肺結(jié)核疫情已經(jīng)有了較為明顯的改善。2016年,我國的肺結(jié)核發(fā)病率已經(jīng)下降到61.37/10 萬,為歷年最低,但由于我國感染肺結(jié)核的人口基數(shù)大,肺結(jié)核的疫情仍不容樂觀,需要對我國肺結(jié)核的發(fā)病特征做進(jìn)一步的研究。
第一,當(dāng)前關(guān)于肺結(jié)核發(fā)病情況的研究多數(shù)在于肺結(jié)核平均發(fā)病水平,極少有分析發(fā)病的波動特征研究。從肺結(jié)核發(fā)病率的均值與方差角度進(jìn)行分析,更有助于發(fā)現(xiàn)肺結(jié)核發(fā)病特征,以便對肺結(jié)核發(fā)病情況進(jìn)行精準(zhǔn)管理與有效預(yù)防;第二,現(xiàn)有研究肺結(jié)核的地區(qū)分類往往是借助于肺結(jié)核的平均發(fā)病水平的區(qū)域靜態(tài)分類,而從動態(tài)角度進(jìn)行肺結(jié)核發(fā)病特征的地區(qū)分類,將能夠更有針對性、更有效地對肺結(jié)核的發(fā)病進(jìn)行管理與預(yù)防;第三,現(xiàn)有關(guān)于肺結(jié)核發(fā)病情況的研究多處于中觀層面,這樣有利于每個地區(qū)肺結(jié)核的預(yù)防與控制,而從全國的宏觀層面去研究,更加有利于資源的有效配置,而且還可以加強(qiáng)各地區(qū)之間的交流溝通。
筆者站在宏觀角度既從均值角度又從方差角度入手,用靜態(tài)分類與動態(tài)分類相結(jié)合的方式進(jìn)行分析,以期全面立體地研究我國的肺結(jié)核發(fā)病特征。
本研究所需資料來源于國家人口與健康科學(xué)數(shù)據(jù)共享平臺公共衛(wèi)生科學(xué)數(shù)據(jù)中心(http://www.phsciencedata.cn/)提供的2005-2016年全國32 個地區(qū)肺結(jié)核發(fā)病率數(shù)據(jù)。
流行病學(xué)的描述性研究主要是描述疾病和健康狀況在時間、空間和人群間的分布特征[2-3]。每一種疾病在不同季節(jié)、不同空間以及不同人群間存在或多或少的差異,了解疾病分布的地區(qū)差異不僅有助于揭示病因和流行因素,而且能夠?yàn)楦鞯貐^(qū)疾病的防治工作提供科學(xué)依據(jù);了解疾病的人群分布情況,有助于在預(yù)防和治療疾病時能夠合理地分配衛(wèi)生資源;了解疾病季節(jié)分布特征,有助于疾病的提前預(yù)防與治療。描述性研究是了解疾病發(fā)病特征的最基本的工具,也是研究疾病發(fā)病特征的第一步,主要借助一些位置統(tǒng)計量及相關(guān)統(tǒng)計圖進(jìn)行分析,常用的位置統(tǒng)計量如平均發(fā)病人數(shù)、平均發(fā)病率等,而分布特征主要借助折線圖、直方圖、箱線圖等來展示。
聚類分析是依據(jù)樣本數(shù)據(jù)之間的親疏程度對樣本或變量進(jìn)行分類,聚類分析能夠?qū)⒕哂邢嗨铺卣鞯臉颖揪鄢梢活?,?shí)現(xiàn)物以類聚的目的,曲線聚類方法主要是將離散觀測數(shù)據(jù)視作具有內(nèi)在統(tǒng)計結(jié)構(gòu)的整體函數(shù),然后將具有相似變化趨勢的曲線歸為一類。函數(shù)型數(shù)據(jù)聚類分析方法大致分為兩類:一是原始數(shù)據(jù)法,該方法直接針對離散樣本點(diǎn)進(jìn)行聚類,屬于高維數(shù)據(jù)分析方法;二是投影方法,即以有限維的基底函數(shù)逼近曲線,將無限維的問題轉(zhuǎn)化為有限維問題展開分析。投影法的曲線聚類分曲線擬合和聚類分析分兩步展開:首先以有限維基底擬合曲線,然后對估計的參數(shù)執(zhí)行傳統(tǒng)聚類算法。利用兩階段隨機(jī)過程分別完成數(shù)據(jù)降維和聚類等?;缀瘮?shù)選擇B-樣條基底函數(shù)擬合數(shù)據(jù)并根據(jù)傳統(tǒng)聚類方法分析,利用正交基函數(shù)進(jìn)行聚類分析[4]。
基于B-樣條函數(shù)型數(shù)據(jù)的曲線聚類主要從工負(fù)責(zé)個方面進(jìn)行:第一,由觀測離散型數(shù)據(jù)生成函數(shù)型數(shù)據(jù)(曲線);第二,構(gòu)造曲線函數(shù)之間的“距離”,利用B-樣條基底系數(shù)及其差分,將曲線函數(shù)“距離”轉(zhuǎn)化為傳統(tǒng)的歐氏距離;第三,以構(gòu)造的距離作為親疏程度度量,將曲線聚類問題轉(zhuǎn)化為多元統(tǒng)計聚類問題進(jìn)行分析。
1.3.1 函數(shù)型數(shù)據(jù)的生成 確定n組可觀測的數(shù)據(jù)由下面模型生成
則該法稱為基底函數(shù)法,是將離散觀測數(shù)據(jù)轉(zhuǎn)化為曲線的常用平滑技術(shù)。
1.3.2 基底函數(shù)表述曲線距離 計算曲線的距離采用的是B-樣條逼近的方法,利用B-樣條基底函數(shù)分析函數(shù)型數(shù)據(jù)曲線的特征。
對于曲線Xi(t)估計可以采用截斷的形式,將式(2)的無限維問題轉(zhuǎn)化為有限維的估計,即
在上述設(shè)定的情況下式(2)可通過以下截斷形式進(jìn)行估計:
其中
為L×L的實(shí)對稱矩陣,其中元素為L2空間中的內(nèi)積。式(6)的距離公式是多元統(tǒng)計中的加權(quán)歐氏距離,權(quán)重矩陣為L。曲線聚類問題轉(zhuǎn)化為傳統(tǒng)多元統(tǒng)計分析中對系數(shù)向量的聚類問題。任何基于非加權(quán)歐氏距離的傳統(tǒng)聚類方法都可以直接應(yīng)用到曲線聚類分析中。當(dāng)式(6)的計算結(jié)果越小,則兩個曲線的發(fā)展時間軌跡更加相似。
從圖1可看出2005-2016年的發(fā)病數(shù)與發(fā)病率曲線總體是呈下降趨勢,直到2016年,肺結(jié)核的發(fā)病人數(shù)與發(fā)病率均達(dá)到歷史最低點(diǎn),全國2005-2016年肺結(jié)核年平均發(fā)病率為76.02/10 萬,2016年全國共報告肺結(jié)核患者836 236 例,2016年發(fā)病率低于近10年的年平均發(fā)病率,2016年肺結(jié)核的發(fā)病情況與2005年同期相比,發(fā)病數(shù)下降了33.59%??傮w來說,全國肺結(jié)核的發(fā)病數(shù)與發(fā)病率從2005年開始,呈逐年下降的趨勢,說明我國對于肺結(jié)核的預(yù)防與治療取得較好的效果。
圖1 全國2005-2016年肺結(jié)核發(fā)病情況Fig.1 Incidence of pulmonary tuberculosis in 2005-2016 in the country
2.2.1 年齡分布特征 結(jié)果見圖2。由圖2可知,2005-2016年全國肺結(jié)核發(fā)病率在年齡分布中呈明顯的先低峰后高峰的雙峰分布,0 ~14 歲的嬰幼兒及兒童是明顯的低發(fā)病率人群,而60 歲以上的老年人是高發(fā)病率人群。肺結(jié)核在人群中各年齡階段的發(fā)病率也具有明顯差異[5]??梢詮? 個不同年齡段的發(fā)病群體進(jìn)行分析。
(1)0 ~14 歲為肺結(jié)核低發(fā)病率人群,此年齡階段的人群發(fā)病率遠(yuǎn)遠(yuǎn)低于其他年齡階段的人群發(fā)病率。
(2)15 ~59 歲為中等肺結(jié)核發(fā)病率人群,高于0 ~14 歲的人群發(fā)病率,低于60 歲以上的人群發(fā)病率,處于中等水平,且在此年齡階段的20 ~24 歲為低峰的最高峰值97.24/10 萬。
(3)60 歲以上為高危肺結(jié)核發(fā)病率人群,此年齡階段的肺結(jié)核人群發(fā)病率遠(yuǎn)遠(yuǎn)高于所有年齡階段的發(fā)病率,尤其是70 ~74歲年齡段的人群發(fā)病率最高已達(dá)到223.57/10萬,75 ~79年齡段人群的發(fā)病率次之。
圖2 全國2005-2016年肺結(jié)核發(fā)病分年齡階段的12年平均發(fā)病率情況Fig.2 Twelve years average incidence of pulmonary tuberculosis in different age in 2005-2016 in the country
2.2.2 地區(qū)分布特征 通過整理原始的肺結(jié)核發(fā)病率數(shù)據(jù),得到2005-2016年32 個地區(qū)的平均年發(fā)病率,利用ArcGIS10.0 軟件[6]繪制出肺結(jié)核發(fā)病率的熱力圖見圖3,海南、廣西、貴州、湖南、湖北、重慶、黑龍江、西藏和新疆地區(qū)的顏色為紅色,說明這些地區(qū)的平均年發(fā)病率普遍最高,均超過了90/10 萬的發(fā)病率,西北的新疆肺結(jié)核年發(fā)病率高達(dá)180.42/10 萬;寧夏、遼寧、北京、天津、河北、山東、上海、江蘇、云南的平均年發(fā)病率較低,天津的平均年發(fā)病率最低,僅為28.52/10 萬,為全國肺結(jié)核平均年發(fā)病率最低的地區(qū);其余大部分地區(qū)的肺結(jié)核平均年發(fā)病率均處于中間水平,高于60/10 萬的發(fā)病率水平,低于90/10 萬的發(fā)病率水平。由于缺少臺灣、香港和南沙群島的數(shù)據(jù),所以這些地區(qū)在圖3中呈現(xiàn)其他的顏色。
圖3 全國2005-2016年各地區(qū)肺結(jié)核平均年發(fā)病率熱力圖Fig.3 Average annual incidence of pulmonary tuberculosis in all regions in 2005-2016 in the country
2.2.3 時間分布特征 結(jié)果見圖4。從圖4中可以看出,我國肺結(jié)核發(fā)病率具有明顯的季節(jié)分布特征,每年報告的肺結(jié)核發(fā)病率會出現(xiàn)兩個高峰,每年的1月份與3月份,2月份的肺結(jié)核發(fā)病率低于1月份與3月份的發(fā)病率,3月份到12月份的肺結(jié)核發(fā)病率一直呈現(xiàn)下降的趨勢,直到每年的12月份發(fā)病率達(dá)到最低,次年的1月份的發(fā)病率又急劇上升,開始呈現(xiàn)與上一年相同的發(fā)病特征[7-8]。顯然,我國肺結(jié)核發(fā)病率呈現(xiàn)明顯的季節(jié)性。每年的1月份與3月份的發(fā)病率是最高的,12月份的肺結(jié)核發(fā)病率是最低的。
圖4 2005-2016年我國肺結(jié)核月發(fā)病率的時間序列圖Fig.4 2005-2016 time series chart of monthly incidence of pulmonary tuberculosis in China
上文的地區(qū)分布特征是運(yùn)用年平均發(fā)病率,利用ArcGIS10.0 地理作圖工具,初步對全國各地區(qū)的肺結(jié)核發(fā)病率進(jìn)行分類,分類較為片面,為進(jìn)一步了解全國各地區(qū)肺結(jié)核的發(fā)病特征,本文又采用了函數(shù)型數(shù)據(jù)聚類的方法進(jìn)一步分析。采用回歸樣條的方式擬合了2005-2016年32 個地區(qū)肺結(jié)核發(fā)病率的時間序列數(shù)據(jù),擬合結(jié)果按照時間排列生成發(fā)病率的時間序列曲線族,樣條基底函數(shù)的階數(shù)定位M= 3 以保證擬合結(jié)果的光滑性,采用等距節(jié)點(diǎn)的設(shè)置方式設(shè)置內(nèi)部節(jié)點(diǎn),選擇廣義交叉驗(yàn)證(GCV)準(zhǔn)則確定節(jié)點(diǎn)數(shù)量,最終確定內(nèi)部節(jié)點(diǎn)個數(shù)為K= 48 作為最優(yōu)曲線擬合,根據(jù)前面的聚類方法,采用式(6)的距離公式對各地區(qū)肺結(jié)核發(fā)病率時間軌跡的相似性進(jìn)行聚類,聚類結(jié)果如圖5與圖6所示。表1是聚類結(jié)果的1 ~4 類中包含的地區(qū)編號與地區(qū)名。
結(jié)合圖5與表1可以出,利用函數(shù)型聚類分析能夠?qū)?2 個地區(qū)具有相似發(fā)病率時間軌跡的地區(qū)歸為四類,第一類中包括貴州與新疆兩個地區(qū);第二類包括黑龍江、湖北、湖南、廣西、海南、重慶、西藏、青海8 個地區(qū);第三類包括內(nèi)蒙古、吉林、安徽、江西、河南、廣東、陜西、甘肅、山西、浙江、福建、四川、建設(shè)兵團(tuán)13 個地區(qū);第四類包括北京、天津、河北、上海、遼寧、江蘇、山東、云南、寧夏9 個地區(qū)。并且結(jié)合圖6的類中心線明顯可以看出,這4 類之間具有明顯的差異,第一類的類中心線要明顯的高于第三類與第四類的類中心線。說明四類之間具有明顯的差異[9-10]。
3.2.1 類間差異性分析 從圖5可以看出,四類之間具有明顯的差異,第一類貴州和新疆兩個地區(qū)的發(fā)病率函數(shù)曲線明顯的高于第三類地區(qū)與第四類地區(qū),第二類地區(qū)的肺結(jié)核發(fā)病率函數(shù)曲線的前半段略低于第一類地區(qū),但后半段與第一類地區(qū)的曲線略有重合。結(jié)合每類的類中心曲線的水平高度與波動情況,進(jìn)一步分析各類之間的差異,結(jié)果見表2。一方面類中心線的水平高度,從表2可以看出,第一類地區(qū)的類中心線的平均值最高,達(dá)到13.74,而第二類地區(qū)的類中心線次之,為8.59,第三類地區(qū)與第四類地區(qū)的類中心線水平分別為6.40 與3.96,由此可以看出,第一類地區(qū)的肺結(jié)核發(fā)病水平遠(yuǎn)遠(yuǎn)的高于第二類地區(qū)、第三類地區(qū)與第四類地區(qū);另一方面類中心線的波動情況,從表2中可以看出,第一類地區(qū)的類中心線波動最為明顯,方差為6.12,第二類地區(qū)與第三類地區(qū)的類中心線波動較為明顯,方差分別為1.79 與2.30,第四類地區(qū)的類中心線趨勢較為平緩,方差為0.47。由此可以看出,第一類地區(qū)每年肺結(jié)核的發(fā)病情況波動起伏最大,發(fā)病情況的不確定性最強(qiáng),是最難進(jìn)行控制的;第二類地區(qū)與第三類地區(qū)肺結(jié)核發(fā)病情況波動相對較小,而第四類地區(qū)肺結(jié)核發(fā)病情況波動最小,最穩(wěn)定。
圖5 2005-2016年全國32 個地區(qū)聚類曲線圖Fig.5 Cluster graph of 32 regions in 2005-2016 in the country
圖6 曲線聚類的類中心線Fig.6 Class center line of curve clustering
表1 全國32 個地區(qū)曲線聚類結(jié)果Tab.1 Results of curve clustering in 32 regions in China
表2 類間均值與方差對比表Tab.2 Comparison of mean value and variance among classes
結(jié)合這兩方面來看,第一類兩個地區(qū)的肺結(jié)核的發(fā)病情況更加嚴(yán)峻,發(fā)病率高,發(fā)病率波動大,不確定性大,防治困難;第二類地區(qū)的肺結(jié)核發(fā)病情況相較于第一類地區(qū),發(fā)病率略低,而且波動相對較小,但結(jié)合圖5可以看出,西藏與青海兩個地區(qū)肺結(jié)核發(fā)病情況較為特殊,兩個地區(qū)在2005-2011年間,肺結(jié)核的發(fā)病率較低,但2012年之后,發(fā)病率有逐漸走高的趨勢,而且波動也在逐漸增大,有趨近于第一類地區(qū)的趨勢,應(yīng)更加注意這兩個地區(qū)的防治;第三類與第四類中各地區(qū)的發(fā)病率時間軌跡更加相似,聚集度更高,并且發(fā)病率是最低的,波動也不大,相對來說第三類地區(qū)與第四類地區(qū)的防治相對簡單。
3.2.2 類內(nèi)動態(tài)分析 從圖6可以看出,每類地區(qū)的肺結(jié)核發(fā)病在后期都呈現(xiàn)下降的趨勢,后期的波動也呈現(xiàn)減小的趨勢,以2010年為時間節(jié)點(diǎn),結(jié)合每類的類中心線的水平高度與波動情況進(jìn)一步分析,結(jié)合表3中類內(nèi)均值控差對比的數(shù)據(jù)可以看出,每一類在2010-2016年這一時間段內(nèi)的平均發(fā)病水平與波動情況均低于2005-2010年這一時間段的平均發(fā)病水平。整體來看,我國的肺結(jié)核防治措施具有一定的效果,每類地區(qū)的肺結(jié)核發(fā)病率相對前些年已經(jīng)有所下降,而且每年的波動也在減小,這說明,我國肺結(jié)核的防治已經(jīng)取得一定的成效。
表3 類內(nèi)均值與方差對比表Tab.3 Comparison of mean value and variance intra-class
本文通過對2005-2016年全國各地區(qū)肺結(jié)核的疫情資料分析,得出以下結(jié)論:
(1)2005-2016年全國肺結(jié)核的發(fā)病數(shù)與發(fā)病率總體都呈現(xiàn)下降趨勢,自2001年國務(wù)院制定《全國結(jié)核病防治規(guī)劃(2001-2010)》以來,國家加大了肺結(jié)核的防治力度,結(jié)果顯示肺結(jié)核病的防控工作取得了較好的結(jié)果。盡管我國的肺結(jié)核疫情有了顯著的改善,但仍是全球結(jié)核病流行嚴(yán)重的國家之一,仍需要做好防控工作,控制疫情。
(2)全國肺結(jié)核結(jié)構(gòu)分布特征如下:通過比較各年齡階段的發(fā)病率可以發(fā)現(xiàn),高危人群主要是60歲以上的人群,低危人群主要是14 歲及以下的人群,新生兒出生后會及時接種卡介疫苗,所以14 歲以下的幼兒及兒童的發(fā)病率較低,而60 歲以上的老人免疫力降低,易感染肺結(jié)核或結(jié)核病的易復(fù)發(fā),60歲以后肺結(jié)核的發(fā)病率迅速上升。由此可見,老年人是我國在未來結(jié)核病防控中需要重點(diǎn)關(guān)注的對象。
(3)肺結(jié)核的發(fā)病率具有明顯的季節(jié)分布特征,以每年的12 個月為一個周期,每年報告的肺結(jié)核發(fā)病率顯示,1月份與3月份為發(fā)病高峰,3月份之后發(fā)病率呈現(xiàn)持續(xù)下降的趨勢,12月份為發(fā)病率最低的月份,因此結(jié)核病的防控要根據(jù)不同的季節(jié)采取不同的防控策略。
(4)全國肺結(jié)核發(fā)病情況具有明顯的地區(qū)分布特征,利用年平均發(fā)病率的靜態(tài)數(shù)據(jù)分析肺結(jié)核發(fā)病的地區(qū)分布特征,高危發(fā)病地區(qū)包括新疆、西藏、青海、貴州、重慶、湖北、湖南、廣西以及黑龍江地區(qū),低危地區(qū)有北京、天津、河北、山東、江蘇、上海、云南以及寧夏地區(qū)。為進(jìn)一步了解肺結(jié)核發(fā)病情況的地區(qū)分布特征,因此采用曲線聚類方法對32 個地區(qū)2005-2016年間每月的數(shù)據(jù)進(jìn)行動態(tài)分析,得出高危地區(qū)的貴州與新疆地區(qū)肺結(jié)核發(fā)病情況嚴(yán)重,其每年的波動起伏較大;而高危地區(qū)中的重慶、湖北、湖南、廣西發(fā)病情況相對較好;但應(yīng)注意青海與西藏兩個地區(qū),前期兩個地區(qū)的發(fā)病情況較低,后期兩個地區(qū)的發(fā)病情況卻有增高的趨勢。中危地區(qū)與低危地區(qū)的發(fā)病情況相對穩(wěn)定。