李建濤 黃飛 陳偉 成詩(shī)明
我國(guó)于2010年組織實(shí)施了全國(guó)第五次結(jié)核病流行病學(xué)抽樣調(diào)查(簡(jiǎn)稱“流調(diào)”),獲得了全國(guó)的肺結(jié)核患病率數(shù)據(jù),同時(shí),全國(guó)有部分省進(jìn)行了省級(jí)結(jié)核病流調(diào),得到了省的肺結(jié)核患病率。但是,全國(guó)其他大部分省的肺結(jié)核患病率并未得到。因此,如何獲得省級(jí)肺結(jié)核患病率,特別是肺結(jié)核疫情比較嚴(yán)重的省份,是需要解決的一個(gè)現(xiàn)實(shí)問(wèn)題??臻g插值技術(shù)可以通過(guò)樣本數(shù)據(jù)推算未抽樣數(shù)據(jù),近年來(lái)在流行病學(xué)領(lǐng)域中的應(yīng)用越來(lái)越廣泛。因此,筆者對(duì)幾種常用的空間插值方法的原理、特點(diǎn)及其應(yīng)用作出介紹,以期能夠探索某種合適的空間插值方法,推算得到省級(jí)肺結(jié)核患病率,將會(huì)對(duì)更加全面的了解我國(guó)結(jié)核病現(xiàn)況和改進(jìn)防控工作有重要的意義。
空間插值技術(shù)是空間分析地學(xué)統(tǒng)計(jì)中的一門(mén)重要技術(shù),空間插值可以被定義為根據(jù)已知的空間數(shù)據(jù)估計(jì)未知的空間數(shù)據(jù)值[1]??臻g分析技術(shù)是地理信息系統(tǒng)(geographic information system,GIS)的重要組成部分。目前,GIS已廣泛應(yīng)用于農(nóng)業(yè)、林業(yè)、牧業(yè)、國(guó)土資源、地礦、測(cè)繪、水力、電力、教育等100多個(gè)領(lǐng)域[2]。其基本原理是空間位置上越靠近的點(diǎn),越可能具有相似的特征值,而距離越遠(yuǎn)的點(diǎn),其特征值相似的可能性越?。?]。這就是地理學(xué)上的第一定律,也是空間插值技術(shù)的基本理論前提。
1.主要優(yōu)點(diǎn)[4]:(1)不受人口分布影響,但需以某病的發(fā)病率、患病率、死亡率等指標(biāo)做空間插值估計(jì)。(2)模型連續(xù),符合大多數(shù)緩慢起伏變化的疾病空間分布模式。(3)可對(duì)發(fā)病強(qiáng)度或發(fā)病危險(xiǎn)度的空間抽樣數(shù)據(jù)進(jìn)行空間預(yù)測(cè)。
2.主要缺點(diǎn):(1)除克里格插值方法外,大部分插值方法無(wú)法對(duì)插值結(jié)果的誤差進(jìn)行評(píng)價(jià)。(2)插值方法要基于許多假設(shè),不易滿足。(3)插值模型與影響疾病的因素結(jié)合較弱。
空間插值一般包括以下幾個(gè)過(guò)程:(1)插值方法的選擇;(2)空間數(shù)據(jù)的探索分析,包括對(duì)數(shù)據(jù)的均值、方差、協(xié)方差、獨(dú)立性和變異函數(shù)的估計(jì)等;(3)插值方法評(píng)價(jià);(4)插值方法的重新選擇;(5)數(shù)據(jù)插值;(6)結(jié)果評(píng)價(jià)[5]。
1.原理:反距離加權(quán)空間插值法是最早使用、也是最經(jīng)常使用的插值方法之一。1972年由美國(guó)國(guó)家氣象局提出,以待測(cè)點(diǎn)與實(shí)際抽樣點(diǎn)之間的距離為權(quán)重進(jìn)行插值估算,以與未采樣點(diǎn)距離最近的若干個(gè)點(diǎn)為基礎(chǔ)進(jìn)行計(jì)算,每個(gè)點(diǎn)的貢獻(xiàn)與距離成反比,離待計(jì)算點(diǎn)越近的樣本點(diǎn)賦予的權(quán)重越大。
2.特點(diǎn):反距離加權(quán)插值法具有普適性,不需要對(duì)數(shù)據(jù)特點(diǎn)進(jìn)行分析,不需要對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行調(diào)整,在樣本點(diǎn)密度比較大,分布比較均勻時(shí),插值結(jié)果精度比較高。其不足之處為:無(wú)法對(duì)誤差進(jìn)行理論的測(cè)算;實(shí)際中的樣本點(diǎn)很難分布均勻;沒(méi)有考慮樣本點(diǎn)的整體空間分布;沒(méi)有考慮已知樣本點(diǎn)與待測(cè)點(diǎn)的空間關(guān)系;計(jì)算時(shí)容易受到極值的影響而產(chǎn)生較大誤差。
1.原理:1951年南非礦山工程師克里格(Krige)提出了克里格插值方法,法國(guó)著名統(tǒng)計(jì)學(xué)家馬特?。∕atheron)在大量研究的基礎(chǔ)上加以改進(jìn),引入了區(qū)域化變量和變異函數(shù)的概念。當(dāng)一個(gè)變量呈現(xiàn)一定的空間分布時(shí),稱為區(qū)域化變量,它反映了區(qū)域內(nèi)的某種特征或現(xiàn)象。區(qū)域化變量具有自相關(guān)性,即變量在點(diǎn)x與偏離空間距離為h的點(diǎn)x+h處的值具有某種程度的相似性。區(qū)域化變量在點(diǎn)x處的值與在點(diǎn)x+h處的值的差值的方差的1/2稱為該區(qū)域化變量的半變異函數(shù)。
2.公式:半變異函數(shù)曲線中有4個(gè)重要的參數(shù):塊金值(nugget)、變程(range)、基臺(tái)值(sill)和偏基臺(tái)值(partial sill)。
故常用的變異函數(shù)模型[6-7]有:球狀模型、高斯模型、指數(shù)模型等,選擇一個(gè)較好的模型來(lái)擬合樣本的變異性,對(duì)克里格插值的準(zhǔn)確度影響非常大。
3.特點(diǎn):克里格插值方法在數(shù)學(xué)上被證明是最優(yōu)、線性、無(wú)偏估計(jì)的方法。無(wú)偏是指偏差的數(shù)學(xué)期望為0,最優(yōu)是指估計(jì)值與實(shí)際值之差的平方和最小,即估計(jì)的方差最小??死锔癫逯导夹g(shù)考慮了樣點(diǎn)的大小、形狀、相互關(guān)系和空間分布等幾何特征,以及已知樣本點(diǎn)與待估計(jì)樣本點(diǎn)的空間關(guān)系,有了這些信息后,對(duì)未知采樣點(diǎn)進(jìn)行估計(jì)[7]??死锔癫逯导夹g(shù)的應(yīng)用條件是數(shù)據(jù)有無(wú)空間自相關(guān)性和是否滿足二階平穩(wěn)假設(shè)[8-9]。在實(shí)際中,二階平穩(wěn)假設(shè)不容易判別,通常通過(guò)正態(tài)性檢驗(yàn)和半變異函數(shù)云圖來(lái)檢驗(yàn)數(shù)據(jù)是否滿足二階平穩(wěn)假設(shè)[10]。經(jīng)過(guò)不斷的發(fā)展,除普通克里格方法外,克里格插值方法還有簡(jiǎn)單克里格法、指示克里格法、泛克里格法、概率克里格法、析取克里格法以及協(xié)同克里格法。需要特別指出的是,協(xié)同克里格法把區(qū)域化變量的最佳估值方法從單一屬性發(fā)展到一個(gè)以上的協(xié)同區(qū)域化屬性,但它在計(jì)算中要用到兩屬性各自的半方差函數(shù)和交叉半方差函數(shù),比較復(fù)雜。
泰森多邊形法最初由荷蘭氣象學(xué)家Thiessen推出,用來(lái)根據(jù)分散的氣象站的降水量估計(jì)降水量的平均值的一種方法,又稱最近距離法。該方法算法簡(jiǎn)單,即未采樣點(diǎn)的值等于與它距離最近的采樣點(diǎn)的值。具體為按樣本數(shù)據(jù)點(diǎn)的位置將研究區(qū)域分割成子區(qū)域,每個(gè)子區(qū)域只包含一個(gè)樣本數(shù)據(jù)點(diǎn),各子區(qū)域到其內(nèi)數(shù)據(jù)點(diǎn)的距離小于任何到其他數(shù)據(jù)點(diǎn)的距離,利用這個(gè)內(nèi)數(shù)據(jù)點(diǎn)的值對(duì)這個(gè)子區(qū)域進(jìn)行賦值。
泰森多邊形法計(jì)算簡(jiǎn)單,效率較高[11]。當(dāng)樣本點(diǎn)較多且分布較均勻時(shí),插值效果較好,但其對(duì)空間因素考慮太少,受樣本點(diǎn)的影響較大,如果樣本點(diǎn)分布不均勻且樣本點(diǎn)數(shù)據(jù)變異明顯時(shí),利用點(diǎn)對(duì)區(qū)域賦值是不合理的,誤差較大。
趨勢(shì)面分析方法是根據(jù)有限的觀測(cè)數(shù)據(jù)擬合曲面,進(jìn)行內(nèi)插[1]。趨勢(shì)面的公式如下:y=Aθ+e。式中,y是n×1維矩陣,對(duì)應(yīng)n個(gè)樣本;A是n個(gè)樣本的坐標(biāo)矩陣;θ是趨勢(shì)面參數(shù)矩陣。A和θ依賴于趨勢(shì)面的次數(shù)。趨勢(shì)面的次數(shù)是它最重要的特征。e是殘差,通常是一個(gè)獨(dú)立隨機(jī)變量。當(dāng)殘差是隨機(jī)獨(dú)立時(shí),統(tǒng)計(jì)檢驗(yàn)有效;但實(shí)際上,檢驗(yàn)是顯著偏差的[1]。殘差的空間自相關(guān)可以用隨機(jī)過(guò)程模型模擬,趨勢(shì)面的目標(biāo)有時(shí)并非最佳擬合,而是把數(shù)據(jù)分成區(qū)域趨勢(shì)組分和局部的殘差。
趨勢(shì)面的優(yōu)點(diǎn)是易于理解、計(jì)算簡(jiǎn)單。多數(shù)空間數(shù)據(jù)可以用低次多項(xiàng)式擬合,一般來(lái)說(shuō)趨勢(shì)面次數(shù)越大,擬合曲面越接近實(shí)際,但計(jì)算會(huì)越來(lái)越復(fù)雜。缺點(diǎn)是對(duì)采樣要求比較高,采樣過(guò)程沒(méi)有體現(xiàn)趨勢(shì)因素,內(nèi)插結(jié)果會(huì)有較大誤差。
徑向基函數(shù)法(radial basis function,RBF),是Broomhead于1988年提出的一種新型向神經(jīng)網(wǎng)絡(luò),相對(duì)于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò),具有計(jì)算格式簡(jiǎn)單,計(jì)算量小,精度相對(duì)較高等特點(diǎn),是逼近理論的一個(gè)有力工具,越來(lái)越引起人們的重視[12]。
它主要是通過(guò)基函數(shù)計(jì)算待估計(jì)點(diǎn)得一組權(quán)系數(shù),從而實(shí)現(xiàn)平滑插值。常見(jiàn)的5種基函數(shù)為:反轉(zhuǎn)多重二次曲面(inverse multiquadric),多重二次曲面(multiquadratic),張 力 樣 條 (spline with tension),完全規(guī)則樣(completely regularized spline),薄板樣條(thinplate spline);它們類似于克里格插值中的變異函數(shù)模型,通過(guò)調(diào)整基函數(shù)中的平滑因子可以控制插值面的光滑程度及估計(jì)精度。
徑向基函數(shù)插值法適應(yīng)于對(duì)大量點(diǎn)數(shù)據(jù)進(jìn)行插值計(jì)算,同時(shí)要求獲得平滑表面的情況。將徑向基函數(shù)應(yīng)用于表面變化平緩的表面,能得到比較精確的結(jié)果,而如果在一段較短的水平距離內(nèi),表面值發(fā)生較大的變化,徑向基函數(shù)插值的方法會(huì)產(chǎn)生較大的誤差[13]。
反距離加權(quán)插值法在流行病學(xué)研究中有廣泛的應(yīng)用。汪旸等[14]利用該方法研究了江蘇省地方性氟中毒在空間上的分布態(tài)勢(shì),建立了江蘇省水氟和氟斑牙患病率的空間分布預(yù)測(cè)圖,并與實(shí)際結(jié)果進(jìn)行了比較,證明IDW得到的空間分布預(yù)測(cè)圖是真實(shí)、準(zhǔn)確而詳細(xì)的。陸紹紅等[15]應(yīng)用 ArcGIS 9.3的空間分析擴(kuò)展模塊中的反距離插值法對(duì)釘螺面積、釘螺陽(yáng)性率和人群感染率進(jìn)行了空間插值分析,直觀地揭示和分析了安徽省銅陵縣的血吸蟲(chóng)病疫情變化,為研究血吸蟲(chóng)病的分布和流行提供了監(jiān)測(cè)和預(yù)測(cè)工具。胡茂瓊[16]運(yùn)用反距離加權(quán)插值法獲得了血吸蟲(chóng)患者的分布預(yù)測(cè)圖,顯示湖北省血吸蟲(chóng)病在空間分布上存在明顯的高發(fā)區(qū)和低發(fā)區(qū)。馬家奇等[17]利用地理信息系統(tǒng)(GIS)的空間插值分析方法得到結(jié)論,IDW插值技術(shù)可以作為檢測(cè)鼠密度的一種宏觀的推導(dǎo)分析方法,用來(lái)推測(cè)檢測(cè)地區(qū)的鼠密度分布。唐咸艷等[18]利用IDW插值方法對(duì)廣西壯族自治區(qū)1989—2006年流行性乙型腦炎發(fā)病的時(shí)空格局進(jìn)行了分析,并用時(shí)空重排掃描統(tǒng)計(jì)量進(jìn)行了時(shí)空聚集性分析,兩種研究得到的結(jié)果基本一致,證明了IDW插值技術(shù)的準(zhǔn)確性。
武繼磊等[19]通過(guò)克里格插值技術(shù),實(shí)現(xiàn)了抽樣調(diào)查數(shù)據(jù)對(duì)全國(guó)出生缺陷發(fā)生水平的估計(jì),比較準(zhǔn)確的反映了中國(guó)出生缺陷發(fā)生水平的分布特點(diǎn)。尚磊等[20]利用克里格插值技術(shù)對(duì)我國(guó)應(yīng)征男青年視力低下檢出率的空間分布進(jìn)行了分析,利用交叉評(píng)價(jià)指標(biāo)評(píng)估,認(rèn)為空間局部?jī)?nèi)插法能很好地估計(jì)我國(guó)應(yīng)征男青年視力低下的空間分布。周蘭霞等[21]利用該方法對(duì)中國(guó)67個(gè)城市新生兒的苯丙酮尿癥的發(fā)病情況進(jìn)行了分析研究,結(jié)果顯示苯丙酮尿癥患者出現(xiàn)明顯的空間分布,東南沿海地區(qū)發(fā)病率較低,東部和中部地區(qū)的發(fā)病率低于西北地區(qū)。顏仕鵬[22]在其學(xué)位論文中利用克里格插值方法對(duì)湖南省鉤端螺旋體病的空間分布規(guī)律進(jìn)行了分析,結(jié)果顯示湖南省鉤端螺旋體病主要集中在中東部丘陵地帶、西北和西南部山區(qū),為湖南省以后該病防治措施的制定提供了依據(jù)和參考。
從上述空間插值方法在流行病學(xué)中的應(yīng)用實(shí)例可看出,克里格插值法和反距離加權(quán)插值法的應(yīng)用最多。筆者計(jì)劃應(yīng)用這兩種方法對(duì)肺結(jié)核患病率進(jìn)行插值計(jì)算,利用全國(guó)第五次結(jié)核病流行病學(xué)抽樣調(diào)查獲得的176個(gè)樣本點(diǎn)的數(shù)據(jù),對(duì)全國(guó)部分省的肺結(jié)核患病率進(jìn)行推算,為結(jié)核病防控措施的改進(jìn)提供依據(jù),而空間插值方法在結(jié)核病領(lǐng)域僅有初步的應(yīng)用。國(guó)內(nèi)牧童等[23]利用普通克里格插值方法對(duì)四川省西北部結(jié)核病高發(fā)山區(qū)的兒童結(jié)核病相關(guān)資料進(jìn)行了分析處理,獲得了四川省茂縣兒童結(jié)核病的發(fā)病特點(diǎn),并描述了高發(fā)聚集區(qū),為指導(dǎo)茂縣結(jié)核病防治工作提供了科學(xué)依據(jù)。國(guó)外Gómez-Barroso等[24]在探討西班牙的結(jié)核病空間分布特征時(shí)用到了空間插值技術(shù),利用西班牙2006年國(guó)家流行病監(jiān)測(cè)系統(tǒng)的資料,加入相關(guān)的影響因素,如性別、年齡、人口密度、失業(yè)率、人均經(jīng)費(fèi)投入等,利用協(xié)同克里格插值法,準(zhǔn)確預(yù)測(cè)了西班牙肺結(jié)核的高發(fā)區(qū),主要集中于半島西北和東南地區(qū)。Martínez等[25]在對(duì)墨西哥?;冀Y(jié)核病的預(yù)測(cè)時(shí)采用了空間插值方法,該研究首先對(duì)48 766個(gè)牛群進(jìn)行了普查,計(jì)算得到其患病率,然后從中隨機(jī)抽取了2287個(gè)樣本,利用普通克里格插值法對(duì)樣本數(shù)據(jù)進(jìn)行了推算,將普查結(jié)果和推算結(jié)果進(jìn)行相關(guān)性檢驗(yàn),發(fā)現(xiàn)相關(guān)性很高,相關(guān)系數(shù)為0.78,證明了插值結(jié)果是準(zhǔn)確的,插值方法是合適的。因此,探討空間插值方法在結(jié)核病領(lǐng)域的應(yīng)用,具有重要的現(xiàn)實(shí)意義。
[1]李新,程國(guó)棟,盧玲.空間內(nèi)插方法比較.地球科學(xué)進(jìn)展,2000,15(3):260-265.
[2]張凱,伍瑞昌,陶學(xué)強(qiáng).GIS在公共衛(wèi)生領(lǐng)域的應(yīng)用現(xiàn)狀與發(fā)展趨勢(shì).醫(yī)療衛(wèi)生裝備,2010,31(10):41-42,50.
[3]朱求安,張萬(wàn)昌,余鈞輝.基于GIS的空間插值方法研究.江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,28(2):183-188.
[4]唐芳,薛付忠,王潔貞,等.疾病空間分布的“等值線-面積”多重分形模型及其應(yīng)用.山東大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2006,44(11):1154-1158.
[5]孫然好,劉清麗,陳利頂.基于地統(tǒng)計(jì)學(xué)方法的降水空間插值研究.水文,2010,30(1):14-17,58.
[6]吳學(xué)文,晏路明.普通Kriging法的參數(shù)設(shè)置及變異函數(shù)模型選擇方法——以福建省一月均溫空間內(nèi)插為例.地球信息科學(xué),2007,9(3):104-108.
[7]王勁峰,李連發(fā),胡茂桂.空間抽樣與統(tǒng)計(jì)推斷.北京:科學(xué)出版社,2009:82.
[8]唐咸艷.GIS空間分析技術(shù)在疾病空間異質(zhì)性分布中的應(yīng)用研究——以廣西原發(fā)性肝癌為例.南寧:廣西醫(yī)科大學(xué),2009.
[9]Wang JF,Christakos G,Hu MG.Modeling spatial means of surfaces with stratified non-h(huán)omogeneity.IEEE Transactions on Geoscience and Reomote Sensing,2009,47(12):4167-4174.
[10]湯國(guó)安,楊昕.ArcGIS地理信息系統(tǒng)空間分析實(shí)驗(yàn)教程.北京:科學(xué)出版社,2006:402.
[11]彭思嶺.氣象要素時(shí)空插值方法研究.長(zhǎng)沙:中南大學(xué),2010.
[12]楊彥軍,楊宇,康志宏.徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)及其在插值計(jì)算中的應(yīng)用.新疆石油地質(zhì),2005,26(2):209-211.
[13]湯國(guó)安,楊昕.ArcGIS地理信息系統(tǒng)空間分析實(shí)驗(yàn)教程.北京:科學(xué)出版社,2006:367.
[14]汪旸,陳曉東,王彩生.運(yùn)用反距離加權(quán)插值法研究江蘇省地方性氟中毒空間分布態(tài)勢(shì).中國(guó)地方病學(xué)雜志,2009,28(1):97-100.
[15]陸紹紅,汪天平,陳睿,等.血吸蟲(chóng)病流行的地理信息系統(tǒng)分析.國(guó)際流行病學(xué)傳染病學(xué)雜志,2009,36(6):377-379.
[16]胡茂瓊.空間分析技術(shù)在湖北省血吸蟲(chóng)病流行趨勢(shì)研究中的應(yīng)用.南寧:廣西醫(yī)科大學(xué),2010.
[17]馬家奇,徐成,戚曉鵬,等.空間插值分析方法在鼠密度監(jiān)測(cè)中的應(yīng)用.中國(guó)地方病學(xué)雜志,2007,26(3):340-342.
[18]唐咸艷,甘文燁,徐斌,等.廣西壯族自治區(qū)1989—2006年流行性乙型腦炎時(shí)空動(dòng)態(tài)趨勢(shì)分析.中華流行病學(xué)雜志,2011,32(3):274-278.
[19]武繼磊,鄭曉瑛.中國(guó)出生缺陷區(qū)域發(fā)生水平的Kriging插值模擬研究.中華流行病學(xué)雜志,2007,28(2):184-188.
[20]尚磊,李滬建,徐勇勇,等.運(yùn)用空間局部?jī)?nèi)插研究我國(guó)應(yīng)征男性青年視力低下的地區(qū)分布特征.疾病控制雜志,2007,11(2):117-119.
[21]周蘭霞,金蓮,趙麗,等.ArcGIS9.0在苯丙酮尿癥空間分析中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2007,24(6):604-606.
[22]顏仕鵬.湖南省鉤端螺旋體病流行態(tài)勢(shì)及空間分析.長(zhǎng)沙:中南大學(xué),2010.
[23]牧童,張會(huì)娜,孫永華,等.基于地理信息系統(tǒng)的兒童結(jié)核病疫情插值分析.中國(guó)婦幼健康研究,2009,20(3):239-241.
[24]Gómez-Barroso D,Rodríguez Valín E,F(xiàn)lores Segovia V,et al.Space distribution of tuberculosis in Spain by geostatistical methods.Rev Esp Salud Publica,2009,83(5):737-744.
[25]Martínez HZ,Suazo FM,Cuador Gil JQ,et al.Spatial epidemiology of bovine tuberculosis in Mexico.Vet Ital,2007,43(3):629-634.