廣西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)教研室(530021) 唐咸艷 周紅霞
掃描統(tǒng)計(jì)及其在流行病學(xué)中的應(yīng)用
廣西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)教研室(530021) 唐咸艷 周紅霞△
△通訊作者:周紅霞,E-mail:gmuies@163.com
掃描統(tǒng)計(jì)(scan statistic)是空間統(tǒng)計(jì)學(xué)方法之一,其目的在于探測(cè)空間、時(shí)間、時(shí)空范圍內(nèi)某事件發(fā)生數(shù)的異常增加,并檢驗(yàn)這種改變是否由于隨機(jī)變異所造成。即探測(cè)研究區(qū)域內(nèi)是否存在聚集性、聚集性的確切位置、聚集性的風(fēng)險(xiǎn)大小,并檢驗(yàn)聚集性有無統(tǒng)計(jì)學(xué)意義。疾病的發(fā)生與流行常常表現(xiàn)為地域性病例數(shù)的增加與減少,地域性病例分布的聚集與消失。地域性病例數(shù)的增加與減少包含著豐富的疾病流行信息,疾病聚集性的空間信息收集與分析對(duì)理解疾病的發(fā)生與傳播具有重要意義。
掃描統(tǒng)計(jì)有三個(gè)基本特征:被掃描區(qū)域的幾何形狀、基于無效假設(shè)的概率分布、掃描窗口的形狀和大小〔1〕。掃描統(tǒng)計(jì)由 Joseph Naus〔2〕于 1965 年首次提出,模型假設(shè):(1)掃描窗口大小和形狀固定,(2)各地區(qū)期望發(fā)病數(shù)與該地區(qū)尺度大小成比例。在疾病監(jiān)測(cè)中,這兩個(gè)假設(shè)都不會(huì)滿足,原因是:(1)事先無法預(yù)知疾病爆發(fā)聚集性的規(guī)模,因此掃描窗口的大小應(yīng)該處于動(dòng)態(tài)變化之中;(2)人口密度地理分布的不均勻性,城市高于農(nóng)村,在同等尺度大小的區(qū)域內(nèi),城市可能有更多的病例數(shù)發(fā)生。1995年,Kulldorff〔3〕提出了一種基于似然比檢驗(yàn)的空間掃描統(tǒng)計(jì),該方法對(duì)不均勻的人口密度進(jìn)行校正,并采用大小可變的掃描窗口。在此基礎(chǔ)上,1998年〔4〕提出回顧性時(shí)空掃描統(tǒng)計(jì),2001 年〔5〕提出前瞻性時(shí)空掃描統(tǒng)計(jì),2005 年〔6〕提出時(shí)空重排掃描統(tǒng)計(jì),2006年〔7〕提出指數(shù)模型掃描統(tǒng)計(jì),2007年〔8-9〕提出等級(jí)模型掃描統(tǒng)計(jì)及多元掃描統(tǒng)計(jì),2008年〔10〕提出無序多分類模型掃描統(tǒng)計(jì),2009年〔11〕又提出加權(quán)正態(tài)模型掃描統(tǒng)計(jì)。至今,掃描統(tǒng)計(jì)類型已覆蓋了回顧性掃描統(tǒng)計(jì)分析及前瞻性掃描統(tǒng)計(jì)分析,其中回顧性掃描統(tǒng)計(jì)分為純空間掃描統(tǒng)計(jì)、純時(shí)間掃描統(tǒng)計(jì)及時(shí)空掃描統(tǒng)計(jì);前瞻性掃描統(tǒng)計(jì)分為純時(shí)間掃描統(tǒng)計(jì)和時(shí)空掃描統(tǒng)計(jì)。掃描統(tǒng)計(jì)的概率模型有:二項(xiàng)分布模型、正態(tài)分布模型、等級(jí)模型、指數(shù)模型、無序多分類模型、時(shí)空重排模型、泊松分布模型,這些模型均采用對(duì)數(shù)似然比(log likelihood ratio,LRR)進(jìn)行假設(shè)檢驗(yàn),蒙特卡羅隨機(jī)化方法(Monte Carlo randomization method)模擬P值大小〔12〕。目前實(shí)現(xiàn)掃描統(tǒng)計(jì)分析的軟件(SatScan software)由美國(guó)國(guó)立腫瘤研究所研制〔10〕,自1997年推出第一版來,至今已是第九版(2011年3月更新)。掃描統(tǒng)計(jì)廣泛應(yīng)用于傳染病、腫瘤、心血管疾病、自身免疫性疾病、出生缺陷、寄生蟲病、傷害、動(dòng)物醫(yī)學(xué)等領(lǐng)域,其目的主要是實(shí)現(xiàn)疾病監(jiān)測(cè)、早期預(yù)警、聚集性探測(cè)。本文擬從掃描統(tǒng)計(jì)的概率模型、原理方法、資料要求、注意事項(xiàng)、應(yīng)用實(shí)例等方面對(duì)其做一綜合概述。
掃描統(tǒng)計(jì)可對(duì)發(fā)病、死亡、生存等問題的高概率、低概率、高低概率進(jìn)行分析,探測(cè)高聚集區(qū)、低聚集區(qū)以及高低聚集區(qū)。針對(duì)不同的數(shù)據(jù)類型,采用不用的概率模型。離散型Poisson模型適用于計(jì)數(shù)資料,要求有各位點(diǎn)的發(fā)病數(shù)、基線人口數(shù)、地理坐標(biāo)數(shù)。回顧性時(shí)間掃描統(tǒng)計(jì)、回顧性空間掃描統(tǒng)計(jì)、回顧性時(shí)空掃描統(tǒng)計(jì)、前瞻性時(shí)間掃描統(tǒng)計(jì)、前瞻性時(shí)空掃描統(tǒng)計(jì)均可采用離散型Poisson模型。下面以空間掃描統(tǒng)計(jì)為例闡述其原理與方法〔13〕:
其無效假設(shè)H0為:疾病空間分布是完全隨機(jī)的;備擇假設(shè)H1為:跟掃描窗口外相比,疾病在窗口內(nèi)的發(fā)病率增加??臻g掃描統(tǒng)計(jì)采用移動(dòng)窗口法,在研究區(qū)域內(nèi)建立活動(dòng)性圓形或橢圓形窗口對(duì)疾病發(fā)病率進(jìn)行分析。窗口的大小和位置處于動(dòng)態(tài)改變之中,可避免人為選定研究區(qū)域范圍和圓心位置所造成的選擇偏倚。窗口的圓心在地圖中沿格網(wǎng)線或地理單位質(zhì)心變動(dòng),掃描半徑按人口轄區(qū)范圍劃分,具體從0至總?cè)丝诘囊欢ū壤O(shè)定值之間變動(dòng)(該比例小于或等于總?cè)丝诘?0%)。對(duì)每次變動(dòng),計(jì)算窗口內(nèi)外區(qū)域間的發(fā)病率差異,采用對(duì)數(shù)似然比進(jìn)行檢驗(yàn)。尋找所有位置所有大小窗口中的最大對(duì)數(shù)似然比值,此處為最有可能存在聚集性的區(qū)域,也就是最不可能由隨機(jī)變異造成的。最終選取LLR值最大的窗口為高發(fā)病聚集窗口,確定該窗口所包括的地區(qū),計(jì)算該地區(qū)的相對(duì)危險(xiǎn)度并檢驗(yàn)有無統(tǒng)計(jì)學(xué)意義。LLR的P值通過蒙特卡羅隨機(jī)法模擬。
當(dāng)進(jìn)行時(shí)間掃描統(tǒng)計(jì)時(shí),掃描窗口仍為圓形窗口,掃描范圍變成時(shí)間長(zhǎng)度;當(dāng)進(jìn)行時(shí)空掃描統(tǒng)計(jì)時(shí),掃描窗口是圓柱形,圓柱的底對(duì)應(yīng)空間大小,圓柱的高對(duì)應(yīng)時(shí)間長(zhǎng)度,同時(shí)在時(shí)空兩個(gè)維度上進(jìn)行分析,檢驗(yàn)發(fā)病地點(diǎn)鄰接的病例其發(fā)病時(shí)間是否也接近,探測(cè)是否存在時(shí)空聚集性。
對(duì)每一位置和大小的圓形掃描窗口,其無效假設(shè)H0為:疾病分布是完全隨機(jī)的;備擇假設(shè)H1為:與窗口外相比,窗口內(nèi)的發(fā)病風(fēng)險(xiǎn)增加。基于離散型Poisson模型的假設(shè),其對(duì)數(shù)似然比為〔13〕:
其中c為窗口內(nèi)發(fā)病數(shù),C-c為窗口外發(fā)病數(shù);E[c]為基于無效假設(shè)由協(xié)變量校正過的窗口內(nèi)預(yù)期發(fā)病數(shù),C-E[c]為窗口外預(yù)期發(fā)病數(shù)。I()為指示函數(shù),當(dāng)進(jìn)行高發(fā)病率(high rate)聚集性掃描時(shí),若窗口內(nèi)實(shí)際發(fā)病數(shù)高于預(yù)期發(fā)病數(shù),I()=1,反之I()=0;當(dāng)進(jìn)行低發(fā)病率聚集性掃描(low rate)時(shí),若窗口內(nèi)實(shí)際發(fā)病數(shù)低于預(yù)期發(fā)病數(shù),I()=1,反之I()=0。
當(dāng)掃描窗口為橢圓形時(shí)〔10,14〕,掃描結(jié)果可能獲得許多不規(guī)則形的聚集區(qū),但研究感興趣的是規(guī)則聚集區(qū)。因此,為獲得更多的規(guī)則聚集區(qū),需用松散損失函數(shù)(non-compactness penalty function)對(duì)其對(duì)數(shù)似然比值進(jìn)行調(diào)整:
各指標(biāo)意義同前所述。通過RR值,可確切評(píng)估各聚集性的風(fēng)險(xiǎn)大小。
(1)關(guān)于空間位置數(shù)據(jù) 離散型Poisson模型掃描統(tǒng)計(jì)的坐標(biāo)數(shù)據(jù)以笛卡爾坐標(biāo)系統(tǒng)為參考,用柵格或各觀測(cè)單元的質(zhì)心定義各觀測(cè)點(diǎn)的坐標(biāo)數(shù)據(jù),因此這類坐標(biāo)數(shù)據(jù)是離散不連續(xù)的;且觀測(cè)位置固定在柵格或觀測(cè)單元的質(zhì)心,空間位置隨機(jī)性不強(qiáng)〔10〕。若將柵格無限細(xì)分,則離散型Poisson掃描統(tǒng)計(jì)將趨向于連續(xù)型Poisson掃描統(tǒng)計(jì)。
(2)關(guān)于橢圓窗口掃描統(tǒng)計(jì) 只適用于二維笛卡爾坐標(biāo)系統(tǒng)定義的坐標(biāo)數(shù)據(jù),不用于經(jīng)維網(wǎng)定義的坐標(biāo)系統(tǒng)(latitude-longitude coordinate system)。若是經(jīng)緯數(shù)據(jù)時(shí),需用投影將坐標(biāo)數(shù)據(jù)從球面轉(zhuǎn)換為平面的笛卡爾坐標(biāo)后方可進(jìn)行橢圓掃描統(tǒng)計(jì)。此外,橢圓形掃描窗口僅用于純空間掃描統(tǒng)計(jì)分析,時(shí)間掃描統(tǒng)計(jì)不可用〔14-15〕。
(3)關(guān)于次級(jí)聚集性 應(yīng)用掃描統(tǒng)計(jì)時(shí),除了探測(cè)到最有可能的聚集性,也可探測(cè)到數(shù)據(jù)集中次級(jí)聚集性,并且根據(jù)LLR大小對(duì)它們進(jìn)行排序〔10〕。有時(shí)某些次級(jí)聚集性與最可能的聚集性幾乎有同樣大的LLR,因?yàn)閷?duì)一個(gè)較大或中等大小的聚集性,稍微增大或縮小它的邊界并不會(huì)使LLR改變很大。這種次級(jí)聚集性并不能提供多少信息,但它們的存在意味著掃描統(tǒng)計(jì)的分析結(jié)果通常只能指出聚集性的大概邊界,無法確定確切邊界。若一些次級(jí)聚集性,其邊界跟最有可能的聚集性沒有重合,這樣的聚集性是比較有意義的。借此,可以獲得研究區(qū)域內(nèi)所有有統(tǒng)計(jì)學(xué)意義,且不相互重疊的聚集性。但是,次級(jí)聚集性檢測(cè)只適用離散型空間掃描統(tǒng)計(jì),連續(xù)型Poisson模型掃描統(tǒng)計(jì)或純時(shí)間掃描統(tǒng)計(jì)沒有次級(jí)聚集性。
(4)關(guān)于校正問題 掃描統(tǒng)計(jì)分析中主要涉及到以下幾類校正:空間校正、時(shí)間趨勢(shì)校正、協(xié)變量校正、RR校正。
掃描統(tǒng)計(jì)可對(duì)性別、年齡等協(xié)變量進(jìn)行校正〔16,17〕,其原理類似間接標(biāo)準(zhǔn)化法。掃描統(tǒng)計(jì)中,以下三種情況需要對(duì)協(xié)變量進(jìn)行校正:①與研究疾病相關(guān)的協(xié)變量;②空間分布不均的協(xié)變量;③探測(cè)不能為協(xié)變量所解釋的聚集性。例如,當(dāng)研究某腫瘤在地區(qū)間的死亡率時(shí),需要對(duì)年齡校正。原因是:其一,各地區(qū)人口的年齡構(gòu)成不同,有些地區(qū)老年人口所占比例大;其二,老年人死于腫瘤的可能性較年輕人大;其三,當(dāng)校正老年人口構(gòu)成高的地區(qū)后,探測(cè)高危聚集區(qū)。目前,主要有三種方法可對(duì)協(xié)變量進(jìn)行校正:①利用分析數(shù)據(jù)集中的協(xié)變量進(jìn)行校正,該方法只對(duì)離散型Poisson模型掃描統(tǒng)計(jì)和時(shí)空重排掃描統(tǒng)計(jì)有效,且協(xié)變量必須是無序多分類變量;②利用統(tǒng)計(jì)軟件進(jìn)行回歸分析校正:如 SAS、SPSS、Stata等軟件,該法可對(duì)連續(xù)性協(xié)變量校正;③利用多重?cái)?shù)據(jù)集進(jìn)行校正。
在時(shí)間掃描統(tǒng)計(jì)或時(shí)空掃描統(tǒng)計(jì)分析中,若數(shù)據(jù)具有升高時(shí)間趨勢(shì),則聚集性將在研究終止期附近;若數(shù)據(jù)具有降低時(shí)間趨勢(shì),則聚集性將在研究起始期附近。當(dāng)想探測(cè)待消除時(shí)間趨勢(shì)后,潛在的時(shí)間聚集性或時(shí)空聚集性時(shí),對(duì)時(shí)間趨勢(shì)的校正就十分必要〔10〕。其校正方法有:①時(shí)間分層隨機(jī):確保每個(gè)時(shí)間間隔內(nèi)具有相同的病例數(shù);②對(duì)數(shù)線性趨勢(shì)法:不適用于二項(xiàng)分布、等級(jí)模型、指數(shù)模型、正態(tài)模型、聯(lián)合二項(xiàng)分布模型;③多重?cái)?shù)據(jù)集法:常用于二項(xiàng)分布、等級(jí)模型、指數(shù)模型、正態(tài)模型、聯(lián)合二項(xiàng)分布模型。
Poisson模型進(jìn)行時(shí)空掃描統(tǒng)計(jì)分析,旨在探測(cè)在時(shí)間和空間上均接近的聚集性,因此,需要對(duì)單純性空間聚集性進(jìn)行校正。研究中,常用空間分層隨機(jī)法進(jìn)行校正。按位點(diǎn)序號(hào)進(jìn)行分層隨機(jī),確保各位點(diǎn)處有相同的事件數(shù)。值得注意的是,分層隨機(jī)不能同時(shí)對(duì)單純性時(shí)間聚集性和單純性空間聚集性進(jìn)行校正〔10〕。如果需要同時(shí)進(jìn)行校正,則選擇時(shí)空重排掃描統(tǒng)計(jì)分析。
根據(jù)先驗(yàn)知識(shí),通??梢源_定某些位點(diǎn)或時(shí)點(diǎn)處具有超高或超低風(fēng)險(xiǎn)。當(dāng)需要探測(cè)除這些已知聚集性外,還有哪些地區(qū)或時(shí)間具有聚集性時(shí),則需要對(duì)這些超額或超低風(fēng)險(xiǎn)進(jìn)行校正〔10〕。簡(jiǎn)單的校正方法是使用校正文件,對(duì)危險(xiǎn)人口數(shù)進(jìn)行調(diào)整。超額風(fēng)險(xiǎn)的校正,僅適用于Poisson模型掃描統(tǒng)計(jì)。
(5)關(guān)于多元掃描統(tǒng)計(jì)
研究中,通常需要在某空間區(qū)域或時(shí)間范圍內(nèi)同時(shí)對(duì)多個(gè)變量的聚集性進(jìn)行檢驗(yàn),探測(cè)綜合聚集性,綜合評(píng)價(jià)多個(gè)變量在某范圍內(nèi)的聚集性〔9-10〕。其分析思想類似于多元方差分析。例如,在研究淋巴造血系統(tǒng)腫瘤在某區(qū)域內(nèi)的聚集性時(shí),待研究的腫瘤有白血病和惡性淋巴瘤,可通過多元掃描統(tǒng)計(jì)分析綜合評(píng)價(jià)淋巴造血系統(tǒng)腫瘤在該地區(qū)的聚集性。若對(duì)惡性淋巴瘤或白血病分別做掃描統(tǒng)計(jì),結(jié)果只能說明這兩種腫瘤在該地區(qū)的各自聚集性,不能說明造血淋巴系統(tǒng)腫瘤的綜合聚集性,因此不能得出綜合結(jié)論。同時(shí),分別對(duì)各種疾病做掃描統(tǒng)計(jì),忽視了疾病間的聯(lián)系,損失了信息,造成檢驗(yàn)效能低下。
多變量掃描統(tǒng)計(jì)分析需建立多變量數(shù)據(jù)集,要求各分析變量獨(dú)自建立一個(gè)數(shù)據(jù)庫。所有數(shù)據(jù)集采用同一概率模型,且有相同的坐標(biāo)數(shù)據(jù)文件。
(6)關(guān)于數(shù)據(jù)的分布類型
值得注意的是,雖然Poisson模型掃描統(tǒng)計(jì)利用基于Poisson分布的似然比函數(shù)進(jìn)行檢驗(yàn),但這并不意味著病例數(shù)據(jù)必須服從Poisson分布〔10〕。實(shí)際上,病例數(shù)據(jù)不一定服從Poisson分布,但統(tǒng)計(jì)推斷概率P值仍然有效。原因在于蒙特卡羅隨機(jī)化法模擬的隨機(jī)數(shù)據(jù)集并非源于Poisson分布,而是通過模擬各觀測(cè)對(duì)象的時(shí)空位置及其數(shù)據(jù)特性來產(chǎn)生隨機(jī)數(shù)據(jù)集。
(7)關(guān)于無效假設(shè)和備擇假設(shè)
掃描統(tǒng)計(jì)的無效假設(shè)是:病例的分布是完全隨機(jī)的。在接受統(tǒng)計(jì)假設(shè)檢驗(yàn)觀念的同時(shí),必須接受一個(gè)事實(shí),那就是無效假設(shè)從來就不是完全正確的〔10,18〕。如臨床試驗(yàn)中,對(duì)兩種不同手術(shù)方案的療效進(jìn)行比較。兩者的療效肯定是不可能完全相同的,但無效假設(shè)依然是“兩者療效相同”,因?yàn)檠芯扛信d趣的是檢驗(yàn)是否其中一種方案的療效優(yōu)于另一種。同樣,盡管發(fā)病率在不同時(shí)間或空間內(nèi)存在差異,但仍以“病例的分布是完全隨機(jī)的”作為無效假設(shè),因?yàn)楦信d趣的是探測(cè)存在超額風(fēng)險(xiǎn)性的確切位置。從這個(gè)意義上說,盡管無效假設(shè)在內(nèi)容上并非完全正確,但仍以它作為無效假設(shè)。
掃描統(tǒng)計(jì)采用精確的備擇假設(shè)。例如,空間掃描統(tǒng)計(jì)的備擇假設(shè)是存在圓形聚集性。但這并不意味著空間掃描統(tǒng)計(jì)只能用于探測(cè)圓形聚集性。實(shí)際上,許多廣泛應(yīng)用的檢驗(yàn)統(tǒng)計(jì)量根本不指定備擇假設(shè),這并不意味著這些檢驗(yàn)統(tǒng)計(jì)量可用于任何備擇假設(shè)或者它們用在任何備擇假設(shè)上都有好的檢驗(yàn)效果。同樣,空間掃描統(tǒng)計(jì)清楚地定義一個(gè)備擇假設(shè),并不意味著它不能用于其他備擇假設(shè)。只不過對(duì)某些備擇假設(shè)其檢驗(yàn)效能高一些,而對(duì)其他備擇假設(shè)檢驗(yàn)效能低一些而已。清楚定義備擇假設(shè)的優(yōu)點(diǎn)在于可以提供一些信息,如該檢驗(yàn)對(duì)哪些備擇假設(shè)有較高的檢驗(yàn)效能。
與其他概率模型掃描統(tǒng)計(jì)不同,在連續(xù)型Poisson模型掃描統(tǒng)計(jì)中,觀測(cè)對(duì)象的空間位置可以是研究區(qū)域內(nèi)(多邊形)的任意位點(diǎn),并不固定在柵格或空間單元的質(zhì)心處,具有連續(xù)性和隨機(jī)性。在無效假設(shè)下,觀測(cè)點(diǎn)服從空間同質(zhì)性Poisson過程,各位點(diǎn)處的事件發(fā)生強(qiáng)度相同。為確保空間位置的連續(xù)性,不能用離散的笛卡爾坐標(biāo)系統(tǒng)定義空間位置,必須用連續(xù)的經(jīng)緯坐標(biāo)系統(tǒng)定義空間位置〔13〕。連續(xù)型泊松分布掃描統(tǒng)計(jì)僅用于單純性空間掃描統(tǒng)計(jì),掃描窗口為圓形,不可用橢圓形窗口。此外,連續(xù)型泊松掃描統(tǒng)計(jì)不能進(jìn)行次級(jí)聚集性校正,同時(shí)也不用多數(shù)據(jù)集進(jìn)行協(xié)變量校正或多元掃描統(tǒng)計(jì)分析。
連續(xù)型Poisson掃描統(tǒng)計(jì)用于計(jì)數(shù)資料。其數(shù)據(jù)要求、原理方法、假設(shè)檢驗(yàn)與離散型Poisson掃描統(tǒng)計(jì)相同,此處不再贅述。
Berrnoul模型用于分析二分類數(shù)據(jù),如患病與否,要求具備病例數(shù)據(jù)、對(duì)照數(shù)據(jù)、位置數(shù)據(jù)。可對(duì)高發(fā)病率、低發(fā)病率、高-低發(fā)病率進(jìn)行單純性空間掃描統(tǒng)計(jì)、單純性時(shí)間掃描統(tǒng)計(jì)、時(shí)空交互掃描統(tǒng)計(jì)分析。其對(duì)數(shù)似然比函數(shù)為〔3.13〕:
其中c為掃描窗口內(nèi)實(shí)際發(fā)病數(shù),n為掃描窗口內(nèi)的病例與對(duì)照數(shù)之和,N為研究區(qū)域內(nèi)病例與對(duì)照數(shù)之和,C為研究區(qū)域內(nèi)總病例數(shù),I()為指示函數(shù)。有關(guān)Berrnoul模型的概率估計(jì)、位置數(shù)據(jù)、掃描窗口、空間校正、時(shí)間趨勢(shì)校正、協(xié)變量校正、RR校正、多元掃描統(tǒng)計(jì)、數(shù)據(jù)分布類型、無效假設(shè)和備擇假設(shè)等事項(xiàng)與離散型Poisson模型相似。
指數(shù)模型用于分析生存數(shù)據(jù),旨在比較生存期長(zhǎng)的病例與生存期短的病例在分布上有何不同。即探測(cè)生存期長(zhǎng)和生存期短病例的分布聚集性,并檢驗(yàn)有無統(tǒng)計(jì)學(xué)意義。指數(shù)模型要求具有病例數(shù)據(jù)和坐標(biāo)數(shù)據(jù),病例數(shù)據(jù)需包括某時(shí)間某位點(diǎn)上各病例的診斷時(shí)間(起始時(shí)間)、生存時(shí)間、生存狀態(tài)等基本信息。exponential模型掃描統(tǒng)計(jì)可進(jìn)行回顧性分析,包括單純性空間掃描統(tǒng)計(jì)、單純性時(shí)間掃描統(tǒng)計(jì)、時(shí)空掃描統(tǒng)計(jì);也可進(jìn)行前瞻性分析,包括單純性時(shí)間掃描統(tǒng)計(jì)、時(shí)空掃描統(tǒng)計(jì)兩類。與泊松模型和二項(xiàng)分布模型相比,exponential模型的似然函數(shù)復(fù)雜的多,可參考文獻(xiàn)〔7,10〕。有關(guān) exponential模型的概率估計(jì)、位置數(shù)據(jù)、掃描窗口、空間校正、時(shí)間趨勢(shì)校正、協(xié)變量校正、RR校正、多元掃描統(tǒng)計(jì)、數(shù)據(jù)分布類型等事項(xiàng)與離散型Poisson模型相似。需要指出,exponential模型的無效假設(shè)更為具體,設(shè)為:生存期長(zhǎng)的病例與生存期短的病例在分布上無差異,完全隨機(jī)分布。
ordinal適用于等級(jí)資料,例如在某地區(qū)研究乳腺癌早、中、晚期病例的分布時(shí),旨在檢驗(yàn)各等級(jí)病例在分布上有何不同,尋找高水平、中等水平、低水平病例分布的聚集性,并檢驗(yàn)聚集性有無統(tǒng)計(jì)學(xué)意義。ordinal模型需具備病例數(shù)據(jù)和位置數(shù)據(jù),要求包含各級(jí)別病例的位點(diǎn)信息。ordinal模型可進(jìn)行回顧性分析,包括單純性空間掃描統(tǒng)計(jì)、單純性時(shí)間掃描統(tǒng)計(jì)、時(shí)空掃描統(tǒng)計(jì);也可進(jìn)行前瞻性分析,包括單純性時(shí)間掃描統(tǒng)計(jì)、時(shí)空掃描統(tǒng)計(jì)兩類。ordinal模型的似然函數(shù)較復(fù)雜,可參考文獻(xiàn)〔8〕。有關(guān) ordinal模型的概率估計(jì)、位置數(shù)據(jù)、掃描窗口、空間校正、時(shí)間趨勢(shì)校正、協(xié)變量校正、RR校正、多元掃描統(tǒng)計(jì)、數(shù)據(jù)分布類型等事項(xiàng)與離散型Poisson模型相似。但是,ordinal模型的無效假設(shè)具體設(shè)為:各等級(jí)層次的病例在分布上無差異,呈完全隨機(jī)分布。
normal模型掃描統(tǒng)計(jì)適用于連續(xù)計(jì)量資料〔10,11〕,如研究新生兒出生體重在某地區(qū)的分布時(shí),目的在于檢驗(yàn)超重兒、低體重兒在分布上有無差異;探測(cè)超重兒、低體重兒分布的聚集性,并檢驗(yàn)有無統(tǒng)計(jì)學(xué)意義。normal模型只需要事件數(shù)據(jù)和坐標(biāo)數(shù)據(jù)。值得注意的是,雖然normal模型通過基于正態(tài)分布的似然函數(shù)進(jìn)行假設(shè)檢驗(yàn),但這并不意味著分析數(shù)據(jù)必須滿足正態(tài)分布。原因是蒙特卡羅隨機(jī)化模擬數(shù)據(jù)集的產(chǎn)生不是源于正態(tài)分布的樣本數(shù)據(jù),而是基于模擬各觀測(cè)的時(shí)空位點(diǎn)及其數(shù)據(jù)特性。normal模型的分析結(jié)果受極端值影響很大,分析前需要對(duì)極端值進(jìn)行刪除處理。
正態(tài)模型按位點(diǎn)間的方差(變異性)是否相同分為標(biāo)準(zhǔn)化正態(tài)模型和加權(quán)正態(tài)模型。前者要求各位點(diǎn)間滿足方差齊性,實(shí)際上這很難滿足。比如有兩個(gè)位點(diǎn),一個(gè)位點(diǎn)的樣本量大,另一個(gè)位點(diǎn)的樣本量小;觀測(cè)值在小樣本位點(diǎn)處的變異性將比大樣本位點(diǎn)處的大,這就會(huì)造成觀測(cè)值的變異性在這兩個(gè)位點(diǎn)處不同,進(jìn)而影響分析結(jié)果的可靠性。當(dāng)觀測(cè)值在位點(diǎn)間的變異性不同時(shí),需采用加權(quán)正態(tài)模型對(duì)變異性進(jìn)行校正〔11〕。正態(tài)模型通過回顧性和前瞻性分析,進(jìn)行單純性空間掃描統(tǒng)計(jì)、單純性時(shí)間掃描統(tǒng)計(jì)、時(shí)空掃描統(tǒng)計(jì)。正態(tài)模型的似然函數(shù)較復(fù)雜,參考文獻(xiàn)〔11〕。有關(guān)正態(tài)模型的概率估計(jì)、位置數(shù)據(jù)、掃描窗口、空間校正、時(shí)間趨勢(shì)校正、協(xié)變量校正、RR校正、多元掃描統(tǒng)計(jì)等事項(xiàng)與離散型Poisson模型相似。正態(tài)概率模型的無效假設(shè)為:某事件的高、低觀測(cè)值在分布上無差異,呈完全隨機(jī)分布,即觀測(cè)不存在高值或低值聚集性。
時(shí)空重排模型僅用于時(shí)空掃描統(tǒng)計(jì)(space-time scan statistic),其目的是檢驗(yàn)在發(fā)病地點(diǎn)鄰接的病例其發(fā)病時(shí)間是否也接近,探測(cè)時(shí)空交互聚集性,實(shí)現(xiàn)疾病早期預(yù)警〔6,10〕。時(shí)空重排模型自動(dòng)校正單純性空間聚集性或單純性時(shí)間聚集性,識(shí)別時(shí)空交互作用。對(duì)始于局部,然后蔓延到整個(gè)地區(qū)的疾病爆發(fā),由于局部地區(qū)的發(fā)病數(shù)增加尚不足以使整個(gè)地區(qū)的發(fā)病曲線呈上升趨勢(shì),因此單純性時(shí)間聚集性探測(cè)方法在發(fā)現(xiàn)此類聚集性時(shí)就存在時(shí)間滯后性。而時(shí)空重排掃描模型對(duì)單純性時(shí)間或空間聚集性進(jìn)行校正,充分利用時(shí)間信息和空間信息,實(shí)現(xiàn)了真正意義上的早期預(yù)警。時(shí)空重排模型只需要病例數(shù)據(jù),不需要人口數(shù)據(jù),要求為每個(gè)病例定義好空間位置和時(shí)間數(shù)據(jù)。出現(xiàn)時(shí)空重排聚集性的原因可能是發(fā)病率升高,也可能是不同時(shí)期人口地區(qū)分布的不均勻性。如果某些地區(qū)的人口增長(zhǎng)或降低趨勢(shì)較其他地區(qū)快,就可能因地區(qū)間人口增加趨勢(shì)不同而導(dǎo)致人口趨勢(shì)偏倚。因?yàn)槿丝诨鶖?shù)的擴(kuò)大,可能會(huì)導(dǎo)致發(fā)病數(shù)的上升;而時(shí)空重排掃描模型只利用病例數(shù)據(jù)進(jìn)行分析,不考慮人口數(shù)據(jù),故不能辨別發(fā)病異常增高是因人口基數(shù)的增加還是疾病風(fēng)險(xiǎn)的升高。如果研究區(qū)域內(nèi)各位點(diǎn)的人口增長(zhǎng)趨勢(shì)相同,就不會(huì)導(dǎo)致偏倚。
時(shí)空重排模型的似然函數(shù)復(fù)雜,參見文獻(xiàn)〔6〕。該模型的概率估計(jì)、協(xié)變量校正、RR校正、多元掃描統(tǒng)計(jì)與離散型Poisson模型相似。
multinominal模型用于無序多分類資料〔10,19〕,如研究血型的分布,目的在于分析血型的空間、時(shí)間、時(shí)空分布有無聚集性,即查找各亞型的聚集性并檢驗(yàn)有無統(tǒng)計(jì)學(xué)意義。該模型需要每個(gè)病例所屬的類別及其空間位置。multinominal模型可通過回顧性和前瞻性分析,進(jìn)行單純性空間掃描統(tǒng)計(jì)、單純性時(shí)間掃描統(tǒng)計(jì)、時(shí)空掃描統(tǒng)計(jì)。multinominal模型的似然函數(shù)復(fù)雜,參考文獻(xiàn)〔19〕。有關(guān)該模型的概率估計(jì)、位置數(shù)據(jù)、掃描窗口、空間校正、時(shí)間趨勢(shì)校正、協(xié)變量校正、RR校正、多元掃描統(tǒng)計(jì)等事項(xiàng)與離散型Poisson模型相似。
目前掃描統(tǒng)計(jì)理論已經(jīng)成熟,廣泛應(yīng)用于疾病監(jiān)測(cè)、聚集性探測(cè)、早期預(yù)警等流行病學(xué)研究中。Mostashari〔19〕利用Berrnoul模型對(duì)紐約市轄區(qū)2000年的病死鳥進(jìn)行回顧性時(shí)空掃描分析,于6月14日在北部Staten島探測(cè)到病死鳥的時(shí)空聚集性,為尼羅河病毒活躍性的早期預(yù)警系統(tǒng)建立提供依據(jù)。Gaudart等〔21〕從家庭尺度上,利用Poisson模型探討1996~2001年發(fā)生在Mali村的兒童瘧疾病例的時(shí)空聚集性,共檢測(cè)到6個(gè)有統(tǒng)計(jì)學(xué)意義的時(shí)空聚集性,最強(qiáng)的聚集性于1996年9月至10月期間出現(xiàn)在該村的北部地區(qū)(RR=14.16)。Sheehan J等〔22〕對(duì)美國(guó)麻省1988~1997年的乳腺癌病例進(jìn)行Poisson模型的時(shí)空分析,對(duì)年齡協(xié)變量校正后,發(fā)現(xiàn)晚期乳腺癌高風(fēng)險(xiǎn)時(shí)空聚集性存在于1988~1991年期間的麻省中西部地區(qū)。Hayran M〔23〕利用掃描統(tǒng)計(jì)、GIS、空間自回歸分析(spatial autocorrelation aggression,SAR)等方法,對(duì)美國(guó)賓西法尼亞州前列腺癌的空間分布格局及其影響因素進(jìn)行分析,發(fā)現(xiàn)前列腺癌高發(fā)地區(qū)位于該州的西南部;空間自回歸分析共篩選出兩個(gè)影響因素:離毒源的距離,低于2臥室的家庭比例。掃描統(tǒng)計(jì)在自身免疫性疾病、出生缺陷與先天性畸形、寄生蟲病、傷害等醫(yī)學(xué)領(lǐng)域的應(yīng)用實(shí)例在此不再羅列,請(qǐng)參考文獻(xiàn)〔24-27〕。
掃描統(tǒng)計(jì)在沒有任何先驗(yàn)假設(shè)前提下,對(duì)聚集性進(jìn)行精確定時(shí)、定位、定量,充分挖掘和利用了疾病監(jiān)測(cè)數(shù)據(jù)中的時(shí)間信息、空間信息。特別是時(shí)空重排模型,在對(duì)單純性時(shí)間聚集性和單純性空間聚集性校正后,前瞻性識(shí)別疾病的時(shí)空交互效應(yīng),探測(cè)疾病的時(shí)空聚集性,極大提高了早期預(yù)警的及時(shí)性、有效性,為疾病早期控制提供了科學(xué)的依據(jù)。掃描統(tǒng)計(jì)結(jié)合地理信息系統(tǒng)(GIS)后,可實(shí)現(xiàn)分析結(jié)果的可視化〔28〕。總之,掃描統(tǒng)計(jì)在疾病聚集性探測(cè)、早期預(yù)警方面具有潛在的重要價(jià)值,掃描統(tǒng)計(jì)在疾病監(jiān)測(cè)中的應(yīng)用研究必將成為以后的研究熱點(diǎn)。
1.殷菲.時(shí)-空掃描統(tǒng)計(jì)量在傳染病早期預(yù)警中的應(yīng)用研究.成都:四川大學(xué),2007:15.
2.Naus J.The distribution of the size maximum cluster of points on the line.Journal of the American Statistical Association,1965,60:532-538.
3.Kulldorff M,Nagarwalla N.Spatial disease clusters:Detection and Inferrence.Statistics in Medicine,1995,14(8):799-810.
4.Kulldorff M,Athas M,F(xiàn)euer E,et al.Evaluating cluster alarms:A space-time scan statistic and brain cancer in Los Alamos.American Journal of Public Health,1998,88(9):1377-1380.
5.Kulldorff M.Prospective time-periodic geographical disease surveillance using a scan statistic.Journal of the Royal Statistical Society,2001,164(1):61-72.
6.Kulldorff M,Heffernan R,Hartman J,et al.A space-time permutation scan statistic for the early detection of disease outbreaks.PloS Medicine,2005,2(3):216-224.
7.Huang L,Kulldorff M,Gregorio D.A spatial scan statistic for survival data.Biometrics,2006,63(1):109-118.
8.Jung I,Kulldorff M,Klassen A.A spatial statistic for ordinal data.Statistics in Medicine,2007,26(7):1594-1607.
9.Kulldorff M,Mostashari F,Duczmal L,et al.Multivariate spatial scan statistics for disease surveillance.Statistics in Medicine,2007,26(8):1824-1833.
10.SaTScan User Guide for version 9.1.1.http://www.satscan.org.2011.
11.Huang L,Tiwari R,Zuo J,et al.Weighted normal spatial scan statistics for heterogenous population data.Journal of the American Statistical Association,2009,104(487):886-898.
12.Dwass M.Modified randomization tests for nonparametric hypotheses.Annals of Mathematical Statisitcs,1957,28(1):181-187.13.Kulldorff M.A spatial scan statistic.Communications in Statistics:Theory and Methods,1997,26(6):1481-1496.
14.Kulldorff M,Huang L,Pickle L,et al.An elliptic spatial scan statistic.Statistics in Medicine,2006,25(22):3929-3943.
15.Duczmal L,Kulldorff M,Huang L,et al.Evaluation of spatial scan statistics for irregular shaped clusters.Journal of Computational and Graphical Statistics,2006,15(2):428-442.
16.Kleinman K,Abrams A,Kulldorff M,et al.A model-adjusted spacetime scan statistic with an application to syndromic surveillance.Epidemiology and Infection,2005,133(3):409-419.
17.Klassen A,Kulldorff M,Curriero F.Geographical clustering of prostate cancer grade and stage at diagnosis,before and after adjustment for risk factors.International Journal of Health Geographics,2005,4:1.
18.Lawson AB,Kleinman K.Spatial and syndromic surveillance for public health.W iley,2005:3-4.
19.Jung I,Kulldorff M,Richard OJ.A spatial scan statistic for multinom inal data.Manuscript,2008.
20.Mostashari F,Kulldorff M,Hartman JJ,et al.Dead bird clusters as an early warning system for West Nile virus activity.Emerging Infectious Diseases,2003,9(6):641-646.
21.Gaudart J,Poudiougou B,Dicko A,et al.Space-time clustering of childhood malaria at the household level:a dynam ic cohort in a Malivillage.BMC Public Health,2006,6:286.
22.Sheehan TJ,DeChello LM.A space-time analysis of the proportion of late stage breast cancer in Massachusetts,1988 to 1997.International Journal of Health Geographics,2005,4:15.
23.Haryran M.Analyzing factors associated with cancer occurrence:a geographical systems approach.Turkish Journal of Cancer,2004,34(2):67-70.
24.Walsh SJ,DeChello LM.Geographical variation in mortality from system ic lupus erythematosus in the United States.Lupus,2001,10(9):637-646.
25.Ozdenerol E,W illiams BL,Kang SY,et al.Comparision of spatial scan statistic and spatial filtering in estimating low birth weight clusters.International Journal of Health Geographics,2005,4:19.
26.Odoi A,Martin SW,Michel P,et al.Investigation of clusters of giardiasis using GIS and a spatial scan statistic.International Journal of Health Geographics,2004,3:11.
27.Exeter DJ,Boyle PJ.Does young adult suicide cluster geographically in Scotland?.Journal of Epidemiology and Community Health,2007,61:731-736.
28.Boscoe FP,M cLaughlin C,Schymura MJ,et al.Visualization of the spatial scan statistic using nested circle.Health and Place,2003,9(3):273-277.