黃飛 張慧
?
·流行病學(xué)與統(tǒng)計學(xué)方法·
箱式圖在結(jié)核病防控工作中的應(yīng)用
黃飛 張慧
箱式圖(Boxplot)是通過描述數(shù)據(jù)的5個常用統(tǒng)計數(shù)值(中位數(shù)、最大值、最小值、上四分位數(shù)和下四分位數(shù))而展現(xiàn)數(shù)據(jù)分布的一種圖形。其作為一種圖形表示工具,可以直觀地顯示出數(shù)據(jù)分布的狀態(tài),迅速地剔除異常值,并能夠比較多組數(shù)據(jù)之間的分布。作為探索性分析工具的箱式圖,能提高數(shù)據(jù)處理的嚴(yán)謹(jǐn)性、準(zhǔn)確性及可靠性,應(yīng)在日常工作中加以推廣應(yīng)用。
數(shù)據(jù)說明,統(tǒng)計; 結(jié)核; 箱式圖
中國是結(jié)核病高負(fù)擔(dān)國家,據(jù)世界衛(wèi)生組織估算,2015年新發(fā)患者數(shù)為91.8萬例,位居全球第三,僅次于印度和印度尼西亞[1]。因此,了解不同地區(qū)結(jié)核病疫情水平,及早發(fā)現(xiàn)高疫情的地區(qū),以便制定有針對性的防控措施是十分必要的。目前,我國常規(guī)結(jié)核病疫情數(shù)據(jù)主要來自全國傳染病網(wǎng)絡(luò)報告系統(tǒng)[2]和結(jié)核病信息管理系統(tǒng)[3],主要內(nèi)容包括傳染病報告卡及肺結(jié)核患者診斷、治療和管理等相關(guān)信息,如何準(zhǔn)確、客觀和科學(xué)地分析監(jiān)測數(shù)據(jù),是結(jié)核病防治工作人員的主要工作之一。
箱式圖(boxplot,或box and whisker plot[4]),也有翻譯成箱須圖、箱圖、箱子圖、箱線圖,是通過描述數(shù)據(jù)的5個常用統(tǒng)計數(shù)值(中位數(shù)、最大值、最小值、上四分位數(shù)和下四分位數(shù))而展現(xiàn)數(shù)據(jù)分布的一種圖形,是現(xiàn)代統(tǒng)計中應(yīng)用比較廣泛的探索性數(shù)據(jù)分析工具之一。
IQR為四分位距(interquartile range)圖1 箱式圖示例1
圖1中各指標(biāo)解釋如下:
1.異常值(outlier):因各種原因造成的偏離總體數(shù)據(jù)的數(shù)值,會對數(shù)據(jù)的統(tǒng)計結(jié)果(如均數(shù))造成不可靠的影響。
2.IQR:為上、下四分位數(shù)之差,主要用以測量數(shù)據(jù)的離散程度,因其包括了中間50%的數(shù)據(jù),因此小于極差并受異常值影響較小。因此,在抵抗數(shù)據(jù)異常值干擾方面,箱式圖優(yōu)于以平均值代表中心值,以標(biāo)準(zhǔn)差代表離散程度的傳統(tǒng)方法[5]。
3.上、下四分位數(shù)(upper/lower quartile,Q3/Q1):即分別是第75%位數(shù)和第25%位數(shù),兩者之差即為IQR。
4.內(nèi)上限和內(nèi)下限(upper/lower fence):分別是Q3+1.5×IQR、Q1-1.5×IQR。在內(nèi)上限與內(nèi)下限之外的值均被認(rèn)為是異常值。雖然這種判斷方法缺少統(tǒng)計學(xué)的驗(yàn)證及推理,但經(jīng)驗(yàn)表明,其在識別異常數(shù)據(jù)方面仍有一定的優(yōu)越性[6]。
因箱式圖可以直觀地反映出常用的5個統(tǒng)計數(shù)值,因此,它在實(shí)際工作中的作用主要有以下幾個方面:
1.描述數(shù)據(jù)的分布狀態(tài):通過觀察箱式圖的形狀可以知道數(shù)據(jù)的分布狀態(tài)。如果其中位數(shù)與均數(shù)距離很近,最大值與最小值對稱分布于內(nèi)上限和內(nèi)下限之內(nèi),說明數(shù)據(jù)基本成正態(tài)分布;反之,則說明數(shù)據(jù)呈偏態(tài)分布。
2.識別并剔除異常值:箱式圖中位于內(nèi)上限和內(nèi)下限的數(shù)值被自動認(rèn)為是異常值,在對數(shù)據(jù)進(jìn)行分析處理時通過找出產(chǎn)生這些數(shù)值的真正原因,才能對數(shù)據(jù)進(jìn)行正確的分析處理。
在對兩組或多組數(shù)據(jù)做并列箱式圖后,如果這幾組箱式圖中內(nèi)陷部分不重疊,則可以有95%的把握認(rèn)為這幾組數(shù)據(jù)的中位數(shù)差異有統(tǒng)計學(xué)意義[4]。
圖2 箱式圖示例2
現(xiàn)已知某市各個縣區(qū)2013—2015年活動性肺結(jié)核患者登記率(表1),現(xiàn)對其患者發(fā)現(xiàn)工作進(jìn)行評價。
(一)方法一
對表1數(shù)據(jù)做柱形圖(圖3),可以看出該市各縣登記率水平各不相同,且差別較大,2013年和2014年C縣活動性肺結(jié)核患者登記率最高,2015年F縣登記率最高。
表1 某市2013—2015年活動性肺結(jié)核患者登記率(/10萬)
圖4 某市2013—2015年活動性肺結(jié)核患者登記情況
(二)方法二
將表1的數(shù)據(jù)錄入SPSS統(tǒng)計學(xué)軟件,然后做箱式圖(圖4),可以看出以下三點(diǎn):(1)2013—2015年3年的活動性肺結(jié)核患者登記率的中位數(shù)基本處于同一水平,相互之間差異無統(tǒng)計學(xué)意義。(2)2013年和2014的Q3和Q1間距較2015年短,表明2013年和2014年全市各縣區(qū)的登記水平較2015年更為集中。(3)2015年活動性肺結(jié)核患者登記率極差值較2013和2014年小,但存在異常值,即J縣登記水平明顯異于該市其他縣區(qū),應(yīng)進(jìn)一步對J縣的數(shù)據(jù)進(jìn)行深入分析。
探索性數(shù)據(jù)分析是指對現(xiàn)有數(shù)據(jù)在盡量少的先驗(yàn)假定下進(jìn)行探索,通過作圖、制表、方程擬合、計算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。特別是當(dāng)我們對這些數(shù)據(jù)中的信息沒有足夠的經(jīng)驗(yàn),不知道該用何種傳統(tǒng)統(tǒng)計方法進(jìn)行分析時,探索性數(shù)據(jù)分析就會非常有效。因此,探索性數(shù)據(jù)分析與驗(yàn)證性數(shù)據(jù)分析經(jīng)常交叉進(jìn)行[7]。
箱式圖作為探索性數(shù)據(jù)分析工具之一,目前很多軟件可以進(jìn)行箱式圖的繪制,如SAS、SPSS、R-project、S-plus等。箱式圖用IQR來測量數(shù)據(jù)的離散程度,因其包括了中間50%的數(shù)據(jù),受異常值
影響較小。因此,箱式圖對數(shù)據(jù)的耐抗性優(yōu)于以平均值代表中心值、以標(biāo)準(zhǔn)差代表離散程度的傳統(tǒng)方法。所以,箱式圖更適用于大型數(shù)據(jù)或者多組數(shù)據(jù)間的比較使用,而且較直方圖、線圖等能夠傳遞更多的信息,可以快速地反映大型數(shù)據(jù)中的異常值,并可以進(jìn)行不同時期間的比較。如比較某個省在不同時間各個縣區(qū)的肺結(jié)核患者登記率、痰菌陰轉(zhuǎn)率、治療成功率等時,可以使用箱式圖快速地得到結(jié)果,并可以就出現(xiàn)的異常值進(jìn)行深入分析。
[1] World Health Organization. Global tuberculosis report, 2016. Geneva: World Health Organization, 2016.
[2] 金水高, 姜韜, 馬家奇. 中國傳染病監(jiān)測報告信息系統(tǒng)簡介. 中國數(shù)字醫(yī)學(xué), 2006, 1(1):20-22.
[3] 黃飛, 杜昕, 陳偉, 等. 中國結(jié)核病信息管理系統(tǒng)介紹. 中國數(shù)字醫(yī)學(xué), 2011, 6(10):97-100.
[4] Mcgill R, Tukey JW, Larsen WA. Variations of box plots. Am Stat, 1978, 32(1):12-16.
[5] 俞鐘行. 同類過程控制圖的一個實(shí)例. 工業(yè)工程與管理, 1999, (1):45-48.
[6] 莊作欽. BOXPLOT——描述統(tǒng)計的一個簡便工具. 統(tǒng)計教育, 2003, (1):34-35.
[7] 朱鈺, 張穎. 談探索性數(shù)據(jù)分析. 統(tǒng)計教育, 1997, (3):18-19.
(本文編輯:李敬文)
Application of boxplot in tuberculosis control and prevention
HUANGFei,ZHANGHui.
NationalCenterforTuberculosisControlandPrevention,ChineseCenterforDiseaseControlandPrevention,Beijing102206,China
ZHANGHui,Email:zhanghui@chinatb.org
Boxplot is a graph that shows the distribution of data by describing five commonly used statistics (median, maximum, minimum, upper quartiles, and lower quartiles) of the data. As a graphical representation tool, it could visually display the state of data distribution, quickly remove the outliers, and is able to compare the distribution of multiple sets of data. As a exploratory analysis tool, boxplot could improve the rigor of data proces-sing, accuracy and reliability, and it should be generalized in daily work.
Data interpretation, statistical; Tuberculosis; Boxplot
10.3969/j.issn.1000-6621.2017.04.003
中國國家衛(wèi)生和計劃生育委員會-比爾及梅琳達(dá)·蓋茨基金會結(jié)核病防治合作項(xiàng)目(51914)
102206 北京,中國疾病預(yù)防控制中心結(jié)核病預(yù)防控制中心
張慧,Email:zhanghui@chinatb.org
2017-02-14)