文/王梓民 周欣
碘缺乏病是世界范圍的常見(jiàn)病,1970-1980年全國(guó)性普查結(jié)果顯示:29 個(gè)省、市、自治區(qū)存在碘缺乏病,1762 個(gè)縣有碘缺乏病,4.25 億人口生活在碘缺乏病地區(qū),3500 萬(wàn)人口患地方性甲狀腺腫,25 萬(wàn)克汀病。基于流行病調(diào)查結(jié)果,環(huán)境因素中的碘營(yíng)養(yǎng)狀況是碘缺乏病發(fā)病因素之一,國(guó)際醫(yī)學(xué)界公認(rèn):碘的攝入量與碘缺乏病的關(guān)系呈反比關(guān)系,即碘量攝入過(guò)少可使碘缺乏病的發(fā)病率升高。因此,摸清成人碘營(yíng)養(yǎng)狀況,有利于正確指導(dǎo)具有碘缺乏病患者科學(xué)用碘,以此降低碘缺乏病的患病率;本文以丹東地區(qū)碘缺乏病例2013年-2015年疾病預(yù)防控制機(jī)構(gòu)(CDC)年度統(tǒng)計(jì)數(shù)據(jù)為依據(jù),進(jìn)行大數(shù)據(jù)分析、數(shù)據(jù)挖掘,得到全市碘缺乏病調(diào)查情況。
資料來(lái)源于丹東市疾病預(yù)防控制中心2013-2015年碘缺乏病防治工作年度調(diào)查表。
1.2.1 大數(shù)據(jù)
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類(lèi)型和價(jià)值密度低四大特征。即巨量數(shù)據(jù)集合,將掌握的龐大數(shù)據(jù)信息進(jìn)行專(zhuān)業(yè)化處理,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
1.2.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘方法利用了如下一些領(lǐng)域的思想:
(1)來(lái)自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn)。
(2)人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。
(3)最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。
數(shù)據(jù)庫(kù)系統(tǒng)提供有效的存儲(chǔ)、索引和查詢(xún)處理支持。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的,分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。
1.2.3 ID3 算法
ID3 算法是一種貪心算法,用來(lái)構(gòu)造決策樹(shù)。ID3 算法起源于概念學(xué)習(xí)系統(tǒng)(CLS),以信息熵的下降速度為選取測(cè)試屬性的標(biāo)準(zhǔn),即在每個(gè)節(jié)點(diǎn)選取還尚未被用來(lái)劃分的具有最高信息增益的屬性作為劃分標(biāo)準(zhǔn),然后繼續(xù)這個(gè)過(guò)程,直到生成的決策樹(shù)能完美分類(lèi)訓(xùn)練樣例。ID3 決策樹(shù)構(gòu)造的相關(guān)理論如下:
信息熵:一個(gè)變量的變化情況可能越多,那么它攜帶的信息量就越大,信息熵值越大,該系統(tǒng)就越不穩(wěn)定,存在的不定因素就越多。
表1:碘缺乏病決策表
表2:丹東市碘缺乏病防治工作調(diào)查表(2013年)
圖1:2013-2015年丹東市各縣區(qū)碘缺乏病發(fā)病柱狀圖(%)
式中x 是一個(gè)隨機(jī)變量x={x1,x2,x3,...,xn},P 是每一種渠道的概率{p1,p2,p3,...pn},H(x)為x 的信息熵。
條件熵:用來(lái)解釋信息增益而引入的概念。隨機(jī)變量X 在給定條件下隨機(jī)變量Y 的條件熵,X 給定條件下Y 的條件概率分布的熵對(duì)x 的數(shù)學(xué)期望,在機(jī)器學(xué)習(xí)中為選定某個(gè)特征后的熵,公式如下:
信息增益:在決策樹(shù)算法中是用來(lái)選擇特征的指標(biāo),信息增益越大,則這個(gè)特征的選擇性越好。待分類(lèi)的集合的熵和選定某個(gè)特征的條件熵之差,公式如下:
由表1中數(shù)據(jù)和(1)(2)(3)式可以計(jì)算出健康教育、專(zhuān)項(xiàng)投入、碘元素?cái)z入量各自的信息增益,其中當(dāng)是否患有碘缺乏病為作為目的節(jié)點(diǎn)時(shí),碘元素?cái)z入量是信息增益最高的,其次是健康教育。故碘元素的攝入量對(duì)是否患碘缺乏病影響最大。
如表2所示。
如圖1,根據(jù)2013-2015年丹東市各縣區(qū)碘缺乏病發(fā)病情況數(shù)據(jù)顯示,元寶區(qū)、振興區(qū)、東港市的碘缺乏病患者比例為零;振安區(qū)、鳳城市的碘缺乏病患者比例幾乎沒(méi)有變化;寬甸滿(mǎn)族自治縣的碘缺乏病患者比例從2013年的0.2016%下降到2015年的0.1997%,人口基數(shù)雖然增加,但是碘缺乏病患者的數(shù)量并沒(méi)有增加。
通過(guò)對(duì)上述數(shù)據(jù)的分析,我們可以發(fā)現(xiàn),元寶區(qū)、振興區(qū)、振安區(qū)以及東港市的碘缺乏病患者幾乎為零,而鳳城市患碘缺乏病患者數(shù)量尤為突出。丹東市的東港市、鳳城市和寬甸縣自2009年起是中央補(bǔ)助地方公共衛(wèi)生專(zhuān)項(xiàng)地方病防治健康教育項(xiàng)目縣市 ,國(guó)家每年對(duì)每個(gè)項(xiàng)目縣市投入1.5 ~2 萬(wàn),用以提高人民群眾對(duì)碘缺乏病的認(rèn)識(shí)??梢?jiàn)健康教育可以有效提高碘缺乏病的公眾認(rèn)知度。當(dāng)前是“互聯(lián)網(wǎng)+”的時(shí)代,計(jì)算機(jī)在數(shù)據(jù)處理、數(shù)據(jù)挖掘等方面的技術(shù)日趨成熟。本文從丹東市地方病——碘缺乏病入手,通過(guò)對(duì)2013-2015年數(shù)據(jù)的分析、挖掘;最后與國(guó)家標(biāo)準(zhǔn)對(duì)比,得出普遍結(jié)論,從而為政府推行加碘鹽計(jì)劃決策提供理論依據(jù)。