徐學(xué)琴,張知鷙,王瑾瑾,閆國(guó)立,裴蘭英,孫春陽(yáng),劉曉蕙
(1.河南中醫(yī)藥大學(xué) 基礎(chǔ)醫(yī)學(xué)院,河南 鄭州 450046;2.鄭州大學(xué)第一附屬醫(yī)院 血液科,河南 鄭州 450052)
基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)模型的肺結(jié)核發(fā)病率預(yù)測(cè)*
徐學(xué)琴1,張知鷙2,王瑾瑾1,閆國(guó)立1,裴蘭英1,孫春陽(yáng)1,劉曉蕙1
(1.河南中醫(yī)藥大學(xué) 基礎(chǔ)醫(yī)學(xué)院,河南 鄭州 450046;2.鄭州大學(xué)第一附屬醫(yī)院 血液科,河南 鄭州 450052)
目的 建立用于肺結(jié)核發(fā)病率預(yù)測(cè)的人工神經(jīng)網(wǎng)絡(luò)模型,預(yù)測(cè)肺結(jié)核疫情發(fā)生發(fā)展趨勢(shì),為肺結(jié)核的預(yù)防和控制提供理論依據(jù)。方法 選取肺結(jié)核2000~2014年發(fā)病率數(shù)據(jù),采用改進(jìn)的誤差反向傳播(BP)神經(jīng)網(wǎng)絡(luò)算法建立預(yù)測(cè)模型。其中以2000~2013年的發(fā)病率數(shù)據(jù)作為訓(xùn)練樣本,以2014年的發(fā)病率數(shù)據(jù)來(lái)檢驗(yàn)?zāi)P偷挠行?。并?duì)2015~2019年肺結(jié)核的發(fā)病率進(jìn)行預(yù)測(cè)。結(jié)果 采用單隱層神經(jīng)網(wǎng)絡(luò)模型,輸入層節(jié)點(diǎn)數(shù)為3,隱含層節(jié)點(diǎn)數(shù)為7,輸出層節(jié)點(diǎn)數(shù)為1。建立的肺結(jié)核發(fā)病率預(yù)測(cè)模型在仿真預(yù)測(cè)樣本處的平均相對(duì)誤差為0.7597%,在檢驗(yàn)樣本處的相對(duì)誤差為0.2649%。經(jīng)預(yù)測(cè),2015~2019年肺結(jié)核的發(fā)病率分別為69.33/10萬(wàn)、71.16/10萬(wàn)、64.49/10萬(wàn)、62.41/10萬(wàn)和72.78/10萬(wàn)。結(jié)論 采用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)算法建立的肺結(jié)核發(fā)病預(yù)測(cè)模型具有較高的預(yù)測(cè)精度及較低的預(yù)測(cè)相對(duì)誤差,為肺結(jié)核疫情預(yù)測(cè)提供一種新的預(yù)測(cè)模型。
肺結(jié)核;誤差反向傳播;神經(jīng)網(wǎng)絡(luò);模型;預(yù)測(cè)
結(jié)核病是一種慢性傳染性疾病,由結(jié)核分枝桿菌感染引起,可侵害腦、腸、骨骼及淋巴結(jié)等,以肺部結(jié)核最為常見(jiàn)。我國(guó)是全球22個(gè)結(jié)核病高負(fù)擔(dān)國(guó)家之一,結(jié)核病人數(shù)量占全球12%,居世界第2位[1-2]。我國(guó)第五次結(jié)核病流行病學(xué)抽樣調(diào)查結(jié)果顯示,2010年全國(guó)15歲及以上人群中,活動(dòng)性肺結(jié)核患病人數(shù)約499萬(wàn),患病率為459/10萬(wàn),涂陽(yáng)患病率為66/10萬(wàn)[3]。肺結(jié)核是我國(guó)傳染病防治法中規(guī)定的乙類(lèi)傳染病,其發(fā)病數(shù)一直居于甲乙類(lèi)法定報(bào)告?zhèn)魅静〉牡?、2位[4]。因此,肺結(jié)核的預(yù)防和控制是公共衛(wèi)生工作中非常重要的一部分。
在傳染病的預(yù)防控制工作中,疾病的預(yù)警、預(yù)測(cè)起著關(guān)鍵作用,能夠早期發(fā)現(xiàn)疾病的發(fā)生發(fā)展趨勢(shì)。通過(guò)建立肺結(jié)核疫情的預(yù)測(cè)模型,對(duì)其未來(lái)發(fā)生、發(fā)展趨勢(shì)進(jìn)行科學(xué)的預(yù)測(cè),將為制定肺結(jié)核的預(yù)防和控制的策略和措施,以及有效預(yù)防肺結(jié)核提供重要的參考依據(jù)。在眾多預(yù)測(cè)模型中,人工神經(jīng)網(wǎng)絡(luò)模型越來(lái)越多地用于傳染病的預(yù)測(cè)和監(jiān)測(cè)工作中,其中誤差反向傳播(back error propagation,BP)神經(jīng)網(wǎng)絡(luò)模型是應(yīng)用最普遍、最成熟的人工神經(jīng)網(wǎng)絡(luò)模型之一[5-6]。本研究便采用誤差反向傳播神經(jīng)網(wǎng)絡(luò)模型建立肺結(jié)核年發(fā)病率預(yù)測(cè)模型,并對(duì)我國(guó)肺結(jié)核未來(lái)5年的發(fā)病率進(jìn)行預(yù)測(cè),為制定肺結(jié)核預(yù)防和控制措施提供理論依據(jù)。
BP神經(jīng)網(wǎng)絡(luò)模型是多層前饋網(wǎng)絡(luò),它包括1個(gè)輸入層、1個(gè)或多個(gè)中間層和1個(gè)輸出層,每層包含若干個(gè)節(jié)點(diǎn)。該模型的特點(diǎn)是相鄰層節(jié)點(diǎn)之間為完全連接方式,同層節(jié)點(diǎn)之間卻彼此獨(dú)立。訓(xùn)練過(guò)程為:輸入層接收外源性樣本信號(hào),然后傳遞到中間層,經(jīng)中間層逐層處理之后由輸出層輸出信號(hào),此即信正向傳播;若輸出信號(hào)與期望值之間存在誤差,則該誤差進(jìn)入反向傳播,并通過(guò)調(diào)整各單元的權(quán)重,使誤差逐漸下降,此即誤差的反向傳播。即在模型訓(xùn)練過(guò)程中,最終的目標(biāo)是通過(guò)反復(fù)地調(diào)整權(quán)重和偏差,最終使網(wǎng)絡(luò)的輸出值和實(shí)際值之間的整體誤差降到期望精度[7]。
因常規(guī)的BP神經(jīng)網(wǎng)絡(luò)算法存在收斂速度較慢、易陷入極端最小值的缺陷,人們?cè)趥鹘y(tǒng)算法的基礎(chǔ)上做改進(jìn)來(lái)解決該問(wèn)題。本研究采用Levenberg-Marquardt數(shù)值優(yōu)化算法來(lái)改進(jìn)網(wǎng)絡(luò)模型,該算法能夠加快收斂的速度、提高訓(xùn)練的效率及預(yù)測(cè)的精確性[8-9]。
我國(guó)2000~2014年肺結(jié)核發(fā)病率數(shù)據(jù)來(lái)自于國(guó)家衛(wèi)生和計(jì)劃生育委員會(huì)發(fā)布的歷年衛(wèi)生統(tǒng)計(jì)年鑒及我國(guó)法定報(bào)告?zhèn)魅静”O(jiān)測(cè)系統(tǒng),人口資料來(lái)自于國(guó)家統(tǒng)計(jì)局。
由于原始發(fā)病率數(shù)據(jù)大小不一,不利于模型的建立及訓(xùn)練。為了提高網(wǎng)絡(luò)模型的效率和泛化能力,需要將歷年發(fā)病率數(shù)據(jù)進(jìn)行處理。歸一化處理可防止較大的輸入值覆蓋較小的輸入值、降低網(wǎng)絡(luò)誤差及加快訓(xùn)練速度[10]。歸一化方法有多種,本研究采用的是用每個(gè)發(fā)病率除以某個(gè)數(shù)值,能使該發(fā)病率變?yōu)?~1之間的數(shù)據(jù),本研究中將該數(shù)值定為120/10萬(wàn)。
建立BP神經(jīng)網(wǎng)絡(luò)模型需先確定基本參數(shù),即輸入層節(jié)點(diǎn)的數(shù)目、中間層的層數(shù)及其節(jié)點(diǎn)數(shù)、各層節(jié)點(diǎn)的傳遞函數(shù)。根據(jù)BP神經(jīng)網(wǎng)絡(luò)的定理,對(duì)于任何在閉區(qū)間內(nèi)的一個(gè)連續(xù)函數(shù)都可以用單隱層(1個(gè)中間層)的BP神經(jīng)網(wǎng)絡(luò)逼近,因此1個(gè)3層BP網(wǎng)絡(luò)已具有很強(qiáng)的非線性映射能力[11]。本研究便采用3層網(wǎng)絡(luò)模型,其中包括3個(gè)輸入層節(jié)點(diǎn)數(shù),1個(gè)輸出層節(jié)點(diǎn)數(shù),輸出層傳遞函數(shù)采用對(duì)數(shù)型Sigmoid函數(shù)。根據(jù)Kolmogorov定理,中間層節(jié)點(diǎn)數(shù)應(yīng)為2×3+1=7,中間層傳遞函數(shù)采用正切型Sigmoid函數(shù)。本研究將預(yù)測(cè)的期望精度定為0.0001。
若采用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行肺結(jié)核發(fā)病率的預(yù)測(cè),需先利用已有樣本數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。訓(xùn)練過(guò)程中,通過(guò)不斷調(diào)整各單元的權(quán)重,使誤差逐漸減小,當(dāng)減小到預(yù)先設(shè)定的期望精度時(shí),訓(xùn)練便完成。此時(shí),實(shí)際發(fā)病率和預(yù)測(cè)發(fā)病率的值非常接近。
訓(xùn)練完成的模型便可用來(lái)進(jìn)行發(fā)病率的預(yù)測(cè)。通常采用新陳代謝預(yù)測(cè)法,即按照事先設(shè)定的參數(shù),以連續(xù)3年的肺結(jié)核發(fā)病率數(shù)據(jù)組成輸入序列,輸出第4年的發(fā)病率預(yù)測(cè)值。輸入序列中每加入新的1個(gè)發(fā)病率數(shù)據(jù),將舍棄最前面的1個(gè)數(shù)據(jù)。本研究中,以2000~2002年的數(shù)據(jù)預(yù)測(cè)2003年數(shù)據(jù),以2001~2003年數(shù)據(jù)預(yù)測(cè)2004年數(shù)據(jù),依次進(jìn)行。2014年發(fā)病率數(shù)據(jù)用來(lái)檢驗(yàn)?zāi)P?,若檢驗(yàn)合格,即可用來(lái)預(yù)測(cè)未來(lái)5年(2015年~2019年)肺結(jié)核的發(fā)病率。預(yù)測(cè)所得的數(shù)據(jù)還需反歸一化處理,即各預(yù)測(cè)值乘以120/10萬(wàn)。以上工作均在Matlab 7.0軟件中實(shí)現(xiàn)。
經(jīng)計(jì)算,在仿真預(yù)測(cè)樣本處的平均相對(duì)誤差為0.7597%。用2014年數(shù)據(jù)檢驗(yàn)該模型,結(jié)果顯示:2014年肺結(jié)核的預(yù)測(cè)發(fā)病率為64.85/10萬(wàn),而實(shí)際發(fā)病率為65.02/10萬(wàn),其相對(duì)誤差為0.2649%,實(shí)際值與預(yù)測(cè)值吻合度較高。各年發(fā)病率的真實(shí)值和預(yù)測(cè)值均非常接近。見(jiàn)附表和附圖。
附圖 肺結(jié)核發(fā)病率的真實(shí)值與預(yù)測(cè)值的曲線比較
附表 肺結(jié)核實(shí)際發(fā)病率、預(yù)測(cè)發(fā)病率(反歸一化值)及相對(duì)誤差
利用該模型,通過(guò)新陳代謝法預(yù)測(cè),得到我國(guó)肺結(jié)核2015~2019年發(fā)病率(反歸一化值)分別為69.33/10萬(wàn)、71.16/10萬(wàn)、64.49/10萬(wàn)、62.41/10萬(wàn)及72.78/10萬(wàn)。
肺結(jié)核病是長(zhǎng)期危害人類(lèi)健康的慢性傳染性疾病,因此,肺結(jié)核的監(jiān)測(cè)與預(yù)測(cè)有著非常重要的流行病學(xué)意義[12]。在肺結(jié)核發(fā)病率的預(yù)測(cè)中,目前常用的模型有灰色模型、自回歸積分移動(dòng)平均模型、馬爾科夫鏈模型及BP神經(jīng)網(wǎng)絡(luò)模型等。灰色動(dòng)態(tài)模型對(duì)樣本容量和概率分布沒(méi)有嚴(yán)格要求,模型簡(jiǎn)單,預(yù)測(cè)效果好,適合于樣本量較小、流行因素較穩(wěn)定的疾病的短期預(yù)測(cè)[13]。馬爾科夫鏈模型可進(jìn)行隨機(jī)波動(dòng)較強(qiáng)序列的預(yù)測(cè),揭示序列在不同狀態(tài)間轉(zhuǎn)移的內(nèi)在規(guī)律,但預(yù)測(cè)結(jié)果的準(zhǔn)確性會(huì)受到不同狀態(tài)劃分的影響[14]。相比之下,BP神經(jīng)網(wǎng)絡(luò)模型因其能應(yīng)對(duì)復(fù)雜的大規(guī)模數(shù)據(jù)資料而被廣泛應(yīng)用于傳染病的預(yù)測(cè)。該模型的應(yīng)用無(wú)需具備先驗(yàn)知識(shí),也無(wú)需資料滿(mǎn)足正態(tài)性、線性及獨(dú)立性等條件。它能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,通過(guò)數(shù)據(jù)訓(xùn)練、人工智能、機(jī)器學(xué)習(xí)能描述許多復(fù)雜的非線性相關(guān)性[15]。
肺結(jié)核發(fā)生及流行的影響因素很多,如肺結(jié)核接觸史、吸煙、頻繁的人際交往、粉塵環(huán)境暴露、疫苗免疫、溫度及濕度等[16-17]。該因素和結(jié)核病的發(fā)生與流行之間往往是一種非常復(fù)雜的非線性關(guān)系。而B(niǎo)P神經(jīng)網(wǎng)絡(luò)模型恰好具有很強(qiáng)的解決非線性問(wèn)題的能力,能根據(jù)已學(xué)會(huì)的知識(shí)和處理問(wèn)題的經(jīng)驗(yàn)對(duì)復(fù)雜問(wèn)題做出合理的判斷,對(duì)未來(lái)疾病的發(fā)生做出較為精確的預(yù)測(cè)[18]。因此,BP神經(jīng)網(wǎng)絡(luò)模型很適合于肺結(jié)核發(fā)病率的預(yù)測(cè)。因常規(guī)的BP神經(jīng)網(wǎng)絡(luò)模型存在訓(xùn)練時(shí)間長(zhǎng)、易陷入局部極端最小值的缺點(diǎn),為克服該缺點(diǎn),本文所采用Levenberg-Marquardt算法來(lái)改進(jìn)BP神經(jīng)網(wǎng)絡(luò)算法。
本研究以我國(guó)歷年肺結(jié)核發(fā)病率作為樣本數(shù)據(jù),應(yīng)用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)算法建立肺結(jié)核的預(yù)測(cè)模型。該模型在仿真預(yù)測(cè)樣本處的平均相對(duì)誤差為0.7597%,在檢驗(yàn)樣本點(diǎn)的相對(duì)誤差為0.2649%,真實(shí)值和預(yù)測(cè)值吻合度非常高,具有良好的預(yù)測(cè)精度,適于進(jìn)行肺結(jié)核發(fā)病率的預(yù)測(cè)。
經(jīng)該模型對(duì)我國(guó)2015~2019年肺結(jié)核發(fā)病率進(jìn)行預(yù)測(cè),結(jié)果顯示,我國(guó)肺結(jié)核的發(fā)病率在經(jīng)歷連續(xù)8年(2007~2014年)的持續(xù)下降后,將在2015年及2016年呈現(xiàn)連續(xù)上升趨勢(shì),2017~2018年發(fā)病率將有所下降,但2019年發(fā)病率將會(huì)再次升高。因此,對(duì)肺結(jié)核的預(yù)防和監(jiān)測(cè)工作還需進(jìn)一步加強(qiáng)。
[1] 山珂.肺結(jié)核發(fā)病空間聚集分布及影響因素研究[D].濟(jì)南:山東大學(xué),2014.
[2] 汪學(xué)智,王琳,夏凡,等.軍隊(duì)“三位一體”結(jié)核病防治模式成效初探[J].中華疾病控制雜志,2013,6:545-547.
[3] 王黎霞,成詩(shī)明,陳明亭,等.2010年全國(guó)第五次結(jié)核病流行病學(xué)抽樣調(diào)查報(bào)告[J].中國(guó)防癆雜志,2012,8:485-508.
[4] 金瑾,景睿.山東省2013年學(xué)生肺結(jié)核疫情特征分析[J].中華流行病學(xué)雜志,2015,36(8):871-874.
[5] 董選軍,賈偉娜.ARIMA時(shí)間序列和BP神經(jīng)網(wǎng)絡(luò)在傳染病預(yù)測(cè)中的比較[J].現(xiàn)代實(shí)用醫(yī)學(xué),2010,22(2):142-143.
[6] 嚴(yán)文娟,張晶,胡廣芹,等.BP神經(jīng)網(wǎng)絡(luò)用于肝炎患者舌診近紅外光譜的研究[J].光譜學(xué)與光譜分析,2010,30(10):2628-2631.
[7] WANG Y M,LI J,GU J Z,et al.Artificial neural networks for infectious diarrhea prediction using meteorologicalfactors in Shanghai[J].Applied Soft Computing,2015,35:280-290.
[8] SHAHROKH A,JAMAL S,PEYMAN A,et al.A new hybrid artificial neural networks for rainfall-runoff process modeling[J].Neurocomputing,2013,121:470-480.
[9] HUANG H X,LI J C,XIAO C L.A proposed iteration optimization approach integrating backpropagation neuralnetwork with genetic algorithm[J].Expert Systems with Applications,2015,42(1):146-155.
[10] PHOSSEINZADEH T.Multilayer perceptron with different training algorithms for stream flow forecasting[J].Neural Comput,2014,24(3-4):695-703.
[11] 鄭立華,李民贊,潘孌,等.基于近紅外光譜技術(shù)的土壤參數(shù)BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[J].光譜學(xué)與光譜分析,2008,28(5):1160-1164.
[12] 李云,穆衛(wèi)明,陸建方.肺結(jié)核發(fā)病率的灰色模型預(yù)測(cè)及時(shí)間趨勢(shì)分析[J].中華疾病控制雜志,2011,15(1):87-88.
[13] 尹志英,方春福.傳染病預(yù)警預(yù)測(cè)方法探討[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2010,27(2):218-220.
[14] 易靜,胡代玉,楊德香,等.三種預(yù)測(cè)模型在肺結(jié)核發(fā)病預(yù)測(cè)中的應(yīng)用[J].中國(guó)全科醫(yī)學(xué),2012,15(13):1495-1497.
[15] ALMEIDA J S.Predictive non-linear modeling of complex data by artificial neural networks[J].Current Opinion in Biotechnology,2002,13(1):72-76.
[16] 靳成娟,杜建,楊懷盛,等.中國(guó)人群肺結(jié)核發(fā)病危險(xiǎn)因素的薈萃分析[J].軍事醫(yī)學(xué),2014,38(5):355-359.
[17] 胡婧媛,蔣夢(mèng)姣,景元書(shū),等.基于神經(jīng)網(wǎng)絡(luò)的氣象條件對(duì)瀘州市肺結(jié)核發(fā)病率預(yù)測(cè)[J].科技通報(bào),2013,5:19-23.
[18] 李異凡,彭健,張陽(yáng)德.神經(jīng)網(wǎng)絡(luò)方法在醫(yī)學(xué)中的應(yīng)用[J].中國(guó)現(xiàn)代醫(yī)學(xué)雜志,2003,13(13):8-11.
(李科 編輯)
R181.2
B
10.3969/j.issn.1005-8982.2017.23.026
1005-8982(2017)23-0124-03
2016-06-06
河南省軟科學(xué)研究重點(diǎn)項(xiàng)目(No:102400440002);河南中醫(yī)學(xué)院科研苗圃工程項(xiàng)目(No:MP2014-07)
中國(guó)現(xiàn)代醫(yī)學(xué)雜志2017年23期