鐘春梅
(福州大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院 福州 350108)
支氣管炎是十大就醫(yī)疾病之一,是臨床上比較常見的疾?。?]。支氣管炎對患者所帶來的危害非常巨大,嚴重時會導(dǎo)致癌癥的出現(xiàn),并且還會誘發(fā)一些呼吸系統(tǒng)疾病,甚至有可能發(fā)展為肺心病。目前,對于支氣管炎的診斷一般都是基于臨床的一些表現(xiàn)癥狀,并沒有標準的診斷指標以及一些特異的實驗室檢查項目以供診斷。但是,隨著科學(xué)技術(shù)的快速發(fā)展,越來越多學(xué)者開始結(jié)合數(shù)學(xué)和計算機的方法來對支氣管炎病癥進行研究,不斷地提高診斷的精度和速度[2]。程留惠[3]等利用回顧性分析的方法探討雙源CT結(jié)合氣道重建技術(shù)來對支氣管炎進行診斷,得到支氣管炎的診斷模型;董志明[4]等通過回顧性分析10 例經(jīng)臨床或病理證實的DPB 的CT 影像學(xué)資料,并利用HRCT 對支氣管炎進行診斷得到支氣管炎的診斷模型,等等。
樸素貝葉斯算法是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法[5~15]。對于給定的訓(xùn)練數(shù)據(jù)集,首先基于特征條件假設(shè)學(xué)習(xí)輸入、輸出的聯(lián)合概率分布;然后基于此模型,對于給定的輸入,利用貝葉斯定理求出后驗概率最大的輸出。因此,為了有效提高支氣管炎疾病在診斷中的精度和速度,本文通過對某支氣管炎交流群的支氣管炎患者進行問卷調(diào)查得到98 位支氣管炎患者的數(shù)據(jù),隨機選取30 名患者的數(shù)據(jù),結(jié)合其支氣管炎類型進行離散化處理,學(xué)習(xí)到支氣管炎類型與病癥癥狀的模型。最后,基于此模型,利用樸素貝葉斯算法求出該模型的最大后驗概率分布,從而確定患者所屬的支氣管炎類型。
下面給出樸素貝葉斯算法的流程:
輸出:實例x的分類。
1)計算先驗概率:
2)計算條件概率:
3)對于給定的實例x=(x(1),x(2),…,x(n))T,計算后驗概率:
4)確定實例x的類:
本節(jié)將隨機選取30 名患者的數(shù)據(jù)來構(gòu)建支氣管炎的診斷模型,下面分別以發(fā)病的性質(zhì)(x(1))、是否具有支氣管炎和慢性咳嗽咳痰的病史(x(2))、胸悶或胸痛(x(3))、咳嗽及咳痰持續(xù)時長(x(4))、身體發(fā)熱(x(5))、每年發(fā)病持續(xù)時長(x(6))、患病的病程(x(7))、喘息程度(x(8))、打噴嚏程度(x(9))作為特征;急性支氣管炎(c1)、慢性支氣管炎(c2)、毛細支氣管炎(c3),Y ∈C={c1,c2,c3}作為支氣管炎病癥類型的類標記,建立支氣管炎診斷模型,如表1所示。
表1 支氣管炎診斷模型
根據(jù)問卷調(diào)查結(jié)果,對表1 的支氣管炎診斷模型的數(shù)據(jù)進行離散化處理,獲得如表2 的離散化支氣管炎診斷模型。
表2 離散化的支氣管炎診斷模型
下面根據(jù)樸素貝葉斯算法對表2 調(diào)用Matlab程序計算出模型的先驗概率及條件概率,如表3 所示。
若給定X={X(1)=1,X(2)=1,X(3)=3,X(4)=2,X(5)=3,X(6)=1,X(7)=1,X(8)=1,X(9)=1,}時,則其相應(yīng)的后驗概率分別如下:
表3 模型的先驗概率及條件概率
即表明:若患者的表現(xiàn)出的特征為:x(1)為急、x(2)為不清楚、x(3)為經(jīng)常、x(4)為2~3 周、x(5)為經(jīng)常、x(6)為小于1 個月、x(7)為小于1 年、x(8)為基本不、x(9)為基本不時,可推斷出患者所患的支氣管炎類型為急性支氣管炎。
樸素貝葉斯算法是一種簡單且高效的分類方法,它廣泛應(yīng)用于數(shù)據(jù)挖掘、模式識別等領(lǐng)域。通過構(gòu)建支氣管炎診斷模型,利用樸素貝葉斯算法求解模型的最大后驗概率分布,確定患者所屬的支氣管炎病癥類型。由于醫(yī)患之間存在著不可避免的主觀因素影響了信息的采集,因此難免會存在一定的缺陷,但該方法仍為支氣管炎疾病的診斷研究開拓了新思路,醫(yī)生們根據(jù)本文的研究成果,不僅可以降低在診斷中出現(xiàn)誤診和漏診的幾率,而且還能夠提升診斷的速度和精度。此外,本文的研究方法對其他疾病的診斷研究具有一定的參考價值。