黃偉 肖厚波
摘要:本文簡述了智能診病系統(tǒng)的發(fā)展,簡單介紹了智能診病系統(tǒng),指出了它的一些局限性,并且介紹了Naive Bayesian算法的原理,提出了以該算法為基礎(chǔ)的改進(jìn)方案。
關(guān)鍵詞:智能診病;人工智能;專家系統(tǒng);知識庫;推理機;Naive Bayesian算法
中圖分類號:TH165.3 文獻(xiàn)識別碼:A 文章編號:1001-828X(2017)009-0-01
一、智能診病系統(tǒng)的發(fā)展
人工智能是現(xiàn)今最尖端的技術(shù)之一,近三十年來,人工智能發(fā)展迅速,在很多領(lǐng)域都得到了廣泛的應(yīng)用。專家系統(tǒng)是人工智能重要的一個分支,它通過一個或多個專家提供的專業(yè)領(lǐng)域知識,模擬人類專家解決那些需要專業(yè)領(lǐng)域知識才能完成的問題。1965年,美國斯坦福大學(xué)研制出了DENRAL系統(tǒng),該系統(tǒng)具有豐富的化學(xué)知識,能幫助化學(xué)家推斷出分子的結(jié)構(gòu)。DENRAL系統(tǒng)的完成標(biāo)志著專家系統(tǒng)的誕生。20世紀(jì)70年代初, NTERNIST系統(tǒng)在匹茲堡大學(xué)問世,這是第一個用于醫(yī)療的內(nèi)科病診斷咨詢系統(tǒng)。同一時期,一款能夠幫助普通內(nèi)科醫(yī)生診治細(xì)菌感染性疾病的專家系統(tǒng)MYCIN也在斯坦福大學(xué)出世,這兩款專家系統(tǒng)的成功激發(fā)了智能診病系統(tǒng)的開發(fā)熱潮,國內(nèi)外都開始往這方面投入大量的人力物力。到21世紀(jì)初,智能診病系統(tǒng)已經(jīng)相對成熟。
二、智能診病系統(tǒng)
智能診病系統(tǒng)以基于規(guī)則的方式來構(gòu)建系統(tǒng),它主要將系統(tǒng)分為知識庫和推理機兩部分,知識庫中存儲著各種醫(yī)學(xué)知識的集合,包含從書本中知識,以及醫(yī)學(xué)專家的知識和經(jīng)驗,而推理機根據(jù)用戶提供的有效信息,來決定所使用的推理規(guī)則,通過從知識庫中獲取的相關(guān)知識進(jìn)行推理判斷,從而得出最終的結(jié)論。推理分為精確推理和不精確推理,精確推理根據(jù)條件和結(jié)論之間的必然性,得出的結(jié)果是肯定的,不精確推理:在條件不足的情況下,得到的假設(shè)不能被完全證實,這個時候為每個假設(shè)賦予一個權(quán)值來表明這個假設(shè)的可信度,通過這些假設(shè)進(jìn)行下一步推理,可能會得到多個不同的結(jié)論,以可信度最高的結(jié)論作為最終結(jié)論。
三、智能診病系統(tǒng)的缺點
難以得到足夠知識和規(guī)則填充知識庫,智能診病系統(tǒng)做為基于規(guī)則的專家系統(tǒng),需要以大量知識和醫(yī)學(xué)專家規(guī)則作為基礎(chǔ),才能夠準(zhǔn)確地診斷病人的病情,這就需要大量的醫(yī)學(xué)專家和知識工程師的參與才能夠?qū)崿F(xiàn)。
缺乏學(xué)習(xí)能力,跟一般的基于規(guī)則的專家系統(tǒng)一樣,智能診病系統(tǒng)不具備從診病過程中提取經(jīng)驗進(jìn)行學(xué)習(xí)的能力,只會依循本來就存在的規(guī)則和知識進(jìn)行推理判斷,更新知識庫,添加規(guī)則些工作仍然需要知識工程師來完成。
Naive Bayesian算法:
Na?ve Bayesian 算法能夠較好地對事物進(jìn)行分類,具有結(jié)構(gòu)簡單,計算高效等特點,是分類算法中最經(jīng)典,最有影響力的算法之一。Na?ve Bayesian算法首先需要通過訓(xùn)練樣本計算出先驗概率,在此基礎(chǔ)上,計算一個待分類的后驗概率。下面是Na?ve Bayesian 算法的定義,對于一個待分類的事物x,設(shè):
1.x有{a1,a2,a3,……an}這樣一個屬性集,每個a都是x的一個特征屬性。
2.有{y1,y2,y3,……ym}這樣一個類別集合,每個y代表一個類別。
3.分別計算P(y1|x),P(y2|x),P(y3|x),…..,P(ym|x)的概率。
4.如果有P(yi|x) >= P(yj|x)(j屬于1~n),則事物x屬于類型yk。
在這里,我們稱P(yi|x)為后驗概率,根據(jù)貝葉斯定理,P(yi|x) = P(x|yi)P(yi)/p(x)。
由于對于所有的后驗概率,都需要除以P(x),所以在這里我們可以將P(x)忽略,只求出最大的P(x|yi)P(yi)即可。P(x|yi)P(yi) = P(a1|yi)P(a2|yi)P(a3|yi)…P(an|yi)P(yi),其中P(aj|yi)和P(yi)我們都需要通過樣本數(shù)據(jù)進(jìn)行計算:
1.設(shè)有樣本集{x1,x2,…xn},每個樣本有一個屬性集a其中包含若干屬性。
2.有{y1,y2,…ym}這樣一個類別集合。
3.P(yi)為樣本中類別yi的個數(shù)/樣本總數(shù)。
4.P(aj|yi)為樣本中類別yi中含有aj屬性的個數(shù)/類別中yi的個數(shù)。
通過Naive Bayesian算法對智能診病系統(tǒng)的改進(jìn):
由于知識庫中知識量和規(guī)則的限制,智能診病系統(tǒng)可能會出現(xiàn)無法準(zhǔn)確判斷用戶病情的狀況,通過Na?ve Bayesian算法可以有效地改善這一情況。一個人患病的原因會跟他平時的生活環(huán)境,生活習(xí)慣還有家族遺傳有很大的關(guān)系,由此,我們可以將生活環(huán)境,生活習(xí)慣和家族遺傳作為特征屬性,建立一個輔助診斷病情的Navie Bayesian分類器。算法的訓(xùn)練樣本通過記錄每個精確推理確診的患者的生活環(huán)境,生活習(xí)慣,家族遺傳等屬性信息取得,通過不斷地增加訓(xùn)練樣本,Navie Bayesian分類器的準(zhǔn)確性不斷提升,從而提升智能診斷系統(tǒng)的不精確推理能力。
參考文獻(xiàn):
[1]Liu H, Motoda H. Feature selection for knowledge discovery and data mining[M].Springer Science&Business Media, 2012.
[2]Pang-Ning Tan, Michael Steinbach, Vipin Kumar.數(shù)據(jù)挖掘?qū)д摚ㄖ形陌妫M].范明,范宏建,等,譯.北京:人民郵電出版社,2011:139-141.
作者簡介:黃 偉(1981-),男,瑤族,湖南花垣人,講師,主要從事計算機科學(xué)研究。
肖厚波(1994-),男,漢族,湖南郴州人,本科在讀,主要從事軟件工程研究。
基金項目:吉首大學(xué)科研論文項目,項目編號:JSU-CX-2015- 98。