周珍 貴州師范大學(xué)
面向苗藥藥性挖據(jù)的貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)方法研究
周珍 貴州師范大學(xué)
苗族文字的缺失造成苗藥藥性缺失,從而影響苗藥規(guī)范研制、科學(xué)用藥。苗藥大數(shù)據(jù)為苗藥藥性缺失問題提供了新的思路。本文針對苗藥藥性參數(shù)統(tǒng)計問題提出了貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)方法。
苗藥 藥性 貝葉斯網(wǎng)絡(luò)
苗藥作為一種民族醫(yī)藥,是苗族人民在其生存環(huán)境中,與疾病作斗爭所產(chǎn)生和形成的的醫(yī)藥,是苗族人民傳統(tǒng)用于預(yù)防、治療和保健的天然藥物。苗藥的藥性是苗藥的核心和基礎(chǔ),是對苗藥在人體使用后所產(chǎn)生的各種醫(yī)療作用和效果的高度概括,是指導(dǎo)苗藥在臨床試驗中的重要依據(jù)。因此,對于研究苗藥的藥性問題是必不可少的,對于苗藥的藥性進行分析可以提高苗藥在臨床上的使用,可以減少苗藥在使用時的錯誤判斷。苗藥的藥性問題是先在研究苗藥的一個重要方向。
對于苗藥藥性分析,采用貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)方法來得到苗藥的藥性,在給定苗藥的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的前提下,如何利用給定樣本數(shù)據(jù)去學(xué)習(xí)網(wǎng)絡(luò)的參數(shù)的概率分布,即更新網(wǎng)絡(luò)變量原有的先驗分布。獲得網(wǎng)絡(luò)結(jié)構(gòu)的各節(jié)點的概率以及條件概率,從而得到貝葉斯網(wǎng)絡(luò)的參數(shù)。在完備數(shù)據(jù)集下,我們可以從樣本中直接學(xué)習(xí)出網(wǎng)絡(luò)的參數(shù),并且現(xiàn)在已有成熟的解決方法了,如完整數(shù)據(jù)的網(wǎng)絡(luò)最大似然估計、貝葉斯估計等。然而在實際的貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)過程中,樣本常常發(fā)生數(shù)據(jù)丟失的現(xiàn)象,這使得現(xiàn)有的學(xué)習(xí)算法無法直接從樣本中學(xué)習(xí)出貝葉斯網(wǎng)絡(luò)的參數(shù)。研究者已經(jīng)提出了一些解決方法,這些方法都是基于梯度優(yōu)化或者EM算法去學(xué)習(xí)缺失數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)參數(shù)。EM算法作為一種能夠處理缺失數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)的經(jīng)典算法,但是EM算法仍然有易于收斂到局部最優(yōu)和收斂速度慢的缺點。特別對于樣本數(shù)據(jù)大的參數(shù)學(xué)習(xí)問題,EM算法巨大的計算復(fù)雜度使其很難運用到實際問題上。
本文主要針對有缺失的數(shù)據(jù),改進EM算法,使得在進行參數(shù)學(xué)習(xí)時能夠避免EM算法所存在的缺點。因此提出了利用大數(shù)據(jù)進行的分布式EM算法,為我解決苗藥藥性貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)學(xué)習(xí)提供新的思路。
通過此參數(shù)學(xué)習(xí)算法,我們可以得到苗藥分析貝葉斯網(wǎng)絡(luò)的參數(shù)統(tǒng)計結(jié)果,為苗藥的參數(shù)統(tǒng)計提供了好的方法。
[1]李曉毅,徐兆棣,孫笑微.貝葉斯網(wǎng)絡(luò)的參數(shù)研究[J].沈陽農(nóng)業(yè)大學(xué)學(xué)報,2007-02,38(1):125-128
[2]張連文,郭海鵬.貝葉斯網(wǎng)絡(luò)引論[M].科學(xué)出版社,2006
[3]Cooper G F,Herskovits E.A bayesian method for the induction of probabilistic networks from data[J]. Machine Learning,1992,9(4):300-347
[4]Heckerman D. A tutorial on learning bayesian networks[J]. In M.I.Jodan, Learning in Graphical Models,1998
[5]Binder J,Koller D,Russell S,et al.Kanazawa adaptive probabilistic networks with hidden variables[J]. Machine Learning ,1997,29(2-3):213-244
[6]Lauritzen S L. The EM algorithm for graphical association models with missing data[J]. Computational Statistics and Data Analysis, 1995,19(2):19-201