張春生,圖雅,李艷
(內(nèi)蒙古民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院通遼028043)
基于精簡二元矩陣的蒙醫(yī)方劑關(guān)聯(lián)規(guī)則挖掘*
張春生**,圖雅,李艷
(內(nèi)蒙古民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院通遼028043)
目的:目前關(guān)聯(lián)規(guī)則在中醫(yī)方劑數(shù)據(jù)挖掘方面的研究成果較多,而針對于蒙醫(yī)方劑的數(shù)據(jù)挖掘工作幾乎沒有展開。本文應(yīng)用基于精簡二元矩陣的Apriori算法對蒙醫(yī)方劑進(jìn)行數(shù)據(jù)挖掘,為新藥研制提供決策支持。方法:采用基于精簡二元矩陣的Apriori算法對蒙醫(yī)方劑治療“赫依病”的27種方劑進(jìn)行數(shù)據(jù)挖掘。結(jié)果:當(dāng)置信度為80%、支持度為60%時(shí),出現(xiàn)的高頻屬性分別是“沉香”、“肉豆蔻”、“鎮(zhèn)赫依”、“肉豆蔻-沉香”、“鎮(zhèn)赫依-肉豆蔻”,得到[肉豆蔻-->鎮(zhèn)赫依,0.83]、[沉香-->肉豆蔻,1.00]2個(gè)關(guān)聯(lián)規(guī)則。結(jié)論:應(yīng)用基于精簡二元矩陣的Apriori算法能夠快速發(fā)現(xiàn)蒙醫(yī)方劑中潛在的關(guān)聯(lián)規(guī)則和高頻藥物,對揭示蒙醫(yī)方劑的組方規(guī)律提供了一種新途徑。
二元矩陣蒙醫(yī)方劑關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)自產(chǎn)生以來無論在算法理論還是應(yīng)用研究方面得到了豐富的研究成果[1-7],關(guān)聯(lián)規(guī)則作為數(shù)據(jù)挖掘最經(jīng)典有效的方法,廣泛應(yīng)用于中醫(yī)方劑配伍規(guī)律研究工作中,特別是近幾年,中國的科學(xué)工作者在這些方面的研究成果較多。
朱習(xí)軍等[8]應(yīng)用Apriori改進(jìn)算法對哮喘病案進(jìn)行了數(shù)據(jù)挖掘;劉秋霞等[9]應(yīng)用關(guān)聯(lián)規(guī)則對國醫(yī)大師班秀文治療痛經(jīng)的用藥規(guī)律進(jìn)行了研究;周志煥等[10]應(yīng)用關(guān)聯(lián)規(guī)則對郁證古方用藥規(guī)律進(jìn)行了分析研究;崔樹娜等[11]應(yīng)用關(guān)聯(lián)規(guī)則對白細(xì)胞減少癥方藥規(guī)律進(jìn)行了分析研究;陳桂芬等[12]應(yīng)用關(guān)聯(lián)規(guī)則挖掘技術(shù)對《千金方》中養(yǎng)生方劑配伍規(guī)律進(jìn)行了相關(guān)研究;田茸等[13]應(yīng)用熵聚類與Apriori算法對脾虛型泄瀉用藥規(guī)律進(jìn)行了研究;郭慧娟等[14]應(yīng)用關(guān)聯(lián)規(guī)則對藏醫(yī)隆滯布?。X梗死)用藥規(guī)律進(jìn)行了研究;楊麗平等[15]應(yīng)用關(guān)聯(lián)規(guī)則對風(fēng)寒濕痹方劑用藥規(guī)律進(jìn)行了數(shù)據(jù)挖掘研究;吳宏赟等[16]對宋代頭痛外治方進(jìn)行了關(guān)聯(lián)規(guī)則挖掘;鄧亞楠等[17]應(yīng)用關(guān)聯(lián)規(guī)則法對慢性腎炎處方用藥規(guī)律進(jìn)行了相關(guān)研究工作。
從以上研究可以得出,關(guān)聯(lián)規(guī)則挖掘算法已經(jīng)廣泛應(yīng)用于中醫(yī)方劑數(shù)據(jù)挖掘的研究工作中。但在民族醫(yī)學(xué)研究方面的成果較少,在以上的論述中,郭慧娟等[14]少數(shù)學(xué)者對藏醫(yī)方劑配伍規(guī)律進(jìn)行了研究,而蒙醫(yī)方面的研究成果沒見涉獵。另外,目前的研究成果大多應(yīng)用經(jīng)典的Apriori算法實(shí)現(xiàn),沒有針對方劑的特點(diǎn)進(jìn)行算法改進(jìn),也沒有專門針對中醫(yī)方劑建立專門的數(shù)據(jù)挖掘系統(tǒng)。
本文采用基于精簡二元矩陣的Apriori算法對蒙醫(yī)方劑進(jìn)行數(shù)據(jù)挖掘。從孫逢嘯等[18]、劉敏嫻等[19]和胡維華等[20]的研究可以看出,基于精簡二元矩陣的Apriori算法將事務(wù)轉(zhuǎn)換成向量,將整個(gè)事務(wù)集轉(zhuǎn)換成二元矩陣,所有的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則都在矩陣中產(chǎn)生,整個(gè)過程只進(jìn)行一次數(shù)據(jù)庫掃描提高了系統(tǒng)的運(yùn)行效率。但基于精簡二元矩陣的Apriori算法的缺點(diǎn)是事務(wù)的數(shù)量和維度不能太大,以一次裝入內(nèi)存為閾值,否則適得其反。而蒙醫(yī)方劑的各類方劑中,方劑數(shù)量較中醫(yī)相比較少,用藥數(shù)量也非常有限,同時(shí)可按1項(xiàng)集出現(xiàn)的頻度對預(yù)處理矩陣進(jìn)行屬性約簡,這就使得事務(wù)集的二元矩陣很小,適合采用基于精簡二元矩陣的Apriori算法進(jìn)行數(shù)據(jù)挖掘。
本文采用適合于蒙醫(yī)方劑數(shù)據(jù)挖掘特點(diǎn)的基于精簡二元矩陣的Apriori算法對蒙醫(yī)方劑治療“赫依病”的27種方劑進(jìn)行了數(shù)據(jù)挖掘,得到了高頻藥物組和一些關(guān)聯(lián)規(guī)則,為蒙藥新藥的研制提供技術(shù)支持。
Apriori算法是最經(jīng)典、最實(shí)用的基于布爾關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法。其核心是基于兩階段頻集思想的遞推算法。Apriori關(guān)聯(lián)規(guī)則算法在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。
算法的基本思想是:首先找出所有的頻繁項(xiàng)集,這些項(xiàng)集出現(xiàn)的頻繁性至少大于等于最小支持度。然后由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些關(guān)聯(lián)規(guī)則必須滿足最小支持度和最小置信度。
針對一類病癥的蒙醫(yī)方劑,共有的藥物較少,相異的藥物較多,而相異的藥物往往不是高頻藥物的現(xiàn)實(shí),為簡化原始數(shù)據(jù)的復(fù)雜性,降低數(shù)據(jù)維度,需進(jìn)行屬性約減。本文基于精簡二元矩陣Apriori算法使用頻繁1項(xiàng)集作為初始二元矩陣,在此基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘。因此,預(yù)處理的主要工作就是尋找頻繁1項(xiàng)集。
根據(jù)支持度要求,掃描原始事務(wù)數(shù)據(jù)庫,找到高頻屬性。設(shè)原始方劑數(shù)據(jù)庫屬性集為U={R1,R2,…,Rn},事務(wù)集為T={T1,T2,…,Tm},支持度為C,屬性約減后的屬性集為u={r1,r2,…,rk}。
算法描述:
為提高算法的效率,采用精簡二元矩陣表示約減后的事務(wù)數(shù)據(jù)集。dim F[p][k],其中p為約減后的事務(wù)數(shù)量,k為約減后的屬性數(shù)量。精簡二元矩陣的行表示事務(wù)T,列表示約減后的屬性u,當(dāng)屬性值為1時(shí),表示當(dāng)前事務(wù)包含當(dāng)前事務(wù)屬性,當(dāng)屬性值為0時(shí),表示當(dāng)前事務(wù)不包含當(dāng)前事務(wù)屬性。
算法設(shè)計(jì):
1項(xiàng)集就是約減后的屬性集{r1,r2,…,rk}。
2項(xiàng)集以上項(xiàng)集生成算法,以二項(xiàng)集[ri][rj]為例,算法描述如下。
本文采用內(nèi)蒙古民族大學(xué)蒙醫(yī)藥學(xué)院奧·烏力吉教授和布和巴特爾教授編寫的《傳統(tǒng)蒙藥與方劑》中治療“赫依病”的方劑為例子,該類方劑共收錄27個(gè)方劑,共涉及藥物87味[21]。本文應(yīng)用基于精簡二元矩陣的Apriori算法對這27個(gè)方劑進(jìn)行關(guān)聯(lián)規(guī)則挖掘,尋找高頻藥物組和關(guān)聯(lián)規(guī)則。
數(shù)據(jù)預(yù)處理表明,若采用普通矩陣,矩陣維度為27*87,本文采用基于精簡二元矩陣的Apriori算法,預(yù)處理后的矩陣為27*6,數(shù)據(jù)量減少了93.1%,大大提高了數(shù)據(jù)挖掘效率。
文獻(xiàn)表明,關(guān)聯(lián)規(guī)則的可信度取決于高置信度,而對支持度的要求不一定太高,為了得到更多規(guī)則,本文的實(shí)驗(yàn)采用的置信度為80%,而支持度相對較低。
表1 實(shí)驗(yàn)環(huán)境
表2 支持度為30%時(shí)蒙醫(yī)方劑的關(guān)聯(lián)規(guī)則挖掘結(jié)果
5.1 實(shí)驗(yàn)環(huán)境與關(guān)聯(lián)規(guī)則挖掘
本文實(shí)驗(yàn)環(huán)境詳見表1。系統(tǒng)采用置信度80%,采用30%、40%、50%、60%4種支持度,應(yīng)用基于精簡二元矩陣的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,挖掘結(jié)果分別如表2、表3、表4、表5所示。
依據(jù)表2、表3、表4、表5,從關(guān)聯(lián)規(guī)則可信角度出發(fā),我們選擇置信度為80%、支持度為60%時(shí)的結(jié)果,出現(xiàn)的高頻屬性分別是“沉香”、“肉豆蔻”、“鎮(zhèn)赫依”、“肉豆蔻,沉香”、“鎮(zhèn)赫依,肉豆蔻”。而得到的關(guān)聯(lián)規(guī)則為[鎮(zhèn)赫依-->肉豆蔻,0.83]、[肉豆蔻-->鎮(zhèn)赫依,0.83]、[沉香-->肉豆蔻,1.00]。
從以上頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則來看,“鎮(zhèn)赫依”方劑中的高頻藥物是“肉豆蔻”,而“沉香”與“肉豆蔻”總結(jié)伴出現(xiàn),并且出現(xiàn)的頻率較高??偟膩碚f,“沉香”與“肉豆蔻”是鎮(zhèn)赫依的2種重要藥物,本結(jié)論供蒙醫(yī)方劑學(xué)學(xué)者參考。
本文在蒙醫(yī)方劑數(shù)據(jù)挖掘平臺上應(yīng)用基于精簡二元矩陣的Apriori算法對治療“赫依病”的27個(gè)方劑進(jìn)行了關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,發(fā)現(xiàn)“沉香”與“肉豆蔻”是鎮(zhèn)赫依的兩種出現(xiàn)頻率較高的藥物。這對蒙醫(yī)方劑配伍規(guī)律研究和新藥研制提供了決策支持。蒙醫(yī)方劑數(shù)據(jù)挖掘的研究工作對保護(hù)民族醫(yī)學(xué)的遺產(chǎn),對蒙醫(yī)藥研究和發(fā)展開辟了新的途徑,必將促進(jìn)蒙醫(yī)藥研發(fā)工作,具有一定的社會效益和經(jīng)濟(jì)價(jià)值。
表3 支持度為40%時(shí)蒙醫(yī)方劑的關(guān)聯(lián)規(guī)則挖掘結(jié)果
表4 支持度為50%時(shí)蒙醫(yī)方劑的關(guān)聯(lián)規(guī)則挖掘結(jié)果
表5 支持度為60%時(shí)蒙醫(yī)方劑的關(guān)聯(lián)規(guī)則挖掘結(jié)果
1李立波,白樹仁,陳磊,等.基于不確定數(shù)據(jù)的可能頻繁閉序列模式挖掘.計(jì)算機(jī)應(yīng)用研究,2016,33(4):983-988.
2馬昱欣,曹震東,陳為.可視化驅(qū)動的交互式數(shù)據(jù)挖掘方法綜述.計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2016,28(1):1-8.
3張忠林,田苗鳳,劉宗成.大數(shù)據(jù)環(huán)境下關(guān)聯(lián)規(guī)則并行分層挖掘算法研究.計(jì)算機(jī)科學(xué),2016,43(1):286-289.
4劉衛(wèi)明,蒯海龍,陳志剛,等.基于有序樹的不確定數(shù)據(jù)最大頻繁項(xiàng)挖掘算法.計(jì)算機(jī)工程與應(yīng)用,2015,51(24):145-149.
5萬琳,范秋靈.面向軟件缺陷數(shù)據(jù)的負(fù)關(guān)聯(lián)規(guī)則挖掘方法.微電子學(xué)與計(jì)算機(jī),2015,32(4):50-55.
6唐曉東.基于關(guān)聯(lián)規(guī)則映射的生物信息網(wǎng)絡(luò)多維數(shù)據(jù)挖掘算法.計(jì)算機(jī)應(yīng)用研究,2015,32(6):1614-1616,1620.
7劉浩然,劉方愛,李旭,等.有效的不確定數(shù)據(jù)概率頻繁項(xiàng)集挖掘算法.計(jì)算機(jī)應(yīng)用,2015,35(6):1757-1761,1784.
8朱習(xí)軍,陳亞楠,董國華.Apriori改進(jìn)算法在哮喘病案數(shù)據(jù)挖掘中的應(yīng)用.徐州工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2015,30(3):8-14.
9劉秋霞,蔣祖玲,戴銘,等.基于關(guān)聯(lián)規(guī)則的國醫(yī)大師班秀文治療痛經(jīng)的用藥規(guī)律研究.廣西中醫(yī)藥,2015,38(3):58-60.
10周志煥,高樹明,高杉,等.基于關(guān)聯(lián)規(guī)則的郁證古方用藥規(guī)律分析.天津中醫(yī)藥,2015,32(3):176-189.
11崔樹娜,胡雪琴,溫先榮.基于關(guān)聯(lián)規(guī)則挖掘的白細(xì)胞減少癥方藥規(guī)律分析.中國中醫(yī)藥圖書情報(bào)雜志,2014,38(1):23-26.
12陳桂芬,周常恩,李德森.基于關(guān)聯(lián)規(guī)則挖掘技術(shù)對《千金方》中養(yǎng)生方劑配伍規(guī)律研究.長江大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,11(36):208-212.
13田茸,段永強(qiáng),馬雪嬌,等.基于熵聚類與Apriori算法的脾虛型泄瀉用藥規(guī)律研究.中國中醫(yī)藥信息雜志,2016,18(4):43-46.
14郭慧娟,任小巧,毛萌,等.基于關(guān)聯(lián)規(guī)則的藏醫(yī)隆滯布病(腦梗死)用藥規(guī)律研究.世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2016,18(4):594-599.
15楊麗平,孔繁飛,楊陽,等.基于數(shù)據(jù)挖掘的風(fēng)寒濕痹方劑用藥規(guī)律研究.中國中醫(yī)藥信息雜志,2015,22(3):44-47.
16吳宏赟,張繼偉.宋代頭痛外治方關(guān)聯(lián)規(guī)則淺析.中國中醫(yī)急癥, 2015,24(8):1365-1366,1388.
17鄧亞楠,李獻(xiàn)平,余學(xué)杰,等.用關(guān)聯(lián)規(guī)則方法研究慢性腎炎處方用藥規(guī)律.中華中醫(yī)藥雜志,2014,29(9):2810-2813.
18孫逢嘯,倪世宏,謝川.一種基于矩陣的Apriori改進(jìn)算法.計(jì)算機(jī)仿真,2013,30(83):245-249.
19劉敏嫻,馬強(qiáng),寧以風(fēng).基于頻繁矩陣的Apriori算法改進(jìn).計(jì)算機(jī)工程與設(shè)計(jì),2012,33(11):4235-4239.
20胡維華,馮偉.基于分解事務(wù)矩陣的關(guān)聯(lián)規(guī)則挖掘算法.計(jì)算機(jī)應(yīng)用,2014,34(S2):113-116.
21奧·烏力吉,布和巴特爾.傳統(tǒng)蒙藥與方劑.赤峰:內(nèi)蒙古科學(xué)技術(shù)出版社,2013.
TheAssociating RulesofM ongolian M edical Prescriptions Based on Reduced Binary M atrix
Zhang Chunsheng,Tu Ya,LiYan
(CollegeofComputerScienceand Technology,InnerMongolia University forNationalities,Tongliao 028043,China)
The associating rules have been widely used in traditional Chinesemedical(TCM)prescription datamining research work,whileMongolianmedical prescription dataminingwork hardly carried out.In this study,Apriorialgorithm based on reduced binarymatrixwas adopted for the datamining ofMongolianmedical prescriptionswith the provision of the decision support for research and development of new drugs.Twenty-seven Mongolianmedical prescriptions for He Yi disease were involved in the datamining with Apriori algorithm based on reduced binary matrix.Itwas found that Aquilaria agallocha,Myristica fragrans,Zhen He Yi,or Aquilaria agallocha combined with Myristica fragrans,or Zhen He Yi combined with Myristica fragranswere determined as the Mongolian drugs frequently used in He Yi disease,with 80%confidence level and 60%support,and two algorithmswere output,[Myristica fragrans-->Zhen He Yi,0.83]and [Aquilaria agallocha-->Myristica fragrans,1.00].In conclusion,some potential associating rules and drugs with high frequency in the Mongolian medical prescriptions can be fastmined using Apriori algorithm based on reduced binary matrix,providing a new way forunveiling themedication rulesofMongolianmedicalprescriptions.
Binarymatrix,Mongolianmedical prescriptions,associating rules,datamining
10.11842/wst.2017.02.028
TP311
A
(責(zé)任編輯:朱黎婷,責(zé)任譯審:朱黎婷)
2016-12-01
修回日期:2017-01-06
*國家自然科學(xué)基金委地區(qū)科學(xué)基金項(xiàng)目(81460656):蒙醫(yī)方劑數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究,負(fù)責(zé)人:張春生。
**通訊作者:張春生,教授,主要研究方向:數(shù)據(jù)庫、數(shù)據(jù)挖掘、軟件理論研究。