• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于TF-IDF算法的方劑構(gòu)成相似度可視化研究

      2019-09-02 13:58:27郭文龍羅熊姜惠娟謝永紅陳茂建
      中國中醫(yī)藥信息雜志 2019年7期
      關(guān)鍵詞:相似度方劑可視化

      郭文龍 羅熊 姜惠娟 謝永紅 陳茂建

      摘要:目的? 構(gòu)建中藥方劑數(shù)據(jù)挖掘系統(tǒng),直觀反映方劑屬性及方劑之間的相似度,為方劑研究及應用提供參考。方法? 應用爬蟲框架和手工錄入方式獲取一定數(shù)量的經(jīng)典方劑,采用中文分詞工具和手工整理方式對方劑信息進行名稱、功能、來源、中藥組成、劑量、劑量單位、炮制方法、忌宜、主治等屬性拆分,構(gòu)造語料詞庫,Python3.5環(huán)境下采用TF-IDF算法計算方劑間相似度并進行功能主治驗證,采用d3.js進行可視化展示。結(jié)果? 經(jīng)過分詞和手工整理得到不同類型方劑7710首,包含藥物8957味,構(gòu)建的中藥方劑數(shù)據(jù)挖掘系統(tǒng)實現(xiàn)了相似度和方劑構(gòu)成等信息可視化展示。同時,相似度高的方劑在功能主治方面具相似性。結(jié)論? 本研究構(gòu)建的中藥方劑數(shù)據(jù)挖掘系統(tǒng)可直觀展示方劑信息、方劑與藥物間的關(guān)聯(lián)關(guān)系及方劑之間的相似度。

      關(guān)鍵詞:方劑;TF-IDF算法;相似度;可視化;中藥方劑數(shù)據(jù)挖掘系統(tǒng)

      中圖分類號:R289.1;R2-05??? 文獻標識碼:A??? 文章編號:1005-5304(2019)07-0104-05

      Abstract: Objective To construct a data mining system for TCM prescriptions; To visually reflect the prescription properties and similarity between prescriptions; To provide references for research and application of prescriptions. Methods A reptile framework and manual entry method were used to obtain a certain number of classical prescriptions. The Chinese word segmentation tool and the manual finishing method were used for splitting the information of prescriptions according to the name, function, source, TCM composition, dosage, dosage unit, processing method, contraindication and indication. The corpus was constructed. In Python 3.5 environment, the TF-IDF algorithm was used to calculate the similarity between prescriptions and to perform functional indication verification, and d3.js was used for visual display. Results Through word segmentation and manual finishing, 7710 kinds of prescriptions of various types were obtained, including 8957 kinds of Chinese materia medica. The constructed TCM prescription data mining system realized information visualization of similarity and prescription composition. At the same time, prescriptions with high similarity were similar in terms of functional indications. Conclusion The TCM prescription data mining system constructed in this study can visually display the relationship between the prescription information, the prescription and the Chinese materia medica, and the similarity between the prescriptions.

      Keywords: prescriptions; TF-IDF algorithm; similarity; visualization; TCM prescription data mining system

      部分中藥方劑包含的藥物數(shù)據(jù)非常相似,組成藥物僅有微小差別,總體成分大致相同。這些相似方劑在治療某一種或某一類病證時的功效存在某種潛在聯(lián)系。從所有的方劑中找出與之相似的方劑可提供用藥的多維度參考[1]。因此,通過方劑的相似性分析可較好挖掘其相似關(guān)系。目前中藥方劑相似度模型主要從成分和功效兩方面進行相似性分析。

      本研究在Python3.5環(huán)境下應用TF-IDF(term frequence-inverse document frequence)算法進行方劑相似性的計算,把所有方劑看作一個方劑集合整體,每一方劑的藥物構(gòu)成看作關(guān)鍵詞,并構(gòu)造詞庫,計算TF-IDF值后,依照系數(shù)矩陣計算相似性。構(gòu)建中藥方劑數(shù)據(jù)挖掘系統(tǒng),直觀反映方劑屬性及方劑之間的相似度,為方劑研究及應用提供參考。

      1? 方劑相似度計算方法

      不同研究者從多角度進行了方劑的相似度研究,取得了一定成績。操牡丹等[2]在《中醫(yī)藥方劑近似度模型》中提出基于字符串的方劑名稱的相似度計算,分別應用基于編輯距離的算法、基于最大公共字符串的算法和基于統(tǒng)計和字典的名稱相似度算法,在方劑名稱層面進行研究。黃運高等[3]在《基于K-means和TF-IDF的中文藥名聚類分析》中使用TF-IDF方法計算藥名相似的方法并采用K-means聚類算法進行藥名的聚類。朱志鵬等[4]在《基于LDA主題模型的中醫(yī)藥方劑相似度計算》中利用LDA主題模型發(fā)掘“方劑-證型-組成成分”的隱含關(guān)系的方法,將“方劑-組成成分”轉(zhuǎn)換成“方劑-證型”和“證型-組成成分”2個概率分布,并利用KL距離來計算相似度,但由于在LDA主題模型中馬氏鏈的平穩(wěn)狀態(tài)需要迭代多少次才能到達卻很難確定,所以迭代次數(shù)只能依賴人為設置。顧錚[5]《基于文本分類技術(shù)計算中醫(yī)方劑相似度》利用自然語言處理領域的知識,基于KNN算法,計算方劑相似度,而KNN算法中K值的選擇直接影響計算結(jié)果。

      本研究從方劑的藥物組成層面,在計算過程中根據(jù)藥物的重要程度依照TF-IDF算法賦予其權(quán)值,在給定方劑集合中計算與某一首方劑相似度高的其他方劑。

      2? 基于TF-IDF算法的方劑藥物構(gòu)成相似度計算原理

      TF-IDF主要應用于搜索、文獻分類、網(wǎng)絡信息相關(guān)性的分析和其他相關(guān)領域[6-7]。

      本研究把每首方劑看作由中藥名稱構(gòu)成的關(guān)鍵詞的集合,即1首方劑包含n個關(guān)鍵詞w1,w2,…,wn,其在1首特定方劑中的詞頻分別是tf1,tf2,…,tfn。TF計算公式如下:

      ni,j是該關(guān)鍵詞在所有方劑dj中的出現(xiàn)次數(shù),而分母則是在所有方劑dj中所有字詞的出現(xiàn)次數(shù)之和。

      如果作為關(guān)鍵詞w的一種中藥在Dw首方劑中出現(xiàn),Dw的值越大,藥物w在方劑中區(qū)別于其他方劑的作用就越小。如甘草是很多的方劑中的組成藥物,出現(xiàn)的頻率非常高,但是它在方劑中的區(qū)分度貢獻小。因此,可以給方劑中的每種藥物賦予一定的權(quán)重,如果它很少在方劑中出現(xiàn),通過比較可以較容易找到相似方劑,在方劑中用于區(qū)別其他方劑的作用大,其權(quán)重也就越大,反之其權(quán)重越小。

      IDF逆向文本頻率指數(shù)是信息檢索中應用最多的權(quán)重計算方法,同樣可以使用到中藥方劑中藥物的計算。計算公式如下:

      | D|:語料庫中的方劑總數(shù)

      |{j:t∈dj}|:包含藥物ti的文件數(shù)目(即ni,,j≠0的文件數(shù)目)如果該藥物不在語料庫中,就會導致被除數(shù)為零,因此一般情況下使用1+|{j:t∈dj}|

      假定方劑數(shù)量D=1000首,若甘草在所有方劑中均出現(xiàn),則其idf=log(1000/1000)=log(1)=0,若當歸在20首方劑中出現(xiàn),則其idf=log(1000/20)= log(50)=1.698 97。

      因此,采用TF-IDF=tfi×idfi的值可評價某種中藥組成在某首方劑中的重要程度。計算某首方劑所有組成的tf×idf和sim,從而評價方劑之間的相似性。

      上述相似度計算公式可有以下tf×idf的和,即:

      依據(jù)以上公式,可把1首方劑分解成關(guān)鍵詞集合,然后在所有的方劑中計算這些關(guān)鍵詞的tf×idf的和,從而找出相似度高的方劑。

      3? 應用計算過程

      方劑相似度的計算及中藥方劑數(shù)據(jù)挖掘系統(tǒng)構(gòu)建流程見圖1,其對象模型空間關(guān)聯(lián)關(guān)系見圖2。

      3.1? 數(shù)據(jù)收集

      數(shù)據(jù)集包括方劑表、中藥表和方劑中藥關(guān)系表。經(jīng)過分詞和手工整理得到不同類型方劑7710首,包含藥物8957味,方劑表、中藥表和方劑中藥關(guān)系表的關(guān)聯(lián)見圖3。

      3.2? 計算過程

      1首方劑的藥物組成可看做由若干個關(guān)鍵字構(gòu)成的整體,每味藥物的名稱即為1個關(guān)鍵字。

      用集合p={chm1,chm2,chm3,…,chmi}表示方劑p由i個藥物chmk組成。其中chmk是經(jīng)過分詞和相關(guān)處理形成的中藥名稱,因此,可避免語義方面引入的處理問題,降低了難度。如方劑小青龍湯p=

      {麻黃,芍藥,細辛,干姜,甘草,桂枝,五味子,半夏}。

      3.3? 方劑組成元素的分解

      首先把每一方劑分解成若干個關(guān)鍵字,并構(gòu)成[[杏仁,甘草,桂枝,麻黃,生姜,大棗,石膏],[附子,芍藥,甘草],[麻黃,芍藥,細辛,干姜,甘草,桂枝,五味子,半夏],[前胡,柴胡,知母,貝母,牡丹皮,桔梗,羌活,獨活,荊芥穗,黃芩,山茵陳,山梔,升麻,麻黃,大黃,麥門冬,杏仁,紫菀,玄參,秦艽],[柴胡,黃芩,人參,半夏,甘草,生姜,大棗],……]方劑集合。

      3.4? 詞頻統(tǒng)計

      把方劑分解的結(jié)果合并到一起,并統(tǒng)計各組成藥物的頻次。部分統(tǒng)計結(jié)果見表1。

      3.5? 計算TF-IDF和相似度

      從以上的統(tǒng)計結(jié)果中可以看出,甘草在中藥方劑中的應用頻次最高,但在方劑中的重要程度并不是最高,適合使用TF-IDF計算其重要程度。計算每一方劑中的所有方劑中藥組成的tf×idf的和。

      如抽取方劑小青龍湯與所有方劑一一計算相似度。在500首方劑中計算與小青龍湯的相似度高的方劑,小青龍湯的組成是{麻黃,芍藥,細辛,干姜,甘草,桂枝,五味子,半夏},在500首方劑中的頻次分別是{41,18,33,35,181,7,36,60},即以{麻黃,芍藥,細辛,干姜,甘草,桂枝,五味子,半夏}為關(guān)鍵字分別在500首方劑中計算相關(guān)性。

      4? 結(jié)果分析

      得出的相似度結(jié)果中,以大青龍湯為例,對與其相似度較高的桂枝加芍藥湯、麻桂各半湯、小柴胡湯、杏子散、麻黃湯、小青龍湯、溫肺湯、麥湯散、百部丸、保真湯等,從主治功能方面進行分析驗證。結(jié)果見表3。

      結(jié)果表明,與大青龍湯相似度高的方劑在功能與主治方面有較高相似性,主治風寒引起的發(fā)熱、頭身疼痛、肺熱等證,而且麻黃湯、小青龍湯同屬辛溫解表方。因此,應用TF-IDF進行方劑計算有實用價值。

      5? 可視化展示

      構(gòu)建中藥方劑數(shù)據(jù)挖掘系統(tǒng),應用d3.js可視化技術(shù)對以上計算的方劑相似度結(jié)果和方劑構(gòu)成進行可視化展示,顯示與某一方劑相似度較高的若干方劑、方劑的構(gòu)成、方劑的信息和組成中藥相關(guān)信息,見圖4。

      在中藥方劑數(shù)據(jù)挖掘系統(tǒng)界面左側(cè)的方劑列表或方劑欄目中選擇某首方劑(如核桃承氣湯)作為輸入,得到的結(jié)果以橫向柱狀圖形式直觀展示了與方劑核桃承氣湯相似性高的方劑名和相似度值,見圖5。與核桃承氣湯相似度較高的方劑有厚樸七物湯(30.83%)、溫脾湯(24.81%)、小承氣湯相(23.71%)、三化湯(20.54%)、苓桂術(shù)甘湯(20.52%)、麻黃湯(15.92%)等。

      6? 小結(jié)

      本研究從藥物構(gòu)成研究方劑,應用TF-IDF算法實現(xiàn)了中藥方劑相似度的計算,結(jié)果精確度較高。構(gòu)建的中藥方劑數(shù)據(jù)挖掘系統(tǒng)可直觀展示方劑信息、方劑與藥物間的關(guān)聯(lián)關(guān)系及方劑之間的相似度,并通過可視化框架進行表達,推薦相似度高的方劑。數(shù)據(jù)分析應用Python3.5實現(xiàn),可視化應用d3.js實現(xiàn)。但研究維度相對單一,今后研究可從藥物、劑量、藥性、藥物成分等多維度計算相似度,并給出合理閾值,確定相似度模型。

      參考文獻:

      [1] PETERS C. Cross-language information retrieval and evaluation[C]//Proc. of Intl Conf. on Lecture Notes in Computer Science. Berlin:Springer Verlag,2001.

      [2] 操牡丹,何前鋒,王柏.中醫(yī)藥方劑相似度模型[J].計算機工程,2009, 16(8):275-277.

      [3] 黃運高,王妍,邱武松,等.基于K-means和TF-IDF的中文藥名聚類分析[J].計算機應用,2014,34(S1):173-174.

      [4] 朱志鵬,杜建強,劉英鋒,等.基于LDA主題模型的中醫(yī)藥方劑相似度計算[J].計算機應用研究,2017,34(6):1668-1670,1676.

      [5] 顧錚.基于文本分類技術(shù)計算中醫(yī)方劑相似度[J].微計算機信息, 2010,26(12):199-201.

      [6] 徐建民,王金花,馬偉瑜.利用本體關(guān)聯(lián)度改進的TF-IDF特征詞提取方法[J].情報科學,2011,29(2):279-283.

      [7] 吳軍.數(shù)學之美[M].北京:中國工信出版社,2014:104-109.

      猜你喜歡
      相似度方劑可視化
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運行動態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      中藥方劑在治療黃褐斑中的應用
      《金匱要略》黃芪類方劑探析
      基于CGAL和OpenGL的海底地形三維可視化
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      論方劑的配伍環(huán)境
      中成藥(2018年6期)2018-07-11 03:01:24
      甘草在方劑中的作用及配伍規(guī)律
      改進的協(xié)同過濾推薦算法
      模糊Petri網(wǎng)在油田開發(fā)設計領域的應用研究
      玛曲县| 英吉沙县| 勃利县| 永登县| 双江| 舞钢市| 北碚区| 天气| 定襄县| 凌海市| 大埔县| 樟树市| 电白县| 错那县| 鹿邑县| 体育| 元氏县| 黑龙江省| 万宁市| 高尔夫| 汾阳市| 集安市| 伽师县| 格尔木市| 本溪| 报价| 嵩明县| 始兴县| 恩施市| 泰宁县| 霍山县| 湘乡市| 太和县| 玉山县| 平江县| 旌德县| 上犹县| 屏南县| 友谊县| 临猗县| 海南省|