韋昌法 羅麗琴 晏峻峰
〔摘要〕 中醫(yī)數(shù)字辨證是中醫(yī)智能輔助診斷的核心,辨證模型的質(zhì)量直接影響辨證的準確度和效率。為了建立中醫(yī)數(shù)字辨證模型并驗證其準確度,需要準備大量的配套醫(yī)案。根據(jù)中醫(yī)數(shù)字辨證模型對醫(yī)案的需求,設(shè)計了中醫(yī)數(shù)字辨證配套醫(yī)案智能采集與分析系統(tǒng),利用人工智能技術(shù)和Python編程技術(shù)實現(xiàn)了醫(yī)案采集、醫(yī)案展示、醫(yī)案檢索、數(shù)據(jù)統(tǒng)計分析及可視化等功能,有助于快速采集并篩選出符合條件的中醫(yī)醫(yī)案,提高中醫(yī)數(shù)字辨證模型的創(chuàng)建效率和質(zhì)量。
〔關(guān)鍵詞〕 中醫(yī)數(shù)字辨證;人工智能;醫(yī)案采集;醫(yī)案分析
〔中圖分類號〕R2-03? ? ? ?〔文獻標志碼〕A? ? ? ?〔文章編號〕doi:10.3969/j.issn.1674-070X.2020.01.016
〔Abstract〕 The digital syndrome differentiation of TCM is the core of intelligent assistant diagnosis of TCM. The quality of syndrome differentiation model directly affects the accuracy and efficiency of syndrome differentiation. In order to establish the digital syndrome differentiation model of TCM and verify its accuracy, a large number of supporting medical cases need to be prepared. According to the requirement of TCM digital syndrome differentiation model for medical cases, an intelligent acquisition and analysis system of supporting medical cases for TCM digital syndrome differentiation was designed. Using artificial intelligence technology and Python programming technology, the functions of medical cases collection, medical cases display, medical cases retrieval, data statistical analysis and visualization were realized, which are helpful to quickly collect and screen qualified TCM medical cases, and to improve the efficiency and quality of the establishment of TCM digital syndrome differentiation model.
〔Keywords〕 traditional Chinese medicine digital syndrome differentiation; artificial intelligence; medical cases acquisition; medical cases analysis
辨證論治是中醫(yī)學(xué)認識疾病和治療疾病的基本原則。中醫(yī)數(shù)字辨證指的是在研究中醫(yī)辨證論治規(guī)律的基礎(chǔ)上,建立辨證過程的數(shù)字模型,通過計算機程序?qū)颊卟∏橘Y料進行分析判斷,最終得出辨證結(jié)果[1-3]。國學(xué)大師章太炎先生曾說:“中醫(yī)之成績,醫(yī)案最著,欲求前人之經(jīng)驗心得,醫(yī)案最有線索可尋,循此鉆研,事半功倍。”[4]為了建立中醫(yī)數(shù)字辨證模型并驗證其準確度,往往需要準備大量的配套醫(yī)案,構(gòu)建中醫(yī)數(shù)字辨證配套醫(yī)案智能采集與分析系統(tǒng),有助于快速采集滿足需求的中醫(yī)醫(yī)案。
1 中醫(yī)數(shù)字辨證模型對醫(yī)案的需求
在辨證論治中,辨證是論治(立法、處方、用藥)的前提,辨證準確與否,是臨床療效的關(guān)鍵[5]。中醫(yī)數(shù)字辨證是中醫(yī)智能輔助診斷的核心,辨證模型在系統(tǒng)中起著關(guān)鍵性的作用,模型的質(zhì)量直接影響辨證的準確度和效率。因此,辨證模型也成為基于人工智能的中醫(yī)診斷研究者普遍關(guān)注的熱點問題。
我國的研究者從上世紀70年代中后期就開展了以中醫(yī)專家系統(tǒng)為代表的中醫(yī)智能輔助診療系統(tǒng)的研發(fā),先后研發(fā)出關(guān)幼波中醫(yī)肝病診斷處方專家系統(tǒng)、中醫(yī)數(shù)字辨證機等一大批中醫(yī)專家系統(tǒng)。40多年來,許多人工智能方法被應(yīng)用于構(gòu)建中醫(yī)數(shù)字辨證模型,不同的辨證模型采用了不同的知識表示和知識推理方法,它們對醫(yī)案的需求也不盡相同。中醫(yī)醫(yī)案是醫(yī)生對所診治病證的發(fā)生、發(fā)展及其轉(zhuǎn)歸的真實記錄,是對疾病辨證分析、治療過程的真實記載,對醫(yī)案進行研究和分析有助于挖掘中醫(yī)專家的診療經(jīng)驗[6]。中醫(yī)數(shù)字辨證模型對醫(yī)案的需求主要集中在兩大方面,一方面需要從醫(yī)案中挖掘出中醫(yī)專家的辨證經(jīng)驗,將這些經(jīng)驗嵌入到中醫(yī)數(shù)字辨證模型中,使數(shù)字辨證模型能集成中醫(yī)專家的經(jīng)驗來開展辨證;另一方面,在驗證數(shù)字辨證模型的準確率時,也需要大量的醫(yī)案來評估數(shù)字辨證模型的辨證結(jié)果與中醫(yī)專家的辨證結(jié)果的一致程度。
中醫(yī)數(shù)辨證配套醫(yī)案的來源有很多,其中一個重要的來源是中醫(yī)名家的醫(yī)案集,這些醫(yī)案集中的醫(yī)案質(zhì)量較高,在中醫(yī)數(shù)字辨證模型的創(chuàng)建及驗證過程中具有重要的作用。因此,筆者開展了面向醫(yī)案集的中醫(yī)醫(yī)案智能采集與分析系統(tǒng)構(gòu)建研究,以期為中醫(yī)數(shù)字辨證研究提供快速獲取高質(zhì)量配套醫(yī)案的工具。
2 中醫(yī)數(shù)字辨證配套醫(yī)案智能采集與分析系統(tǒng)的設(shè)計
中醫(yī)數(shù)字辨證配套醫(yī)案智能采集與分析系統(tǒng)擬利用光學(xué)字符識別(optical character recognition,OCR)技術(shù)將醫(yī)案集的醫(yī)案圖片轉(zhuǎn)換成醫(yī)案文本,存儲到醫(yī)案數(shù)據(jù)庫中,進而對醫(yī)案文本信息進行自動校驗和結(jié)構(gòu)化處理,最后對醫(yī)案數(shù)據(jù)進行統(tǒng)計分析及可視化處理,并通過web頁面將醫(yī)案數(shù)據(jù)和相應(yīng)的統(tǒng)計分析及可視化結(jié)果予以直觀展示,以供用戶查看、篩選和導(dǎo)出醫(yī)案。
中醫(yī)數(shù)字辨證配套醫(yī)案智能采集與分析系統(tǒng)可分為4個主要模塊:醫(yī)案采集模塊、醫(yī)案展示模塊、醫(yī)案檢索模塊、數(shù)據(jù)統(tǒng)計分析及可視化模塊,系統(tǒng)功能模塊圖如圖1所示,系統(tǒng)業(yè)務(wù)流程圖如圖2所示。
醫(yī)案采集模塊利用OCR技術(shù)將醫(yī)案集的醫(yī)案圖片轉(zhuǎn)換成醫(yī)案文本,并利用人工智能分詞技術(shù)和模糊匹配技術(shù)實現(xiàn)對醫(yī)案數(shù)據(jù)進行自動校驗,以確保通過OCR技術(shù)轉(zhuǎn)換出來的醫(yī)案文本內(nèi)容與原始的醫(yī)案圖片內(nèi)容是一致的。醫(yī)案采集模塊利用正則表達式匹配技術(shù)對醫(yī)案文本信息進行結(jié)構(gòu)化處理,得到醫(yī)案基本信息:患者性別、年齡、初診信息、辨證結(jié)果、治法、方藥、其他診次信息等內(nèi)容,并存儲到醫(yī)案數(shù)據(jù)庫中。
醫(yī)案展示模塊將已采集的醫(yī)案數(shù)據(jù)展示出來,用戶在瀏覽醫(yī)案數(shù)據(jù)時,可以對醫(yī)案數(shù)據(jù)進行人工校驗,比對醫(yī)案數(shù)據(jù)與原始醫(yī)案圖片是否一致。因為醫(yī)案采集模塊已提供了醫(yī)案數(shù)據(jù)自動校驗功能,故人工校驗功能不是必須的,但是它可以增強用戶對系統(tǒng)的認可度和信任度。
醫(yī)案檢索模塊負責(zé)根據(jù)用戶的需要對醫(yī)案數(shù)據(jù)進行檢索,用戶可以在性別、年齡段、辨證結(jié)果、治法信息和方藥信息等字段中輸入要檢索的關(guān)鍵詞,系統(tǒng)根據(jù)用戶輸入的條件對數(shù)據(jù)庫中的醫(yī)案數(shù)據(jù)進行精確或模糊檢索,并將檢索結(jié)果直觀展示出來。
數(shù)據(jù)統(tǒng)計分析及可視化模塊負責(zé)對已采集的醫(yī)案數(shù)據(jù)進行統(tǒng)計分析,生成相應(yīng)的統(tǒng)計圖表和詞云圖,使用戶可以更直觀地了解數(shù)據(jù)庫中的醫(yī)案數(shù)據(jù)特征,為他們的科研和臨床工作提供參考。系統(tǒng)根據(jù)用戶的統(tǒng)計需求,從醫(yī)案數(shù)據(jù)庫中讀取相應(yīng)的數(shù)據(jù),進行數(shù)據(jù)可視化相關(guān)的參數(shù)設(shè)置,最終生成相應(yīng)的統(tǒng)計圖表。系統(tǒng)還可以在數(shù)據(jù)統(tǒng)計分析的基礎(chǔ)上,對辨證結(jié)果、治法信息和方藥信息等內(nèi)容生成詞云圖,讓用戶更直觀地了解統(tǒng)計分析結(jié)果。
3 中醫(yī)數(shù)字辨證配套醫(yī)案智能采集與分析系統(tǒng)的實現(xiàn)
課題組研究團隊采用Python編程語言開發(fā)實現(xiàn)了中醫(yī)數(shù)字辨證配套醫(yī)案智能采集與分析系統(tǒng),并以郁病醫(yī)案為例,開展了醫(yī)案智能采集與分析工作,成功采集了一大批郁病醫(yī)案的基本信息:患者性別和年齡信息、初診信息、辨證結(jié)果、治法信息、方藥信息、其他診次信息等內(nèi)容,并從辨證結(jié)果、治法信息、方藥信息、性別、年齡、醫(yī)生和醫(yī)案來源七個角度對所采集的醫(yī)案數(shù)據(jù)進行統(tǒng)計分析,得出相應(yīng)的統(tǒng)計分析圖表和詞云圖,使用戶可以更直觀地了解醫(yī)案數(shù)據(jù)特征,以便篩選出符合要求的醫(yī)案來開展中醫(yī)數(shù)字辨證研究。
3.1? 醫(yī)案采集模塊的實現(xiàn)
醫(yī)案智能采集與分析系統(tǒng)所采集的醫(yī)案可能來源于不同的醫(yī)案集,這些醫(yī)案集對醫(yī)案信息的組織結(jié)構(gòu)不盡相同,為了支持從不同的醫(yī)案集中采集醫(yī)案,系統(tǒng)引入了醫(yī)案采集模板的概念,用戶可以為不同的醫(yī)案集建立相應(yīng)的醫(yī)案采集模板。進行醫(yī)案采集時,系統(tǒng)根據(jù)用戶指定的醫(yī)案采集模板將醫(yī)案集的醫(yī)案圖片轉(zhuǎn)換成醫(yī)案文本,進而對醫(yī)案數(shù)據(jù)進行自動校驗和結(jié)構(gòu)化處理,并將醫(yī)案信息存儲到醫(yī)案數(shù)據(jù)庫中。系統(tǒng)采集到的醫(yī)案信息如圖3所示,醫(yī)案信息中的辨證結(jié)果、治法信息和方藥信息如圖4所示。
3.2? 醫(yī)案展示模塊的實現(xiàn)
醫(yī)案展示模塊將醫(yī)案數(shù)據(jù)庫中的醫(yī)案數(shù)據(jù)展示出來,用戶可以分頁查看所有的醫(yī)案,醫(yī)案信息包括患者基本信息、初診信息、辨證結(jié)果、治法信息、方藥信息、醫(yī)生和醫(yī)案來源等內(nèi)容,醫(yī)案展示界面如圖5所示。在瀏覽醫(yī)案信息時,用戶還可以對醫(yī)案數(shù)據(jù)進行人工校驗,校驗界面如圖6所示,該界面的左半部分顯示了醫(yī)案圖片,右半部分顯示了系統(tǒng)采集并結(jié)構(gòu)化處理后得到的醫(yī)案信息,如果用戶在校驗過程中發(fā)現(xiàn)醫(yī)案信息與圖片中的信息不一致,可以即時修正。如前所述,因為醫(yī)案采集模塊已提供了醫(yī)案數(shù)據(jù)自動校驗功能,故人工校驗功能不是必須的,但是它提供了一個備用的校驗渠道,使得系統(tǒng)更加完善。
3.3? 醫(yī)案檢索模塊的實現(xiàn)
醫(yī)案檢索模塊根據(jù)患者性別、辨證結(jié)果、治法信息、方藥信息、醫(yī)生信息等檢索條件對醫(yī)案數(shù)據(jù)進行檢索,將用戶所需的醫(yī)案篩選出來予以直觀展示。例如,可以在醫(yī)案數(shù)據(jù)中檢索辨證結(jié)果包含“肝氣郁結(jié)”的醫(yī)案,其結(jié)果如圖7所示。
3.4? 醫(yī)案數(shù)據(jù)統(tǒng)計分析及可視化模塊的實現(xiàn)
數(shù)據(jù)統(tǒng)計分析及可視化模塊根據(jù)用戶的需求對醫(yī)案數(shù)據(jù)進行統(tǒng)計分析,生成相應(yīng)的統(tǒng)計圖表和詞云圖,使用戶可以更直觀地了解醫(yī)案數(shù)據(jù)特征,以便篩選出符合要求的醫(yī)案來開展中醫(yī)數(shù)字辨證研究。該模塊可以細分為辨證結(jié)果統(tǒng)計及可視化模塊、治法信息統(tǒng)計及可視化模塊、方藥信息統(tǒng)計及可視化模塊、性別和年齡統(tǒng)計及可視化模塊、醫(yī)生和醫(yī)案來源統(tǒng)計及可視化模塊,部分實現(xiàn)效果如圖8、圖9和圖10所示。
4 結(jié)論
為了建立中醫(yī)數(shù)字辨證模型并驗證其準確度,需要準備大量的配套醫(yī)案。本文分析了中醫(yī)數(shù)字辨證模型對醫(yī)案的需求,設(shè)計并實現(xiàn)了中醫(yī)數(shù)字辨證配套醫(yī)案智能采集與分析系統(tǒng),并以郁病醫(yī)案為例開展了醫(yī)案智能采集與分析工作,從辨證結(jié)果、治法信息、方藥信息、性別、年齡、醫(yī)生和醫(yī)案來源七個角度對所采集的醫(yī)案數(shù)據(jù)進行了統(tǒng)計分析,得出相應(yīng)的統(tǒng)計分析圖表和詞云圖,使用戶可以更直觀地了解醫(yī)案數(shù)據(jù)特征,有助于快速采集并篩選出符合要求的醫(yī)案來開展中醫(yī)數(shù)字辨證研究,提高中醫(yī)數(shù)字辨證模型的創(chuàng)建效率和質(zhì)量。
參考文獻
[1] 朱文鋒.《中醫(yī)數(shù)字辨證機》研究技術(shù)報告(醫(yī)理部分)[J].湖南中醫(yī)學(xué)院學(xué)報,1980(1):1-11.
[2] 韋昌法,晏峻峰.從知識表示與推理方法探討中醫(yī)數(shù)字辨證發(fā)展[J].中華中醫(yī)藥雜志,2019,34(10):4471-4473.
[3] 黃惠勇.證素辨證與數(shù)字中醫(yī)藥[J].湖南中醫(yī)藥大學(xué)學(xué)報,2012,32(11):3-6.
[4] 盛增秀,陳永燦.借古鑒今寫好醫(yī)案[J].浙江中醫(yī)雜志,2018,53(7):469-471.
[5] 朱文鋒.證素辨證學(xué)[M].北京:人民衛(wèi)生出版社,2008:1.
[6] 張家瑋,魯兆麟.也談中醫(yī)醫(yī)案研究的價值與意義[J].國際中醫(yī)中藥雜志,2011,33(1):63-65.
(本文編輯? 李路丹)