肖曉霞,劉明婷,楊馮天賜,劉鑒建縣,楊陽,石月
1. 湖南中醫(yī)藥大學信息科學與工程學院,湖南 長沙 410208;
2. 湖南大學信息科學與工程學院,湖南 長沙 410082;
3. 湘潭大學化學學院,湖南 湘潭 411105;
4. 湖南澤塔科技有限公司,湖南 長沙 410012;
5. 東北林業(yè)大學工程技術(shù)學院,黑龍江 哈爾濱 150040;
6. 北京瑞迪弘欣科貿(mào)有限公司,北京 100071
中醫(yī)醫(yī)案是中醫(yī)歷代醫(yī)家臨床過程的記錄,往往采用敘述的方式記錄病人的癥狀、體征和理法方藥,是歷代醫(yī)家綜合運用中醫(yī)理法方藥解決臨床問題的經(jīng)驗總結(jié),是中醫(yī)知識傳承的載體。但醫(yī)案浩如煙海,若能夠?qū)⑨t(yī)案中的癥狀、體征、證、方提取出來,并結(jié)構(gòu)化為獨立可用的數(shù)據(jù)單元,才能利用現(xiàn)代數(shù)據(jù)科學技術(shù)構(gòu)建“ 癥狀(體征)-證-方”的關(guān)系,才能更高效地總結(jié)海量醫(yī)案中的診療經(jīng)驗,更有利于中醫(yī)傳承[1]。
目前,醫(yī)案資料大多以書籍的形式存在,基本都有對應的電子書籍,但電子書籍也是以掃描版本為主,而非可計算機直接識別的文字。人工整理和結(jié)構(gòu)化醫(yī)案費時費力,直接采用自然語言處理結(jié)構(gòu)化圖片文字也不可能,但可以先采用光學字符識別技術(shù)將圖片式醫(yī)案轉(zhuǎn)化為計算機文字,再用自然語言技術(shù)來處理。
醫(yī)案的描述一般包括病人姓氏、年齡、性別、癥狀、體征、證名、治則或治法、病因、方劑名、湯藥名、中草藥名、西藥品名等,這些都是采用自然語言形式描述的,要將醫(yī)案結(jié)構(gòu)化,就需要將這些信息提取出來作為一個獨立的數(shù)據(jù)單元。這些信息提取中難度最大的就是癥狀、體征和現(xiàn)代醫(yī)案中生化指標信息的提取,由于中文語句中沒有詞的間隔符,信息提取之前往往需要對文本進行詞語的切分并將其識別為目標對象,對應的技術(shù)有中文分詞和命名實體識別技術(shù)。 目前中文分詞和命名實體識別主要有基于詞典、基于規(guī)則、基于統(tǒng)計以及規(guī)則與統(tǒng)計相結(jié)合的方法[2]。
基于詞典的方法要求詞典涵蓋所有需要抽取的實體,并且隨著數(shù)據(jù)量的增大,匹配速度會大幅度降低,對未登錄詞(即自然語言處理中的未被詞典收錄的詞)的補充較難實現(xiàn)[3-4],缺乏自學能力。由于人類語言的靈活性和多變性,基于規(guī)則的實體抽取也很難有一個通用的方法?;诮y(tǒng)計的機器學習方法、深度學習方法是目前發(fā)展比較快、應用比較廣的中文自然語言處理方法,如隱馬爾可夫模型( hidden Markov model,HMM)、最大熵(maximum entropy,ME)模型、條件隨機場( conditional random field,CRF)模型、長短期記憶(long short-time memory,LSTM)網(wǎng)絡(luò)等[5]。由于基于統(tǒng)計的機器學習方法和深度學習方法需要對所處理的文本進行標注,短時間內(nèi)無法完成,并且標注的方法及文本的領(lǐng)域特點也會使算法無法泛化到其他領(lǐng)域。除此之外,由于深度學習涉及大量的高維稀疏矩陣運算,需要特殊計算硬件來加速[6]。
醫(yī)案結(jié)構(gòu)化過程中最大的工作量就是對醫(yī)案中癥狀、體征命名實體的識別,但目前并沒有專門針對中醫(yī)醫(yī)案癥狀、體征命名實體識別的技術(shù),也沒有公開的用于中醫(yī)醫(yī)案癥狀、體征命名實體識別的詞典和通用的語料庫,因此涉及的中醫(yī)藥詞典和語料都需要研究者自行構(gòu)建。例如,張帆等人[7]構(gòu)建了中醫(yī)領(lǐng)域詞典,對600份醫(yī)案進行了人工標注,之后采用層疊隱馬爾可夫模型結(jié)合中醫(yī)詞典的方法對600份醫(yī)案進行處理,F(xiàn)1值為94.14%; 李明浩等人[8]在對492份醫(yī)案中2 069條規(guī)范癥狀進行標注的基礎(chǔ)上,采用LSTM-CRF對這些醫(yī)案中的癥狀進行識別,F(xiàn)1值為78%。
中醫(yī)臨床命名實體識別研究隨著技術(shù)的發(fā)展不斷進步,但由于中醫(yī)領(lǐng)域特點及研究起步較晚,癥狀命名實體識別要么需要大量人工語料標注,要么其F1值不高。為了找到合適的快速結(jié)構(gòu)化醫(yī)案文本的方法,本文在搜狗細胞詞庫中下載了與中醫(yī)診斷、癥狀、中藥等相關(guān)的詞典近30部,共收集約17萬個詞條。盡管這些詞典詞條豐富,但要結(jié)構(gòu)化的醫(yī)案中的大量癥狀、體征未包含在其中,因此采用上述詞典結(jié)合jieba庫的分詞效果不佳,長詞基本無法識別,對未登錄詞的識別準確率也不高;嘗試采用FuzzyWuzzy庫進行模糊字符串匹配,準確率有所提高,但運行速率太低,整個實驗從開始運行到完成花費將近7 h。鑒于此,本文采用無須人工標注語料的基于統(tǒng)計的N-gram模型結(jié)合詞典來完成癥狀、體征命名實體的識別。
醫(yī)案選擇由董建華、王永炎兩位院士主編的人民衛(wèi)生出版社出版的《 中國現(xiàn)代名中醫(yī)醫(yī)案精粹》叢書第1至第6集(以下簡稱 名中醫(yī)醫(yī)案叢書)作為研究對象。整套叢書共收錄了434位全國三批名老中醫(yī)的醫(yī)案,其中不少醫(yī)案由名老中醫(yī)自行整理,并分析其機理,探討用方用藥奧秘[9]。對這些醫(yī)案進行結(jié)構(gòu)化并深入研究對名老中醫(yī)知識的傳承是大有裨益的,并且此研究方法還可以推廣到其他非結(jié)構(gòu)化醫(yī)案的研究。
名中醫(yī)醫(yī)案叢書對醫(yī)案編排的基本規(guī)范為:第一段以姓氏、性別、年齡獨立成段,大部分醫(yī)案有主訴及病史、診查、辯證、治則或治法、處方、幾診等部分。同時也發(fā)現(xiàn)部分醫(yī)案辯證和治法融合在一起;部分醫(yī)案有辯證但缺失治則或治法;部分與針灸相關(guān)的醫(yī)案用操作一詞替代治法等。為了在醫(yī)案圖片識別過程中對醫(yī)案進行初步結(jié)構(gòu)化,針對上述問題,收集了醫(yī)案中的同義詞或者對應的結(jié)構(gòu)詞,見表1。
表1 分割關(guān)鍵詞對應表示例
本文的數(shù)據(jù)采集處理對象為網(wǎng)絡(luò)下載的加密掃描版PDF書籍,加密的PDF一般無法直接進行文字轉(zhuǎn)換,需先將PDF書籍切割成醫(yī)案圖片進行Base64編碼后,再使用光學字符識別(optical character recognition,OCR)技術(shù)轉(zhuǎn)化為計算機能夠處理的文字,由于百度AI開放平臺的OCR的準確率高達99%,本文采用百度的HTTP在線接口將圖片轉(zhuǎn)換為文字,校驗無誤后錄入數(shù)據(jù)庫。
在名中醫(yī)醫(yī)案叢書中,醫(yī)案之后都有按語,醫(yī)案文本長短不一,且本次研究只關(guān)注醫(yī)案結(jié)構(gòu)化不考慮按語,因此采用人工方式只對醫(yī)案進行截圖,確保每個醫(yī)案圖片可通過OCR獲得正確的文本。為了方便后期處理,將每份醫(yī)案截圖保存到相應文件夾中,并對其編碼。醫(yī)案文件夾的編碼規(guī)則為集號+該醫(yī)案在書籍中的順序,醫(yī)案圖片編碼規(guī)則為集號+該醫(yī)案在書籍中的順序_該醫(yī)案圖片總數(shù)_目前該圖片順序。例如名中醫(yī)醫(yī)案叢書第2集中的第808個醫(yī)案需要截圖2張,則需要創(chuàng)建名為2808的文件夾,文件夾中將依次存放編號分別為2808_2_1和2808_2_2的兩張圖片。在識別過程中,這種編碼可以按文件名從小到大的順序識別并獲得各個醫(yī)案,并且能夠很好地標識該醫(yī)案的出處,方便后期對識別所得醫(yī)案文本進行修訂。
本文對4 902份醫(yī)案截取了7 287張圖片,并將醫(yī)案圖片用Base64轉(zhuǎn)碼,再將50份醫(yī)案分為一組,采用OCR識別圖片中的文字。在識別過程中,根據(jù)醫(yī)案編排特點和分割關(guān)鍵字對應表對識別的字符串做切割,得到初步結(jié)構(gòu)化的醫(yī)案文本,并錄入數(shù)據(jù)庫。經(jīng)人工核對,除去批量錄入數(shù)據(jù)庫時出錯、信息不全的醫(yī)案數(shù)據(jù),最后整理出有效的醫(yī)案數(shù)據(jù)共4 754例,結(jié)果如圖1所示。
圖1 醫(yī)案文本初步結(jié)構(gòu)化結(jié)果部分截圖
醫(yī)案中患者姓名、治則或治法、處方等的編排基本一致,在文本識別過程就做了結(jié)構(gòu)化。為了保證采集的數(shù)據(jù)都能溯源,數(shù)據(jù)庫中還保存了原文、原文出處及處理的圖片信息等,由此獲得的初步結(jié)構(gòu)化內(nèi)容包括患者的姓名、性別、年齡、主訴及病史、診查、辯證、治法、處方、醫(yī)生、醫(yī)案來源、原文、對應圖片信息等。主訴及病史、診查的文本基本采用非結(jié)構(gòu)化的自然語言描述, 其中包含大量癥狀、體征的描述,下一步的工作就是集中結(jié)構(gòu)化此部分內(nèi)容。
N-gram模型是一種基于統(tǒng)計的語言模型,可用于分詞。給定一個句子w,w=ω1ω2ωm表示句子由m個有序的詞組成,P(w)表示句子出現(xiàn)的概率,N-gram模型可用于計算句子概率。在現(xiàn)實中句子是多樣的,即使將互聯(lián)網(wǎng)上的文本作為語料庫,也不能窮盡所有的句子形式,單個句子的出現(xiàn)頻次多為1,句子重復出現(xiàn)的概率低而導致數(shù)據(jù)稀疏,因此直接計算P(w)是非常難的[10]??紤]到句子由詞構(gòu)成,詞是有限的,P(w)可以由P(ω1,ω2,…,ωm)表示,假設(shè)詞ωi的出現(xiàn)只與該詞前面N-1個詞相關(guān),則P(w)的計算就可以轉(zhuǎn)化為如下計算式:
式(1)就是N-gram模型,當N很大時,模型的參數(shù)空間過大,會出現(xiàn)數(shù)據(jù)稀疏和詞表維度過高的問題。N-gram模型中的ωi可以是詞也可以是字,將ωi用于分詞時,為了提高低頻詞分詞效果,ωi的粒度為字。若ωiωi+1ωi+2是一個詞,則其出現(xiàn)的概率和P(ωiωi+1)P(ωi+2)或P(ωi)P(ωi+1ωi+2)相似,一個詞的凝固度可定義為該詞出現(xiàn)概率與該詞中其他組合概率比值的最小值,具體見式(2),本文根據(jù)詞的凝固度對醫(yī)案進行分詞并識別新詞。
定義預處理后的語料庫為corpus,語料中的字用ωi表示,n表示切分詞的最大長度,模型識別出的詞都被保存在詞庫VG中。本文采用的N-gram模型的具體步驟如下。
(1)對corpus中的字按1到n的順序切分,并統(tǒng)計各個片段的頻次,根據(jù)式(2)計算切分片段的內(nèi)部凝固度。多次實驗選取合適的閾值,將凝固度高于閾值且字數(shù)大于2的切分片段加入VG中。
(2)根據(jù)步驟(1)中的凝固度對句子進行切分并統(tǒng)計頻次。切分方法是若存在兩個片段的凝固度低于某個片段,則從此處切分。如 存 在則從ω處 切i+1分。其中,a為一個給定的閾值,通過實驗確定。
(3)對步驟(2)中的切分片段進行檢測,若切分的片段在VG中或部分在VG中,則保留切分片段,篩選出高頻片段并加入VG。
正向最大匹配法是最基礎(chǔ)的基于詞典的中文分詞算法,其算法流程如圖2所示,MaxLen為分詞詞典中最長詞條所包含的漢字個數(shù)。應用此算法之前需要先確定一個分詞詞典。
例如,待分詞文本為s1= {“舌”,“ 脈 ”“ 為 ”,“ 舌 ”,“紅 ”,“ 苔 ”,“黃”,“膩”,“脈”,“弦”},對應分詞詞典為dict[]={“舌紅”,“舌 紅苔黃膩”,“脈弦”}。根據(jù)圖2進行分詞,從s1[1]開始,取長度為5的字符串w為“舌脈為舌紅”,掃描dict[],發(fā)現(xiàn)w不在dict[]中,因此去掉“紅”,繼續(xù)掃描“舌脈為舌”是否在詞典中,如此重復上述過程直到剩下的部分是dict[]中的詞或單字,并加入s2中。最終s2的結(jié)果為“舌/脈/為/舌紅苔黃膩/脈弦”。
圖2 正向最大匹配算法流程
該算法的一個弊端是在算法開始前需預設(shè)一個匹配詞長的初始值,初始值一般是詞庫中最長詞的長度,如果這個詞長 初始值過大,在查找短詞時,就會導致很多無效匹配;如果詞長初始值過小,就不能進行有效的切分,這就會導致算法的效率降低[11]。
結(jié)構(gòu)化醫(yī)案過程中需要盡可能保留其原始樣貌,保證數(shù)據(jù)的真實和完整,因此提取臨床癥狀、體征時不會對其做任何規(guī)范化處理。中醫(yī)臨床中采用自然語言描述的醫(yī)案癥狀描述多樣,如發(fā) 燒就有大熱、壯熱、微熱等描述,口渴有口渴欲飲、口渴不欲飲等描述,為了滿足后期智能診斷需求,這些癥狀都需作為命名 實體提取。
根據(jù)《中醫(yī)診斷學(新世紀第4版)》[12]及《診斷學基礎(chǔ)(第2版)》[13]中對癥狀術(shù)語最小粒度的界定,以及盡可能保持數(shù)據(jù)的真實和完整的原則,整理出待處理的語料、停用詞表、高頻癥狀短語詞庫、西醫(yī)臨床診斷關(guān)鍵詞庫、中醫(yī)關(guān)鍵詞庫、中醫(yī)布爾類型關(guān)鍵詞庫。詞庫構(gòu)成簡述如下。
● 停用詞表:由語料中非癥狀體征的字詞構(gòu)成,如患者、入院后、家屬、出示、來診時等。
● 高頻癥狀短語詞庫:根據(jù)醫(yī)案的結(jié)構(gòu)特點,使用正則表達式將“診查”字段與“辯證”字段之間的癥狀信息提取出來,并統(tǒng)計詞頻。將人工核驗后為最小癥狀提取單元且詞頻大于或等于5的癥狀短語收錄到高頻癥狀短語庫中,如煩躁不安、惡心嘔吐、不思飲食、心悸氣短、形體瘦削等。
● 西醫(yī)臨床診斷關(guān)鍵詞庫:醫(yī)案中含有一部分西醫(yī)診斷信息,考慮到直接刪除該部分信息會導致疾病的診斷依據(jù)不完整、偏離專業(yè)診斷方向,故建立西醫(yī)臨床診斷關(guān)鍵詞庫,用于提取體溫、尿糖、血壓、黃疸指數(shù)、血清膽紅素、血小板計數(shù)、白細胞計數(shù)、麝香草酸/草酚濁度試驗、孕二醇測定等信息。
● 中醫(yī)關(guān)鍵詞庫:醫(yī)案中存在大量名詞-形容詞的搭配,對于同一名詞,可能會出現(xiàn)多個形容詞與之構(gòu)成不同的癥狀短語,可將這些名詞收錄整理為提取語料中的癥狀信息的輔助工具。這些關(guān)鍵字有舌苔、舌質(zhì)、形體、面色、二便、口、四肢等。
● 中醫(yī)布爾類型關(guān)鍵詞庫:中醫(yī)布爾類型關(guān)鍵詞是指不可拆分的、在疾病描述中只有出現(xiàn)與否兩種狀態(tài)的癥狀短語,它在本研究醫(yī)案中出現(xiàn)的頻率低。若中醫(yī)布爾類型關(guān)鍵詞出現(xiàn)在語料中,則可直接提取。手足心熱、午后潮熱、頭暈目眩、角弓反張、張口抬肩、少氣懶言、潮熱盜汗、形寒肢冷等都屬于布爾類型關(guān)鍵詞,對于某一患者來講,只有是否出現(xiàn)該癥狀兩種情況。
在訓練模型的過程中,為了提高提取的準確度,除上述詞典外,還補充了前綴修飾詞庫以及西醫(yī)需特殊處理的關(guān)鍵詞庫,分別見表2與表3。
表2 前綴修飾詞庫示例
醫(yī)案結(jié)構(gòu)化的一個重要工作就是將醫(yī)案中的癥狀短語提取出來,對于一個沒有足夠大的短語詞典以及沒有人工標注的醫(yī)案文本數(shù)據(jù)集,采用的提取方式是非常受限的。本文采用結(jié)合規(guī)則、詞典和N-gram新詞發(fā)現(xiàn)的算法提取醫(yī)案中的癥狀、體征命名實體。定義整個醫(yī)案文本為S,算法具體步驟如下。
第一部分:語料預處理及高頻短語提取
(1)準備語料:將第2.3節(jié)中獲得的每個醫(yī)案的診查文本以標點符號為分隔符,分行存儲在按文獻順序編號的單獨的TXT類型的文件中。將圖1所示文件中的主訴及病史中的文本匯總為一個TXT文件,命名為TXTcorpus。
(2)使用N-gram模型處理TXTcorpus:用第3.1中介紹的N-gram模型處理TXTcorpus,并將高頻詞加入對應的詞典。
第二部分:對每個醫(yī)案文本文件中的文本行進行處理
(3)去掉停用詞:采用過濾停用詞的方式過濾語料中的非癥狀詞。
(4)識別已登錄詞:先用高頻癥狀短語詞庫和預先準備的西醫(yī)臨床診斷關(guān)鍵詞等詞典提取語料中的癥狀單元,將其輸出到相應文件中,并將其從語料中刪除;若語料剩余長度為0,則讀取下一個文件并進行處理。
(5)清洗剩余語料:對剩余語料再次進行停用詞處理, 若處理后的語料長度為0,則讀取下一個文件并進行處理。
(6)識別未登錄詞:采用N-gram模型識別未登錄詞, 將其輸出到對應文件中,并將其更新到癥狀詞典中后刪除該詞。若語料剩余長度不為0,則進行人工處理。
(7)人工處理:手動處理剩余語料,若剩余的語料為無意義的字詞,則將其加入停用詞表;若為癥狀短語,則將其手動輸出到對應的文件中,并分析該詞未被識別的原因,將其收錄到對應的詞典。
重復(3)~(7),直至所有語料處理完畢,算法結(jié)束。
本文采集到的、需要處理的名中醫(yī)醫(yī)案叢書的文本字數(shù)見表4。實驗采用詞典、N-gram模型、詞典+N-gram模型3種方式提取醫(yī)案中的癥狀、體征命名實體,3種方式的提取結(jié)果與醫(yī)案數(shù)成比例增長,結(jié)果如圖3所示。由于本次醫(yī)案結(jié)構(gòu)化的目的是為后期數(shù)據(jù)挖掘和術(shù)語規(guī)范化提供真實數(shù)據(jù),提取對象多為包含癥狀描述的癥狀短語,其中有的短語有癥狀程度的描述,如口渴欲飲、口渴不欲飲;有的是多個癥狀同時出現(xiàn)時的常用描述,如寒熱往來、眩暈目糊、失眠驚惕。因此,隨著醫(yī)案數(shù)的增加,癥狀短語數(shù)不斷增加,而且數(shù)量可觀。
為了能客觀準確地描述3種方案的優(yōu)劣,從4 754份醫(yī)案中隨機抽取666份醫(yī)案組成最終的測試樣本空間,剩下的4 088份醫(yī)案則進行模型訓練及相關(guān)處理。隨機抽取的666份醫(yī)案經(jīng)人工處理得到5 439個癥狀、體征命名實體,將其作為實驗評價的參考標準。不同方案提取的結(jié)果采用準確率P、召回率R、F1值3個指標進行評測,計算式如下[14]。
3種方案的實驗結(jié)果見表5,其中正確癥狀總數(shù)為實驗結(jié)果中與標準輸出完全一致的癥狀短語個數(shù),分詞總數(shù)為實驗提取的癥狀、體征命名實體總數(shù),有效醫(yī)案總數(shù)為提取命名實體數(shù)不為0的醫(yī)案數(shù),隨機抽取的666份醫(yī)案中都包含有癥狀或癥狀短語,因此人工處理的有效醫(yī)案總數(shù)為666份,分詞總數(shù)為5 439個。從表5可以看出,單獨采用N-gram模型提取癥狀的結(jié)果最差,有28份醫(yī)案無法識別。
表5 3種方案實驗結(jié)果
根據(jù)表5計算P、R和F1值,結(jié)果見表6。其中,詞典+N-gram模型的F1值為82.99%,詞典方案的F1值為79.91%。本次實驗中N-gram模型中的N取值為5,但通過回溯仍可提取字數(shù)超過5的長短語。實驗中采用的詞典除少數(shù)是人工添加的外, 大量的短語來源于非人工處理:一部分采用正則表達式提取得到,一部分是訓練N-gram模型時獲得的未登錄高頻詞。
表6 3種提取方案的效果
本文采用的N-gram模型僅使用詞的凝固度來分詞,不需要對語料進行標注,節(jié)省了人力。由于提取的命名實體包含癥狀短語,需要保留癥狀的常用描述方式及非數(shù)值描述的程度描述部分,因此沒有考慮詞的自由度,進而“口渴”“口渴欲飲”“口渴不欲飲”等詞都能被提取。使用N-gram模型訓練時,采用的語料由所有醫(yī)案組成,這些醫(yī)案按照書籍編輯順序保存為一個文檔,并且只保留中文字符,這種做法簡化了算法,但在語料不充足的情況下,很容易造成數(shù)據(jù)稀疏問題。本文采用的N-gram模型還需從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)稀疏問題的平滑技術(shù)等方面進行優(yōu)化,才能獲得更高性能。
完成癥狀、體征信息的提取后,可以根據(jù)所建詞典對醫(yī)案進行結(jié)構(gòu)化。根據(jù)臨床信息分析需求、文獻來源需求統(tǒng)計分析醫(yī)案結(jié)構(gòu),醫(yī)案結(jié)構(gòu)化數(shù)據(jù)由醫(yī)案ID、姓名、年齡、性別、是否婚配、初診時間、主訴及病史、診查、辯證、治法、處方、其他診次、醫(yī)生、醫(yī)案來源、原文和圖片ID等字段組成,其中診查部分完全結(jié)構(gòu)化為癥狀、體征 數(shù)據(jù),數(shù)據(jù)之間用逗號分隔,結(jié)構(gòu)化后的醫(yī)案如圖4和圖5所示。本次醫(yī)案采集數(shù)據(jù)總計4 754條,每頁存儲15條,共317頁。在醫(yī)案結(jié)構(gòu)化過程中,應盡量保持醫(yī)案數(shù)據(jù)原貌,不對醫(yī)案中的術(shù)語進行標準化處理,其目的是為后續(xù)醫(yī)案數(shù)據(jù)挖掘、臨床信息標準化等相關(guān)工作提供原始數(shù)據(jù)。
圖4 醫(yī)案文本結(jié)構(gòu)化結(jié)果部分截圖1
圖5 醫(yī)案文本結(jié)構(gòu)化結(jié)果部分截圖2
中醫(yī)醫(yī)案是中醫(yī)臨床經(jīng)驗的總結(jié),為中醫(yī)治學提供了關(guān)鍵的第一手實踐資料,對于深化、傳承和發(fā)展中醫(yī)藥具有非常積極的作用。系統(tǒng)地對中醫(yī)醫(yī)案進行結(jié)構(gòu)化整理和研究,有助于中醫(yī)傳承和發(fā)展。本文提出的基于自然語言處理的中醫(yī)醫(yī)案文本快速結(jié)構(gòu)化方法,可以迅速地對圖片醫(yī)案或文本醫(yī)案進行結(jié)構(gòu)化,在結(jié)構(gòu)化過程中還能動態(tài)完善中醫(yī)詞庫,盡可能最大限度地收集中醫(yī)臨床術(shù)語,并保持癥狀描述的完整性,為后期其他醫(yī)案結(jié)構(gòu)化、醫(yī)案數(shù)據(jù)挖掘、醫(yī)學知識總結(jié)、醫(yī)學知識庫構(gòu)建、中醫(yī)術(shù)語標準化等提供信息完整的數(shù)據(jù)支持。
從實驗結(jié)果來看,所提方法還有很多改進空間,后期還可以以此為基礎(chǔ)對醫(yī)案進行標注,并采用神經(jīng)網(wǎng)絡(luò)進行新詞發(fā)現(xiàn)研究,進一步提高醫(yī)案結(jié)構(gòu)化效率及自動化處理能力。數(shù)據(jù)采集過程中也需要提高自動化處理程度,對現(xiàn)有語言模型進行補充。