中文分詞模型在中醫(yī)病癥語義理解中的研究與應用

2020-04-20 10:46許林濤葉欣欣裴成飛吳榮士

軟件工程 2020年4期

許林濤葉欣欣裴成飛吳榮士

摘? 要：中醫(yī)臨床記錄的病癥內容是中醫(yī)醫(yī)師進行診斷的重要依據。由于中文表達形式的多樣性與復雜性，如何從這些病癥內容中進行標準化四診信息的提取對于中醫(yī)證候分析具有重要的研究價值。本文在充分分析各種中文分詞算法的基礎上，選擇將最大正向匹配分詞算法應用于中醫(yī)臨床病癥內容中的四診信息語義理解，構建的中醫(yī)四診語義模型在100個實際病例的四診信息提取，再對最大分詞數進行變量控制，得出最大分詞數為5時得出的準確率和召回率最高。

關鍵詞：中文分詞;證候分析;四診信息

中圖分類號：TP311? ? ?文獻標識碼：A

Abstract：TCM clinical record of the disease content is an essential basis for the diagnosis of TCM physicians.Due to the diversity and complexity of Chinese expressions，how to extract standardized four-diagnosis information from the contents of these conditions has important research value for TCM syndrome analysis.Based on the full analysis of various Chinese word segmentation algorithms，this paper chooses to apply the maximum forward matching word segmentation algorithm to the semantic interpretation of the four-diagnosis information in the clinical symptoms of traditional Chinese medicine.This research conducts the extraction of four-diagnosis information of 100 actual cases based on the constructed traditional Chinese medicine four-diagnosis information diagnostic model. Then the variable control is performed on the maximum number of word segmentation，and the high accuracy and recall rate are obtained when the maximum number of word segmentation is five.

Keywords：chinese word segmentation;syndrome analysis;four consultation information

1? ?引言（Introduction）

中醫(yī)提倡以“以證遷方”為基礎，實現對癥下藥?！白C”是指證候，即通過方與證的關系，達到推薦名醫(yī)名方的作用[1]。證候在中醫(yī)中通常指的是在診斷過程中，具有潛在聯系的一組病癥和體征。如完谷不化、小便頻數、夜頻尿多、全身腫脹、舌淡、苔白等是腎陽虛的證候。大部分中醫(yī)在診斷過程中會通過‘望‘聞‘問和‘切將病人的病癥和體征用描述性的文字記錄下來，憑此記錄為病人開處方。由于中文表達形式的多元性和復雜性，加上中醫(yī)醫(yī)師在記錄病癥時通常用古文的形式，如何從這些病癥內容中進行標準化四診信息的提取對于中醫(yī)證候分析具有重要的研究價值。

隨著自然語言處理技術的不斷提高，中文分詞算法也被廣泛應用于中醫(yī)領域，對中醫(yī)的證候分析有重要的研究價值。張千、王慶瑋等人[2]對傳統(tǒng)的特征提取方法和最新的深度學習在文本挖掘方面的技術做了綜述;郭德海、鄭光[3]等人利用文本挖掘技術總結了慢性咳嗽的中醫(yī)診治規(guī)律;王麗穎、鄭光[4]等人使用文本挖掘技術探索高血壓常見中醫(yī)證候即常用方劑。本文在充分分析各種中文分詞算法的基礎上，選擇將最大正向匹配分詞算法為核心，構建了中醫(yī)四診語義模型應用于中醫(yī)臨床病癥內容中的四診信息語義理解。

2? ?中醫(yī)四診語義模型（Semantic model of TCM four diagnosis）

2.1? ?中文分詞技術

中文分詞技術[5]是自然語言處理中的一項核心技術，英文中已經將詞和詞之間用逗號或者空格分開，而中文對詞定義的邊線很難劃分。在漢語中以字為最小單位，但是詞的數量和不同詞在不同語境下的語義也是不一樣的。因此在理解中文文本內容時，中文分詞是一個不可或缺的一個步驟。將一段文本轉化為詞的表示，就是中文分詞。

當前主流的中文分詞算法分別為：基于詞典的中文分詞算法、基于統(tǒng)計模型的中文分詞算法和基于語義理解的中文分詞算法[6]。

2.1.1? ?基于詞典的中文分詞算法

基于詞典的中文分詞算法又稱基于字符串匹配分詞算法，它是按照一定的規(guī)律將一段中文文本與已經定義的“詞典”中的詞條進行匹配，若在詞典中找到某個字符串，則可以分成一個詞。這種算法的好壞與詞典和匹配規(guī)則有著密切的聯系，也和掃描的方向相關。又根據掃描方向的不同，分為最大正向匹配算法、最大逆向匹配算法和雙向最大匹配算法。

2.1.2? ? 基于統(tǒng)計模型的中文分詞算法

基于統(tǒng)計模型的中文分詞算法是根據統(tǒng)計中文文本的詞頻進行分詞，若在文本中出現同一個詞的頻率越高，則構成一個詞的可能性就越大。這個算法不使用“詞典”，只會對分詞的中文文本中相鄰的字之間進行一個詞頻統(tǒng)計來計算他們同時出現的概率，概率越大，說明構成詞的可能性越大，通常會設定一個閾值來控制這個概率。

2.1.3? ?基于語義理解的中文分詞算法

該算法的基本思想是借助大量的語義和語法知識來訓練模型。在分詞的過程中，利用這些訓練好的模型來對文本進行語義、語法分析和歧義識別。但由于漢語的歧義性和復雜性，將文本語義轉化為機器可識別的語言難度較大。

2.2? ?最大正向匹配分詞算法

最大正向匹配算法是自然語言處理中最常見的一種算法，其主要思路是將一段待分詞的文本數據，根據用戶所設定的最大分詞長度來循環(huán)遍歷，與“詞典”中的詞進行匹配，得到匹配的結果就是所要的分詞結果。

最大正向匹配算法的步驟如下：

步驟1：根據自定義設置的最大分次數W，將待分詞的文本s1中從左向右取出W個字符，查看這W個字符是否在詞典中。如果在詞典中就直接輸出，如果不在詞典中則將W最后一個字去掉，如果剩下的W是個單字，也直接輸出。去掉末尾字且不是單字，繼續(xù)循環(huán)查看是否在詞典中。

步驟2：繼上述的一次輸出分詞結果后，繼續(xù)將文本（s1-w）中從左向右取出W個字符，重復步驟1操作，直到s1為空結束。

步驟3：將上述分詞結果統(tǒng)計，計算他們的準確率和召回率。

最大正向匹配分詞算法流程圖如圖1所示。

一般通過準確率（Precision）和召回率（Recall）來做為最大正向匹配分詞算法的評價標準，其計算公式如下：

其中，X和Y分別表示訓練數據集和測試數據集的詞數，C表示正確匹配的詞數。

2.3? ?中醫(yī)四診語義模型

本文將中文分詞模型應用于中醫(yī)證候分析中特征詞的提取和分析，通過對病癥內容得到的描述性文本信息的分詞和同義詞匹配構建了中醫(yī)四診語義模型。模型構建步驟如圖2所示。

步驟1：將樣本病歷中描述性文本信息進行中文分詞和去停用詞。

步驟2：將得到的證候等特征詞進行同義詞匹配，排除文言文或同義不同詞的影響，根據標準四診信息得到與病癥相關的四診信息。

步驟3：調整最大分詞數，重復步驟1和步驟2，分別得出分詞結果。

步驟4：由上述產生的分詞結果，計算不同的最大分詞數的準確率和召回率，保留準確率和召回率最高的一組。

3? 樣本選擇與特征提?。⊿ample selection and feature extraction）

3.1? ?樣本選擇

本次實驗的數據來源為常州市中醫(yī)院等十余所臨床醫(yī)院采集到的100例中醫(yī)會診記錄。

3.2? ?特征提取

如何有效地從文本信息提取出樣本信息特征，從而為證候分析提供重要的數據基礎，是本文的研究重點。在充分分析現有的樣本病歷的基礎上，采用四診信息的方式進行特征提取是一個非常有效地方法，通過提取與病癥相關的四診信息來進行證候分析，更能抓住病人的病癥和機理，從而達到對癥下藥的效果。具體的特征提取方法如下：

步驟1：定義一個標準的四診信息庫。本文涉及的四診信息的定義依據常州中醫(yī)院申春悌制定的標準信息庫，標準信息庫部分定義如表1所示。

由于樣本信息是類似文言文的文本信息，以及中醫(yī)們的口述信息，有些詞會出現與四診信息同義不同詞的現象，利用同義詞匹配可以排除這些影響。

步驟3：結合描述性的病歷信息，給每個病癥相關的四診信息定義一個層級，一般分為無、輕、中、重四級，分別用1、2、3、4來進行特征表示，從而完成從病歷文本信息的特征提取。

4? ?實驗結果（Experimental results）

本文實驗所涉及的數據集是100例中醫(yī)會診時的會診記錄，我們首先需要將這些會診信息中關鍵信息提取出來，以得出該病人的具體患病信息。為了保護病人的隱私，將每個病例只取其會診信息，并用病例1病例2來編號，部分會診信息如表2所示。

病例1 秋燥之季，風熱之邪流行，惡風發(fā)熱，汗出不暢，延今半月不退，伴喉痛作咳，咯痰不爽，舌偏赤，苔薄黃，脈浮數帶滑。曾經輸液及抗病毒治療

病例2 患者入秋即發(fā)哮喘，冬令自行緩解，反復六載。發(fā)作先多噴嚏，隨見胸悶、喘息，張口抬肩，呀呷有聲，大汗，咯出粘痰方舒，用平喘藥及噴霧劑吸入，恙雖輕而難至平緩。從未發(fā)熱等等癥。舌體偏紅，苔薄黃膩，脈浮弦而促。童年有類似發(fā)作

病例3 喉蛾喉痛屢發(fā)3年且易外感作咳，熱退五天喉癢干咳，舌紅苔少脈細滑數。兩頸淋巴結腫脹質硬多枚

在上述的會診信息的基礎上，實現最大匹配中文分詞算法，并進行詞性標注，去停用詞、語氣助詞和其他一些與證候無關詞性的詞，得到最初的分詞結果如表3所示（部分病例示例）。

由于會診信息是類似文言文的描述性文本，分詞后得出的詞直接和標準的四診信息進行匹配，準確率會大大降低。需要將分詞后的結果進行同義詞匹配，在和標準的四診信息進行匹配。得到的最終的分詞結果如表4所示。

最后與定義的標準四診信息匹配可得出與病癥相關的四診信息，為中醫(yī)進行后續(xù)的證候分析提供數據基礎，如表5所示。

本文實驗是通過Python實現了最大正向匹配分詞算法，數據集是用txt格式來存儲，通過Python程序讀取。以20例病例作為測試病例，80例病例作為樣本病例，經過多次調試最大分詞數，分別計算他們的準確率和召回率，得出結果。結果對比發(fā)現組大分詞數為5時，準確率和召回率最高，實驗結果如表6所示。

經上述的實驗得出，用詞長為5的最大分詞數和最大匹配分詞算法，可以準確地得出該病例中會診信息的特征詞，即與病癥相關的四診變量，為后續(xù)證候分析提供數據基礎。

5? ?結論（Conclusion）

本文是以100例病例的會診信息為例，將語義分析應用到證候分析中，提取出病例的會診信息中的特征詞，與定義好的四診信息匹配得出與病癥相關的四診信息，可以為中醫(yī)的診斷提供更有效地數據基礎。中醫(yī)的證候分析具有重要的研究價值，而語義分析的應用，不僅局限于普通的分詞匹配，還和標準的四診信息進行比對替換，實現了證候名的統(tǒng)一，以更好地實現證候后續(xù)的挖掘和分析。

參考文獻（References）

[1] 尹湘君，何慶勇，王階，等.近40年血脂異常中醫(yī)證候動態(tài)演變規(guī)律的研究[J].中華中醫(yī)藥雜志，2018（04）：1523-1526.

[2] 張千，王慶瑋，張悅，等.基于深度學習的文本特征提取研究綜述[J].計算機技術與發(fā)展，2019（12）：61-65.

[3] 郭德海，鄭光，張潔，等.基于文本挖掘的慢性咳嗽中醫(yī)診治規(guī)律研究[J].中國中醫(yī)藥信息雜志，2019（10）：101-104.

[4] 王麗穎，鄭光，趙學堯.基于文本挖掘的高血壓病中醫(yī)辨證用藥情況分析[J].世界中西醫(yī)結合雜志，2018（04）：462-465;470.

[5] 王夢鴿.基于深度學習中文分詞的研究[D].西安郵電大學，2018.

[6] 張少聰.中醫(yī)醫(yī)療輔助診斷系統(tǒng)研究與實現[D].電子科技大學，2018.

作者簡介：

許林濤（1995-），男，碩士生.研究領域：人工智能，數據挖掘.

葉欣欣（1996-），女，碩士生.研究領域：隱私保護，數據挖掘.

裴成飛（1996-），男，碩士生.研究領域：隱私保護，數據挖掘.

吳榮士（1995-），男，碩士生.研究領域：隱私保護，數據挖掘.

軟件工程2020年4期

軟件工程的其它文章: 新工科背景下基于OBE教育模式的操作系統(tǒng)教學改革研究與實踐; 基于深度學習的驗證碼識別Web應用平臺; 基于Hybrid開發(fā)技術構建移動政務協同云平臺研究; 基于NFC的智能購物車設計; 基于“學創(chuàng)融合”的《數據庫原理與應用》教學改革研究; 面向軟件開發(fā)實踐能力的《Java程序設計》教學資源建設

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

中文分詞模型在中醫(yī)病癥語義理解中的研究與應用