• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合實體-語句特征信息的中醫(yī)醫(yī)案實體識別研究

      2024-09-22 00:00:00王豐陳根浪吳創(chuàng)
      軟件工程 2024年9期

      關鍵詞:特征融合;命名實體識別;BERT;中醫(yī)

      中圖分類號:TP391 文獻標志碼:A

      0 引言(Introduction)

      中醫(yī)醫(yī)案中蘊含著中醫(yī)專家豐富的診療經(jīng)驗和理論,因此有效提取醫(yī)案中的草藥、癥狀、證、劑量等信息[1]對于后續(xù)探尋診療規(guī)律[2]、構建診療模型[3]具有重要意義,是傳承中醫(yī)學的重要實踐方式。

      在中醫(yī)領域,命名實體識別(Named Entity Recognition,NER)被用于提取癥狀、中藥等實體信息,是中醫(yī)知識圖譜構建的重要技術之一。中醫(yī)命名實體具有復雜、長度不確定等特點,并且存在許多嵌套實體,因此中醫(yī)實體識別更具挑戰(zhàn)性。考慮到中藥之間的配伍關系和癥狀的共現(xiàn)性,本文提出了一種中醫(yī)實體融合識別方法。該方法將每個實體向量和語句向量相融合,獲得帶有全局特征信息的實體向量,進一步將實體向量和語句向量進行連接以獲得融合后的特征向量。本文使用多組基于BERT(Bidirectional Encoder Representation fromTransformers)的模型進行了實驗與測試。實驗結果表明,本文提出的方法在中醫(yī)醫(yī)案的實體識別任務上的精確率有顯著提高,可為中醫(yī)醫(yī)案的實體識別提供有益的參考。

      1 相關工作(Related work)

      命名實體識別是中醫(yī)領域信息提取的關鍵任務,也是中醫(yī)數(shù)據(jù)挖掘和構建中醫(yī)輔助診斷系統(tǒng)的重要步驟。醫(yī)學命名實體識別方法可分為基于規(guī)則和領域詞典的字符匹配的方法、基于機器學習的方法和基于深度學習的方法。

      早期的實體識別方法主要依賴專家構造語法和語義規(guī)則,根據(jù)規(guī)則進行模式匹配來完成對實體的抽取。中醫(yī)師們利用醫(yī)學字典和專業(yè)人員的臨床專業(yè)知識構建模板和規(guī)則。ZINGMOND等[4]通過研究醫(yī)學語料庫中的規(guī)則,并結合處理醫(yī)學文本報告的自然語言處理方法,構造了一個文本處理器。FRIEDMAN等[5]設計了一種通用自然語言文本處理器,用于提取醫(yī)學報告中的臨床信息。這類方法存在準確性過度依賴模板質(zhì)量和可移植性的問題。

      機器學習方法將實體識別任務轉換為字符(Token)級別的多分類問題或是序列標注問題,在構造標注數(shù)據(jù)的同時,通過學習將不同字符映射成為不同標簽。例如,隱馬爾可夫模型、支持向量機、條件隨機場(Conditional Random Field,CRF)模型等常見的機器學習算法均被廣泛應用于實體識別。高佳奕等[6]將條件隨機場模型應用于中醫(yī)實體識別,在名老中醫(yī)臨床肺癌醫(yī)案實體識別任務中取得了滿意的效果。任宋潔[7]使用條件隨機場模型對藥品說明書進行實體識別。這些方法雖然減少了對人工構建模板的需求,但是仍然需要大量的特征工程。

      深度學習方法避免了煩瑣的特征工程,采用向量化表示以及神經(jīng)網(wǎng)絡式的傳導求解探索隱藏的語義信息。DENG等[8]構建了雙向長短期記憶遞歸神經(jīng)網(wǎng)絡并結合條件隨機場模型識別中醫(yī)藥專利中的實體,并取得了良好的效果。在Transformer提出后,兩段式訓練被廣泛應用。雙向Transformer編碼器的BERT預訓練語言模型則提升了詞向量的語義表征能力,使其在命名實體識別上有較大的性能提升。何濤等[9]使用BERT模型配合條件隨機場模型從電子病歷中提取實體,并驗證了BERT-CRF模型應用在中文實體識別中尤其是在中醫(yī)實體識別任務上的有效性。

      2 模型架構(Model architecture)

      2.1 模型概述

      本文提出的模型整體架構如圖1所示。在輸入文本序列添加特殊標記[CLS]和[SEP]后,經(jīng)由BERT模型的嵌入層對輸入序列進行編碼,生成語義向量表示。虛線框是本文提出的融合模塊,將實體向量Hn 和語句向量H 相乘,獲得的融合向量H'n 包含了單個實體與語句環(huán)境的特征信息,之后將添加語義信息后的融合向量H'n 與原始語句向量H 連接,得到保留上下文實體關系的融合特征向量。該方法可以捕捉實體之間的依賴關系并提取出更豐富的語義特征。條件隨機場模型負責對融合向量進行解碼,計算得分最高的標簽,可以獲得最佳的訓練標簽序列。下文將詳細介紹模型的每一模塊。

      2.2BERT預訓練模型

      BERT模型的輸入表征如圖2所示。輸入由詞嵌入向量(Token Embedding)、分段嵌入向量(Segment Embedding)和位置嵌入向量(Position Embedding)組成。文本數(shù)據(jù)被轉換為向量,并且為每個句子的開頭和結尾添加特殊標志[CLS]和[SEP],經(jīng)過詞嵌入后的向量被轉換成一個768維的向量。分段嵌入層使用兩種向量表示法為句子對中的兩個句子分配不同的向量表示,用于區(qū)分兩個句子的前后順序。位置嵌入層為每個位置學習一個代表序列順序信息的向量和一個大小為(512×768)的查找表用于表示序列中各個位置的特征。3個嵌入層的向量按元素相加得到BERT編碼層的輸入。

      BERT預訓練模型的實現(xiàn)基于多層雙向Transformer編碼器且采用掩碼語言模型用于預訓練,生成融合上下文信息的深層雙向語言表征。本文實驗選擇使用中文維基百科相關語料的預訓練BERT-base-Chinese模型,其結構為12層編碼器,每層有12個端口,向量維數(shù)為768維。

      2.3 融合層

      在中醫(yī)文本中,實體之間存在一些固定的上下文信息。例如,前人把單味藥的應用同藥與藥之間的配伍關系稱為藥物的“七情”,例如“桂枝配白芍”二藥配伍,一溫一寒,一斂一散,針對衛(wèi)強營弱,可調(diào)和營衛(wèi)?!安窈潼S芩”二藥配伍,具有較好的和解少陽、疏散肝膽郁熱的作用。藥物配合使用,藥與藥之間會發(fā)生某些相互作用,有的能增強或降低原有藥效,有的能抑制或消除毒副作用。在癥狀描述中,患者的某些癥狀往往伴隨產(chǎn)生,如“鼻涕多、鼻塞”“久咳多痰”等通常會伴隨某種疾病出現(xiàn)。為了更好地適配中醫(yī)醫(yī)案文本的藥物配伍關系和癥狀的共現(xiàn)性,獲得更豐富的實體間特征,本文提取文本中的單個草藥實體和其他實體,并將草藥實體放入中藥處方語境中。同樣,將癥狀實體放入其經(jīng)常出現(xiàn)的語境中進行實體融合,使得實體不僅具有自身的特征,還具備文本中其他實體的語境特征。因此,與單個實體向量相比,融合向量擁有更多關于每個實體與整個語句之間關系的特征信息。融合模塊的具體算法流程如下。

      3 實驗(Experiment)

      3.1 數(shù)據(jù)預處理

      實驗選取了4000多份患者的臨床病歷,經(jīng)過數(shù)據(jù)清洗和冗余處理等預處理步驟,保障了數(shù)據(jù)的可靠性。結合特定領域的知識以及專家的見解對數(shù)據(jù)進行標注并構建了一個中醫(yī)語料庫,其中包括20 400個草藥實體和26072個癥狀實體。

      考慮到中醫(yī)實體具有很強的領域專業(yè)性,需要制定規(guī)范的標注策略以更好地確定實體之間的差異性,保證標注數(shù)據(jù)的完整性。標注規(guī)范描述如下。

      (1)同一中藥材采用不同的炮制方法會產(chǎn)生不同的功效,因此標注上要進行區(qū)分。例如:生麥芽具有回乳消脹的功效;炒麥芽有健胃消食的作用。

      (2)癥狀中存在大量嵌套實體,因此對嵌套的癥狀要進行區(qū)分。例如:舌紅苔白和舌紅苔白厚膩表示不同癥狀。

      (3)專業(yè)的中醫(yī)師在描述癥狀時存在一定的口語化特點,部分癥狀描述可能會采用縮寫形式,因此對癥狀描述的差異性要進行標注上的區(qū)分。例如:手心萎黃和手黃。

      本文數(shù)據(jù)集采用BMES(Beginning Middle End Single)標注方法,具體格式如表1所示。其中:B代表實體的起始位置,M代表實體的中間位置,E代表實體的結束位置,S代表單一實體,O代表非實體部分。數(shù)據(jù)按6∶2∶2的比例分為訓練集、驗證集和測試集。

      3.2 實驗環(huán)境

      本實驗基于Pytorch框架構建神經(jīng)網(wǎng)絡模型,具體實驗環(huán)境配置如表2所示。

      3.4 實驗參數(shù)

      實驗中使用BERT 預訓練模型為12層Transformer網(wǎng)絡,隱藏層狀態(tài)的維數(shù)為768,BERT預訓練模型的學習率為1e-5,CRF層的學習率為1e-3,以30輪迭代訓練的最優(yōu)結果作為最終訓練結果。實驗參數(shù)如表3所示。

      3.5 結果與分析

      將實體識別抽象為序列標注問題后,本研究首先使用Softmax函數(shù)對融合層的輸出向量進行分類,以獲取訓練好的標注序列??紤]標簽的預測相對獨立,實體識別的準確率是將實體包括邊界作為整體計算,因此將Softmax函數(shù)替換為條件隨機場模塊,確保標簽之間的約束性。在癥狀實體的精確度上,添加Softmax函數(shù)在BERT模型后的表現(xiàn)略好于條件隨機場模塊,而F1分數(shù)和召回率則稍差。在中藥實體方面,添加條件隨機場模塊在P、R、F1三個指標上的表現(xiàn)更勝一籌。不同模型的實驗結果對比如表4所示。

      在BERT-CRF模型的基礎上,加入雙向長短期記憶遞歸神經(jīng)網(wǎng)絡(Bi-directional Long Short-Term Memory,BiLSTM)獲取上下文特征信息。BiLSTM 通過其門控結構控制神經(jīng)元的傳輸,從而學習中藥和癥狀文本中存在的上下文關系。加入上下文特征后,訓練結果并未得到顯著改善。本文分析認為BiLSTM可能忽略了局部特征,因此加入了空洞卷積神經(jīng)網(wǎng)絡(Iterated Dilated Convolutional Neural Network,IDCNN)模塊??斩淳矸e在不使用池化損失信息的情況下擴大了感受野,使每個卷積輸出都包含更大范圍的信息。然而,添加空洞卷積神經(jīng)網(wǎng)絡結構和雙向長短期記憶遞歸神經(jīng)網(wǎng)絡并未對實體識別效果帶來明顯的提升。

      為了使模型能夠更好地獲取中醫(yī)上下文特征信息,本文提出了實體特征融合的結構,添加特征融合模塊后的中藥實體識別效果提升顯著,這主要得益于中藥之間的配伍關系更加密切。由于本文的特征融合方法更好地關注到了上下文特征信息,在中醫(yī)語料上實體識別效果優(yōu)于其他方法。與BERT-CRF模型相比,中藥實體識別F1分數(shù)提高了1.44百分點,癥狀實體提高了0.14百分點。與BERT-IDCNN-BiLSTM-CRF模型相比,中藥實體識別F1分數(shù)提高了2.83百分點,癥狀實體提高了4.67百分點。

      4 結論(Conclusion)

      本研究通過融合BERT預訓練模型提取的語句特征向量和實體特征向量,更有效地捕捉到了中醫(yī)實體之間的特征信息。將融合向量輸入條件隨機場模塊,在標簽序列預測過程中降低了非法序列的發(fā)生概率,從而提高了標簽預測的準確性。實驗結果表明,本文提出的方法在對中醫(yī)命名實體識別的效果上優(yōu)于其他方法。未來的研究將進一步完善數(shù)據(jù)集和方法,以提高對相似文本實體的準確識別率。

      作者簡介:

      王豐(1999-),男,碩士生。研究領域:中醫(yī)智能化技術及應用。

      陳根浪(1978-),男,博士,教授。研究領域:大數(shù)據(jù)及人工智能,生命健康領域。

      吳創(chuàng)(1998-),男,碩士生。研究領域:中醫(yī)智能化技術及應用。

      遂昌县| 拉萨市| 白水县| 南溪县| 台南市| 札达县| 万全县| 仁寿县| 瑞金市| 田林县| 壶关县| 靖西县| 灵璧县| 高青县| 泰兴市| 弥勒县| 宝兴县| 白朗县| 新乐市| 通海县| 辽中县| 恩平市| 柳林县| 黄浦区| 定结县| 灵武市| 曲阳县| 长丰县| 巴东县| 黄骅市| 威信县| 孟州市| 兴业县| 镇远县| 蒙阴县| 青铜峡市| 梁河县| 芜湖县| 昌黎县| 乐山市| 宁海县|