• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合部首特征和BERT-Transformer-CRF的中文電子病歷實(shí)體識別方法研究

      2022-12-07 13:31:32蔣明峰
      軟件工程 2022年12期
      關(guān)鍵詞:部首命名病歷

      姚 蕾,蔣明峰,方 賢,魏 波,李 楊

      (浙江理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310018)

      1 引言(Introduction)

      近年來,隨著網(wǎng)絡(luò)技術(shù)和信息系統(tǒng)的不斷發(fā)展和完善,醫(yī)療系統(tǒng)產(chǎn)生的醫(yī)療數(shù)據(jù)將急劇增加。電子病歷是指醫(yī)務(wù)人員在開展醫(yī)療活動(dòng)的過程中,使用信息系統(tǒng)生成的數(shù)字化資料,一般包括文字、圖表、數(shù)據(jù)、符號、圖形和影像[1]。電子病歷中涉及大量的文字信息,中文電子病歷命名實(shí)體識別作為重要的中文電子醫(yī)療數(shù)據(jù)信息抽取任務(wù),普遍受到研究人員的重視。

      命名實(shí)體識別是指從非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本數(shù)據(jù)中提取實(shí)體,并將檢測到的實(shí)體歸類至預(yù)先定義好的一類中。其中,電子病歷命名實(shí)體識別的主要目的是識別與分類醫(yī)療記錄中的臨床術(shù)語,包括實(shí)驗(yàn)室檢驗(yàn)、手術(shù)和藥物等。例如,某份電子病歷中的“患者緣于2 小時(shí)前無明顯誘因出現(xiàn)左腹部疼痛……”,其中“左腹部”屬于身體部位實(shí)體,“疼痛”屬于癥狀和體征實(shí)體,“門診經(jīng)泌尿系超聲”中的“泌尿系超聲”為檢查實(shí)體。命名實(shí)體識別研究成果能夠?yàn)闃?gòu)建醫(yī)學(xué)知識庫、繪制信息抽取和知識圖譜等后續(xù)的臨床研究提供支撐。然而,手動(dòng)抽取實(shí)體信息會(huì)消耗較大的時(shí)間和人力成本,因此很多研究者采用自然語言處理技術(shù)解決以上問題。

      目前,國外關(guān)于命名實(shí)體識別的絕大部分研究均基于英文[2],而國內(nèi)對于中文電子病歷命名識別的研究尚處于初期階段,沒有建設(shè)全面的體系結(jié)構(gòu)。主要原因是中文電子病歷命名實(shí)體識別的規(guī)范和標(biāo)準(zhǔn)無法達(dá)成統(tǒng)一,中文電子病歷文本中實(shí)體沒有自然的分隔符,而且醫(yī)療實(shí)體的組成較為復(fù)雜。因此,本文將利用部首信息和術(shù)語字典開展命名實(shí)體識別研究任務(wù)。

      針對中文電子病歷命名實(shí)體識別任務(wù),本文使用BERT獲得輸入的信息向量表示,結(jié)合部首級特征表示,以此作為Transformer模塊的輸入。Transformer模塊對上下文長距離的位置依賴特征進(jìn)行提取,并在CRF模塊中對上下文標(biāo)注進(jìn)行約束,最終輸出序列標(biāo)注結(jié)果。本文提出的方法在CCKS2017和CCKS2021數(shù)據(jù)集上廣泛評估了其可用性和實(shí)用性。

      本文提出一種基于BERT-Transformer-CRF(BTC)的中文電子病歷命名實(shí)體識別方法;其主要工作原理歸納如下:(1)鑒于句子中的實(shí)體間存在依賴關(guān)系,本文使用Transformer獲得更好的上下文特征表示,從而捕捉字符之間的長距離依賴關(guān)系。其中,多頭注意力機(jī)制可以直接捕捉角色之間的依賴關(guān)系,解決了一般深度模型隨著實(shí)體間距離增加長期依賴能力下降的問題。(2)本文通過添加部首特征,并將部首信息和深度學(xué)習(xí)模型相結(jié)合,解決了移植一般深度學(xué)習(xí)模型導(dǎo)致的醫(yī)療實(shí)體識別性能差的問題。(3)本文在真實(shí)的電子病歷語料上驗(yàn)證模型的效果,實(shí)驗(yàn)結(jié)果表明,BTC模型在CCKS2017和CCKS2021數(shù)據(jù)集上具有良好的性能優(yōu)勢。

      2 命名實(shí)體識別相關(guān)工作(Related work of named entity recognition)

      命名實(shí)體識別是從大規(guī)模非結(jié)構(gòu)化文本數(shù)據(jù)中提取具有實(shí)際意義的實(shí)體[3],主要分為基于詞典和規(guī)則、基于統(tǒng)計(jì)和基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別方法。

      基于規(guī)則的方法依賴于一個(gè)龐大且全面的領(lǐng)域字典,需要領(lǐng)域?qū)<沂謩?dòng)構(gòu)建規(guī)則和模板[4],無法在不同領(lǐng)域間復(fù)用。在統(tǒng)計(jì)的經(jīng)典機(jī)器學(xué)習(xí)方法中,隱馬爾科夫模型(Hidden Marko Model,HMM)[5]、支持向量機(jī)(Support Vector Machine,SVM)[6]、條件隨機(jī)場(Conditional Random Field,CRF)[7]得到廣泛應(yīng)用。例如,扈應(yīng)等[8]提出一種結(jié)合CRF的邊界組合命名實(shí)體識別方法,有效地利用了生物醫(yī)學(xué)實(shí)體特征。統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法需要設(shè)計(jì)特征模板提取特征,實(shí)體識別效果易受到構(gòu)建的特征集合的影響。

      近年來,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法廣泛運(yùn)用于自然語言處理領(lǐng)域。WU等[9]在雙向長短期記憶(Bidirectional Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò)后引入自注意力機(jī)制,并提出一種新的細(xì)粒度字符級表示方法用于獲取更多的漢字語義信息。LI等[10]提出BERT-BiLSTM-CRF模型,在未標(biāo)記的中文臨床記錄上預(yù)訓(xùn)練BERT模型增強(qiáng)語義信息,利用BiLSTM和CRF等不同層次提取文本特征和解碼預(yù)測標(biāo)簽。YIN等[11]使用自注意力捕捉字符間的相關(guān)性,在CCKS2017和TP_CNER數(shù)據(jù)集中的F1評分分別達(dá)到93.00%和86.34%。KONG等[12]通過構(gòu)建多層次卷積神經(jīng)網(wǎng)絡(luò)(CNN)融合長短期信息,設(shè)計(jì)一種注意力機(jī)制獲取全局上下文信息。YA等[13]提出XLNET-BiLSTM-CRF模型,利用預(yù)訓(xùn)練的XLNET提取句子特征。QIU等[14]提出帶有條件隨機(jī)場的RD-CNN-CRF模型解決通過時(shí)間傳播的隱形激活矢量導(dǎo)致訓(xùn)練時(shí)間過長的問題,殘差卷積神經(jīng)網(wǎng)絡(luò)用來捕捉相鄰標(biāo)簽間的依賴關(guān)系。然而,長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和CNN捕捉字符長期依賴關(guān)系的能力將隨著實(shí)體間距離的增加而下降。這些模型沒有充分考慮醫(yī)學(xué)領(lǐng)域數(shù)據(jù)信息的特點(diǎn),在醫(yī)學(xué)實(shí)體識別方面的效果不佳。

      相較于傳統(tǒng)的Word2vec、Glove、ELMO詞向量方法[15],BERT能獲得更好的字符嵌入表示。除了單詞嵌入,其他一些特征對于提升命名實(shí)體識別效果也有幫助。電子病歷文本中有海量的醫(yī)學(xué)專業(yè)術(shù)語,高質(zhì)量的醫(yī)學(xué)術(shù)語詞典對于提取醫(yī)療領(lǐng)域知識的特征非常有用。因此,本文將部首特征和術(shù)語字典特征與深度學(xué)習(xí)模型相融合。

      3 BERT-Transformer-CRF模型(The model of BERT-Transformer-CRF)

      本文提出的BERT-Transformer-CRF模型架構(gòu)主要由BERT、Transformer、CRF三個(gè)模塊組成,模型架構(gòu)如圖1所示,其基本思想是通過微調(diào)的BERT模型進(jìn)行預(yù)訓(xùn)練提取輸入的信息特征,將字向量表示序列和部首特征嵌入連接起來,加入字典特征,通過Transformer層獲得長距離的文本依賴,在CRF模塊中對上下文標(biāo)注約束進(jìn)行解碼,最終輸出序列結(jié)果。

      圖1 BERT-Transformer-CRF+radical 模型架構(gòu)圖Fig.1 Model architecture diagram of BERTTransformer-CRF+radical

      3.1 中文預(yù)訓(xùn)練模型BERT

      BERT模型的主要?jiǎng)?chuàng)新點(diǎn)在于使用掩碼語言模型(Mask Language Model,MLM)獲取字符級特征表示和下一句預(yù)測進(jìn)行預(yù)訓(xùn)練[16],學(xué)習(xí)到的先驗(yàn)語義知識通過微調(diào)被應(yīng)用到下游任務(wù)中。這樣得到的向量不僅包含隱含的上下文信息,還能夠更徹底地捕捉句子中的雙向關(guān)系。谷歌官方發(fā)布的BERTbase及其中文版本并沒有在中文臨床領(lǐng)域進(jìn)行預(yù)訓(xùn)練。北京大學(xué)國際數(shù)學(xué)研究中心發(fā)布了基于中文臨床語料庫的預(yù)訓(xùn)練模型[10],本研究使用臨床文本生成的PyTorch版本的預(yù)訓(xùn)練BERT模型,該模型從網(wǎng)絡(luò)上爬取1.05 G臨床文本,從現(xiàn)有的BERT檢查點(diǎn)開始,在BERT的原始詞匯表增加46 個(gè)字符并在特定域上進(jìn)行預(yù)訓(xùn)練。本文模型從預(yù)訓(xùn)練好的BERT模型獲得字符級的增強(qiáng)語義信息,結(jié)合部首信息輸入Transformer層中。

      3.2 部首特征

      近些年,部首特征被廣泛運(yùn)用于命名實(shí)體識別任務(wù)中[17]。漢字是象形文字和方塊字,它們有更深次的語義隱含在漢字內(nèi)部。偏旁部首“月”通常與身體部位有關(guān)[18],比如“肺”“肝”“腦”是用來代表人體器官的。“疒”通常與疾病和診斷有關(guān),“口”通常出現(xiàn)在癥狀實(shí)體中。然而,目前主流的命名實(shí)體識別方法不能將預(yù)先訓(xùn)練好的模型與中文部首信息相結(jié)合。本研究從在線新華字典獲取漢字的偏旁部首組成,它以“字符-偏旁部首”的形式生成一個(gè)鍵值對字典。部首信息編碼與BERT獲得字向量編碼疊加融合到深度學(xué)習(xí)網(wǎng)絡(luò)中。

      本文引入字典信息提升命名實(shí)體識別的效果。針對藥物、手術(shù)等術(shù)語字典,利用雙向最大匹配算法[19]在文本中找到對應(yīng)實(shí)體。具體來說,利用雙向最大匹配算法分割文本和標(biāo)注出現(xiàn)在字典中的實(shí)體,如果文本可以通過該算法被標(biāo)注為第j個(gè)標(biāo)簽,則通過向該元素添加常數(shù)修改線性層的輸出,以此提高識別效果。

      3.3 Transformer層

      Transformer是一種全聯(lián)接的多頭自注意力神經(jīng)網(wǎng)絡(luò)模型。面向機(jī)器翻譯等任務(wù)的Transformer[20]由編碼組件、解碼組件及它們中間的連接組成。本文提出的模型僅使用其中的編碼器進(jìn)行醫(yī)療文本序列的長距離位置依賴關(guān)系特征建模。

      Transformer的編碼器由多頭注意力和前饋神經(jīng)網(wǎng)絡(luò)組成。如圖2所示,BERT獲得的字符嵌入與部首嵌入進(jìn)行結(jié)合,輸出信息進(jìn)入Transformer層,與位置嵌入進(jìn)行拼接得到Xembedding,作為多頭注意力機(jī)制的輸入。多頭注意力由多個(gè)自注意力拼接組成。多頭注意力結(jié)構(gòu)由中心塊的若干線性變換和點(diǎn)積注意力組成。Attention的工作原理如下:給定輸入的Xembedding向量,然后讀入輸入向量通過矩陣進(jìn)行線性變換得到Query向量Key向量,以及Value向量

      圖2 多頭注意力結(jié)構(gòu)Fig.2 Multi-head attention structure

      接著利用得到的Q和K,使用點(diǎn)積法計(jì)算輸入序列的相關(guān)性得分。對相關(guān)性得分進(jìn)行歸一化,使得訓(xùn)練時(shí)梯度穩(wěn)定。經(jīng)過Softmax函數(shù)將得分向量轉(zhuǎn)化為[0,1]之間的概率分布并與V進(jìn)行點(diǎn)積。如式(4)所示,令輸出矩陣,則:

      F(X)與L再次進(jìn)行殘差連接和歸一化,構(gòu)造出一個(gè)編碼器,疊加多個(gè)編碼器,最終得到Transformer層的輸出。

      3.4 CRF層

      CRF是自然語言處理的基礎(chǔ)模型,廣泛運(yùn)用于序列標(biāo)注模型,對上下文標(biāo)注進(jìn)行約束使得正確的輸出標(biāo)簽最大化。在中文電子病例命名實(shí)體識別任務(wù)中,輸出標(biāo)注之間存在強(qiáng)相關(guān)性,相鄰的標(biāo)簽之間有依賴關(guān)系,例如標(biāo)簽“B-疾病和診斷”不能跟在“I-疾病和診斷”之后。Transformer輸出的向量只考慮了上下文之間的長距離依賴關(guān)系,沒有考慮標(biāo)簽之間的順序,而CRF層自動(dòng)學(xué)習(xí)句子的約束條件,所以引入條件隨機(jī)場解決這一問題。對于給定的輸入CRF通過Softmax函數(shù)運(yùn)用隨機(jī)條件概率預(yù)測輸出向量標(biāo)簽序列Y的得分:

      維特比算法可以通過動(dòng)態(tài)規(guī)劃算法獲得最優(yōu)路徑。

      4 實(shí)驗(yàn)和結(jié)果(Experiment and result)

      實(shí)驗(yàn)采用Python 3.8語言開發(fā),軟件模型基于PyTorch深度學(xué)習(xí)框架,采用Adam作為優(yōu)化器,學(xué)習(xí)率為2e-5,批處理大小為8,epochs迭代次數(shù)為15 次,max_seq_length=480,hidden_size為768,dropout為0.1,部首特征向量維度為20。硬件采用2 塊NVIDIA GeForce RTX 3090顯卡訓(xùn)練。

      4.1 數(shù)據(jù)集

      本研究的數(shù)據(jù)集源自2017 年全國知識圖譜與語義計(jì)算大會(huì)(CCKS2017)和2021年全國知識圖譜與語義計(jì)算大會(huì)(CCKS2021)。數(shù)據(jù)集包含實(shí)際的電子病歷數(shù)據(jù),由專業(yè)醫(yī)學(xué)領(lǐng)域團(tuán)隊(duì)手工進(jìn)行注釋。首先對數(shù)據(jù)進(jìn)行預(yù)處理,采用NER領(lǐng)域的標(biāo)準(zhǔn)標(biāo)注策略BIO,“B”表示醫(yī)療實(shí)體的起始位置,“I”表示醫(yī)療實(shí)體的中間部分,“O”表示與醫(yī)療實(shí)體無關(guān)的部分。

      在CCKS2017數(shù)據(jù)集中,有四種類型的電子病歷,包括一般項(xiàng)目、病史特點(diǎn)、診療經(jīng)過及出院記錄,共有五類命名實(shí)體:DISEASE(疾病和診斷)、SIGNS(癥狀和體征)、CHECK(檢查和檢驗(yàn))、BODY(身體部位)及TREATMENT(治療)。由于本文的研究人員沒有參加比賽,所以獲得的數(shù)據(jù)集不完整。訓(xùn)練集有960 條臨床記錄,測試集包含120 條臨床記錄。表1列出了不同類別實(shí)體的統(tǒng)計(jì)數(shù)據(jù);各實(shí)體分布比例如圖3所示。

      圖3 CCKS2017各類別實(shí)體分布Fig.3 Distribution of various entities on CCKS2017 dataset

      表1 CCKS2017不同類別醫(yī)療實(shí)體統(tǒng)計(jì)Tab.1 Statistics of different types of medical entities on CCKS2017 dataset

      在CCKS2021數(shù)據(jù)集中,有1,150 條臨床記錄,按8∶2的比例劃分訓(xùn)練集和測試集,共有實(shí)驗(yàn)室檢驗(yàn)、藥物、影像檢查、解剖部位、疾病和診斷及手術(shù)6 類命名實(shí)體。表2列出了不同類別實(shí)體的統(tǒng)計(jì)數(shù)據(jù);圖4顯示各實(shí)體分布比例。

      表2 CCKS2021不同類別醫(yī)療實(shí)體統(tǒng)計(jì)Tab.2 Statistics of different types of medical entities on CCKS2021 dataset

      圖4 CCKS2021各類別實(shí)體分布Fig.4 Distribution of various entities on CCKS2021 dataset

      4.2 評價(jià)指標(biāo)

      本實(shí)驗(yàn)采用命名實(shí)體識別通用的評價(jià)指標(biāo)正確率P(Precision)、召回率R(Recall)、F1值(F-measure)對電子病例命名實(shí)體識別結(jié)果進(jìn)行性能衡量,其計(jì)算公式分別如下:

      式(9)—式(11)中,TP為識別正確的實(shí)體詞數(shù),F(xiàn)P為實(shí)體識別正確但類別或者邊界判定出現(xiàn)錯(cuò)誤,F(xiàn)N為應(yīng)該被識別但實(shí)際沒有被識別的醫(yī)療實(shí)體的數(shù)量。

      4.3 結(jié)果和討論

      4.3.1 實(shí)驗(yàn)結(jié)果比較與分析

      為了驗(yàn)證BTC模型在CCKS2017數(shù)據(jù)集的有效性,與其他的命名實(shí)體識別方法進(jìn)行比較與分析,實(shí)驗(yàn)結(jié)果如表3所示。BiLSTM+CRF通過Word2vec訓(xùn)練單詞嵌入。CRF保證了標(biāo)簽序列之間的順序,BERT+CRF與BiLSTM+CRF兩個(gè)基線模型進(jìn)行對比,實(shí)驗(yàn)表明BERT能獲得更好的特征表示。為了驗(yàn)證預(yù)訓(xùn)練BERT的有效性,進(jìn)行BERT+BiLSTM+CRF和BiLSTM+CRF的對比實(shí)驗(yàn),結(jié)果表明,在CCKS2017數(shù)據(jù)集中引入在臨床預(yù)訓(xùn)練好的BERT模型后,P、R、F1值分別提高了4.98%、1.8%、3.41%。為了證明Transformer的有效性,進(jìn)行BTC和BERT+BiLSTM+CRF的對比實(shí)驗(yàn)。在CCKS2017數(shù)據(jù)集上,P、R、F1值分別提高了4.4%、4.99%、4.69%,這優(yōu)于其他現(xiàn)有技術(shù)方法。充分表明Transformer中多頭注意力機(jī)制使其具有較強(qiáng)的長距離依賴關(guān)系表征能力,能獲得更好的上下文表示。除此以外,本文將術(shù)語字典和部首特征等應(yīng)用于微調(diào)的BERT模型,Transformer能獲得豐富的語義信息,F(xiàn)1提高了0.22%。

      表3 CCKS2017模型對比實(shí)驗(yàn)Tab.3 Model comparison experiment on CCKS2017 dataset

      除了觀察整個(gè)測試數(shù)據(jù)集的評估指標(biāo),本研究仔細(xì)觀察了預(yù)測的結(jié)果。在BTC模型的基礎(chǔ)上,添加部首特征信息并應(yīng)用字典信息后處理,模型在不同類型和臨床實(shí)體上的性能如表4所示。在CCKS2017數(shù)據(jù)集中,在檢查和檢驗(yàn)、疾病和診斷、癥狀和體征及治療方面取得了較好的效果,但未能有效識別身體部位特征。檢查結(jié)果發(fā)現(xiàn):預(yù)測實(shí)體遺漏了一些部位,例如正確實(shí)體為“頭皮”“咽部”“右側(cè)頂骨”“頭顱”“右側(cè)上下肢”,模型則預(yù)測為“頭”“咽”“右側(cè)頂”“頭”“右側(cè)上下”,部分部位遺漏;其次,類別標(biāo)注錯(cuò)誤,如檢查類實(shí)體“查體雙肺呼吸音粗”,模型提取“雙肺部位”,識別類別錯(cuò)誤。

      表4 CCKS2017各類型實(shí)體的識別比較Tab.4 Recognition and comparison of different types of entities on CCKS2017

      本文還在CCKS2021數(shù)據(jù)集上做了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。同樣,選取BiLSTM+CRF與BERT+CRF對比,F(xiàn)1提高了3.52%,表明引入臨床語料上預(yù)訓(xùn)練的BERT模型優(yōu)于BiLSTM模型。BTC相較于BERT+BiLSTM+CRF在P、R、F1上分別提升1.01%、0.59%、0.81%;結(jié)果表明,Transformer能夠獲得長距離依賴關(guān)系的能力優(yōu)于BiLSTM。相較于基線BiLSTM-CRF,本文的F1提高了4.39%。本文引入藥物和手術(shù)等詞典,利用字典信息后處理的方法修改線性層的輸出。引入外部部首特征和術(shù)語詞典,總體P、R、F1值提升了0.03%、0.6%、0.3%,方法受限于領(lǐng)域詞典的質(zhì)量,結(jié)果不顯著。各實(shí)體的P、R、F1值如表6所示。在CCKS2021數(shù)據(jù)集中,疾病和診斷及實(shí)驗(yàn)室檢驗(yàn)識別效果較差:第一,預(yù)測實(shí)體的位置是缺失或者冗余的。比如,預(yù)測的實(shí)體是“口腔”“子宮”,而正確的實(shí)體識別是“口腔潰瘍”“子宮內(nèi)膜分段診刮”。第二,標(biāo)注的命名實(shí)體識描述過長,預(yù)測的命名實(shí)體通常較短,比如“宮內(nèi)孕不全流產(chǎn)”,模型預(yù)測的實(shí)體為“宮內(nèi)孕不全”。第三,預(yù)測的實(shí)體存在錯(cuò)誤的標(biāo)注,比如“結(jié)腸癌病變”正確類別為疾病和診斷,而模型預(yù)測的結(jié)果提取“結(jié)腸”,該實(shí)體識別的類別為解剖部位,識別結(jié)果錯(cuò)誤。

      表5 CCKS2021模型對比實(shí)驗(yàn)Tab.5 Model comparison experiment on CCKS2021 dataset

      表6 CCKS2021各類型實(shí)體的識別比較Tab.6 Recognition and comparison of different types of entities on CCKS2021

      4.3.2 與現(xiàn)有方法比較

      CCKS2017數(shù)據(jù)集其他的測試結(jié)果可以在表7中看到,體現(xiàn)了本文最佳模型和最先進(jìn)的深度模型之間的比較結(jié)果。QIN等[21]在中文電子病歷領(lǐng)域提出了一個(gè)基于RoBERTa-BiGRUCRF的命名實(shí)體識別方法,將其應(yīng)用于腦血管疾病領(lǐng)域,通過將電子病歷轉(zhuǎn)化為低維向量輸入BiGRU層捕獲上下文特征,總體F1值達(dá)到90.38%。羅熹等[22]提出一種融合領(lǐng)域詞典的字符級表示方法,結(jié)合多頭注意力機(jī)制和BiLSTM-CRF捕捉字符間的潛在依賴權(quán)重、語義和結(jié)構(gòu)特征等多方面特征。WU等[23]利用RoBERTa中的全詞掩碼獲取詞向量表示,同時(shí)通過BiLSTM捕捉提取部首信息后捕捉特征的內(nèi)在關(guān)聯(lián)性,并拼接RoBERTa生成的特征向量。李丹等[24]設(shè)計(jì)BiLSTM與CRF的聯(lián)合模型并引入BERT模型,預(yù)測的時(shí)候考慮了上下文特征,同時(shí)將部首信息與字向量編碼相結(jié)合,利用部首信息在標(biāo)簽矩陣中加入部首以修改CRF層得分函數(shù),F(xiàn)1分?jǐn)?shù)可以增加到93.81%。張?jiān)魄锏萚25]將RoBERTa-wwm中的各編碼層生成的語義表示進(jìn)行動(dòng)態(tài)融合,BiLSTM層用來捕獲序列信息,再輸入條件隨機(jī)場保證各標(biāo)簽之間的順序關(guān)系。實(shí)驗(yàn)表明,本文模型在CCKS2017數(shù)據(jù)集上取得了96.22%的精度,相較于其他模型,總體識別精度提高了2.14%—5.84%,優(yōu)于其他模型。

      表7 與CCKS2017現(xiàn)有的深度模型比較Tab.7 Comparison with the existing deep model on CCKS2017 dataset

      從表8可以看出,BTC+radical+dictionary模型取得了總體F1值為84.65%的成績;而BiLSTM+CRF、BERT+CRF、BERT+BiLSTM+CRF的總體F1值分別為80.26%、83.78%、83.54%。相較于以上模型,本文的F1值分別提高了4.39%、0.87%、1.11%,充分證明了本文模型的有效性。BERT+CRF與BiLSTM+CRF相比,預(yù)訓(xùn)練BERT獲取字向量特征時(shí)具有非常好的并行性質(zhì),總體識別的精度為83.78%。將BERT+BiLSTM+CRF與BiLSTM+CRF進(jìn)行對比發(fā)現(xiàn),F(xiàn)1提高了3.28%,充分說明在臨床語料庫預(yù)訓(xùn)練的BERT模型能獲得更加豐富的語義特征,證明預(yù)訓(xùn)練BERT模型的有效性。BTC相比BERT+BiLSTM+CRF,各實(shí)體識別精度均有提升,總體識別精度提升了0.81%,表明Transformer獲得實(shí)體間長距離依賴能力優(yōu)于BiLSTM。引入部首特征和手術(shù)、藥物術(shù)語詞典,模型的性能進(jìn)一步提升,但受限于詞典的質(zhì)量,結(jié)果提升不顯著,在解剖部位、藥物、疾病和診斷、實(shí)驗(yàn)室檢驗(yàn)實(shí)體類別中識別的精確度分別提升了0.52%、0.14%、0.24%、1.23%。本文模型在解剖部位、手術(shù)、影像檢查三種實(shí)體的識別效果均為最好。同時(shí),從表8中可以發(fā)現(xiàn),BiLSTM+CRF模型在疾病和診斷、實(shí)驗(yàn)室檢查中取得了最好的成績,即88.48%、87.91%,這證明了有些模型即使總體F1值并非最高,在特定實(shí)體上也能獲得出色的性能。

      表8 不同模型在CCKS2021數(shù)據(jù)集上對每個(gè)實(shí)體和整體的F1值的預(yù)測結(jié)果Tab.8 Prediction results of different models on CCKS2021 dataset for F1 value of each entity and the whole

      圖5表明本文模型對身體部位類別的識別效果較差。根據(jù)圖6的混淆矩陣顯示,本文的模型對影像檢查、手術(shù)、解剖部位實(shí)體識別效果較好。本文的最佳模型對實(shí)體的中間部位識別率較高,起始部位識別有偏差。其中,手術(shù)的起始位置可能被劃分為手術(shù)的中間位置,比如“小腸切除術(shù)”被錯(cuò)誤劃

      圖5 CCKS2017實(shí)體類別混淆矩陣Fig.5 Entity category confusion matrix on

      圖6 CCKS2021實(shí)體類別混淆矩陣Fig.6 Entity category confusion matrix on CCKS2021 dataset

      5 結(jié)論(Conclusion)

      本文提出一種基于微調(diào)的BERT-Transformer-CRF實(shí)體識別模型。該模型通過在中文臨床語料庫預(yù)訓(xùn)練的BERT獲得字符級的增強(qiáng)語義信息,與部首語義信息融合輸入Transformer。Transformer中的多頭注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)能夠更好地捕捉字符間的長距離依賴關(guān)系,CRF能保證臨近標(biāo)簽間的順序關(guān)系,有效提升了醫(yī)療領(lǐng)域命名實(shí)體的識別能力。同時(shí),添加手術(shù)、藥物等術(shù)語字典特征進(jìn)一步提升性能。實(shí)驗(yàn)結(jié)果表明,該模型能有效識別手術(shù)、影像檢查、解剖部位等領(lǐng)域?qū)嶓w,在CCKS2017和CCKS2021數(shù)據(jù)集中獲得96.22%和84.65%的F1值,優(yōu)于現(xiàn)有模型的結(jié)果。在未來工作中,考慮擴(kuò)充學(xué)習(xí)高質(zhì)量的領(lǐng)域詞典和構(gòu)建更大規(guī)模的語料庫,可以將其應(yīng)用到醫(yī)學(xué)命名實(shí)體的信息抽取和醫(yī)療知識圖譜的構(gòu)建等后續(xù)工作中。

      猜你喜歡
      部首命名病歷
      部首歌
      強(qiáng)迫癥病歷簿
      趣味(語文)(2021年9期)2022-01-18 05:52:42
      弄清偏旁與部首
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      “大數(shù)的認(rèn)識”的診斷病歷
      補(bǔ)
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      散文詩(2017年17期)2018-01-31 02:34:08
      為何要公開全部病歷?
      村醫(yī)未寫病歷,誰之過?
      阿鲁科尔沁旗| 二手房| 扶余县| 福清市| 饶河县| 奉新县| 长葛市| 彭水| 荔波县| 彭州市| 道孚县| 德保县| 万宁市| 永州市| 淄博市| 上杭县| 怀远县| 辽宁省| 和平区| 灵武市| 工布江达县| 浦东新区| 贡山| 揭西县| 吉隆县| 东莞市| 新昌县| 大同县| 沅江市| 孝义市| 布拖县| 蚌埠市| 鹿邑县| 潞城市| 泰安市| 昌江| 阜城县| 岳阳市| 乌鲁木齐县| 遂宁市| 互助|