• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于BERT的醫(yī)療電子病歷命名實(shí)體識(shí)別

      2020-07-23 13:53:18梁文桐朱艷輝冀相冰
      關(guān)鍵詞:命名病歷注意力

      梁文桐,朱艷輝,詹 飛,冀相冰

      (1.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 株洲 412007;2.湖南工業(yè)大學(xué) 智能信息感知及處理技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,湖南 株洲 412007)

      1 研究背景

      在自然語(yǔ)言處理(natural language processing,NLP)的任務(wù)中,命名實(shí)體識(shí)別(named entity recognition,NER)是具有挑戰(zhàn)的基礎(chǔ)性工作[1]。從狹義上來(lái)說(shuō),一般的命名實(shí)體識(shí)別任務(wù)的目的,是從文本中識(shí)別出3種類型的實(shí)體提及,包括人名、地名和機(jī)構(gòu)名。在醫(yī)學(xué)領(lǐng)域中,醫(yī)務(wù)工作人員通過(guò)醫(yī)療機(jī)構(gòu)信息系統(tǒng)將病人的臨床診斷信息存儲(chǔ)在計(jì)算機(jī)中,得到電子病歷(electronic medical records,EMR)。電子病歷命名實(shí)體識(shí)別是命名實(shí)體識(shí)別在電子病歷文本分析研究中的重要應(yīng)用和擴(kuò)展,其目的是自動(dòng)地識(shí)別并且分類電子病歷中的醫(yī)療命名實(shí)體。這些命名實(shí)體對(duì)象能夠被用于后續(xù)醫(yī)療電子病歷信息的分析和研究中,比如構(gòu)建臨床信息決策系統(tǒng)、構(gòu)建醫(yī)療領(lǐng)域的知識(shí)圖譜等。

      早期的電子病歷命名實(shí)體識(shí)別方面的研究主要運(yùn)用基于詞典和規(guī)則的方法,僅僅依賴于現(xiàn)有的詞典和手工編輯的規(guī)則來(lái)識(shí)別醫(yī)療命名實(shí)體[2]。后來(lái),基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法被運(yùn)用到電子病歷命名實(shí)體識(shí)別中。如于楠等[3]采用基于多特征融合的CRF (conditional random fields)模型進(jìn)行了中文電子病歷NER的研究。A.Kulkarni[4]從生物醫(yī)學(xué)文本中完成DNA、RNA和蛋白質(zhì)等生物醫(yī)學(xué)術(shù)語(yǔ)的識(shí)別,該任務(wù)使用CRF 統(tǒng)計(jì)模型完成。許源等[5]基于CRF 以及RUTA(rule-based text annotation)規(guī)則,建立了一個(gè)醫(yī)學(xué)命名實(shí)體識(shí)別模型,該模型在識(shí)別腦卒中患者入院記錄的醫(yī)學(xué)命名實(shí)體時(shí)取得了良好的效果。王潤(rùn)奇等[6]利用半監(jiān)督學(xué)習(xí)方法,將Tri-Training 算法進(jìn)行了改進(jìn),使得中文電子病歷實(shí)體識(shí)別模型的效果得到了提升。

      近年來(lái),隨著硬件計(jì)算能力的大幅度提高,基于深度神經(jīng)網(wǎng)絡(luò)的方法已經(jīng)被成功地應(yīng)用到電子病歷命名實(shí)體識(shí)別中,該方法是一種端到端的方法,不需要特殊的領(lǐng)域資源(如詞典)或者構(gòu)建本體,可以從大規(guī)模的標(biāo)注數(shù)據(jù)中自動(dòng)地學(xué)習(xí)和抽取文本特征。在電子病歷NER 任務(wù)中,楊紅梅等[7]利用一種基于BiLSTM(bidirectional long short-term memory)與CRF的實(shí)體識(shí)別模型,抽取了入院記錄和出院小結(jié)中的醫(yī)學(xué)命名實(shí)體。萬(wàn)里等[8]提出了一種基于字詞聯(lián)合訓(xùn)練的BiLSTM模型,能夠有效識(shí)別中文電子病歷中疾病、癥狀等相關(guān)實(shí)體。Wang Q.等[9]將詞典特征加入深度神經(jīng)網(wǎng)絡(luò)中,提出了5種不同特征的表示方式和基于BiLSTM 兩種不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。S.Chowdhury 等[10]提出了一種新型的、多任務(wù)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型,該模型可以從中文的電子病歷中抽取出醫(yī)療實(shí)體。楊文明等[11]使用BiLSTM-CRF和IndRNN-CRF 等模型,抽取了在線醫(yī)療問(wèn)答文本中疾病、治療、檢查和癥狀4類醫(yī)療實(shí)體。與此同時(shí),也有很多學(xué)者利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法,將其應(yīng)用到醫(yī)療電子病歷NER 任務(wù)中。如Gao M.等[12]利用一種結(jié)合詞序和局部上下文特征的基于注意力的IDCNN(iterated dilated convolution neural networks)-CRF模型,完成了對(duì)臨床電子病歷中醫(yī)學(xué)實(shí)體術(shù)語(yǔ)的抽取。

      但是,以上基于深度神經(jīng)網(wǎng)絡(luò)的NER 方法,都存在無(wú)法準(zhǔn)確表示字符或者詞語(yǔ)多義性的問(wèn)題。例如,“張三和李四的身高差得很遠(yuǎn)”和“小明的學(xué)習(xí)成績(jī)很差”,兩個(gè)句子中的“差”字在各自的語(yǔ)境中是兩個(gè)完全不同的含義,但是在上下文無(wú)關(guān)的詞嵌入表示方法(如Word2Vec)中,兩個(gè)“差”字映射成完全相同的向量,因此這種向量無(wú)法考慮到句子的上下文語(yǔ)義。近年來(lái),學(xué)術(shù)界提出了許多與上下文有關(guān)的詞嵌入表示方法,比如EMLo(embeddings from language models)方法和OpenAI-GPT(generative pre-training)方法[13]。但是,上述兩種語(yǔ)言模型的語(yǔ)言表示都是單向的,無(wú)法同時(shí)獲取前后兩個(gè)方向電子病歷文本的語(yǔ)義信息。

      當(dāng)前,醫(yī)療電子病歷的命名實(shí)體識(shí)別面臨著訓(xùn)練語(yǔ)料不足和標(biāo)注質(zhì)量不高的問(wèn)題,由于醫(yī)療領(lǐng)域的專業(yè)性,導(dǎo)致其缺少高質(zhì)量的標(biāo)注語(yǔ)料[14]。此外,醫(yī)療電子病歷中的命名實(shí)體有著特殊和嚴(yán)謹(jǐn)?shù)恼Z(yǔ)言結(jié)構(gòu),使得該領(lǐng)域命名實(shí)體識(shí)別具有一定的挑戰(zhàn)性。

      為了解決上述問(wèn)題,本研究擬將可以表示雙向豐富語(yǔ)義的BERT(bidirectional encoder representations from transformers)預(yù)訓(xùn)練語(yǔ)言模型引入電子病歷NER 任務(wù)中,提出了BERT-IDCNN-MHA(multi-head attention)-CRF命名實(shí)體識(shí)別模型。并利用該模型對(duì)醫(yī)療電子病歷中預(yù)定義的疾病和診斷、影像檢查、實(shí)驗(yàn)室檢驗(yàn)、手術(shù)、藥物以及解剖部位6類實(shí)體進(jìn)行命名實(shí)體識(shí)別,并且將該6類實(shí)體正確歸類到預(yù)定義類別中。

      2 BERT-IDCNN-MHA-CRF命名實(shí)體識(shí)別模型

      BERT-IDCNN-MHA-CRF命名實(shí)體識(shí)別模型的整體結(jié)構(gòu)如圖1所示。

      圖1 BERT-IDCNN-MHA-CRF命名實(shí)體識(shí)別模型結(jié)構(gòu)圖Fig.1 BERT-IDCNN-MHA-CRF NER model structure diagram

      整個(gè)識(shí)別模型由4個(gè)部分組成:首先,輸入電子病歷中的每一個(gè)字,經(jīng)過(guò)Embedding層即BERT模型,得到與每個(gè)字的上下文相關(guān)的向量表示。其次,經(jīng)過(guò)IDCNN層,將上層輸入的每個(gè)字的向量進(jìn)行膨脹卷積編碼來(lái)提取局部特征,再將獲取到的特征向量輸入到多頭注意力層,多次計(jì)算每個(gè)字和所有字的注意力概率來(lái)獲取電子病歷句子的長(zhǎng)距離特征,得到新的特征向量。因?yàn)槎囝^注意力層無(wú)法考慮標(biāo)簽之間的依賴關(guān)系,比如“I-ANA”標(biāo)簽不能緊接在“B-DIS”標(biāo)簽的后面,所以最后經(jīng)過(guò)CRF層約束預(yù)測(cè)標(biāo)簽之間的依賴關(guān)系,對(duì)標(biāo)簽序列進(jìn)行建模,從而獲取全局最優(yōu)序列。為了提高該模型的泛化能力,在Embedding層與IDCNN層之間加入了dropout層。

      本研究通過(guò)上述命名實(shí)體識(shí)別模型識(shí)別電子病歷中的醫(yī)療命名實(shí)體,具體步驟如下:

      1)預(yù)處理原始電子病歷文本數(shù)據(jù)集。將電子病歷文本集合D={d1,d2,…,dN}及其對(duì)應(yīng)的預(yù)定義類別C={c1,c2,…,cM}按照字符級(jí)別進(jìn)行分割并進(jìn)行標(biāo)注,標(biāo)注時(shí)字符和預(yù)定義類別用空格隔開(kāi)。

      2)構(gòu)建電子病歷文本訓(xùn)練數(shù)據(jù)集。按照比例,將分割并標(biāo)注好的電子病歷訓(xùn)練數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

      3)訓(xùn)練生成命名實(shí)體識(shí)別模型?;谏疃葘W(xué)習(xí)技術(shù),訓(xùn)練BERT-IDCNN-MHA-CRF命名實(shí)體識(shí)別模型。4)識(shí)別電子病歷文本測(cè)試數(shù)據(jù)集,計(jì)算識(shí)別率。以電子病歷測(cè)試文本集合Dtest={d1,d2,…,dN}為輸入,文本中醫(yī)療實(shí)體提及和所屬預(yù)定義類別的集合其中,mi是出現(xiàn)在文檔di中的實(shí)體提及,表示所屬的預(yù)定義類別)為輸出,再根據(jù)精確率、召回率和F1值來(lái)計(jì)算其識(shí)別率。

      2.1 BERT預(yù)訓(xùn)練語(yǔ)言模型

      BERT模型是一個(gè)深度雙向編碼的包含字符級(jí)、詞語(yǔ)級(jí)和句子級(jí)特征的預(yù)訓(xùn)練語(yǔ)言模型[15]。針對(duì)醫(yī)療電子病歷的NER 任務(wù),只需要調(diào)用該預(yù)訓(xùn)練模型的相應(yīng)接口,就能夠得到電子病歷中每個(gè)字的嵌入表示,且能更準(zhǔn)確地表示電子病歷中與上下文相關(guān)的語(yǔ)義信息。本文構(gòu)建BERT預(yù)訓(xùn)練語(yǔ)言模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

      圖2 BERT預(yù)訓(xùn)練語(yǔ)言模型的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram of BERT pre-training language model

      BERT模型使用“Masked語(yǔ)言模型”來(lái)預(yù)訓(xùn)練該語(yǔ)言模型,以獲取字詞級(jí)別的上下文相關(guān)語(yǔ)義表示?!癕asked語(yǔ)言模型”的核心思想來(lái)自于完形填空。傳統(tǒng)的語(yǔ)言模型以句子中某個(gè)給定詞語(yǔ)的下一個(gè)詞語(yǔ)來(lái)預(yù)測(cè)該詞語(yǔ),而“Marked語(yǔ)言模型”則是把句子中隨機(jī)選擇的15%的詞語(yǔ)蓋住,通過(guò)上下文的內(nèi)容預(yù)測(cè)被蓋住的詞語(yǔ),但是這一方法會(huì)導(dǎo)致微調(diào)時(shí)模型無(wú)法準(zhǔn)確地預(yù)測(cè)某些100%被蓋住的詞語(yǔ)。為解決這一問(wèn)題,本研究在BERT預(yù)訓(xùn)練實(shí)驗(yàn)中采取了如下策略:

      1)80%的時(shí)間,用“[MASK]”標(biāo)記來(lái)替換被蓋住的詞語(yǔ)。

      2)10%的時(shí)間,用一個(gè)任意的詞語(yǔ)來(lái)替換被蓋住的詞語(yǔ)。

      3)剩余10%的時(shí)間,保持被蓋住的詞語(yǔ)不變。

      同時(shí),BERT模型的預(yù)訓(xùn)練利用“下一個(gè)句子預(yù)測(cè)”任務(wù)來(lái)獲取句子級(jí)別的上下文相關(guān)語(yǔ)義表示。該任務(wù)的目標(biāo),是判斷句子N是否是句子M的下一句。傳統(tǒng)的語(yǔ)言模型不能直接反映兩個(gè)句子之間的關(guān)系,在NLP 領(lǐng)域的許多任務(wù)中,都需要在理解兩個(gè)句子之間關(guān)系的基礎(chǔ)上進(jìn)行,如問(wèn)答和自然語(yǔ)言推理等,因此無(wú)法直接使用傳統(tǒng)的語(yǔ)言模型。兩個(gè)句子之間的關(guān)系通過(guò)BERT預(yù)訓(xùn)練一個(gè)模型學(xué)習(xí)得到,訓(xùn)練的輸入是句子M和N兩個(gè)句子,然后利用模型來(lái)預(yù)測(cè)句子N是否是M的下一句。

      BERT預(yù)訓(xùn)練語(yǔ)言模型的輸入是電子病歷文本中的每一個(gè)字,輸出是該字的總特征向量,總特征向量由字(詞)向量、句子切分向量和位置向量3種不同的特征向量相加得到,位置向量的計(jì)算公式如式 (1)和(2)所示。其中,編碼使用的是正弦函數(shù)和余弦函數(shù),pos代表的是電子病歷文本中第幾個(gè)字,i代表第幾維,編碼后的向量維度是dmodel。

      BERT模型輸入示例如圖3所示,第一個(gè)標(biāo)記的標(biāo)簽是一種特殊嵌入[CLS],代表電子病歷文本的開(kāi)始位置;其后的特殊嵌入[SEP],代表電子病歷文本的結(jié)束位置。

      圖3 BERT模型輸入示例Fig.3 Samples of BERT model input

      2.2 IDCNN層

      相關(guān)研究結(jié)果表明,相對(duì)于BiLSTM的長(zhǎng)距離依賴關(guān)系編碼,IDCNN 對(duì)局部實(shí)體的卷積編碼可以達(dá)到更好的醫(yī)療實(shí)體識(shí)別效果,同時(shí)其訓(xùn)練速度和預(yù)測(cè)的效率都有所提高[12]。因此,本研究采用IDCNN模型對(duì)電子病歷文本的特征進(jìn)行提取。一般的CNN濾波器,都是通過(guò)在輸入矩陣的區(qū)域上不斷地滑動(dòng)來(lái)做卷積運(yùn)算,且這種區(qū)域通常是連續(xù)的。而DCNN(deep convolutional neural networks)則是因在濾波器上添加了膨脹寬度,導(dǎo)致此時(shí)輸入矩陣的區(qū)域不再連續(xù),每次做卷積運(yùn)算時(shí)都會(huì)跳過(guò)所有膨脹寬度中間的輸入數(shù)據(jù)。在膨脹卷積運(yùn)算過(guò)程中,輸入矩陣上更多的數(shù)據(jù)被濾波器獲取,但是濾波器本身的大小并沒(méi)有發(fā)生變化,反而擴(kuò)大了其感受域,看上去像是“膨脹”了一般,因此稱作膨脹卷積神經(jīng)網(wǎng)絡(luò)。與一般的CNN 相比,DCNN 沒(méi)有通過(guò)池化操作也可以獲得較大的感受域,而且減少了信息損失。DCNN的膨脹示意圖如圖4所示。

      圖4 DCNN的膨脹示意圖Fig.4 Dilated schematic diagram of DCNN

      圖4中,圖中心點(diǎn)的1×1 區(qū)域是開(kāi)始的感受域,卷積核的大小為3,從感受域的中心點(diǎn)出發(fā),以步長(zhǎng)為1 向外部擴(kuò)散,得到圖a中大小為3×3的新感受域;再?gòu)男赂惺苡虻闹行狞c(diǎn)出發(fā),以步長(zhǎng)為2 向外部擴(kuò)散,得到圖b中大小為7×7的新感受域;接下來(lái)從這一新感受域的中心點(diǎn)出發(fā),以步長(zhǎng)為4 向外擴(kuò)散,得到圖c中大小為15×15的新感受域。膨脹卷積的感受域計(jì)算公式見(jiàn)式(3),式中i代表步長(zhǎng)。

      在逐步擴(kuò)大感受域、層數(shù)不斷增加的過(guò)程中,神經(jīng)網(wǎng)絡(luò)參數(shù)呈線性增加,而感受域呈指數(shù)級(jí)增加。如圖4所示,僅經(jīng)過(guò)3 步膨脹變化后,感受域就已擴(kuò)散至輸入矩陣中的全部數(shù)據(jù)。這種膨脹卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每層的參數(shù)都是相互獨(dú)立且數(shù)量相同的,可有效減少訓(xùn)練時(shí)的參數(shù),從而可加快訓(xùn)練速度。

      IDCNN模型則是將4個(gè)結(jié)構(gòu)相同的膨脹卷積塊進(jìn)行堆疊,相當(dāng)于進(jìn)行了4次迭代,每次迭代將前一次的結(jié)果作為輸入,這種參數(shù)共享可有效防止模型過(guò)擬合,每個(gè)膨脹卷積塊有膨脹寬度分別為1,1,2的3層膨脹卷積。通過(guò)IDCNN模型,將電子病歷中的每個(gè)字進(jìn)行膨脹卷積編碼,自動(dòng)提取文本中特征,輸出為對(duì)應(yīng)的特征向量。雖然IDCNN可使感受域變大,但提取的特征僅是局部的,因此還需經(jīng)多頭注意力層進(jìn)行電子病歷文本的長(zhǎng)距離特征提取。

      2.3 多頭注意力層

      注意力機(jī)制(attention mechanism)首先被應(yīng)用在數(shù)字圖像處理領(lǐng)域,后來(lái)逐漸被應(yīng)用于NLP 領(lǐng)域的多種任務(wù)中??梢詫⒆⒁饬瘮?shù)看作一個(gè)查詢(Q)到一系列鍵(K)-值(V)對(duì)的映射。在NLP 領(lǐng)域的多種任務(wù)中,K和V通常取相等值。在計(jì)算自注意力時(shí),通常取Q=K=V,可以計(jì)算輸入句子中每個(gè)字符和所有字符的注意力概率。本研究利用注意力機(jī)制中的多頭注意力,從電子病歷文本的內(nèi)部結(jié)構(gòu)中得到字符之間的長(zhǎng)距離依賴關(guān)系。多頭注意力模型的結(jié)構(gòu)如圖5所示,其中,拼接k次自注意力計(jì)算結(jié)果,將拼接結(jié)果進(jìn)行線性變換后,即可以得到本次注意力計(jì)算結(jié)果。

      圖5 多頭注意力模型結(jié)構(gòu)圖Fig.5 Multi-Head Attention model structure diagram

      與自注意力模型相比,多頭注意力模型實(shí)質(zhì)上是進(jìn)行多次自注意力計(jì)算,每一次算一個(gè)頭,可以使模型在不同的表示子空間里學(xué)習(xí)到相關(guān)的信息而且具有優(yōu)于RNN的并行計(jì)算性能。

      首先,在電子病歷NER 任務(wù)中,對(duì)于輸入的一個(gè)句子X(jué)=(x1,x2,···,xt,···,xn),通過(guò)IDCNN層后的輸出是Y=(Y1,Y2,···,Yt,···,Yn),對(duì)于句子中的第t個(gè)字符的輸出狀態(tài)Yt,通過(guò)式(4)進(jìn)行單頭自注意力計(jì)算。其中,共進(jìn)行i次計(jì)算,即有i個(gè)頭,第i次計(jì)算的結(jié)果是headi。

      softmax( )為歸一化因子。

      然后,拼接這i次的計(jì)算結(jié)果,再進(jìn)行一次線性變換,即可以得到句子中第t個(gè)字符的多頭注意力計(jì)算結(jié)果,具體的計(jì)算公式如式(5)所示,其中W O為權(quán)重參數(shù)。

      2.4 CRF層

      CRF模型是一種經(jīng)典的判別式概率無(wú)向圖模型,該模型經(jīng)常被應(yīng)用于序列標(biāo)注任務(wù)中,即在給定觀察序列C=(c1,c2,···,cn)的情況下,計(jì)算狀態(tài)序列Y=(y1,y2,···,yn)的條件概率P(y|c),具體計(jì)算公式如式(6)所示,其中,fk為特征函數(shù),wk為特征函數(shù)的權(quán)重,Z(c)為歸一化項(xiàng)。

      在醫(yī)療電子病歷NER中,多頭注意力層無(wú)法考慮標(biāo)簽之間的依賴關(guān)系,比如“I-ANA”標(biāo)簽不能緊接在“B-DIS”標(biāo)簽的后面。CRF層可以有效地約束預(yù)測(cè)標(biāo)簽之間的依賴關(guān)系,對(duì)標(biāo)簽序列進(jìn)行建模,從而獲取全局最優(yōu)序列。多頭注意力層的輸出是電子病歷句子中每個(gè)字對(duì)應(yīng)的各個(gè)標(biāo)注符號(hào)的分?jǐn)?shù),記矩陣P為打分矩陣,Pi,j為第i個(gè)字符分類到第j個(gè)標(biāo)簽的概率值,Ti,j為第i個(gè)到第j個(gè)標(biāo)簽的狀態(tài)轉(zhuǎn)移打分。對(duì)于輸入句子X(jué)=(x1,x2,···,xn),句子標(biāo)簽序列y=(y1,y2,···,yn)的打分為

      使用最大化對(duì)數(shù)似然函數(shù)對(duì)CRF模型進(jìn)行訓(xùn)練,通過(guò)式(9)和(10)計(jì)算在給定句子X(jué)的情況下標(biāo)簽序列y的條件概率,其中yX為給定的句子X(jué)全部可能的標(biāo)簽序列,L為定義的損失函數(shù)。

      在CRF模型預(yù)測(cè)過(guò)程中,采用維特比(Viterbi)算法來(lái)求解全局最優(yōu)序列,公式如式(11)所示,其中y*為集合中使得分函數(shù)取得最大值的序列。

      3 實(shí)驗(yàn)及結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)及標(biāo)注策略

      本研究采用的電子病歷醫(yī)療實(shí)體識(shí)別中文數(shù)據(jù)集由CCKS2019 評(píng)測(cè)任務(wù)一“面向中文電子病歷的醫(yī)療實(shí)體識(shí)別及屬性抽取”提供,所有電子病歷語(yǔ)料由專業(yè)的醫(yī)學(xué)團(tuán)隊(duì)進(jìn)行人工標(biāo)注。該標(biāo)注數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集包含1 000份醫(yī)療電子病歷,共計(jì)7 717個(gè)句子;測(cè)試集共包含379份醫(yī)療電子病歷。表1是各類醫(yī)療實(shí)體個(gè)數(shù)統(tǒng)計(jì)信息,總共為5 363個(gè)文檔。

      表1 醫(yī)療實(shí)體類別數(shù)據(jù)統(tǒng)計(jì)Table1 Statistics of medical entity categories

      每份電子病歷詳細(xì)地標(biāo)注了醫(yī)療實(shí)體的名稱、起始位置、結(jié)束位置和預(yù)定義實(shí)體類別,并進(jìn)行脫敏處理。具體分為疾病和診斷、影像檢查、實(shí)驗(yàn)室檢驗(yàn)、手術(shù)、藥物和解剖部位6類預(yù)定義類別,各類預(yù)定義類別及其含義信息如下:

      1)疾病和診斷。即醫(yī)學(xué)上定義的疾病和醫(yī)生在臨床工作中對(duì)病因、病生理、分型分期等所作的判斷,如胃癌、腸胃炎等。

      2)影像檢查。包括影像檢查、造影、超聲、心電圖,如CT、MRI(magnetic resonance imaging)等。

      3)實(shí)驗(yàn)室檢驗(yàn)。指在實(shí)驗(yàn)室進(jìn)行的物理或化學(xué)檢查,特指臨床工作中檢驗(yàn)科進(jìn)行的化驗(yàn),不含免疫組化等廣義實(shí)驗(yàn)室檢查,如血紅蛋白、CA199 等。

      4)手術(shù)。指醫(yī)生在患者身體局部進(jìn)行的切除、縫合等治療,如腹腔鏡根治性全胃切除術(shù)、經(jīng)腹直腸癌切除術(shù)(DIXON)等。

      5)藥物。指用于疾病治療的具體化學(xué)物質(zhì),如伊立替康、格列衛(wèi)等。

      6)解剖部位。指疾病、癥狀和體征發(fā)生的人體解剖學(xué)部位,如口腔、十二指腸等。

      本研究選擇字標(biāo)注方法完成對(duì)數(shù)據(jù)集的標(biāo)注,采用BIO(begin,inside,outside)標(biāo)注體系,其具體格式為B-X、I-X和O。B代表醫(yī)療實(shí)體開(kāi)始位置的字符,I代表醫(yī)療實(shí)體剩余部分的字符,O代表非醫(yī)療實(shí)體的字符。X代表醫(yī)療實(shí)體的類別,記為DIS、IMG、LAB、OPE、MED和ANA,分別代表疾病和診斷、影像檢查、實(shí)驗(yàn)室檢驗(yàn)、手術(shù)、藥物和解剖部位6類醫(yī)療實(shí)體。該任務(wù)共有13種不同的標(biāo)簽,分別為

      B-DIS、I-DIS、B-IMG、I-IMG、B-LAB、I-LAB、B-OPE、I-OPE、B-MED、I-MED、B-ANA、I-ANA和O。各類別的實(shí)體標(biāo)注符號(hào)及示例如表2所示。

      表2 醫(yī)療實(shí)體類別標(biāo)注符號(hào)及示例Table2 Classification labeling symbols and examples of medical entities

      雖然電子病歷語(yǔ)料由專業(yè)的醫(yī)學(xué)團(tuán)隊(duì)進(jìn)行人工標(biāo)注,但是不可避免地會(huì)出現(xiàn)實(shí)體類別或者開(kāi)始、結(jié)束位置的標(biāo)注錯(cuò)誤以及標(biāo)注前后不一致等問(wèn)題。比如,在一段電子病歷文本“直腸癌術(shù)后,擬行第4次化療”中,“直腸癌術(shù)后”被人工標(biāo)注為“疾病和診斷”類別的醫(yī)療實(shí)體,而在另一段電子病歷文本“食管癌術(shù)后、肝癌介入術(shù)后”中,“食管癌”被人工標(biāo)注為“疾病和診斷”,與前一段文本中的標(biāo)注存在前后不一致的問(wèn)題,這種標(biāo)注不一致會(huì)導(dǎo)致實(shí)體識(shí)別過(guò)程中錯(cuò)誤預(yù)測(cè)實(shí)體邊界,從而影響實(shí)體識(shí)別的效果。本研究針對(duì)實(shí)體類別或者開(kāi)始、結(jié)束位置的標(biāo)注錯(cuò)誤問(wèn)題,在數(shù)據(jù)集的預(yù)處理中采取人工糾錯(cuò)的方式,將標(biāo)注錯(cuò)誤的實(shí)體進(jìn)行糾正。

      3.2 評(píng)價(jià)指標(biāo)

      醫(yī)療電子病歷命名實(shí)體識(shí)別的評(píng)價(jià)指標(biāo)采用精確率(precision)P、召回率(recall)R以及F1-Measure,其中F1-Measure是精確率和召回率的加權(quán)調(diào)和平均值,具體公式為(12)~(14)。

      式(12)~(14)中:TP為正確識(shí)別醫(yī)療實(shí)體的個(gè)數(shù);

      FP為識(shí)別到不相關(guān)醫(yī)療實(shí)體的個(gè)數(shù);

      FN為未識(shí)別到相關(guān)醫(yī)療實(shí)體的個(gè)數(shù)。

      在預(yù)測(cè)時(shí),判斷醫(yī)療實(shí)體預(yù)測(cè)完全正確的標(biāo)準(zhǔn)是實(shí)體的邊界和類別同時(shí)預(yù)測(cè)正確。

      3.3 實(shí)驗(yàn)環(huán)境

      本文實(shí)驗(yàn)的命名實(shí)體識(shí)別模型基于TensorFlow框架,具體實(shí)驗(yàn)環(huán)境設(shè)置如表3所示。

      表3 實(shí)驗(yàn)環(huán)境設(shè)置Table3 Experimental environment settings

      3.4 實(shí)驗(yàn)參數(shù)設(shè)置

      BiLSTM-CRF模型參數(shù)設(shè)置如下:Word2Vec的預(yù)訓(xùn)練字嵌入向量維數(shù)為100,窗口大小為3,最小詞頻為10;LSTM(long short-term memory)隱藏層的單元個(gè)數(shù)為128;學(xué)習(xí)率為0.000 5,批大?。╞atchsize)為20,dropout為0.5,clip為5,優(yōu)化算法使用自適應(yīng)時(shí)刻估計(jì)法(Adam)。

      IDCNN-CRF模型的參數(shù)設(shè)置如下:IDCNN 隱藏層的濾波器個(gè)數(shù)為128個(gè);其余參數(shù)的設(shè)置與BiLSTM-CRF模型保持一致。

      BERT-IDCNN-CRF模型的參數(shù)設(shè)置如下:采用BERT-Base版預(yù)訓(xùn)練語(yǔ)言模型,該模型由Google提供,為12 頭模式,共有12層和110 M個(gè)參數(shù),隱藏層為768維;最大序列長(zhǎng)度(max_seq_len)為128;學(xué)習(xí)率為0.000 5,批大小(batchsize)為20,dropout為0.5,clip為5,優(yōu)化算法使用自適應(yīng)時(shí)刻估計(jì)法(Adam)。

      BERT-IDCNN-MHA-CRF模型的參數(shù)設(shè)置如下:采用BERT-Base版預(yù)訓(xùn)練語(yǔ)言模型,該模型由Google提供,為12頭模式,共有12層和110 M個(gè)參數(shù),隱藏層為768維;多頭注意力層頭數(shù)為4;最大序列長(zhǎng)度(max_seq_len)為128;其余參數(shù)設(shè)置與BERTIDCNN-CRF模型保持一致。

      3.5 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      本研究將CCKS2019 提供的電子病歷數(shù)據(jù),采用交叉驗(yàn)證的方法,以7:2:1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。為驗(yàn)證BERT-IDCNN-MHA-CRF模型的有效性,將該模型和以下模型進(jìn)行對(duì)比:

      1)BiLSTM-CRF模型。即基于BiLSTM的特征抽取和CRF 約束的模型,在該模型中,使用100維的Word2Vec預(yù)訓(xùn)練字向量。

      2)IDCNN-CRF模型。即基于IDCNN的特征抽取和CRF 約束的模型,IDCNN 能夠更好地抽取句子的局部特征,且有更快的并行計(jì)算速度。在該模型中,使用100維的Word2Vec 預(yù)訓(xùn)練字向量。

      3)BERT-IDCNN-CRF模型。即在IDCNN-CRF模型的基礎(chǔ)上加入BERT預(yù)訓(xùn)練語(yǔ)言模型。

      在該項(xiàng)實(shí)驗(yàn)中,epoch 默認(rèn)設(shè)置為80次,表4是不同模型的實(shí)驗(yàn)結(jié)果。對(duì)比表4中各模型的實(shí)驗(yàn)結(jié)果,可以看出BERT-IDCNN-MHA-CRF模型的精確率、召回率和F1值相比于BiLSTM-CRF 基線模型的分別提高了1.80%,0.41%,1.11%,該模型在疾病和診斷、檢查、手術(shù)、藥物和解剖部位5類醫(yī)療實(shí)體上的F1值是最高的。檢驗(yàn)實(shí)體最高的F1值為87.82%,出現(xiàn)在BiLSTM-CRF模型中。

      在所有模型中,“疾病和診斷”類型醫(yī)療實(shí)體的F1值較低,該類型實(shí)體普遍長(zhǎng)度較長(zhǎng),而且存在括號(hào)等補(bǔ)充說(shuō)明信息,例如“(直腸)腺癌(中度分化),浸潤(rùn)潰瘍型”,因此在預(yù)測(cè)該類實(shí)體時(shí)存在邊界預(yù)測(cè)錯(cuò)誤的問(wèn)題,從而導(dǎo)致實(shí)體識(shí)別錯(cuò)誤。此外,一些“疾病和診斷”醫(yī)療實(shí)體和“手術(shù)”醫(yī)療實(shí)體在文本結(jié)構(gòu)上相似,這會(huì)導(dǎo)致該類型實(shí)體被錯(cuò)誤分類,比如“脾臟切除術(shù)后”和“脾臟切除術(shù)”,前者屬于“疾病和診斷”實(shí)體,而后者屬于“手術(shù)”實(shí)體,雖然兩個(gè)實(shí)體僅一字之差,卻是預(yù)定義類別不同的兩類實(shí)體?!敖馄什课弧鳖愋歪t(yī)療實(shí)體F1值也較低,該類實(shí)體的數(shù)量是6類實(shí)體中最多的,而且特征眾多,識(shí)別時(shí)存在較大的難度。

      BiLSTM-CRF模型和IDCNN-CRF模型的F1值分別為81.32%和81.44%,說(shuō)明兩種模型的識(shí)別效果相當(dāng)。但是,IDCNN的并行計(jì)算能力比BiLSTM的要強(qiáng),IDCNN-CRF模型與BiLSTM-CRF模型相比,訓(xùn)練一輪的時(shí)間要少25 s。因此,本文實(shí)驗(yàn)選擇在IDCNN-CRF模型的基礎(chǔ)上加入BERT預(yù)訓(xùn)練語(yǔ)言模型,相比于IDCNN-CRF模型,BERT-IDCNNCRF模型的識(shí)別效果有小幅度提升,F(xiàn)1值提高了約0.42%,這說(shuō)明BERT預(yù)訓(xùn)練語(yǔ)言模型對(duì)于電子病歷句子中的上下文語(yǔ)義有更準(zhǔn)確的表示,從而可以提高實(shí)體識(shí)別效果。BERT-IDCNN-MHA-CRF模型是在BERT-IDCNN-CRF模型的基礎(chǔ)上,加入多頭注意力機(jī)制,多次計(jì)算句子中每個(gè)字和所有字的注意力概率,實(shí)驗(yàn)結(jié)果表明,該模型的精確率為82.63%,F(xiàn)1值為82.43%,是所有模型中最高的;同時(shí),其召回率為82.23%,相比于BERT-IDCNN-CRF模型的F1值,提高了0.57%。

      綜上所述,本研究提出的BERT-IDCNN-MHA- CRF模型的總體性能最好,可以被成功地應(yīng)用于醫(yī)療電子病歷命名實(shí)體識(shí)別中。

      表4 不同模型的實(shí)驗(yàn)結(jié)果Table4 Experimental results of different models %

      4 結(jié)語(yǔ)

      采用基于BERT的醫(yī)療電子病歷命名實(shí)體識(shí)別模型,能夠較好地識(shí)別電子病歷中的醫(yī)療實(shí)體。其中BERT預(yù)訓(xùn)練語(yǔ)言模型可以更準(zhǔn)確地表示電子病歷句子中的上下文語(yǔ)義,IDCNN 對(duì)局部實(shí)體的卷積編碼相對(duì)于BiLSTM的長(zhǎng)距離依賴關(guān)系編碼,可以達(dá)到更好的醫(yī)療實(shí)體識(shí)別效果,訓(xùn)練速度和預(yù)測(cè)的效率都有所提高。多頭注意力可以獲取電子病歷句子中的長(zhǎng)距離依賴特征。實(shí)驗(yàn)結(jié)果表明,模型能夠較好地完成醫(yī)療電子病歷的命名實(shí)體識(shí)別任務(wù)。接下來(lái)將該命名實(shí)體識(shí)別模型進(jìn)行改進(jìn),再應(yīng)用到其它領(lǐng)域的命名實(shí)體識(shí)別研究中。

      猜你喜歡
      命名病歷注意力
      讓注意力“飛”回來(lái)
      強(qiáng)迫癥病歷簿
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      “大數(shù)的認(rèn)識(shí)”的診斷病歷
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      為何要公開(kāi)全部病歷?
      A Beautiful Way Of Looking At Things
      村醫(yī)未寫病歷,誰(shuí)之過(guò)?
      滨州市| 鲜城| 兴义市| 巴彦县| 安平县| 泸西县| 榆树市| 清徐县| 凤城市| 巴林左旗| 华阴市| 汉沽区| 佛冈县| 获嘉县| SHOW| 阿拉善左旗| 宁津县| 元江| 静宁县| 揭西县| 碌曲县| 鸡泽县| 高雄县| 普安县| 乳源| 昭平县| 青阳县| 乾安县| 贺兰县| 恩平市| 沂源县| 巴楚县| 泰州市| 镇沅| 永川市| 罗甸县| 资兴市| 宜川县| 云林县| 罗山县| 金华市|