• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      醫(yī)療實(shí)體識(shí)別研究進(jìn)展

      2020-11-30 09:10:56張明淘
      關(guān)鍵詞:評(píng)測(cè)詞典機(jī)器

      張明淘,韓 普,2

      (1.南京郵電大學(xué) 管理學(xué)院,江蘇 南京 210003;2.江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)

      0 引 言

      近年來,隨著人工智能在醫(yī)療領(lǐng)域中的推進(jìn),各類非結(jié)構(gòu)化文本的醫(yī)學(xué)信息抽取受到了人們的極大關(guān)注。醫(yī)療實(shí)體識(shí)別(medical entity recognition,MER)是信息抽取的重要環(huán)節(jié),也是醫(yī)療人工智能的基礎(chǔ)任務(wù)。常規(guī)的實(shí)體識(shí)別主要研究對(duì)象是人名、地名、時(shí)間等概念,與之相比,醫(yī)療實(shí)體識(shí)別主要是針對(duì)疾病、癥狀、檢查等實(shí)體,這類實(shí)體構(gòu)詞復(fù)雜、書寫形式多樣,并且常有多種指稱,識(shí)別難度相對(duì)較大。醫(yī)療實(shí)體存在于各類非結(jié)構(gòu)化醫(yī)療文本中,如電子病歷、醫(yī)學(xué)文獻(xiàn)、醫(yī)療問答社區(qū)和社會(huì)化媒體。在這些數(shù)據(jù)源中,電子病歷是對(duì)患者各種病程記錄的文字表述,通常包括患者的人口統(tǒng)計(jì)信息、診斷、實(shí)驗(yàn)室測(cè)試結(jié)果、藥物處方和臨床記錄[1],由臨床醫(yī)生書寫,蘊(yùn)含著臨床醫(yī)生的寶貴經(jīng)驗(yàn),質(zhì)量相對(duì)較高,通過數(shù)據(jù)分析后可用于臨床輔助決策診斷。在線醫(yī)療文本主要是指各類醫(yī)療健康問答社區(qū)和社會(huì)化媒體中的醫(yī)療內(nèi)容,常用于患者需求分析以及流行病監(jiān)控。醫(yī)學(xué)文獻(xiàn)是科研人員的醫(yī)學(xué)成果的總結(jié),通常是用學(xué)術(shù)化的語言來呈現(xiàn),反映了醫(yī)學(xué)領(lǐng)域的最新科學(xué)進(jìn)展。在各類文本數(shù)據(jù)中,醫(yī)療實(shí)體均是承載醫(yī)學(xué)信息的最重要載體,同時(shí)也是醫(yī)療人工智能和進(jìn)行醫(yī)學(xué)分析的基礎(chǔ)。隨著醫(yī)療人工智能和大數(shù)據(jù)技術(shù)的快速發(fā)展,面向各類醫(yī)療文本數(shù)據(jù)的醫(yī)療實(shí)體識(shí)別吸引了國(guó)內(nèi)外學(xué)者的極大關(guān)注,短短幾年涌現(xiàn)了大量研究成果。文中旨在系統(tǒng)了解醫(yī)療實(shí)體識(shí)別的國(guó)內(nèi)外研究進(jìn)展,幫助領(lǐng)域?qū)W者準(zhǔn)確把握該主題的研究態(tài)勢(shì)。

      1 醫(yī)療實(shí)體的概念及分類

      醫(yī)療實(shí)體是醫(yī)療文本中用來描述患者詳細(xì)病情、癥狀、用藥和治療情況等[2]的概念,如“糖尿病”、“心電圖”和“胰島素”都是典型的醫(yī)療實(shí)體。電子病歷是比較有代表性的醫(yī)療文本,主要記錄患者的就醫(yī)和接受治療的過程,包括入院記錄、病程記錄和出院小結(jié)。為了抽取電子病歷中的醫(yī)療實(shí)體,美國(guó)國(guó)家集成生物和臨床信息學(xué)研究中心(informatics for integrating biology and the bedside,I2B2)參照一體化醫(yī)學(xué)語言系統(tǒng)(unified medical language system,UMLS),將醫(yī)療實(shí)體分為了醫(yī)療問題、檢查和治療三類[3],醫(yī)療問題進(jìn)一步被分為疾病和癥狀兩種實(shí)體。為了理解和回答與疾病相關(guān)的問題,Kilicoglu等[4]將醫(yī)療實(shí)體劃分為疾病、干預(yù)(藥物、程序)、解剖和群體四大類實(shí)體,并且為嵌套實(shí)體設(shè)計(jì)了更細(xì)粒度的標(biāo)注方案,將實(shí)體分為診斷程序、藥物的補(bǔ)充、基因蛋白等十五類。

      通常而言,醫(yī)療實(shí)體識(shí)別過程可以分為實(shí)體的邊界識(shí)別和實(shí)體類型的標(biāo)注兩個(gè)階段。與英文相比,中文沒有天然的分隔符,實(shí)體邊界識(shí)別難度較大。國(guó)內(nèi)的學(xué)者通常借鑒UMLS對(duì)實(shí)體類型的定義,遵循實(shí)體間不重疊、不嵌套、實(shí)體內(nèi)不含有表示停頓的標(biāo)點(diǎn)符號(hào)(比如逗號(hào)、句號(hào)、頓號(hào)等)三原則[5-6],針對(duì)研究需要?jiǎng)澐轴t(yī)療實(shí)體。

      Lei等[7]基于中文臨床文本,將臨床實(shí)體分為問題、測(cè)試、過程和藥物四類。Hu等[8]在2017年全國(guó)知識(shí)圖譜與語義計(jì)算大會(huì)(CCKS)評(píng)測(cè)中將醫(yī)療實(shí)體劃分為身體、疾病、癥狀、測(cè)試和治療五大類別。在中文在線醫(yī)療文本識(shí)別研究中,蘇婭等[9]將醫(yī)療實(shí)體分為疾病、癥狀、藥品、治療方法和檢查五類醫(yī)療實(shí)體??梢园l(fā)現(xiàn),雖然國(guó)內(nèi)外醫(yī)療實(shí)體識(shí)別存在一些差別,但一般均包含疾病、癥狀、檢查和治療這些常見類別,這些分類是實(shí)體關(guān)系抽取等研究的基礎(chǔ)。

      2 醫(yī)療實(shí)體識(shí)別會(huì)議評(píng)測(cè)

      醫(yī)療實(shí)體識(shí)別評(píng)測(cè)極大地推動(dòng)了醫(yī)療實(shí)體識(shí)別的發(fā)展,對(duì)提高醫(yī)療實(shí)體識(shí)別效果具有重要意義。相比而言,美國(guó)在英文醫(yī)療實(shí)體識(shí)別評(píng)測(cè)方面起步較早,對(duì)醫(yī)療實(shí)體識(shí)別研究影響最大。其中,I2B2是組織醫(yī)療實(shí)體評(píng)測(cè)次數(shù)較多,且影響力最為廣泛的醫(yī)療實(shí)體識(shí)別評(píng)測(cè)組織之一。2009年I2B2組織的評(píng)測(cè)任務(wù)是從出院小結(jié)中識(shí)別藥品的屬性信息,而2010年在以往任務(wù)的基礎(chǔ)上,增加了疾病、癥狀、檢查和治療醫(yī)療實(shí)體,并對(duì)這些實(shí)體及其關(guān)系進(jìn)行識(shí)別[3]。2010年I2B2與鹽湖城衛(wèi)生保健局組織了電子病歷領(lǐng)域的信息抽取的評(píng)測(cè)(2010 I2B2/VA challenge)[10],該評(píng)測(cè)主要有概念提取、斷言分類和關(guān)系分類三個(gè)任務(wù)。2014年I2B2/UTHealth組織的評(píng)測(cè)包含四項(xiàng)自然語言處理任務(wù),其中第二項(xiàng)任務(wù)是在糖尿病患者縱向病歷敘述中識(shí)別與冠狀動(dòng)脈疾病(CAD)相關(guān)的醫(yī)療風(fēng)險(xiǎn)因素[11]。縱觀整個(gè)評(píng)測(cè)歷程,I2B2通過比賽的形式逐步將醫(yī)療實(shí)體識(shí)別推向了新的高度,并為中文醫(yī)療實(shí)體識(shí)別的評(píng)測(cè)提供了值得借鑒的經(jīng)驗(yàn)。除I2B2組織的比賽外,面向醫(yī)療領(lǐng)域的實(shí)體識(shí)別的公開評(píng)測(cè)還有ShARe/CLEF eHealth和SemEval等。2013年,ShARe/CLEF eHealth Evaluation實(shí)驗(yàn)室組織了關(guān)于醫(yī)療實(shí)體識(shí)別的國(guó)際公開評(píng)測(cè),并在之后的兩年內(nèi)將醫(yī)療實(shí)體識(shí)別任務(wù)引入國(guó)際語義評(píng)測(cè)(SemEval)。

      受國(guó)外醫(yī)療實(shí)體識(shí)別評(píng)測(cè)的影響,國(guó)內(nèi)有關(guān)機(jī)構(gòu)也組織了針對(duì)中文醫(yī)療實(shí)體識(shí)別的會(huì)議評(píng)測(cè),如近兩年影響力比較大的CCKS。CCKS 2017評(píng)測(cè)競(jìng)賽中包含兩項(xiàng)任務(wù),其中一項(xiàng)任務(wù)就是臨床命名實(shí)體識(shí)別,即從電子病歷中識(shí)別癥狀、疾病、檢查和身體四類實(shí)體[12]。CCKS 2018設(shè)立了4個(gè)相關(guān)主題評(píng)測(cè)任務(wù),面向中文電子病歷的命名實(shí)體識(shí)別也包含在其中,它要求參賽者從給定的一組電子病歷純文本文檔中識(shí)別并抽取醫(yī)療實(shí)體,如癥狀、藥品、手術(shù)等。兩次CCKS會(huì)議均對(duì)中文醫(yī)療實(shí)體識(shí)別進(jìn)行了重點(diǎn)關(guān)注,大大推進(jìn)了中文醫(yī)療實(shí)體識(shí)別的進(jìn)程。

      3 醫(yī)療實(shí)體識(shí)別研究方法

      3.1 基于詞典和規(guī)則的方法

      基于詞典的方法是原理比較簡(jiǎn)單但最有效的方法之一,基本思路是通過遍歷詞典進(jìn)行字符串匹配而實(shí)現(xiàn)實(shí)體識(shí)別。早期的醫(yī)療實(shí)體識(shí)別多采用基于詞典的方法,代表性的有MedLEE[13]、MedKAT[14]和cTAKES[15]等系統(tǒng)。此外,部分學(xué)者采用此方法進(jìn)行醫(yī)療實(shí)體識(shí)別,Hettne等[16]使用基于詞典的方法提取藥物名稱。Hu等[8]在進(jìn)行臨床命名實(shí)體識(shí)別時(shí),根據(jù)訓(xùn)練集為每種實(shí)體構(gòu)建了若干字典。龍光宇等[17]利用網(wǎng)絡(luò)資源構(gòu)建了含有語義信息的醫(yī)學(xué)術(shù)語詞典,將基于詞典的方法與條件隨機(jī)場(chǎng)結(jié)合對(duì)疾病命名實(shí)體進(jìn)行識(shí)別,得到F值為0.837 2?;谠~典的方法雖然在醫(yī)療實(shí)體識(shí)別準(zhǔn)確率上取得了不錯(cuò)的效果,但詞典本身的覆蓋面、更新速度都會(huì)影響實(shí)體識(shí)別的效果。常用的做法是將基于詞典的方法與機(jī)器學(xué)習(xí)的方法結(jié)合起來以提高實(shí)體識(shí)別的效果。

      基于規(guī)則的方法主要通過分析各類實(shí)體的邊界特征、中心詞特征、詞性特征等規(guī)律來構(gòu)建規(guī)則庫進(jìn)行醫(yī)療實(shí)體識(shí)別。規(guī)則庫的構(gòu)建主要是依靠人工,有研究者使用Bootstrapping自動(dòng)生成規(guī)則[18],以解決人工方法的不足。Kraus等[19]通過構(gòu)建正則表達(dá)式,識(shí)別了大學(xué)醫(yī)療系統(tǒng)臨床記錄中的藥品、劑量等醫(yī)療實(shí)體。和基于詞典的方法類似,基于規(guī)則的方法往往也是與機(jī)器學(xué)習(xí)方法結(jié)合使用。如Jiang等[10]在2010年I2B2/VA競(jìng)賽中開發(fā)了基于混合模型的臨床實(shí)體抽取系統(tǒng),將基于啟發(fā)式規(guī)則的模塊與基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別模塊集成在一起。針對(duì)疾病單一醫(yī)療實(shí)體的識(shí)別系統(tǒng),Wei等[20]在條件隨機(jī)場(chǎng)的模型加入了一個(gè)基于規(guī)則的后處理模塊。Hu等[8]在2017年CCKS臨床命名實(shí)體識(shí)別競(jìng)賽中,通過醫(yī)療實(shí)體分析,構(gòu)建了大量規(guī)則,如:在“……有心臟病史……”中,根據(jù)“……有……病史……”模式,可以將“心臟病”提取作為“疾病”。

      基于詞典和基于規(guī)則的方法雖然也是目前醫(yī)療實(shí)體識(shí)別任務(wù)中的常用方法,但此類方法對(duì)詞典和知識(shí)庫具有很強(qiáng)的依賴性,不夠靈活。因此,研究人員將注意力轉(zhuǎn)移到基于機(jī)器學(xué)習(xí)的方法上來,從而將基于詞典、規(guī)則的方法與機(jī)器學(xué)習(xí)的方法相結(jié)合以提升醫(yī)療實(shí)體識(shí)別效果。

      3.2 基于機(jī)器學(xué)習(xí)的方法

      機(jī)器學(xué)習(xí)的方法是通過從樣本數(shù)據(jù)集合中統(tǒng)計(jì)出相關(guān)的特征和參數(shù),建立識(shí)別模型,通過模型進(jìn)行實(shí)體識(shí)別的過程。機(jī)器學(xué)習(xí)分為有監(jiān)督的和無監(jiān)督的學(xué)習(xí)方法,有監(jiān)督的機(jī)器學(xué)習(xí)是從已有的數(shù)據(jù)集中訓(xùn)練模型,當(dāng)輸入新的數(shù)據(jù)時(shí),可以根據(jù)模型預(yù)測(cè)結(jié)果;無監(jiān)督的機(jī)器學(xué)習(xí)中輸入的數(shù)據(jù)沒有被標(biāo)記,樣本數(shù)據(jù)的類型也是未知的,直接對(duì)輸入數(shù)據(jù)進(jìn)行建模分析。目前在醫(yī)療實(shí)體識(shí)別中主要是采用有監(jiān)督的機(jī)器學(xué)習(xí)方法,進(jìn)一步可以劃分為選取合適的模型和方法、對(duì)模型和方法進(jìn)行改進(jìn)、選取合適的特征以及綜合的實(shí)體識(shí)別方法。

      3.2.1 模型和方法的選取

      識(shí)別實(shí)體邊界和實(shí)體類型是命名實(shí)體識(shí)別的兩個(gè)任務(wù),因此實(shí)體識(shí)別可以看作是分類任務(wù),進(jìn)而可以采用貝葉斯模型、支持向量機(jī)(support vector machine,SVM)和最大熵(maximum entropy,ME)等分類方法。Wei等[20]在建立疾病命名實(shí)體識(shí)別和標(biāo)準(zhǔn)化系統(tǒng)時(shí),將每個(gè)模型識(shí)別出的命名實(shí)體輸入支持向量機(jī)分類器,用于組合結(jié)果。Lei等[7]在進(jìn)行中文臨床文本的命名實(shí)體識(shí)別時(shí),采用了條件隨機(jī)場(chǎng)(CRF)、支持向量機(jī)(SVM)、最大熵(ME)和結(jié)構(gòu)支持向量機(jī)(SSVM)四種模型,而SSVM在四種模型中達(dá)到了最高性能,在入院記錄和出院小結(jié)中的實(shí)體識(shí)別F值達(dá)到了93.51%和90.01%。

      從序列識(shí)別的角度,實(shí)體標(biāo)簽序列集合構(gòu)成了非常大的標(biāo)簽組合,因此還可以將實(shí)體識(shí)別看成序列標(biāo)注問題,其基本思想是基于序列化標(biāo)注的方法對(duì)多個(gè)詞同時(shí)標(biāo)記,選擇聯(lián)合概率最大的標(biāo)注序列[3]。通常,采用的序列標(biāo)注模型有隱含馬爾可夫模型(hidden Markov model,HMM)、最大熵馬爾可夫模型(maximum entropy Markov model,MEMM)和條件隨機(jī)場(chǎng)(conditional random field,CRF)等模型。Ghiasvand[21]指出,實(shí)體識(shí)別系統(tǒng)最精準(zhǔn)的方法是機(jī)器學(xué)習(xí),用于序列標(biāo)記的機(jī)器學(xué)習(xí)方法被廣泛用于檢測(cè)臨床概念。Jiang等[10]對(duì)比了基于機(jī)器學(xué)習(xí)的提取臨床實(shí)體的方法,結(jié)果表明條件隨機(jī)場(chǎng)優(yōu)于支持向量機(jī)?;贑RF算法,Liu等[22]在該方法中增加四種特征對(duì)中文電子病歷實(shí)體進(jìn)行識(shí)別,其中F值最高達(dá)到了89.152%。從以上研究來看,序列標(biāo)注模型取得了較好的效果,也是目前使用最為常見的研究方法。

      3.2.2 模型和方法的改進(jìn)

      為進(jìn)一步提高醫(yī)療實(shí)體識(shí)別的效果,領(lǐng)域?qū)W者對(duì)模型不斷進(jìn)行改進(jìn),設(shè)計(jì)出更好的實(shí)體識(shí)別方法。如Jiang等[10]在2010年I2b2/VA競(jìng)賽中,開發(fā)了一種新的混合臨床實(shí)體提取系統(tǒng),將基于啟發(fā)式規(guī)則的模塊與基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別模塊集成在一起,使用477個(gè)注釋測(cè)試數(shù)據(jù)集來評(píng)估其性能,在概念提取和斷言分類的總F值最高分別為0.839 1和0.931 3。但常見的實(shí)體識(shí)別模型和方法大多是面向英文醫(yī)療文本提出的,并不直接適用于中文醫(yī)療文本[18]。中文自然語言處理在分詞等詞法分析上難于英文,因此,在進(jìn)行中文醫(yī)療實(shí)體識(shí)別時(shí),需要依據(jù)具體情況構(gòu)建新的模型或者改進(jìn)原有模型。燕楊等[23]針對(duì)中文病歷命名實(shí)體識(shí)別,提出了基于層疊條件隨機(jī)場(chǎng)的新方法,實(shí)驗(yàn)結(jié)果表明,該方法下的模型相比于無自定義組合特征的層疊CRF模型,F(xiàn)值提高了3%,相比于單層CRF模型,F(xiàn)值提高了7%。由此可見,對(duì)模型和方法的改進(jìn)能夠提高實(shí)體識(shí)別的效果,這要求研究者要在實(shí)驗(yàn)中不斷創(chuàng)新,將模型和方法改進(jìn)得更加完善。

      3.2.3 特征的選取

      特征是影響實(shí)體識(shí)別性能的關(guān)鍵因素。除了改進(jìn)模型和方法來提高實(shí)體識(shí)別效果,選取更好的特征亦是一種好的方法。Liu等[22]在CRF算法中添加字符特征、詞性特征、詞典特征和詞聚類特征,設(shè)計(jì)了不同特征模板進(jìn)行實(shí)驗(yàn),應(yīng)用詞性特征、詞典特征和詞聚類特征,識(shí)別效果達(dá)到了89.152%,比結(jié)合使用詞典特征和詞性特征高出0.32%。Chen等[12]在2017年CCKS臨床命名實(shí)體識(shí)別任務(wù)中,提取包括分詞、詞性、身體詞典訓(xùn)練集等的特征,最后選取分詞特征和詞性特征作為有效的訓(xùn)練特征,實(shí)體識(shí)別F1值達(dá)到了0.897 4?;跅l件隨機(jī)場(chǎng)(CRF)模型,蘇婭等[9]針對(duì)在線醫(yī)療文本中的實(shí)體識(shí)別選取了詞性特征、形態(tài)特征、后綴特征、身體部位指示特征和上下文特征,并指出中文不同于英文具有天然的分隔符,在進(jìn)行中文醫(yī)療實(shí)體識(shí)別時(shí)還需要添加符號(hào)特征,隨著特征的逐一添加,總體F1值不斷上升,當(dāng)采用所提全部特征時(shí),總體精確度為81.26%,召回率為60.18%。對(duì)傳統(tǒng)的機(jī)器學(xué)習(xí)模型來說,特征的選取直接影響著模型的性能。因此,在未來的研究工作中,需要不斷豐富實(shí)體識(shí)別特征,選擇最適宜的特征,從而提高實(shí)體識(shí)別效果。

      3.2.4 綜合的實(shí)體識(shí)別方法

      在進(jìn)行醫(yī)療實(shí)體識(shí)別時(shí),除了改進(jìn)機(jī)器學(xué)習(xí)模型和選擇更好的特征之外,將多種方法進(jìn)行綜合也是提高實(shí)體識(shí)別效果的一種思路。一些學(xué)者提出了級(jí)聯(lián)方法,該方法綜合CRF、SVM和MEMM等多種模型,避免了單一模型的局限性[24]。Liang等[25]提出了一種新型cascade-type中藥實(shí)體識(shí)別方法,旨在將支持向量機(jī)(SVM)中的句子分類器與基于條件隨機(jī)場(chǎng)(CRF)的中藥實(shí)體識(shí)別相結(jié)合,該方法在中藥名稱識(shí)別的精確率為94.2%,召回率為92.8%,F(xiàn)值為93.5%,顯著高于單一方法。鄧本洋等[26]使用條件隨機(jī)場(chǎng)(CRF)、最大熵(ME)以及堆積策略綜合兩模型進(jìn)行對(duì)照實(shí)驗(yàn),最終綜合模型的F值達(dá)到了91.1%,取得了最好效果。此外,JNLPBA競(jìng)賽中的所有系統(tǒng)均使用了一種或多種機(jī)器學(xué)習(xí)算法,大大優(yōu)于單一系統(tǒng)[27]。從以上研究可以發(fā)現(xiàn),綜合的實(shí)體識(shí)別方法通常表現(xiàn)出更好的優(yōu)勢(shì)和性能。

      3.3 基于深度學(xué)習(xí)的醫(yī)療實(shí)體識(shí)別

      深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要的發(fā)展方向,2006年由Hinton等[28]提出。作為機(jī)器學(xué)習(xí)研究中的一個(gè)新領(lǐng)域,深度學(xué)習(xí)受到了國(guó)內(nèi)外學(xué)者的廣泛追捧。該方法通過學(xué)習(xí)將世界表示成嵌套的概念層次結(jié)構(gòu),實(shí)現(xiàn)了強(qiáng)大的功能和靈活性。在醫(yī)療實(shí)體識(shí)別任務(wù)中,傳統(tǒng)的機(jī)器學(xué)習(xí)方法遵循兩個(gè)步驟:第一步是使用醫(yī)療領(lǐng)域的知識(shí)以數(shù)字向量表示文本,即特征工程;第二步是將每個(gè)單詞分類為不同的實(shí)體類[29]?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的模型依賴人工設(shè)置特征,而基于深度學(xué)習(xí)的模型則可以避開特征工程,具有一定的優(yōu)勢(shì)。當(dāng)需要處理的數(shù)據(jù)規(guī)模很大時(shí),深度學(xué)習(xí)方法將會(huì)明顯優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)。在深度學(xué)習(xí)中,較為典型的神經(jīng)網(wǎng)絡(luò)有遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長(zhǎng)短時(shí)記憶(LSTM)神經(jīng)網(wǎng)絡(luò)等。利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行醫(yī)療實(shí)體識(shí)別,無需大量的人工特征,只需要詞向量和字符向量,適時(shí)添加高質(zhì)量的詞典特征可以提高識(shí)別效果。因此,基于深度神經(jīng)網(wǎng)絡(luò)模型的醫(yī)療實(shí)體識(shí)別引起了研究人員的極大關(guān)注。

      遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是一種前饋人工神經(jīng)網(wǎng)絡(luò),它可以利用序列中每個(gè)位置的權(quán)值共享來模擬任意長(zhǎng)度的序列[30]。Almgren等[30]提出一種基于字符的深度雙向遞歸神經(jīng)網(wǎng)絡(luò)的醫(yī)療數(shù)據(jù)命名實(shí)體識(shí)別方法,以端到端方式訓(xùn)練,同時(shí)執(zhí)行邊界檢測(cè)和分類,實(shí)驗(yàn)結(jié)果表明F1值比經(jīng)典模型提高了60%。Hu等[8]在2017年CCKS醫(yī)療命名實(shí)體識(shí)別競(jìng)賽中,開發(fā)了一個(gè)基于規(guī)則、CRF和RNN方法的混合系統(tǒng),該系統(tǒng)在“嚴(yán)格”和“寬松”的標(biāo)準(zhǔn)下,F(xiàn)1值分別為91.08%和94.26%。RNN隨著遞歸,會(huì)面臨權(quán)重指數(shù)級(jí)爆炸或消失的問題,會(huì)讓RNN模型難以訓(xùn)練,這就引發(fā)了LSTM的發(fā)展。LSTM是RNN的代表性變體,是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)模型,克服了傳統(tǒng)RNN模型由于序列過長(zhǎng)而產(chǎn)生的梯度彌散問題[31]。Liu等[32]指出LSTM在2010年I2B2醫(yī)學(xué)概念提取中獲得最高的微觀平均F1值,為85.81%,在2012年I2B2臨床事件檢測(cè)中F1值為92.29%,在2014年I2B2反鑒定中F1值為94.37%,與其他最先進(jìn)的系統(tǒng)相比具有較強(qiáng)的競(jìng)爭(zhēng)力。此外,CNN也是進(jìn)行醫(yī)療實(shí)體識(shí)別的常用的神經(jīng)網(wǎng)絡(luò)模型。Zhao等[33]提出一種新型的基于多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)(MCNN)的疾病實(shí)體識(shí)別的方法,該方法使用了多重標(biāo)簽策略(MLS),而不是CRF層,實(shí)驗(yàn)結(jié)果表明MCNN方法在NCBI語料上的F值為85.17%,在CDR語料上的F值為87.83%,均高于其他方法。

      無論是傳統(tǒng)的機(jī)器學(xué)習(xí)模型,還是深度學(xué)習(xí)下的深度神經(jīng)網(wǎng)絡(luò),將多種模型結(jié)合在一起,都是提高系統(tǒng)性能的好方法,也是一個(gè)具有重要意義的研究方向。Habibi等[34]采用了基于深度學(xué)習(xí)和統(tǒng)計(jì)詞嵌入的方法來提高生物醫(yī)學(xué)實(shí)體識(shí)別的效果,實(shí)驗(yàn)結(jié)果表明F1值比經(jīng)典模型高出5%。Xu等[35]提出了一種基于雙向長(zhǎng)短時(shí)記憶和條件隨機(jī)場(chǎng)(Bi-LSTM-CRF)的醫(yī)學(xué)命名實(shí)體識(shí)別模型,實(shí)驗(yàn)證明該方法優(yōu)于傳統(tǒng)的單一模型。Wang等[36]提出了將癥狀成分劃分為11類的中文癥狀構(gòu)成模型,將實(shí)體識(shí)別任務(wù)看作是一個(gè)序列標(biāo)注問題,使用雙向LSTM-CRF以及部分詞性特征和數(shù)據(jù)增強(qiáng)來解決這個(gè)問題,在癥狀和成分水平上的準(zhǔn)確率分別為92.77%和94.34%,結(jié)果比基本模型高出20.72%和14.42%。李麗雙等[31]提出基于CNN-BLSTM-CRF的神經(jīng)網(wǎng)絡(luò)模型,不依賴任何人工特征,該模型在Biocreative Ⅱ GM和JNLPBA2004生物醫(yī)學(xué)語料上的F值分別為89.09%和74.40%。

      然而,當(dāng)醫(yī)療文本覆蓋實(shí)體復(fù)雜,實(shí)例不足和進(jìn)行分詞時(shí)出現(xiàn)的錯(cuò)誤等都會(huì)影響實(shí)體識(shí)別的準(zhǔn)確率。例如,楊紅梅等[37]利用雙向LSTM網(wǎng)絡(luò)結(jié)合CRF訓(xùn)練出的電子病歷命名實(shí)體識(shí)別模型,對(duì)測(cè)試數(shù)據(jù)集的評(píng)估表明,入院記錄中實(shí)體識(shí)別的F1值為0.853 5,出院小結(jié)中實(shí)體識(shí)別的F1值為0.726 5,總體F1值為0.805 2,入院記錄的研究結(jié)果較優(yōu),而出院小結(jié)的識(shí)別率較低,主要是因?yàn)槌鲈盒〗Y(jié)覆蓋實(shí)體復(fù)雜且分詞時(shí)出現(xiàn)了錯(cuò)誤。因此,在進(jìn)行醫(yī)療實(shí)體識(shí)別時(shí),研究者需要認(rèn)真謹(jǐn)慎地完成前期的準(zhǔn)備工作,避免為后續(xù)工作帶來不必要的阻礙。

      4 結(jié)束語

      隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,醫(yī)療實(shí)體識(shí)別成為了醫(yī)療大數(shù)據(jù)的重要研究領(lǐng)域。醫(yī)療實(shí)體識(shí)別雖然是實(shí)體識(shí)別的一個(gè)分支,但是它的重要性和發(fā)展前景不容小覷。醫(yī)療實(shí)體識(shí)別取得了豐碩的研究成果,這為開辟新的研究方向奠定了良好的基礎(chǔ)。盡管如此,作為一個(gè)剛剛開始興起的研究領(lǐng)域,醫(yī)療實(shí)體識(shí)別仍然面臨著一些問題和挑戰(zhàn),需要重點(diǎn)關(guān)注以下幾個(gè)方面的問題。

      (1)大力推進(jìn)半監(jiān)督學(xué)習(xí)的醫(yī)療實(shí)體識(shí)別研究。

      醫(yī)療實(shí)體標(biāo)注是一項(xiàng)非常耗時(shí)耗力的工作,不僅需要具有實(shí)體標(biāo)注能力的研究者,還需要具有醫(yī)學(xué)背景的人員參與。半監(jiān)督學(xué)習(xí)是一種結(jié)合監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的學(xué)習(xí)方法,有效利用未標(biāo)記的數(shù)據(jù),將領(lǐng)域知識(shí)整合到實(shí)體識(shí)別的模型中,以此提高模型的效果。這種方法減少了傳統(tǒng)機(jī)器學(xué)習(xí)對(duì)大量標(biāo)注數(shù)據(jù)的需求,降低了人工成本。因此,半監(jiān)督學(xué)習(xí),甚至是無監(jiān)督學(xué)習(xí),都將是未來醫(yī)療實(shí)體識(shí)別研究的重要發(fā)展方向。

      (2)積極推動(dòng)國(guó)內(nèi)醫(yī)療數(shù)據(jù)公開。

      相較于國(guó)外,國(guó)內(nèi)醫(yī)療實(shí)體識(shí)別并沒有公開語料和詞典資源。中文醫(yī)療實(shí)體識(shí)別的研究起步較晚,而且缺乏公開的標(biāo)注語料庫,這些因素一定程度上阻礙了中文醫(yī)療實(shí)體的進(jìn)一步發(fā)展,因此,推動(dòng)國(guó)內(nèi)醫(yī)療文本語料庫公開,有助于使醫(yī)療實(shí)體結(jié)構(gòu)化和標(biāo)準(zhǔn)化,進(jìn)一步加快中文醫(yī)療實(shí)體識(shí)別和醫(yī)療信息分析的發(fā)展。

      (3)進(jìn)一步挖掘?qū)嶓w語義特征來提升醫(yī)療實(shí)體識(shí)別效果。

      和傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)模型可以利用更多的外部語義特征。隨著深度學(xué)習(xí)和大數(shù)據(jù)技術(shù)的發(fā)展,利用更多高質(zhì)量醫(yī)療文本數(shù)據(jù)來生成實(shí)體語義特征以提升醫(yī)療實(shí)體識(shí)別效果將會(huì)是今后的一個(gè)重要發(fā)展方向。

      猜你喜歡
      評(píng)測(cè)詞典機(jī)器
      機(jī)器狗
      機(jī)器狗
      次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
      次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
      未來機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      評(píng)《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
      军事| 蒲城县| 泌阳县| 定南县| 牡丹江市| 丽江市| 东台市| 海宁市| 郧西县| 托克托县| 宁津县| 镇巴县| 太白县| 西城区| 隆化县| 堆龙德庆县| 苍梧县| 南澳县| 岫岩| 霍城县| 东莞市| 南城县| 庄浪县| 乐清市| 池州市| 恩平市| 海口市| 大姚县| 永德县| 邢台县| 常德市| 社会| 庆元县| 黄浦区| 丹东市| 福海县| 高青县| 堆龙德庆县| 双江| 福安市| 西吉县|