• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機器學(xué)習(xí)的藥品不良反應(yīng)實體識別研究綜述

      2022-08-05 02:41:06仲雨樂馬詩雯陸豪杰
      軟件工程 2022年8期
      關(guān)鍵詞:實體神經(jīng)網(wǎng)絡(luò)領(lǐng)域

      仲雨樂,馬詩雯,陸豪杰,韓 普

      (南京郵電大學(xué)管理學(xué)院,江蘇 南京 210003)

      1715272757@qq.com;1535328066@qq.com;1071879399@qq.com;hanpu@njupt.edu.cn

      1 引言(Introduction)

      藥品不良反應(yīng)(Adverse Drug Reaction,ADR)是指在疾病的預(yù)防、診斷、治療或調(diào)節(jié)生理功能過程中,患者接受正常劑量的藥物時出現(xiàn)的所有有害的,與用藥目的無關(guān)的反應(yīng)。藥品在使用過程中出現(xiàn)的不良反應(yīng)往往會對藥物的治療效果產(chǎn)生不好的影響,更為嚴重的可能會直接危害病人的生命安全,因此藥物安全監(jiān)管與評價體系的重要工作內(nèi)容是識別、收集及分析ADR。

      命名實體識別(Named Entity Recognition,NER)是自然語言處理(Natural Language Processing,NLP)中重要的研究領(lǐng)域,主要是將具有特定意義的實體從非結(jié)構(gòu)化的自由文本中抽取出來。與通用領(lǐng)域的實體不同,ADR中的命名實體類型通常包括藥品、適應(yīng)癥、不良反應(yīng)癥狀、身體部位等。實體識別是ADR中的關(guān)鍵環(huán)節(jié),對ADR知識圖譜構(gòu)建、藥物重定位、智能醫(yī)療和藥物知識發(fā)現(xiàn)有著重要意義。

      針對ADR實體識別任務(wù),本文系統(tǒng)梳理了國內(nèi)外近些年來有關(guān)ADR實體識別領(lǐng)域的相關(guān)文獻成果,整理歸納了相關(guān)研究的主要方法及研究思路,分析其中的關(guān)鍵技術(shù)和不足之處,并給出了未來可能的研究方向和發(fā)展趨勢。

      2 ADR實體識別面臨的問題(Problems faced by ADR entity recognition)

      盡管實體識別受到醫(yī)療健康信息抽取領(lǐng)域?qū)W者的極大關(guān)注,但在ADR實體識別中仍然面臨許多亟待解決的問題,其中在中文領(lǐng)域的ADR文本實體識別方面尤為突出。一方面,中文普遍存在實體嵌套的問題,如“頭腦脹痛”既包含身體部位的實體“頭腦”,又包含癥狀類的實體“頭腦脹痛”,但目前ADR實體識別常忽略嵌套實體問題,而是選擇專注于最外層實體;另一方面,針對英文的生物醫(yī)學(xué)文獻、臨床記錄、社交媒體,ADR實體識別數(shù)據(jù)集比較完善,國內(nèi)ADR數(shù)據(jù)集相對匱乏。由于涉及隱私等問題,學(xué)界常用的數(shù)據(jù)是從社交媒體中爬取的藥品不良反應(yīng)評論,這些數(shù)據(jù)需要自行人工標注,代價高昂,并且這類數(shù)據(jù)往往存在大量口語化表述,導(dǎo)致標注的實體不夠準確,標注數(shù)據(jù)規(guī)模也非常有限,無法進行大規(guī)模的模型訓(xùn)練。

      3 ADR中實體識別方法與模型(Entity recognition methods and models in ADR)

      根據(jù)所采用的研究方法,ADR實體識別方法可分為基于規(guī)則和詞典的方法、以條件隨機場(Conditional Random Field,CRF)為代表的傳統(tǒng)機器學(xué)習(xí)方法、以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)與BERT(Bidirectional Encoder Representations from Transformers)為代表的深度學(xué)習(xí)方法和以對抗性遷移學(xué)習(xí)為代表的遷移學(xué)習(xí)方法。

      3.1 基于規(guī)則和詞典的ADR實體識別

      實體識別中最早使用的是基于規(guī)則和詞典的方法,通過文本規(guī)則、知識庫和專業(yè)領(lǐng)域詞典實現(xiàn)實體識別。馮變玲等利用關(guān)聯(lián)規(guī)則抽取ADR實體并通過計算支持度和可信度來得到藥物不良反應(yīng)。YANG等通過爬蟲技術(shù)從MedHelp上獲取大量用戶關(guān)于使用藥品而產(chǎn)生不良反應(yīng)的留言信息,利用CHV醫(yī)學(xué)字典進行ADR實體識別,準確識別出選定藥品的不良反應(yīng),掌握了藥物和各自不良反應(yīng)之間相互聯(lián)系的內(nèi)在關(guān)系。類似地,SARKER等收集了Twitter和DailyStrenth中與選定藥物名稱相關(guān)的用戶評論,以藥學(xué)詞典為基礎(chǔ),完成了評論文本中不良反應(yīng)的實體識別。

      通過對已有研究的分析可知,基于規(guī)則和詞典的ADR實體識別方法簡單易懂,準確率高。但僅僅基于規(guī)則和詞典適用性較差,無法對ADR文本中較復(fù)雜的實體類型進行很好的識別處理,只能識別一些特定類型的實體。因此,基于規(guī)則和詞典的方法大多時候是為了補充機器學(xué)習(xí)的方法,用于輔助ADR實體識別模型。

      3.2 基于傳統(tǒng)機器學(xué)習(xí)模型的ADR實體識別

      隨著機器學(xué)習(xí)不斷更新迭代,相關(guān)機器學(xué)習(xí)模型逐漸應(yīng)用于ADR實體識別領(lǐng)域中。常用的模型有隱馬爾可夫模型(Hidden Markov Models,HMM)和條件隨機場等。

      HMM 是ADR 實體識別任務(wù)的常用模型之一。SAMPATHKUMAR等提出了一個以HMM為基礎(chǔ)的文本挖掘系統(tǒng),從醫(yī)學(xué)論壇Medications中爬取有關(guān)ADR的文本數(shù)據(jù),經(jīng)人工標注后作為ADR實體識別的數(shù)據(jù)集,對手動注釋的數(shù)據(jù)集進行10 倍交叉驗證發(fā)現(xiàn),HMM的F1值平均為0.76,遠高于基線模型。

      CRF是一種用于序列標記任務(wù)的概率統(tǒng)計模型,在ADR實體識別領(lǐng)域中廣泛使用。CRF克服了HMM的獨立性假設(shè)條件,能夠考慮連續(xù)標簽之間的依賴關(guān)系,常與其他模型結(jié)合生成全局最優(yōu)序列。TANG等將CRF和長短期記憶神經(jīng)網(wǎng)絡(luò)相結(jié)合,在ADR公開語料庫CADEC上開展系列實驗,實驗表明該方法F1值高于CRF。CHRISTOPOULOU等將CRF模型與雙向長短期記憶神經(jīng)網(wǎng)絡(luò)進行結(jié)合,構(gòu)建ADR實體識別模型,并獲得了較好的實驗結(jié)果。王姝元提出了一種帶有CRF的雙向長短期記憶體的特定體系結(jié)構(gòu),將5,865 篇Twitter帖子標注為“Drug”“Indication”和“ADR”三種標簽來進行實體識別,實驗效果明顯優(yōu)于CRF模型以及以詞典為核心的實體識別方法。

      盡管機器學(xué)習(xí)推動ADR實體識別任務(wù)取得了巨大進展,但在模型實施前期,需要大量時間對數(shù)據(jù)集進行預(yù)處理工作,且機器學(xué)習(xí)模型難以處理大規(guī)模數(shù)據(jù),無法使用復(fù)雜特征,使得基于機器學(xué)習(xí)模型的ADR實體識別結(jié)果難以進一步提高。

      3.3 基于深度學(xué)習(xí)模型的ADR實體識別

      隨著時代的發(fā)展,深度學(xué)習(xí)模型在越來越多的領(lǐng)域有著出色的表現(xiàn),各類自然語言處理任務(wù)也逐漸引入該模型。目前實體識別任務(wù)以深度學(xué)習(xí)為核心內(nèi)容,基于深度學(xué)習(xí)的實體識別方法非常適用于解決序列標注問題,ADR實體識別由此進入新階段。

      循環(huán)神經(jīng)網(wǎng)絡(luò)是一類以序列數(shù)據(jù)為輸入,在序列的演進方向進行遞歸且所有節(jié)點(循環(huán)單元)按鏈式連接的遞歸神經(jīng)網(wǎng)絡(luò)。PANDEY等搭建了一個帶有注意力機制的雙向遞歸神經(jīng)網(wǎng)絡(luò),將雙向RNN用于自建數(shù)據(jù)集編碼,然后將其輸入生成注意權(quán)重的注意力層,并在RNN中使用注意力權(quán)重來進行ADR實體識別。

      長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是一種較為特殊的RNN,主要包含遺忘門、輸入門、輸出門與一個記憶單元。傳統(tǒng)的RNN在訓(xùn)練中很容易出現(xiàn)梯度爆炸或者梯度消失的問題,導(dǎo)致無法處理較長的序列數(shù)據(jù),而LSTM能夠很好地洞悉并獲取在字段中相隔較遠的依賴關(guān)系。雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)是LSTM的變體,能夠更加有效地提取文本的上下文信息,在ADR實體識別中取得了較好的效果。GUPTA等提出了一種基于半監(jiān)督BiLSTM的ADR實體識別模型,在2007—2010 年收集的ADR推文上開展實驗,實驗F1值比CRF高出3.01%。為了進一步提升模型效果,不少研究往往將BiLSTM與CRF進行結(jié)合。朱笑笑等構(gòu)建了基于BiLSTM與CRF的ADR抽取模型,在Twitter數(shù)據(jù)集上進行實驗,結(jié)果表明結(jié)合BiLSTM和CRF能夠有效識別出社交媒體上不規(guī)范的不良反應(yīng)實體。張亞飛等構(gòu)建了BiLSTM-CRF實體識別方法,從“39健康藥物論壇”上爬取26 種藥物用戶評論數(shù)據(jù)來識別ADR實體,從而挖掘出藥物論壇上潛在的ADR。CHEN等在國內(nèi)ADR報告上對比了CRF、BiLSTM-CRF和基于詞匯特征的BiLSTM-CRF模型實體識別任務(wù)的效果,結(jié)果表明基于詞匯特征的BiLSTMCRF模型實驗F1達到94.35%,表現(xiàn)最優(yōu)。

      GRU(Gated Recurrent Unit,門控循環(huán)單元)模型是LSTM模型的創(chuàng)新模型之一,其特點在于同時具備LSTM的遺忘、更新機制,且簡化了LSTM模型架構(gòu),提高了運行速度,降低了梯度彌散的風(fēng)險。陳瑤等以雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit,Bi-GRU)結(jié)構(gòu)為基礎(chǔ),引入注意力機制以及字向量與分詞向量優(yōu)化模型,對國內(nèi)ADR報告中的ADR過程描述部分進行“藥品-不良反應(yīng)”的實體識別和關(guān)系抽取研究,取得了較好效果。

      為了解決單一特征的神經(jīng)網(wǎng)絡(luò)模型不能充分利用文本信息的問題,趙鑫等提出了一種混合多特征的神經(jīng)網(wǎng)絡(luò)模型,使用包含卷積計算且具有深度結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和LSTM對ADR文本進行實體識別研究,研究表明混合模型效果優(yōu)于單一特征的神經(jīng)網(wǎng)絡(luò)模型。楊文明等以BiLSTM-CRF為基準模型,設(shè)計了IndRNN-CRF和IDCNN-BiLSTM-CRF兩種不同的實體識別模型,并從尋醫(yī)問藥等網(wǎng)站爬取有關(guān)藥物不良反應(yīng)的評論構(gòu)建數(shù)據(jù)集,在此數(shù)據(jù)集上驗證模型的有效性。對比實驗結(jié)果可知,IDCNN-BiLSTM-CRF模型在精確率、召回率和F1值上均超過了基準模型BiLSTM-CRF模型,總體性能最好。TIFTIKCI等集成了BiLSTM、CNN和CRF用于ADR實體識別,并構(gòu)建了基于規(guī)則的方法規(guī)范已識別的ADR實體,在2017 年文本分析會議藥物不良反應(yīng)挑戰(zhàn)測試數(shù)據(jù)集上進行評估,結(jié)果表明由深度學(xué)習(xí)構(gòu)建的實體識別架構(gòu)和基于規(guī)則的實體規(guī)范化模型組成的系統(tǒng)是從藥物標簽中提取ADR的一種很有前途的方法。

      傳統(tǒng)的實體識別方法將字映射成One-hot編碼,難以表明一詞多義。為了解決這一問題,學(xué)者們提出了一種利用預(yù)訓(xùn)練語言模型進行單詞表示的方法。雖然該方法計算較為復(fù)雜,但可以充分捕捉長距離依賴關(guān)系,在ADR實體識別任務(wù)中常用來生成詞向量。

      早期運用較為廣泛的預(yù)訓(xùn)練模型大多以Word2Vec工具對詞向量進行訓(xùn)練,LIN等采用Word2Vec單詞嵌入方法識別Twitter數(shù)據(jù)集上的ADR,實驗結(jié)果表明Word2Vec在縮小特征空間的同時讓召回率和總體F1值都達到更高。GUPTA等使用Word2Vec在大型通用語料庫上訓(xùn)練詞向量作為ADR實體識別模型的輸入。然而Word2Vec僅關(guān)注到了詞的部分信息,沒有考慮到詞與局部窗口外詞的聯(lián)系,所以后續(xù)出現(xiàn)了GloVe和ELMo算法。GloVe利用共現(xiàn)矩陣,同時考慮了局部信息和整體信息。ELMo則針對Word2Vec和GloVe存在詞在不同的語境下有不同的含義,而向量表示卻相同這一問題進行了優(yōu)化,使其能夠?qū)W習(xí)到單詞用法的復(fù)雜特性。PANDEY等采用Word2Vec和GloVe從大量的ADR資源中實現(xiàn)了無監(jiān)督的單詞嵌入來改善RNN,提高了ADR實體識別的準確性。

      隨著預(yù)訓(xùn)練模型受到越來越多的關(guān)注,更多的預(yù)訓(xùn)練模型用于ADR實體識別。2018 年,DEVLIN等提出了BERT模型,其關(guān)鍵部分是Transformer結(jié)構(gòu),它是一個基于自注意力機制的深度網(wǎng)絡(luò)。朱曉旭在ADR的實體識別階段,以BiLSTM-CRF模型為基礎(chǔ),融入基于醫(yī)學(xué)文獻的預(yù)訓(xùn)練語言模型Bio-BERT作為詞表示,并加入自注意力機制來更好地處理長距離的依賴問題。WU等將BERT、BiLSTM與CRF相結(jié)合,令微調(diào)BERT模型獲得的詞特征作為輸入,通過BiLSTM-CRF進行特征提取,準確識別出國內(nèi)ADR報告中的目標實體,遠優(yōu)于其他基線模型。

      從目前的研究成果來看,深度學(xué)習(xí)模型是端到端的訓(xùn)練方式,自動提取特征,能夠?qū)W習(xí)ADR文本當中的深層語義信息,在各種ADR實體識別任務(wù)中均取得較好結(jié)果。近年來,學(xué)者們嘗試在基于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)上引入注意力機制、遷移學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)、遠程監(jiān)督學(xué)習(xí)等以進一步提升ADR實體識別效果。

      3.4 基于遷移學(xué)習(xí)方法的ADR實體識別

      遷移學(xué)習(xí)是深度學(xué)習(xí)前沿的研究領(lǐng)域,許多學(xué)者利用深度學(xué)習(xí)技術(shù)構(gòu)建遷移學(xué)習(xí)模型,將源域和模型的相關(guān)信息遷移到目標域,提高目標領(lǐng)域的實驗效果,能夠有效解決ADR實體識別任務(wù)資源匱乏、實體類型多樣化等問題,提升了ADR實體識別效果。

      ZHANG等提出了一種針對ADR實體識別任務(wù)的對抗性遷移學(xué)習(xí)模型,引入共享的字符級卷積神經(jīng)網(wǎng)絡(luò)(charCNN)學(xué)習(xí)兩個域數(shù)據(jù)集之間相似的字符級特征,通過融合來自PubMed(源域)的生物醫(yī)學(xué)領(lǐng)域信息,提高Twitter數(shù)據(jù)集(目標域)上的ADR實體識別效果,并根據(jù)兩個域的比例設(shè)置最終損失函數(shù)平衡任務(wù)。該方法的F1值在Twitter數(shù)據(jù)集上為68.58%,實現(xiàn)了最優(yōu)的性能。KANG等構(gòu)建了由對抗性遷移學(xué)習(xí)組成的神經(jīng)網(wǎng)絡(luò)模型ASAIBC,以分詞數(shù)據(jù)集為源域,以人工標注的新疆地區(qū)ADR數(shù)據(jù)集為目標域,結(jié)合自注意力機制和獨立循環(huán)神經(jīng)網(wǎng)絡(luò)(Independently Recurrent Neural Network,IndRNN)捕捉句子整體依賴性,充分利用中文分詞任務(wù)和NER任務(wù)的邊界來實現(xiàn)信息共享,該模型F1評分均值為90.57%,優(yōu)于現(xiàn)有模型,可以進一步提高ADR實體識別效果。

      4 數(shù)據(jù)集和評估效果(Datasets and evaluating performance)

      4.1 ADR實體識別常用數(shù)據(jù)集

      在ADR實體識別研究早期,常見的ADR數(shù)據(jù)來源有自發(fā)報告系統(tǒng)、電子健康記錄(EHR)、醫(yī)學(xué)文獻等,其中自發(fā)報告系統(tǒng)所收集的ADR報告和電子健康記錄較為常用。但是這些數(shù)據(jù)來源依舊有很多弊端,自發(fā)報告系統(tǒng)就存在錯報漏報、上報缺乏主觀能動性的缺陷,EHR文檔所涵蓋的數(shù)據(jù)范疇也并不全面,因此,系統(tǒng)全面的數(shù)據(jù)來源是開展ADR實體識別研究的關(guān)鍵。

      隨著互聯(lián)網(wǎng)的盛行,社交媒體已經(jīng)成為近年來ADR數(shù)據(jù)量大幅增長的領(lǐng)域之一。基于社交網(wǎng)絡(luò)的評論給ADR實體識別研究提供了寶貴的數(shù)據(jù)源,除了Twitter和微博社交平臺,還有一些專注于疾病和健康領(lǐng)域的網(wǎng)站,如國外的Dailystrenth、MedHelp、SteadyHealth以及國內(nèi)的“39健康網(wǎng)”“丁香園”和“尋醫(yī)問藥”,吸引一大批用戶通過發(fā)帖方式表達用藥或治療經(jīng)歷,或是向線上專業(yè)的醫(yī)護人員進行提問。這些包含大量ADR信息的網(wǎng)站近期成為ADR研究的重要數(shù)據(jù)源。除此以外,一些公開的語料數(shù)據(jù)庫或者比賽提供的數(shù)據(jù)集也是ADR實體識別研究常用的數(shù)據(jù)集,如MIMIC-III語料數(shù)據(jù)庫和n2c2數(shù)據(jù)集常用于各類實體識別研究。

      由此可見,無論是自發(fā)報告系統(tǒng)、社交媒體或是公開數(shù)據(jù)庫,都為ADR實體識別研究提供了新的視野,使得近幾年來ADR實體識別研究取得了明顯進展。

      4.2 數(shù)據(jù)集標注策略

      ADR實體識別數(shù)據(jù)集一般采用BIO、BIOE和BIOES等標注格式。在BIO標注格式中,B表示實體開端字符(Begin),I表示內(nèi)部(Inside),O表示外部(Outside)。BIOES是BIO的擴展,在BIO的基礎(chǔ)上,E表示一個詞處于某個實體的結(jié)束,S表示這個詞自己就可以組成一個實體(Single),O含義不變。在標注數(shù)據(jù)時,常采用以上兩種標注策略來進行ADR實體識別。由于BIOES具有更強的指向性和可識別度,因此能顯著提高識別效率,但后續(xù)出現(xiàn)的深度學(xué)習(xí)模型中學(xué)者們會更傾向于使用BIO標注。

      ADR 數(shù)據(jù)集通常有13 種標簽結(jié)果,分別為:“O”“B-Drug(藥品)”“I-Drug(藥品)”“BDose(劑量)”“I-Dose(劑量)”“B-Indication(適應(yīng)癥)”“I-Indication(適應(yīng)癥)”“B-Part(部位)”“IPart(部位)”“B-Symptom(癥狀)”“I-Symptom(癥狀)”“B-Time(時間)”“I-Time(時間)”。如“效果還行但副作用好大,吃了幾天后頭暈嗜睡,四肢無力”,經(jīng)BIO策略標注后為“效/O果/O還/O行/O但/O副/O作/O用/O好/O大/O,/O吃/O了/O幾/B-Time天/I-Time后/O頭/B-Symptom暈/I-Symptom嗜/I-Symptom睡/I-Symptom,/O四/B-Part肢/I-Part無/B-Symptom力/I-Symptom。/O”。

      4.3 評價指標

      ADR實體識別任務(wù)一般采用的評價指標包括精確率(Precision)、召回率(Recall)及F1值(F1-Measure)等。具體計算公式如下:

      其中,表示原本屬于正例的樣本被準確地分類為正例的數(shù)量,即正確識別為ADR實體的數(shù)量;表示原本為負例的樣本被錯誤地分類為正例的數(shù)量,即錯誤識別為ADR個體的數(shù)量;表示原本屬于正例的樣本被錯誤地分類為負例的數(shù)量,即錯誤地識別為非不良反應(yīng)的數(shù)量。

      5 ADR實體識別未來研究趨勢(Future research trend of ADR entity recognition)

      近年來科技發(fā)展迅速,各種實體識別方法層出不窮,但是如何解決ADR文本的復(fù)雜性、數(shù)據(jù)稀缺和實體嵌套等疑難點,更好地開展ADR實體識別研究仍然面臨著諸多挑戰(zhàn)?;贏DR實體識別廣闊的應(yīng)用前景,未來可以從以下三個方面對ADR實體識別開展研究:

      (1)模型創(chuàng)新,引入混合深度學(xué)習(xí)、持續(xù)學(xué)習(xí)、主動學(xué)習(xí)和多任務(wù)學(xué)習(xí)等前沿學(xué)習(xí)方法?;旌仙疃葘W(xué)習(xí)將傳統(tǒng)機器學(xué)習(xí)與主流的深度學(xué)習(xí)模型相結(jié)合,充分利用各學(xué)習(xí)方法的優(yōu)勢提高對多義詞、低頻實體等復(fù)雜實體的識別性能;持續(xù)學(xué)習(xí)在多個時間段的數(shù)據(jù)流中學(xué)習(xí),建立知識記憶以便在新知識的學(xué)習(xí)過程中不會忘記舊有的特征,減輕災(zāi)難性遺忘;主動學(xué)習(xí)通過選擇最有用未標記樣本,降低人工標注成本,有利于解決實體識別數(shù)據(jù)標注問題;多任務(wù)學(xué)習(xí)同時學(xué)習(xí)多個相關(guān)任務(wù),相比于單任務(wù)學(xué)習(xí),多任務(wù)學(xué)習(xí)能夠共享任務(wù)信息,提升泛化效果。這些前沿學(xué)習(xí)方法目前已經(jīng)常用于生物醫(yī)學(xué)命名實體識別領(lǐng)域,且效果較基礎(chǔ)模型有顯著提高,在該領(lǐng)域發(fā)揮了較為可觀的作用,因此后續(xù)可以在已有研究的基礎(chǔ)上引入這些學(xué)習(xí)方法來進一步提高ADR實體識別效果。

      (2)多特征融合,融合部首、詞性、字詞、詞典、依存句法分析及外部語義等多重特征。近年來,多特征融合在醫(yī)療實體識別領(lǐng)域應(yīng)用廣泛,能夠多方面抽取醫(yī)學(xué)專業(yè)領(lǐng)域知識,準確且完整地提取句子的特征信息,增強詞與詞之間的關(guān)聯(lián)性,充分挖掘文本上下文深層語義信息。而目前ADR實體識別領(lǐng)域相關(guān)模型向量特征表示過于單一,多特征融合方法尚未充分應(yīng)用,因此未來融合多特征也是提升ADR實體識別性能的一個方案。

      (3)構(gòu)建中文領(lǐng)域ADR實體識別大規(guī)模高質(zhì)量數(shù)據(jù)集。目前ADR實體識別研究通常需要大量的標注數(shù)據(jù),然而標注龐大的數(shù)據(jù)集需要大量的人力、時間和更多的領(lǐng)域?qū)<抑R。因此,如何利用小規(guī)模的標注語料構(gòu)建大規(guī)模的數(shù)據(jù)集是一個可參考的方向。未來或許可以整合現(xiàn)存的多個語料庫,利用自動化的方法進行數(shù)據(jù)集構(gòu)建來提高ADR實體識別的準確性。

      6 結(jié)論(Conclusion)

      目前,ADR實體識別是藥物警戒和智能醫(yī)療的熱門研究領(lǐng)域。本文首先分析了ADR實體識別目前面臨的問題;其次將現(xiàn)有ADR實體識別領(lǐng)域的研究方法進行歸納和分類,總結(jié)了包括基于規(guī)則和詞典、傳統(tǒng)機器學(xué)習(xí)、深度學(xué)習(xí)和遷移學(xué)習(xí)方法這四類ADR實體識別的方法與模型,分析得到當前基于遷移學(xué)習(xí)的方法在ADR實體識別任務(wù)上性能較優(yōu);接著介紹了ADR實體識別常用的數(shù)據(jù)集和當前較為流行的數(shù)據(jù)集標注策略以及評估指標;最后給出了ADR實體識別研究的研究趨勢,預(yù)計未來可以通過模型創(chuàng)新、多特征融合和構(gòu)建大規(guī)模高質(zhì)量數(shù)據(jù)集來提升ADR實體識別效果,為該領(lǐng)域深入研究提供參考。

      猜你喜歡
      實體神經(jīng)網(wǎng)絡(luò)領(lǐng)域
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      領(lǐng)域·對峙
      青年生活(2019年23期)2019-09-10 12:55:43
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      新常態(tài)下推動多層次多領(lǐng)域依法治理初探
      基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      新宁县| 榆社县| 通州市| 安溪县| 郁南县| 沽源县| 阳原县| 思茅市| 文化| 元朗区| 乳源| 新田县| 禄丰县| 阳城县| 南江县| 沁阳市| 崇义县| 思南县| 化隆| 厦门市| 介休市| 太和县| 色达县| 稻城县| 兴仁县| 垦利县| 阳信县| 蕲春县| 九江县| 云林县| 南乐县| 镶黄旗| 富顺县| 石门县| 定州市| 昭觉县| 凤山县| 黄骅市| 凤凰县| 凤山市| 白银市|