• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      醫(yī)學(xué)知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)及研究進(jìn)展

      2021-07-21 08:30:52譚玲鄂海紅匡澤民宋美娜劉毓陳正宇謝曉璇李峻迪范家偉王晴川康霄陽
      大數(shù)據(jù) 2021年4期
      關(guān)鍵詞:醫(yī)學(xué)知識(shí)本體圖譜

      譚玲,鄂海紅,匡澤民,宋美娜,劉毓,陳正宇,謝曉璇,李峻迪,范家偉,王晴川,康霄陽

      1. 北京郵電大學(xué),北京 100876;2. 首都醫(yī)科大學(xué)附屬北京安貞醫(yī)院,北京 100029

      1 引言

      人工智能的發(fā)展已經(jīng)進(jìn)入快車道,作為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量,人工智能技術(shù)正在深入各行各業(yè),悄無聲息地改變著人們?nèi)粘I畹姆椒矫婷鎇1]。知識(shí)圖譜是由谷歌(Google)公司在2012年提出的一個(gè)概念,本質(zhì)上是語義網(wǎng)的知識(shí)庫。知識(shí)圖譜由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)表示實(shí)體,邊表示實(shí)體與實(shí)體之間的關(guān)系,這是最直觀、最易于理解的知識(shí)表示和實(shí)現(xiàn)知識(shí)推理的框架,奠定了第三代人工智能研究的基礎(chǔ)[1]。

      目前,醫(yī)學(xué)是知識(shí)圖譜應(yīng)用較廣的垂直領(lǐng)域之一,也是目前國(guó)內(nèi)外人工智能領(lǐng)域研究的熱點(diǎn)。醫(yī)學(xué)知識(shí)圖譜在臨床診斷、治療、預(yù)后等方面均可發(fā)揮較大的作用。高效地將知識(shí)圖譜應(yīng)用于醫(yī)學(xué)領(lǐng)域?qū)⒔o人類的醫(yī)療衛(wèi)生帶來革命性的變化[1]。由于醫(yī)學(xué)領(lǐng)域數(shù)據(jù)的特殊性,醫(yī)學(xué)知識(shí)圖譜的構(gòu)建也面臨不少機(jī)遇與挑戰(zhàn)。

      本文對(duì)醫(yī)學(xué)知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)及應(yīng)用進(jìn)行了全面的梳理,對(duì)各類公共數(shù)據(jù)集、處理醫(yī)學(xué)問題的特異性難點(diǎn)及現(xiàn)有解決辦法進(jìn)行了綜述。通過閱讀本文,可以了解醫(yī)學(xué)知識(shí)圖譜的發(fā)展現(xiàn)狀、未來發(fā)展方向以及面臨的挑戰(zhàn),便于醫(yī)學(xué)知識(shí)圖譜研究者參照對(duì)比,加快醫(yī)學(xué)知識(shí)圖譜領(lǐng)域的研究及臨床落地應(yīng)用。

      本文主要按照醫(yī)學(xué)知識(shí)圖譜構(gòu)建的流程來闡述,主要框架如圖1所示。

      圖1 醫(yī)學(xué)知識(shí)圖譜構(gòu)建框架

      2 醫(yī)學(xué)本體構(gòu)建

      網(wǎng)絡(luò)上文本數(shù)據(jù)的爆炸式增長(zhǎng),以及對(duì)本體需求的增加,促進(jìn)了語義網(wǎng)絡(luò)的發(fā)展,使得基于文本的本體自動(dòng)構(gòu)建成為一個(gè)非常有前途的研究領(lǐng)域。文本本體學(xué)習(xí)是一種以機(jī)器可讀形式(半)自動(dòng)地從文本中提取和表示知識(shí)的過程。本體被認(rèn)為是在語義網(wǎng)絡(luò)上以更有意義的方式表示知識(shí)的主要基石之一。

      2.1 本體構(gòu)建定義及任務(wù)

      萬維網(wǎng)聯(lián)盟(World Wide Web Consortium,W3C)將本體論定義為用于描述和表示知識(shí)領(lǐng)域的術(shù)語。本體是一個(gè)數(shù)據(jù)模型,它表示一組概念以及一個(gè)域中這些概念之間的關(guān)系。

      本體構(gòu)建可以定義為從頭創(chuàng)建本體或重用現(xiàn)有本體以豐富或填充現(xiàn)有本體的迭代過程。構(gòu)建本體的過程包括以下6個(gè)任務(wù):

      ● 指定一個(gè)域以創(chuàng)建定義良好的術(shù)語和概念;

      ● 識(shí)別域中的關(guān)鍵術(shù)語、概念及其關(guān)系;

      ● 建立或推斷描述域結(jié)構(gòu)屬性的規(guī)則和公理;

      ● 使用支持本體的表示語言(如資源描述框架(resource description framework,RDF)、資源描述框架模式(resource description framework schema,RDFS)或網(wǎng)絡(luò)本體語言(Web ontology language,OWL))對(duì)構(gòu)建的本體進(jìn)行編碼(表示);

      ● 將構(gòu)建的本體與現(xiàn)有本體結(jié)合(如果現(xiàn)有本體可用);

      ● 通過使用通用和特定的評(píng)估度量來評(píng)估構(gòu)建的本體[2]。

      2.2 醫(yī)學(xué)本體構(gòu)建難點(diǎn)及現(xiàn)有技術(shù)

      隨著對(duì)許多醫(yī)學(xué)本體構(gòu)建研究的深入,目前醫(yī)學(xué)本體庫的構(gòu)建主要存在以下難點(diǎn)。

      首先應(yīng)該盡可能減少在本體構(gòu)建過程中的人為干預(yù)。目前實(shí)現(xiàn)本體構(gòu)建過程的完全自動(dòng)化是不現(xiàn)實(shí)的,怎樣減少人為干預(yù)是目前醫(yī)學(xué)本體構(gòu)建的一個(gè)難點(diǎn)和熱點(diǎn)。2018年,Mazen A等人[3]提出了一種新的本體自動(dòng)生成框架,即鏈接開放數(shù)據(jù)項(xiàng)目授權(quán)的生物醫(yī)學(xué)本體自動(dòng)生成(linked open data approach for automatic biomedical ontology generation,LOD-ABOG)方法。與現(xiàn)有框架相比,參考文獻(xiàn)[3]的評(píng)估結(jié)果顯示,大多數(shù)本體生成任務(wù)的結(jié)果有所改善。該參考文獻(xiàn)提出的LOD-ABOG框架表明,現(xiàn)有的LOD源和技術(shù)是一個(gè)很有前途的解決方案,可以在更大程度上實(shí)現(xiàn)生物醫(yī)學(xué)本體生成和關(guān)系提取過程的自動(dòng)化。另外,與現(xiàn)有的框架在本體開發(fā)過程中需要領(lǐng)域?qū)<业膮⑴c不同,該參考文獻(xiàn)提出的方法只要求領(lǐng)域?qū)<以诒倔w構(gòu)建周期結(jié)束時(shí)參與到本體的改進(jìn)中。

      2019年,Lytvyn V等人[4]提出了從自然文本中提取知識(shí)的方法和算法(包括一個(gè)基于本體引入的概念、關(guān)系、謂詞和規(guī)則的多層次過程),建立了一種基于本體的本體開發(fā)方法,該方法利用現(xiàn)有本體對(duì)文本文檔進(jìn)行分析,構(gòu)建了命名和本體術(shù)語體系。這使得本體開發(fā)過程自動(dòng)化成為可能。

      再者,由于醫(yī)學(xué)信息的特殊性,對(duì)醫(yī)學(xué)信息的匿名化處理在本體構(gòu)建過程中也是一個(gè)難點(diǎn)。2017年,Polsley S等人[5]提出一種可識(shí)別被映射到本體論術(shù)語的受保護(hù)健康信息(protected health information,PHI)的方法,臨床專家使用數(shù)百份醫(yī)學(xué)文獻(xiàn)對(duì)該方法進(jìn)行了評(píng)價(jià),F(xiàn)1分?jǐn)?shù)達(dá)98.8%,在后續(xù)處理中保留語義信息具有一定的前景。但該方法仍有較大的局限性,需要不斷地進(jìn)行優(yōu)化。

      2.3 醫(yī)學(xué)本體常用數(shù)據(jù)集

      醫(yī)學(xué)本體較常用的數(shù)據(jù)集主要有以下幾種,見表1。

      表1 醫(yī)學(xué)本體常用的數(shù)據(jù)集

      2.4 挑戰(zhàn)及未來研究方向

      首先,由于醫(yī)學(xué)數(shù)據(jù)的多樣性,在設(shè)計(jì)醫(yī)學(xué)本體構(gòu)建系統(tǒng)時(shí),無論是來自小的靜態(tài)文本集合的數(shù)據(jù),還是萬維網(wǎng)上的海量異構(gòu)數(shù)據(jù),都需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換。目前,針對(duì)此問題的文獻(xiàn)較少,有待后續(xù)研究的推進(jìn)。

      其次,醫(yī)學(xué)的臨床數(shù)據(jù)會(huì)不斷變化,如何根據(jù)患者的當(dāng)前情況創(chuàng)建動(dòng)態(tài)的最佳保護(hù)服務(wù),為患者提供個(gè)性化的實(shí)時(shí)醫(yī)療護(hù)理也是醫(yī)學(xué)實(shí)體構(gòu)建過程中的一大問題[6]。

      3 醫(yī)學(xué)命名實(shí)體識(shí)別

      3.1 命名實(shí)體識(shí)別定義

      命名實(shí)體識(shí)別(named entity recognition,NER)又稱專名識(shí)別,指識(shí)別文本中具有特定意義的實(shí)體(主要包括人名、地名、機(jī)構(gòu)名、專有名詞等)。通常包括兩部分:一是識(shí)別實(shí)體邊界;二是確定實(shí)體類別(人名、地名、機(jī)構(gòu)名或其他)。英語中的命名實(shí)體具有比較明顯的形式標(biāo)志(即實(shí)體中的每個(gè)詞的第一個(gè)字母要大寫),因此識(shí)別實(shí)體邊界相對(duì)容易,任務(wù)的重點(diǎn)是確定實(shí)體的類別。和英語相比,漢語命名實(shí)體識(shí)別任務(wù)更加復(fù)雜,實(shí)體邊界的識(shí)別更加困難。

      3.2 醫(yī)學(xué)命名實(shí)體識(shí)別難點(diǎn)及現(xiàn)有技術(shù)

      與傳統(tǒng)的命名實(shí)體識(shí)別相比,醫(yī)學(xué)名詞實(shí)體一般比較長(zhǎng),長(zhǎng)實(shí)體名詞常常包含多個(gè)名詞實(shí)體,造成醫(yī)學(xué)實(shí)體邊界識(shí)別的難度較大。此外,醫(yī)學(xué)名詞存在大量的同義詞替換、縮寫以及一詞多義現(xiàn)象,加大了確定實(shí)體類別的難度。

      針對(duì)醫(yī)學(xué)實(shí)體中大量同義詞替換以及大量縮寫的問題,2020年Kato T等人[7]提出了一種共享和學(xué)習(xí)標(biāo)簽組件嵌入的方法,通過對(duì)英語和日語細(xì)粒度NER進(jìn)行實(shí)驗(yàn),證明了該方法比標(biāo)準(zhǔn)序列標(biāo)記模型性能更好,特別是在低頻標(biāo)簽情況下。

      為了解決醫(yī)學(xué)名詞實(shí)體較長(zhǎng)、識(shí)別邊界困難的問題,2020年,Tan C Q等人[8]提出了邊界感知的神經(jīng)網(wǎng)絡(luò)模型來預(yù)測(cè)實(shí)體的類別信息。該模型可以先定位出實(shí)體的位置, 然后在對(duì)應(yīng)的位置區(qū)間內(nèi)進(jìn)行實(shí)體類型的預(yù)測(cè)。在公開的嵌套NER數(shù)據(jù)集上,該模型取得了超越以往方法的效果,并在預(yù)測(cè)上取得了更快的速度。

      另外,大多數(shù)NER系統(tǒng)只處理平面實(shí)體,忽略了內(nèi)部嵌套實(shí)體,導(dǎo)致無法捕獲底層文本中的細(xì)粒度語義信息。為了解決這個(gè)問題,2018年Ju M Z等人[9]提出了一種新的神經(jīng)模型,通過動(dòng)態(tài)疊加平面NER層來識(shí)別嵌套的實(shí)體。模型將長(zhǎng)短時(shí)記憶(long short term memory,LSTM)層的輸出合并到當(dāng)前的平面NER層中,為檢測(cè)到的實(shí)體構(gòu)建新的表示,并將它們提供給下一個(gè)平面NER層。模型動(dòng)態(tài)地堆加平面NER層,直到?jīng)]有提取任何外部實(shí)體。該模型針對(duì)特定數(shù)據(jù)集(具有多種類別和嵌套的實(shí)體)具有較好的實(shí)驗(yàn)效果。

      對(duì)于醫(yī)學(xué)實(shí)體中常見的一詞多義現(xiàn)象,2019年P(guān)ham T H等人[10]在細(xì)粒度NER任務(wù)中進(jìn)行了多任務(wù)學(xué)習(xí)和語境化單詞表征的有效性研究,并研究了多任務(wù)序列標(biāo)記的不同參數(shù)共享方案、神經(jīng)語言模型學(xué)習(xí)和不同單詞表示設(shè)置下的學(xué)習(xí)。最終得到的最佳模型不需要任何額外的人工操作來創(chuàng)建數(shù)據(jù)和設(shè)計(jì)特征,F(xiàn)1分?jǐn)?shù)達(dá)到83.35%。Luo Y等人[11]提出了一個(gè)增加了上下文表示層次的模型:句子級(jí)表示和文檔級(jí)表示。在句子級(jí),考慮到單個(gè)句子中單詞的不同貢獻(xiàn),通過標(biāo)簽嵌入注意機(jī)制來增強(qiáng)從獨(dú)立的雙向長(zhǎng)短時(shí)記憶(bidirectional long short term memory,BiLSTM)學(xué)習(xí)到的句子表征。在文檔級(jí),采用鍵值存儲(chǔ)網(wǎng)絡(luò)記錄對(duì)上下文信息相似度敏感的單個(gè)單詞的文檔感知信息。在基準(zhǔn)測(cè)試的實(shí)驗(yàn)結(jié)果數(shù)據(jù)集(CoNLL-2003和Ontonnotes 5.0英語數(shù)據(jù)集,CoNLL-2002西班牙語數(shù)據(jù)集)上獲得了最先進(jìn)的結(jié)果。

      3.3 醫(yī)學(xué)命名實(shí)體識(shí)別常用數(shù)據(jù)集

      醫(yī)學(xué)命名實(shí)體識(shí)別較常用的數(shù)據(jù)集主要有以下幾種,見表2。

      表2 醫(yī)學(xué)命名實(shí)體識(shí)別常用的數(shù)據(jù)集

      3.4 挑戰(zhàn)及未來研究方向

      (1)多類別實(shí)體在不同語境、不同詞性、不同類別下的應(yīng)用

      語言的博大精深、豐富多彩正是語言的魅力所在,但對(duì)于機(jī)器來說,豐富多彩的語言使語言的使用規(guī)則變得更加復(fù)雜,很難歸納和總結(jié)。將機(jī)器語言變得更加智能,理解多類別的實(shí)體在不同語境、不同詞性及不同類別下的應(yīng)用是一個(gè)重要的研究方向。

      (2)嵌套實(shí)體的研究

      在醫(yī)學(xué)領(lǐng)域中,實(shí)體嵌套的現(xiàn)象非常常見,絕大部分醫(yī)學(xué)長(zhǎng)實(shí)體中會(huì)存在實(shí)體嵌套,如何更有效地識(shí)別實(shí)體嵌套是醫(yī)學(xué)命名識(shí)別實(shí)體領(lǐng)域必須面對(duì)且具有重要意義的問題。

      (3)實(shí)體識(shí)別與實(shí)體關(guān)系抽取的結(jié)合

      輸入一個(gè)句子,通過實(shí)體識(shí)別和關(guān)系抽取聯(lián)合模型,直接得到有關(guān)系的實(shí)體三元組。這可以克服實(shí)體識(shí)別模塊的錯(cuò)誤引起的錯(cuò)誤傳播,重視兩個(gè)子任務(wù)之間存在的關(guān)系,使信息抽取任務(wù)完成得更加準(zhǔn)確高效,但同時(shí)也可能會(huì)有更復(fù)雜的結(jié)構(gòu),因此如何用更簡(jiǎn)單的結(jié)構(gòu)實(shí)現(xiàn)實(shí)體識(shí)別和實(shí)體關(guān)系抽取的結(jié)合將是之后的研究重點(diǎn)。

      4 醫(yī)學(xué)實(shí)體關(guān)系抽取

      4.1 實(shí)體關(guān)系抽取定義

      實(shí)體關(guān)系抽取是指從一個(gè)句子中抽取出關(guān)系三元組,主要目的是從文本中識(shí)別實(shí)體并抽取實(shí)體之間的語義關(guān)系。實(shí)體關(guān)系抽取解決了原始文本中目標(biāo)實(shí)體之間的關(guān)系分類問題,它也是構(gòu)建復(fù)雜知識(shí)庫系統(tǒng)的重要步驟,如文本摘要、自動(dòng)問答、機(jī)器翻譯、搜索引擎、知識(shí)圖譜等。隨著近年來信息抽取的興起,實(shí)體關(guān)系抽取進(jìn)一步得到廣泛的關(guān)注和深入的研究。

      4.2 醫(yī)學(xué)實(shí)體關(guān)系抽取難點(diǎn)及現(xiàn)有技術(shù)

      與一般的實(shí)體關(guān)系抽取相比,生物醫(yī)學(xué)領(lǐng)域語料庫的建設(shè)很復(fù)雜,且需要大量的人力、物力,對(duì)參與人員的專業(yè)背景要求高,因此使用僅有的醫(yī)學(xué)知識(shí)來自動(dòng)構(gòu)建大規(guī)模的語料庫對(duì)于醫(yī)學(xué)實(shí)體關(guān)系的抽取十分重要。此外,醫(yī)學(xué)實(shí)體之間普遍存在重疊關(guān)系,這給關(guān)系抽取的準(zhǔn)確性帶來較大的干擾?,F(xiàn)有的醫(yī)學(xué)關(guān)系抽取方法大多需要復(fù)雜的特征工程,越來越多的學(xué)者采用深度學(xué)習(xí)方法進(jìn)行關(guān)系的抽取,但大多采用的是流水線的方法,沒有充分利用實(shí)體信息,且容易導(dǎo)致錯(cuò)誤的傳遞。最后,醫(yī)學(xué)關(guān)系的跨度較大,句子級(jí)的抽取不能滿足要求。

      為了自動(dòng)構(gòu)建大規(guī)模的語料庫,2019年Li Y等人[12]提出了一種全新的輕量級(jí)神經(jīng)網(wǎng)絡(luò)框架來解決遠(yuǎn)程監(jiān)督關(guān)系抽取問題,以彌補(bǔ)以往選擇的不足,使用《紐約時(shí)報(bào)》(New York Times,NYT)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法在AUC和Top-n精度指標(biāo)方面都達(dá)到了較先進(jìn)的性能。2020年He Z Q等人[13]設(shè)計(jì)了一個(gè)新的狀態(tài)表示形式,它考慮了句子嵌入、關(guān)系嵌入以及所選的正向?qū)嵗那度?,該方法解決了遠(yuǎn)程監(jiān)督方法中的錯(cuò)誤標(biāo)簽問題,同時(shí)提升了詞袋水平的關(guān)系提取效果。Chen D Y等人[14]提出了通過多代理強(qiáng)化學(xué)習(xí)模型來重新標(biāo)記噪聲訓(xùn)練數(shù)據(jù),并共同提取實(shí)體和關(guān)系的新方法。他們?cè)趦蓚€(gè)真實(shí)的數(shù)據(jù)集上對(duì)該方法進(jìn)行了評(píng)估,結(jié)果證明,該方法可以顯著提高提取器的性能,并實(shí)現(xiàn)有效的學(xué)習(xí)。

      針對(duì)醫(yī)學(xué)實(shí)體間普遍存在重疊關(guān)系這一問題,2019年Zeng D J等人[15]重新研究了基于復(fù)制機(jī)制的關(guān)系抽取模型,提出了使用序列到序列(Seq2Seq)方法共同提取實(shí)體和關(guān)系的多任務(wù)學(xué)習(xí)復(fù)制模型(copy mechanism for multi-task learning,CopyMTL)。該模型利用多任務(wù)的學(xué)習(xí)框架來識(shí)別多詞實(shí)體,通過提高實(shí)體識(shí)別精度來提升關(guān)系抽取的效果,從而達(dá)到了較理想的效果。2020年Nayak T等人[16]提出了使用編碼器-解碼器體系結(jié)構(gòu)共同提取實(shí)體和關(guān)系的方法。該方法使用一種用于關(guān)系元組的表示方案,使解碼器能夠像機(jī)器翻譯模型那樣一次生成一個(gè)單詞,并且仍然可以找到句子中存在的所有元組,它們具有不同長(zhǎng)度的完整實(shí)體名稱,并且具有重疊的實(shí)體。對(duì)NYT數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)表明,該方法明顯優(yōu)于所有以前的模型。

      為了減少深度學(xué)習(xí)方法關(guān)系抽取中錯(cuò)誤的傳遞,2019年Eberts M等人[17]提出了一種混合模型,包括基于轉(zhuǎn)換器的編碼層、LSTM實(shí)體檢測(cè)模塊、基于強(qiáng)化學(xué)習(xí)的關(guān)系分類模塊。實(shí)驗(yàn)結(jié)果表明,與基線方法相比,該混合模型在關(guān)系和實(shí)體提取方面表現(xiàn)更好。2019年Bansal T等人[18]提出了一個(gè)新的模型——同時(shí)神經(jīng)實(shí)體-關(guān)系連接器(simultaneous neural entityrelation linker,SNERL)。首先使用自注意力機(jī)制來捕獲文本中每個(gè)實(shí)體提及的上下文表示;然后使用這些上下文表示來預(yù)測(cè)提及水平的實(shí)體分布和提及對(duì)水平的關(guān)系分布;最后針對(duì)每個(gè)提及對(duì),將這些預(yù)測(cè)概率進(jìn)行組合,并合并到文檔級(jí)別,以獲得預(yù)測(cè)關(guān)系三元組的最終概率。實(shí)驗(yàn)結(jié)果表明,SNERL模型在CDT和CDR這兩個(gè)生物醫(yī)學(xué)數(shù)據(jù)集上的表現(xiàn)達(dá)到了最優(yōu)的效果,并且可以大大改善系統(tǒng)的整體召回率,同時(shí)避免了級(jí)聯(lián)錯(cuò)誤。

      針對(duì)醫(yī)學(xué)關(guān)系跨度大的問題,2020年Nan G S等人[19]提出潛在結(jié)構(gòu)優(yōu)化(latent structure refinement,LSR)模型,以端到端的方式構(gòu)造一個(gè)文檔級(jí)圖譜來推理句間關(guān)系,通過迭代優(yōu)化策略,模型能夠動(dòng)態(tài)構(gòu)建潛在結(jié)構(gòu),以改善整個(gè)文檔中的信息聚合。該模型在生物醫(yī)學(xué)領(lǐng)域的兩個(gè)文檔級(jí)關(guān)系抽取數(shù)據(jù)集上取得了較好的效果。

      4.3 醫(yī)學(xué)實(shí)體關(guān)系抽取常用數(shù)據(jù)集

      醫(yī)學(xué)實(shí)體關(guān)系抽取較常用的數(shù)據(jù)集主要有以下幾種,見表3。

      表3 醫(yī)學(xué)實(shí)體關(guān)系抽取常用的數(shù)據(jù)集

      4.4 挑戰(zhàn)及未來研究方向

      (1)加強(qiáng)語料庫建設(shè)

      相對(duì)于無監(jiān)督學(xué)習(xí)方法,有監(jiān)督學(xué)習(xí)方法有更好的準(zhǔn)確性和穩(wěn)定性,而構(gòu)建良好的語料庫是有監(jiān)督學(xué)習(xí)方法得以開展的關(guān)鍵前提。

      (2)利用聯(lián)合學(xué)習(xí)方法更好地提取文本中的關(guān)系

      現(xiàn)有的聯(lián)合學(xué)習(xí)方法大多存在不同的問題,例如不能很好地識(shí)別醫(yī)學(xué)文本中的重疊嵌套關(guān)系,但是聯(lián)合學(xué)習(xí)方法可以充分利用實(shí)體與關(guān)系之間的交互信息,且普遍證明比流水線方法更有效,因此應(yīng)該著力提升聯(lián)合學(xué)習(xí)方法中識(shí)別重疊嵌套關(guān)系的能力,使聯(lián)合學(xué)習(xí)方法更有效。

      (3)實(shí)現(xiàn)跨句子或文檔級(jí)關(guān)系抽取

      醫(yī)學(xué)文本中的關(guān)系往往不在一個(gè)句子中,而是跨句子的,因此關(guān)系抽取模型不應(yīng)該僅僅滿足于句子級(jí)的抽取,應(yīng)該進(jìn)行更廣范圍的關(guān)系抽取。

      (4)解決遠(yuǎn)程監(jiān)督學(xué)習(xí)的問題,提升遠(yuǎn)程監(jiān)督的效果

      醫(yī)學(xué)領(lǐng)域語料庫較小,遠(yuǎn)程監(jiān)督方可以有效地解決這個(gè)問題,但是遠(yuǎn)程監(jiān)督方法中存在錯(cuò)誤標(biāo)簽等問題,會(huì)影響模型效果。未來可以著重解決遠(yuǎn)程監(jiān)督中的錯(cuò)誤標(biāo)簽問題,使用遠(yuǎn)程監(jiān)督方法可以省去人工標(biāo)注數(shù)據(jù)的工作。

      5 實(shí)體對(duì)齊

      5.1 實(shí)體對(duì)齊定義

      實(shí)體對(duì)齊是判斷多源異構(gòu)數(shù)據(jù)中的實(shí)體是否指向真實(shí)世界同一對(duì)象的過程。如果多個(gè)實(shí)體表征同一個(gè)對(duì)象,則在這些實(shí)體之間構(gòu)建對(duì)齊關(guān)系,同時(shí)對(duì)實(shí)體包含的信息進(jìn)行融合和聚集。由于目前將實(shí)體對(duì)齊應(yīng)用于醫(yī)學(xué)領(lǐng)域的研究文章較少,因此本節(jié)主要介紹實(shí)體對(duì)齊,而不是醫(yī)學(xué)實(shí)體對(duì)齊。

      5.2 實(shí)體對(duì)齊難點(diǎn)及現(xiàn)有技術(shù)

      (1)綜合利用知識(shí)圖譜的多種信息,如關(guān)系三元組、屬性三元組、摘要等

      傳統(tǒng)的實(shí)體對(duì)齊任務(wù)直接將實(shí)體進(jìn)行對(duì)齊,由于沒有考慮到與實(shí)體相關(guān)的背景信息(如關(guān)系三元組、屬性三元組、摘要等),實(shí)體對(duì)齊任務(wù)準(zhǔn)確率不高,容易出現(xiàn)較多的噪聲和錯(cuò)誤數(shù)據(jù),利用背景信息進(jìn)行實(shí)體對(duì)齊是目前研究的一個(gè)難點(diǎn)。

      2020年,E H H等人[20]嘗試將關(guān)系和屬性三元組結(jié)合起來進(jìn)行實(shí)體對(duì)齊。采用參數(shù)共享聯(lián)合方法和基于翻譯的知識(shí)嵌入方法將它們聯(lián)合嵌入。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)實(shí)體對(duì)齊任務(wù)有明顯的改進(jìn)。Munne R F等人[21]提出了一種基于嵌入的實(shí)體對(duì)齊方法。針對(duì)實(shí)體對(duì)齊任務(wù),提出了一種匯總與屬性嵌入的聯(lián)合方法。當(dāng)實(shí)體具有較少的屬性或關(guān)系結(jié)構(gòu),無法捕獲實(shí)體的有意義的表示時(shí),實(shí)體摘要嵌入會(huì)很有用。他們?cè)谡鎸?shí)世界的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,所提方法顯著優(yōu)于當(dāng)時(shí)最先進(jìn)的實(shí)體對(duì)齊模型。

      (2)多語言知識(shí)圖譜的實(shí)體對(duì)齊

      隨著信息全球化的進(jìn)一步發(fā)展,一種語言的知識(shí)圖譜已經(jīng)不能滿足信息的溝通與交流,因此多語言知識(shí)圖譜間的實(shí)體對(duì)齊方法是計(jì)算機(jī)研究的必然趨勢(shì)。

      2020年,Chen M H等人[22]提出了一種新的模型JEANS,在一個(gè)共享的嵌入方案中聯(lián)合表示多語種的知識(shí)圖譜和文本語料庫,并試圖通過文本附帶的監(jiān)督信號(hào)來改善實(shí)體對(duì)齊效果。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,JEANS在伴隨監(jiān)督的實(shí)體對(duì)齊方面有很好的改善,并且顯著地優(yōu)于只提供知識(shí)圖譜內(nèi)部信息的最新方法。KANG S Z等人[23]利用本體提出了一種基于TransC的嵌入模型。該模型首先采用TransC和參數(shù)共享模型,將知識(shí)圖譜中的所有實(shí)體和關(guān)系映射到一個(gè)基于對(duì)齊實(shí)體集的共享低維語義空間,然后迭代地使用重新初始化和軟對(duì)齊策略來執(zhí)行實(shí)體對(duì)齊。實(shí)驗(yàn)結(jié)果表明,與基準(zhǔn)算法相比,該模型能有效地融合本體信息,取得了較好的效果。

      (3)數(shù)據(jù)異構(gòu)實(shí)體對(duì)齊

      醫(yī)學(xué)知識(shí)的表現(xiàn)方式復(fù)雜多樣,在數(shù)據(jù)異構(gòu)的知識(shí)圖譜之間進(jìn)行實(shí)體對(duì)齊也是當(dāng)前研究的一個(gè)難點(diǎn)。

      針對(duì)不同類型實(shí)體的對(duì)齊,2020年,Zhu Q等人[24]提出了一個(gè)集合圖譜網(wǎng)絡(luò)——多類型實(shí)體對(duì)齊的集合圖神經(jīng)網(wǎng)絡(luò)(collective graph neural network for multitype entity alignment,CG Mualign)。與以前的工作不同,CG Mualign聯(lián)合對(duì)齊不同類型的實(shí)體,集中利用鄰域信息并概括未標(biāo)記的實(shí)體類型。在真實(shí)世界知識(shí)圖譜百萬計(jì)的實(shí)體實(shí)驗(yàn)中,該方法的實(shí)體對(duì)齊效果超過了現(xiàn)有的方法。但是,該方法的運(yùn)行效率沒有超過當(dāng)前最先進(jìn)的深度學(xué)習(xí)方法。

      針對(duì)鄰域結(jié)構(gòu)的非同構(gòu)性,Sun Z Q等人[25]提出了一種新的知識(shí)圖譜對(duì)齊網(wǎng)絡(luò)AliNet,旨在以端到端的方式減輕鄰域結(jié)構(gòu)的非同構(gòu)性。該方法采用一種注意機(jī)制來突出有用的遠(yuǎn)距離鄰居,并減少噪聲,然后使用門控機(jī)制控制直接鄰域信息和遠(yuǎn)程鄰域信息的聚合。他們進(jìn)一步建議使用關(guān)系損失來重新定義實(shí)體表示,并對(duì)5個(gè)實(shí)體對(duì)準(zhǔn)數(shù)據(jù)集進(jìn)行了詳細(xì)的研究和分析,證明了AliNet的有效性。

      針對(duì)知識(shí)圖譜之間的結(jié)構(gòu)異構(gòu)性,Wu Y T等人[26]采用一種新的圖譜采樣策略來識(shí)別面向?qū)嶓w對(duì)齊的信息最豐富的鄰居,利用基于交叉圖譜注意力的匹配機(jī)制,聯(lián)合比較兩個(gè)實(shí)體的區(qū)分子圖,以實(shí)現(xiàn)穩(wěn)健的實(shí)體對(duì)齊。在3個(gè)實(shí)體比對(duì)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,該方法可以在更困難的情況下很好地估計(jì)鄰域相似度,顯著優(yōu)于12種現(xiàn)有方法。

      (4)大規(guī)模知識(shí)圖譜間的實(shí)體對(duì)齊

      在信息化高速發(fā)展的今天,數(shù)據(jù)達(dá)到了空前規(guī)模,這對(duì)技術(shù)提出了更多的挑戰(zhàn),大規(guī)模知識(shí)圖譜間的實(shí)體對(duì)齊也成為研究難點(diǎn)和重點(diǎn)。

      2019年,Zhang F J等人[27]將兩個(gè)有上億級(jí)別節(jié)點(diǎn)的網(wǎng)絡(luò)——AMiner和微軟學(xué)術(shù)進(jìn)行了對(duì)齊,這項(xiàng)研究綜合利用了LSTM、灰色神經(jīng)網(wǎng)絡(luò)(gray neural network,GNN)、哈希等技術(shù),能夠高效處理多種類型的節(jié)點(diǎn)以及不同類型的信息,并且使對(duì)齊效果達(dá)到了可以應(yīng)用的級(jí)別(總體F1分?jǐn)?shù)為96.81%)。

      2020年,F(xiàn)lamino J等人[28]提出了一個(gè)可解決大規(guī)模對(duì)齊問題的多步驟通道。在這個(gè)通道中,引入了具有魯棒時(shí)間屬性的可伸縮特征提取,并使用了聚類算法,以便在圖上找到相似節(jié)點(diǎn)的分組。這些特征和它們的集群被輸入一個(gè)通用的對(duì)齊階段,在數(shù)百萬個(gè)可能的匹配中準(zhǔn)確地識(shí)別伙伴節(jié)點(diǎn)。實(shí)驗(yàn)結(jié)果表明,該管道可以處理大數(shù)據(jù)集,在內(nèi)存限制下實(shí)現(xiàn)高效的運(yùn)行。

      5.3 實(shí)體對(duì)齊常用數(shù)據(jù)集

      實(shí)體對(duì)齊較常用的數(shù)據(jù)集主要有以下幾種,見表4。

      表4 實(shí)體對(duì)齊常用的數(shù)據(jù)集

      5.4 醫(yī)學(xué)實(shí)體對(duì)齊挑戰(zhàn)及未來研究方向

      目前醫(yī)學(xué)實(shí)體對(duì)齊研究尚處于起步階段,根據(jù)醫(yī)學(xué)數(shù)據(jù)的特點(diǎn),醫(yī)學(xué)實(shí)體對(duì)齊未來的研究方向主要包括以下方面。

      ● 醫(yī)學(xué)實(shí)體存在較多同義詞、縮略詞,導(dǎo)致實(shí)體對(duì)齊的精確性受到影響,但是醫(yī)療領(lǐng)域要求的精度非常高,使得在醫(yī)療領(lǐng)域?qū)崿F(xiàn)實(shí)體對(duì)齊這項(xiàng)工作的開展和進(jìn)行非常艱難,這將是之后醫(yī)療領(lǐng)域需要重點(diǎn)解決的問題。

      ● 數(shù)據(jù)質(zhì)量良莠不齊,存在數(shù)據(jù)壁壘。由于不同醫(yī)療知識(shí)庫的構(gòu)建目的和方式不同,數(shù)據(jù)質(zhì)量不一,并且不同醫(yī)療機(jī)構(gòu)的數(shù)據(jù)一般不能互相開放,如何打破數(shù)據(jù)壁壘,解決可能存在的相似重復(fù)數(shù)據(jù)、孤立數(shù)據(jù)、數(shù)據(jù)時(shí)間力度不一致等問題,是未來的一個(gè)重點(diǎn)研究方向。

      ● 醫(yī)療數(shù)據(jù)龐大復(fù)雜,標(biāo)簽數(shù)據(jù)有限,且醫(yī)學(xué)數(shù)據(jù)精度要求高,需要領(lǐng)域?qū)<沂止?duì)數(shù)據(jù)進(jìn)行操作,這是一個(gè)耗費(fèi)極大的工程。如何在較少的標(biāo)簽數(shù)據(jù)中進(jìn)行訓(xùn)練,實(shí)現(xiàn)高效的實(shí)體對(duì)齊,也是后續(xù)研究要關(guān)注的問題。

      6 醫(yī)學(xué)實(shí)體鏈接

      6.1 實(shí)體鏈接定義

      由于語言表達(dá)的多樣性、歧義性以及上下文關(guān)聯(lián),語言理解面臨巨大的挑戰(zhàn)。語言理解主要包括語法解析、語義解析和特定的知識(shí)表示或其中的某個(gè)片段。而在知識(shí)圖譜中主要涉及的技術(shù)即實(shí)體理解或?qū)嶓w鏈接技術(shù),將現(xiàn)實(shí)世界中的知識(shí)映射到現(xiàn)有知識(shí)圖譜中的實(shí)體,進(jìn)而用現(xiàn)有知識(shí)圖譜進(jìn)行表示,達(dá)到理解的目的。在實(shí)體鏈接任務(wù)中輸入的是實(shí)體的指代和上下文以及待鏈接的知識(shí)庫,輸出的是指代所對(duì)應(yīng)的知識(shí)庫中的實(shí)體。

      實(shí)體鏈接(或?qū)嶓w規(guī)范化、實(shí)體消歧)指將文本中的短語(提及范圍)映射到結(jié)構(gòu)化源(如知識(shí)庫)中的概念。提及范圍通常是一個(gè)詞或短語,描述一個(gè)單一的、連貫的概念。

      6.2 醫(yī)學(xué)實(shí)體鏈接的難點(diǎn)及現(xiàn)有技術(shù)

      (1)聯(lián)合在命名實(shí)體識(shí)別和實(shí)體鏈接中建模

      在知識(shí)庫構(gòu)建中,實(shí)體識(shí)別是實(shí)體鏈接的前提,實(shí)體識(shí)別可為實(shí)體鏈接提供更多有效的信息。實(shí)體鏈接與實(shí)體識(shí)別聯(lián)合學(xué)習(xí)可減少工作量。實(shí)體識(shí)別與實(shí)體鏈接任務(wù)聯(lián)合解決既能提高命名實(shí)體識(shí)別的性能,也能提高實(shí)體鏈接的性能,是當(dāng)前研究的重點(diǎn)和難點(diǎn)。

      2017年,Lou Y X等人[29]提出了一種基于轉(zhuǎn)換的聯(lián)合疾病實(shí)體識(shí)別與規(guī)范化模型,將輸出構(gòu)造過程轉(zhuǎn)化為一個(gè)漸進(jìn)的狀態(tài)轉(zhuǎn)換過程,允許使用非局部特征。實(shí)驗(yàn)表明,與其他方法分開執(zhí)行任務(wù)相比,聯(lián)合框架實(shí)現(xiàn)了更高的性能。與其他先進(jìn)的方法相比,該方法更具優(yōu)勢(shì)。

      2019年,Zhao S D等人[30]提出了一個(gè)新的具有顯式反饋策略的深層神經(jīng)多任務(wù)學(xué)習(xí)框架,用于聯(lián)合實(shí)體識(shí)別和實(shí)體規(guī)范化建模。該方法利用多任務(wù)學(xué)習(xí)對(duì)兩個(gè)任務(wù)進(jìn)行一般表示,在保持任務(wù)之間相互支持的同時(shí),成功地將跨體系結(jié)構(gòu)的任務(wù)轉(zhuǎn)換為并行的多任務(wù)設(shè)置。實(shí)驗(yàn)結(jié)果表明,在兩個(gè)公開的醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)集上,該方法比當(dāng)時(shí)最先進(jìn)的方法表現(xiàn)得更好。

      2020年,Luo Z H等人[31]開發(fā)了pyMeSHSim軟件包,這是一個(gè)用于生物醫(yī)學(xué)文本挖掘的集成、輕量級(jí)和數(shù)據(jù)豐富的Python包。作為第一個(gè)一站式醫(yī)學(xué)主題詞(medical subject heading,MeSH)工具包,它集成了生物NER、規(guī)范化和比較功能。pyMeSHSim嵌入了一個(gè)自制的數(shù)據(jù)集,其中包含主標(biāo)題(main heading,MH)、補(bǔ)充概念記錄(supplementary concept record,SCR)及其在MeSH中的關(guān)系?;谠摂?shù)據(jù)集,pyMeSHSim實(shí)現(xiàn)了4種基于信息內(nèi)容的算法和一種基于圖譜的算法,可用于度量?jī)蓚€(gè)網(wǎng)格術(shù)語之間的語義相似度。結(jié)果表明,使用pyMeSHSim識(shí)別的網(wǎng)絡(luò)術(shù)語和以前手工識(shí)別的網(wǎng)絡(luò)術(shù)語的語義相似度高達(dá)0.89~0.99。PyMeSHSim有望在生物信息學(xué)、計(jì)算生物學(xué)和生物醫(yī)學(xué)研究中作為一種強(qiáng)大的工具得到廣泛的應(yīng)用。

      (2)醫(yī)學(xué)實(shí)體語義模糊

      基于研究和醫(yī)學(xué)文獻(xiàn)分析發(fā)現(xiàn),相同疾病名可能以多種不同的形式出現(xiàn),比如同義詞替換(如“腦中風(fēng)”“腦卒中”)、疾病名稱前的簡(jiǎn)短描述修飾語(如“大面積心臟病發(fā)作”),這些均會(huì)造成醫(yī)學(xué)實(shí)體語義的復(fù)雜多變。近年來針對(duì)這個(gè)問題的實(shí)體鏈接研究較多。

      2017年,Cho H等人[32]聯(lián)合解析同義詞和縮寫詞的領(lǐng)域特定詞典及基于神經(jīng)網(wǎng)絡(luò)算法組合的大量未標(biāo)注數(shù)據(jù),該聯(lián)合方法的精確度顯著提高。

      2018年,Gorrell G等人[33]提出了一個(gè)新的系統(tǒng)Bio-YODIE。Bio-YODIE有兩個(gè)主要的組成部分,首先,資源準(zhǔn)備步驟將運(yùn)行時(shí)所需的UMLS和其他信息資源處理為高效的形式,盡可能多地提前完成工作,以盡量減少運(yùn)行時(shí)的處理;其次,流程本身對(duì)文檔進(jìn)行了注釋,這些文檔包括UMLS概念唯一標(biāo)識(shí)符以及來自UMLS的其他相關(guān)信息。基于文本工程的通用結(jié)構(gòu)(general architecture for text engineering,GATE),YODIE最初是一個(gè)通用的域系統(tǒng),引用了DBpedia。Bio-YODIE是該系統(tǒng)的生物醫(yī)學(xué)版本,它繼承了一般領(lǐng)域的研究歷史。與MetaMapLite的不同之處在于, 消除歧義是Bio-YODIE中的優(yōu)先事項(xiàng)。Bio-YODIE已被集成到CogStack中,并在大規(guī)模臨床應(yīng)用中得到廣泛應(yīng)用。

      2019年,Wright D[34]提出了一個(gè)深度連貫?zāi)P蚇ormCo,它考慮了實(shí)體提及的語義,以及單個(gè)文檔中提及的主題連貫性。NormCo在兩個(gè)疾病標(biāo)準(zhǔn)化語料庫上的預(yù)測(cè)質(zhì)量和效率方面優(yōu)于當(dāng)時(shí)最先進(jìn)的基線方法,并且至少在準(zhǔn)確性和標(biāo)記文檔的F1分?jǐn)?shù)方面表現(xiàn)同樣出色。

      2019年,Mondal I等人[35]提出了一種基于候選知識(shí)庫條目與疾病描述相似度的排序方法,探討了域內(nèi)子詞級(jí)信息處理疾病規(guī)范化任務(wù)的能力。該方法利用由疾病描述m、陽性候選qp、陰性候選qni組成的三元組(qp,m,qni)進(jìn)行候選排序,引入了一個(gè)穩(wěn)健的、可移植的候選生成方案,該方案不使用手工編制的規(guī)則。在標(biāo)準(zhǔn)基準(zhǔn)NCBI疾病數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在很大程度上優(yōu)于先前的方法。

      2020年,Zhu M等人[36]提出了一種潛在類型實(shí)體鏈接模型LATTE,該模型通過對(duì)實(shí)體提及和實(shí)體的潛在細(xì)粒度類型信息進(jìn)行建模來改進(jìn)實(shí)體鏈接。與以前直接在實(shí)體提及和實(shí)體之間執(zhí)行實(shí)體鏈接的方法不同,LATTE在沒有直接監(jiān)督的情況下聯(lián)合執(zhí)行實(shí)體對(duì)齊和潛在的細(xì)粒度類型學(xué)習(xí)。大量的實(shí)驗(yàn)結(jié)果表明,該模型比幾種先進(jìn)的技術(shù)具有顯著的性能改進(jìn)。

      (3)公開醫(yī)學(xué)數(shù)據(jù)集較小

      在醫(yī)學(xué)領(lǐng)域,對(duì)數(shù)據(jù)進(jìn)行標(biāo)簽標(biāo)注是一項(xiàng)費(fèi)時(shí)費(fèi)力的大工程。因此目前所有的實(shí)體鏈接公開數(shù)據(jù)集都是小規(guī)模的,如何在小規(guī)模數(shù)據(jù)集上進(jìn)行高質(zhì)量的實(shí)體鏈接是目前研究的一個(gè)難點(diǎn)。

      2017年,Rajani N F等人[37]提出使用精確聚焦的輔助特征來克服醫(yī)學(xué)領(lǐng)域的這些挑戰(zhàn),這些輔助特征可以從少量數(shù)據(jù)中形成分類邊界。該模型優(yōu)于多個(gè)基線水平,并在多個(gè)醫(yī)學(xué)數(shù)據(jù)集上更新了最優(yōu)結(jié)果。

      6.3 醫(yī)學(xué)實(shí)體鏈接常用數(shù)據(jù)集

      醫(yī)學(xué)實(shí)體鏈接較常用的數(shù)據(jù)集主要有以下幾種,見表5。

      表5 醫(yī)學(xué)實(shí)體鏈接常用的數(shù)據(jù)集

      6.4 未來展望

      (1)別名實(shí)體候選生成問題

      在醫(yī)學(xué)領(lǐng)域中相同的語義往往可以有多種不同的叫法,醫(yī)學(xué)實(shí)體的多詞同義現(xiàn)象十分普遍,在判斷別名實(shí)體時(shí)很難將所有對(duì)應(yīng)實(shí)體的候選實(shí)體全部找出,導(dǎo)致實(shí)體鏈接的準(zhǔn)確率下降,因此解決別名實(shí)體候選生成是未來的研究重點(diǎn)。

      (2)不完整數(shù)據(jù)集的實(shí)體鏈接

      在實(shí)體鏈接中,實(shí)體、實(shí)體的類別信息、關(guān)系信息以及上下文信息對(duì)實(shí)體對(duì)齊非常重要,醫(yī)學(xué)數(shù)據(jù)經(jīng)常存在數(shù)據(jù)不完整的情況,使得實(shí)體鏈接效果不是很好,通過僅有的實(shí)體相關(guān)信息進(jìn)行鏈接是醫(yī)學(xué)領(lǐng)域?qū)嶓w對(duì)齊面臨的又一大挑戰(zhàn)。

      (3)基于多種語言的實(shí)體對(duì)齊

      目前實(shí)體鏈接系統(tǒng)主要針對(duì)的是英文語料,中文或者其他語言的鏈接系統(tǒng)非常缺乏。中文以及其他語言與類似英語的語言不同,使得實(shí)體鏈接難度增加。對(duì)于中文和其他語言的實(shí)體鏈接系統(tǒng),也需要重點(diǎn)研究。

      7 醫(yī)學(xué)知識(shí)圖譜存儲(chǔ)

      7.1 知識(shí)圖譜存儲(chǔ)方式

      現(xiàn)有知識(shí)圖譜數(shù)據(jù)的存儲(chǔ)方式主要分為兩種:基于關(guān)系模型的存儲(chǔ)方式和基于圖模型的存儲(chǔ)方式。

      基于關(guān)系模型的知識(shí)圖譜存儲(chǔ)方式包括三元組表、水平表、屬性表、垂直劃分、六重索引和DB2RDF。

      目前,基于圖數(shù)據(jù)庫的知識(shí)圖譜存儲(chǔ)方法是學(xué)術(shù)界研究的主流。圖數(shù)據(jù)庫的優(yōu)點(diǎn)在于其天然能表示知識(shí)圖譜結(jié)構(gòu),圖中的節(jié)點(diǎn)表示知識(shí)圖譜的對(duì)象,圖中的邊表示知識(shí)圖譜的對(duì)象關(guān)系。其最大的優(yōu)點(diǎn)是可以用來處理復(fù)雜的關(guān)系問題,提供完善的圖查詢語言,支持各種圖挖掘算法。采用圖數(shù)據(jù)庫存儲(chǔ)知識(shí)圖譜,能有效利用圖數(shù)據(jù)庫中以關(guān)聯(lián)數(shù)據(jù)為中心的數(shù)據(jù)表達(dá)、存儲(chǔ)和查詢?;趫D模型的存儲(chǔ)方式見表6。

      表6 基于圖模型的存儲(chǔ)方式

      知識(shí)圖譜的存儲(chǔ)方式應(yīng)考慮其后續(xù)的使用效率,應(yīng)根據(jù)自己的應(yīng)用場(chǎng)景、數(shù)據(jù)情況來具體設(shè)計(jì)??蓞⒖急?選擇最適用的存儲(chǔ)方式。

      表7 知識(shí)圖譜存儲(chǔ)方式比較

      基于醫(yī)學(xué)知識(shí)圖譜更側(cè)重于實(shí)體之間的關(guān)系(例如藥物-疾病、疾病-表征、藥物-藥物及藥物-表征)的特點(diǎn),醫(yī)學(xué)知識(shí)圖譜的存儲(chǔ)基本采用圖數(shù)據(jù)庫,其中應(yīng)用最廣泛的為Neo4j系統(tǒng)。曹明宇等人[38]開發(fā)的基于知識(shí)圖譜的原發(fā)性肝癌知識(shí)問答系統(tǒng)、吳嘉敏[39]構(gòu)建的肺癌知識(shí)圖譜都將Neo4j作為知識(shí)圖譜的存儲(chǔ)系統(tǒng)。Deng W等人[40]利用Neo4j圖形數(shù)據(jù)庫構(gòu)建醫(yī)學(xué)圖譜,包含醫(yī)院科室、疾病和癥狀之間的關(guān)系,并基于圖譜提供醫(yī)學(xué)指導(dǎo)。

      張崇宇[41]提出了基于知識(shí)圖譜的醫(yī)療自動(dòng)問答系統(tǒng),考慮到知識(shí)庫問答應(yīng)用中知識(shí)存儲(chǔ)與檢索的效率問題,采用三元組表示與圖數(shù)據(jù)庫存儲(chǔ)(Neo4j)以及JSON表示與鍵值對(duì)文檔型數(shù)據(jù)庫存儲(chǔ)(MongoDB)兩種形式的混合數(shù)據(jù)庫存儲(chǔ)的方式對(duì)構(gòu)建的臨床醫(yī)療知識(shí)圖譜進(jìn)行表示和存儲(chǔ)。同時(shí),通過對(duì)醫(yī)療實(shí)體進(jìn)行歸一化處理,將標(biāo)準(zhǔn)化后的實(shí)體作為節(jié)點(diǎn)存儲(chǔ)到知識(shí)圖譜中。

      7.2 醫(yī)學(xué)知識(shí)圖譜存儲(chǔ)的難點(diǎn)及現(xiàn)有技術(shù)(以圖數(shù)據(jù)庫為例)

      (1)復(fù)雜關(guān)系的可視化

      在醫(yī)學(xué)知識(shí)中,實(shí)體之間的關(guān)系經(jīng)常是錯(cuò)綜復(fù)雜的,這使得將復(fù)雜關(guān)系能夠更好地可視化成為研究的一個(gè)難點(diǎn)。

      當(dāng)前,新的蛋白質(zhì)和基因序列的數(shù)量呈爆炸式增長(zhǎng),這使得對(duì)其生物學(xué)特性的有效表征和分析變得越來越復(fù)雜。2019年,Hu G M等人[42]提出了一個(gè)基于網(wǎng)絡(luò)的圖數(shù)據(jù)庫工具SeQuery,通過整合序列結(jié)構(gòu)和功能信息,直觀地可視化蛋白質(zhì)組/基因組網(wǎng)絡(luò)。用GPCR2841數(shù)據(jù)集進(jìn)行的序列測(cè)試表明,SeQuery能正確識(shí)別查詢到的100個(gè)蛋白質(zhì)序列中的99個(gè)。SeQuery非常適用于其他生物網(wǎng)絡(luò),可以通過添加更多的生物數(shù)據(jù)庫來擴(kuò)展SeQuery。

      (2)用戶友好的查詢方式

      知識(shí)圖譜的存儲(chǔ)是為了讓用戶更好地使用和查詢知識(shí),讓用戶的查詢更簡(jiǎn)單便捷一直是知識(shí)圖譜存儲(chǔ)的關(guān)鍵和難點(diǎn)。

      結(jié)直腸癌(colorectal cancer,CRC)是常見的癌癥類型之一,它的發(fā)生與基因和細(xì)胞表觀遺傳機(jī)制的放松有關(guān)。2017年,Balaur I等人[43]提出了圖數(shù)據(jù)庫EpiGeNet,用于存儲(chǔ)和查詢?cè)诮Y(jié)直腸癌發(fā)生的不同階段觀察到的分子事件(遺傳和表觀遺傳)之間的條件關(guān)系。EpiGeNet增強(qiáng)了探索與結(jié)直腸癌進(jìn)展相關(guān)的研究方面的查詢能力,EpiGeNet框架提供了更好的管理和可視化數(shù)據(jù)的能力,特別是針對(duì)結(jié)直腸癌的發(fā)生和發(fā)展的分子事件。

      基因組技術(shù)的最新進(jìn)展使得從結(jié)核分枝桿菌分離物中產(chǎn)生大量成本效益高的“組學(xué)”數(shù)據(jù)成為可能,然后可以通過許多異構(gòu)的公開可用的生物數(shù)據(jù)庫共享這些數(shù)據(jù)。盡管碎片化管理很有用,但它對(duì)研究人員聯(lián)合查詢利用數(shù)據(jù)的能力產(chǎn)生了負(fù)面影響。2020年,Lose T等人[44]提出了抗結(jié)核病NeoDB(一個(gè)整合的結(jié)核分枝桿菌經(jīng)濟(jì)學(xué)知識(shí)庫)。基于Neo4j,將標(biāo)簽屬性圖模型綁定到合適的本體,從而創(chuàng)建抗結(jié)核病NeoDB??菇Y(jié)核病NeoDB使研究人員能夠通過鏈接著名的生物數(shù)據(jù)庫和發(fā)表文獻(xiàn)中的結(jié)核分枝桿菌變體數(shù)據(jù)來執(zhí)行復(fù)雜的聯(lián)合查詢。

      (3)認(rèn)證和加密形式的安全保障

      隱私是醫(yī)院在發(fā)布涉及個(gè)人敏感信息的數(shù)據(jù)時(shí)應(yīng)保留的一個(gè)重要因素。研究尋求在不侵犯?jìng)€(gè)人信息保密性的情況下向公眾發(fā)布數(shù)據(jù)的解決方案。對(duì)數(shù)據(jù)進(jìn)行處理,可以在維護(hù)基本信息的同時(shí)安全地發(fā)布數(shù)據(jù)。2020年,Saranya K等人[45]提出了一種基于事務(wù)圖的自適應(yīng)概率安全處理方法,用于醫(yī)療環(huán)境中的安全處理。該方法首先為每個(gè)用戶交互生成交互圖,并在此基礎(chǔ)上估計(jì)每個(gè)交互項(xiàng)的收斂性和偏差測(cè)度?;谶@些值,該方法計(jì)算了一個(gè)概率矩陣,并在這個(gè)矩陣的基礎(chǔ)上生成本體。實(shí)驗(yàn)結(jié)果表明,所提方法可以產(chǎn)生有效的安全處理和數(shù)據(jù)發(fā)布結(jié)果。

      7.3 挑戰(zhàn)及未來研究方向

      ● 醫(yī)療數(shù)據(jù)類型種類繁多,現(xiàn)有圖數(shù)據(jù)庫系統(tǒng)支持過多數(shù)據(jù)組織的形式,但不清楚在一些情景中哪個(gè)是最好的。如何根據(jù)數(shù)據(jù)的不同選擇合適的系統(tǒng)和圖模型是未來一個(gè)很重要的問題。

      ● 醫(yī)療數(shù)據(jù)大多獨(dú)立分布在不同的醫(yī)療機(jī)構(gòu),數(shù)據(jù)的分布式存儲(chǔ)對(duì)醫(yī)療數(shù)據(jù)的存儲(chǔ)與分析至關(guān)重要。目前還沒有為圖數(shù)據(jù)庫開發(fā)拓?fù)涓兄蚵窂礁兄臄?shù)據(jù)分布方案,特別是在最近提出的數(shù)據(jù)中心、高性能計(jì)算網(wǎng)絡(luò)拓?fù)浜吐窂襟w系結(jié)構(gòu)的背景下。因此,未來數(shù)據(jù)的分布式處理將是一個(gè)亟待解決的問題。

      ● 很少有研究使用不同類型的硬件結(jié)構(gòu)、加速器和硬件相關(guān)設(shè)計(jì)(如FPGA、與網(wǎng)絡(luò)接口卡相關(guān)的設(shè)計(jì)、硬件交互等),但這對(duì)于大規(guī)模醫(yī)療數(shù)據(jù)的存儲(chǔ)也是不可缺少的重要一環(huán)。

      8 醫(yī)學(xué)知識(shí)圖譜應(yīng)用

      8.1 基于醫(yī)學(xué)知識(shí)圖譜的問答

      醫(yī)學(xué)知識(shí)圖譜與問答系統(tǒng)的融合是目前極具挑戰(zhàn)性的研究方向,同時(shí)也是典型的應(yīng)用場(chǎng)景。基于知識(shí)圖譜的醫(yī)療問答系統(tǒng)可以快速響應(yīng)醫(yī)患用戶提出的問題,并給出準(zhǔn)確、有效的解答。下面將從問答系統(tǒng)的實(shí)現(xiàn)方法、實(shí)際應(yīng)用、關(guān)鍵挑戰(zhàn)3個(gè)方面進(jìn)行闡述分析。

      (1)實(shí)現(xiàn)方法

      本文參考了近3年的研究進(jìn)展,總結(jié)出醫(yī)療領(lǐng)域基于知識(shí)圖譜的問答系統(tǒng)主要有兩種實(shí)現(xiàn)方法:檢索式和生成式。其中,檢索式主要面向系統(tǒng)構(gòu)建的知識(shí)圖譜,生成式主要面向系統(tǒng)收集的問答庫數(shù)據(jù),表8列出了可用于構(gòu)建基于知識(shí)圖譜的醫(yī)療問答系統(tǒng)的數(shù)據(jù)來源。

      表8 基于知識(shí)圖譜的醫(yī)療問答系統(tǒng)使用的數(shù)據(jù)來源

      檢索式方法就是將用戶的問句轉(zhuǎn)化為知識(shí)庫的查詢語句,再將查詢的結(jié)果轉(zhuǎn)化成自然語言返回給用戶,其一般流程由語義提取、問題匹配以及答案查詢3個(gè)部分組成,如圖2所示。

      圖2 檢索式方法的一般流程

      語義提取指從用戶提出的問句中提取出涉及的醫(yī)學(xué)實(shí)體、關(guān)系等語義信息,主要包括實(shí)體識(shí)別和關(guān)系抽取兩部分,可以采用詞典匹配、傳統(tǒng)機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)甚至平臺(tái)工具(如哈爾濱工業(yè)大學(xué)語言云平臺(tái))等方法。參考文獻(xiàn)[46]基于自定義詞典的Jieba分詞匹配獲得問句中的實(shí)體。

      參考文獻(xiàn)[47]中的DIK-QA系統(tǒng)使用BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型抽取問句中的醫(yī)療實(shí)體,并在該模型中引入注意力機(jī)制,以提高實(shí)體識(shí)別的準(zhǔn)確度。參考文獻(xiàn)[48]借助哈爾濱工業(yè)大學(xué)語言云平臺(tái)的LTPParser接口進(jìn)行句法分析,將結(jié)果與詞庫內(nèi)的實(shí)體進(jìn)行比對(duì),從而獲取比對(duì)成功的實(shí)體和關(guān)系。

      問題匹配旨在識(shí)別問句的意圖,將問題進(jìn)行分類,匹配預(yù)先制定的問題模板,一般采用匹配算法、TextCNN分類算法、SVM分類器等方法。Huang M X等人[47]采用AC多模式匹配算法將問句匹配到不同的問題類型上。

      參考文獻(xiàn)[38]結(jié)合術(shù)語頻率-逆文檔頻率(term frequency–inverse document frequency,TFIDF)算法和word2vec詞向量生成句子向量,匹配最相似的問題模板,根據(jù)模板的語義及問題中的實(shí)體到知識(shí)圖譜中檢索答案。參考文獻(xiàn)[49-50]均采用TextCNN分類算法實(shí)現(xiàn)問句類型的分類。謝剛等人[51]利用支持向量機(jī)模型對(duì)問題進(jìn)行主題分類和意圖識(shí)別。

      答案查詢即根據(jù)問題模板將問題轉(zhuǎn)化成查詢語句,然后在知識(shí)圖譜中查詢問題的答案,主要通過查詢語句直接檢索答案或者通過推理規(guī)則得出答案。曹明宇等人[38]使用Cypher語言在Neo4j圖形數(shù)據(jù)庫中查詢答案。參考文獻(xiàn)[48]根據(jù)問題模板生成完整的SPARQL語言,并在甲狀腺知識(shí)圖譜內(nèi)進(jìn)行查詢。Bo L等人[52]使用Elasticsearch查詢語言,配合簡(jiǎn)單的輔助推理算法,給用戶匹配相關(guān)癥狀,搜索可能的疾病,并推薦適當(dāng)?shù)脑\斷方法。

      而生成式方法則利用相關(guān)模型,根據(jù)輸入的問題生成答案或者直接檢索問答庫,其既需要醫(yī)療領(lǐng)域問答對(duì)語料數(shù)據(jù),也需要知識(shí)圖譜的實(shí)體及關(guān)系數(shù)據(jù),主要采用神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練。參考文獻(xiàn)[53]使用基于LSTM的Seq2Seq模型構(gòu)建答案生成模型。參考文獻(xiàn)[54]將記憶神經(jīng)網(wǎng)絡(luò)作為智能問答的算法模型,將知識(shí)庫的知識(shí)存儲(chǔ)在模型中,可在網(wǎng)絡(luò)中直接調(diào)用。

      (2)實(shí)際應(yīng)用

      雖然我國(guó)醫(yī)療問答系統(tǒng)起步較晚,但國(guó)內(nèi)已有不少科技公司在市面上推出自主研發(fā)的醫(yī)療問答系統(tǒng)。如諾華制藥攜手騰訊合作推出的“護(hù)心小愛(AI)”,該平臺(tái)以微信小程序?yàn)檩d體,通過對(duì)話機(jī)器人為心衰患者提供針對(duì)常規(guī)醫(yī)療問題及日常生活問題的答疑解惑,以及科學(xué)的健康資訊。再如北京慧醫(yī)明智科技有限公司旗下的“慧醫(yī)大白”,其使用知識(shí)圖譜、語義理解和對(duì)話管理等技術(shù)手段,通過與用戶進(jìn)行多輪問答,了解用戶的具體病癥,最終提供健康評(píng)估和健康行為建議。

      而在問答系統(tǒng)起步較早的國(guó)外市場(chǎng),最出名的面向醫(yī)學(xué)領(lǐng)域的智能問答系統(tǒng)是IBM的“沃森醫(yī)生(Dr. Watson)”,其學(xué)習(xí)了海量的醫(yī)療數(shù)據(jù),包括領(lǐng)域內(nèi)的頂尖文獻(xiàn)、診斷報(bào)告、電子病歷甚至醫(yī)學(xué)影像等醫(yī)療信息,利用自身龐大的知識(shí)庫為患者提出的醫(yī)學(xué)問題提供最佳的答案。

      (3)關(guān)鍵挑戰(zhàn)

      目前,國(guó)內(nèi)醫(yī)療問答系統(tǒng)的研究發(fā)展仍然存在許多的挑戰(zhàn),下面列舉了3個(gè)主要的關(guān)鍵挑戰(zhàn)。

      一是針對(duì)非醫(yī)學(xué)專業(yè)人員的信息需求問題,由于他們的醫(yī)學(xué)專業(yè)知識(shí)不強(qiáng),無法準(zhǔn)確描述具體問題,在獲取答案時(shí)會(huì)存在一定程度的困難。

      二是中文領(lǐng)域問答系統(tǒng)研究不足,主要體現(xiàn)在3個(gè)方面:①缺乏高質(zhì)量醫(yī)學(xué)領(lǐng)域的語料資源;②國(guó)內(nèi)醫(yī)學(xué)名詞術(shù)語標(biāo)準(zhǔn)化還存在整體規(guī)劃缺乏、權(quán)威術(shù)語標(biāo)準(zhǔn)數(shù)量不足以及更新不及時(shí)等問題;③構(gòu)建中文領(lǐng)域的醫(yī)學(xué)智能問答系統(tǒng)的工具和方法不成熟。

      三是醫(yī)療問答準(zhǔn)確性問題,提高問答系統(tǒng)的準(zhǔn)確性仍然是研究的熱門方向。

      8.2 醫(yī)療用藥推薦系統(tǒng)

      (1)簡(jiǎn)介

      醫(yī)學(xué)上的用藥推薦與一般的推薦算法不同,一般的推薦算法是根據(jù)用戶的歷史記錄,利用數(shù)學(xué)算法推測(cè)出用戶可能的需求,已被廣泛應(yīng)用于電商等互聯(lián)網(wǎng)場(chǎng)景。而用藥推薦則是基于循證醫(yī)學(xué)的原則,結(jié)合患者的具體患病情況以及醫(yī)學(xué)專業(yè)知識(shí),推薦適合的用藥方案。一般的推薦算法的推薦結(jié)果對(duì)準(zhǔn)確率的容忍度較高,即使部分推薦結(jié)果與用戶需求不符,也能夠接受。但用藥推薦在實(shí)際應(yīng)用中要求達(dá)到百分之百的準(zhǔn)確率,即藥品一定能夠起到作用,且不能產(chǎn)生不良反應(yīng)或藥品間的相互作用。

      知識(shí)圖譜能夠更加清晰準(zhǔn)確地表達(dá)疾病與藥品之間的適應(yīng)關(guān)系以及藥品間的相互作用,基于知識(shí)圖譜的用藥推薦與其他人工智能方法相比,能夠取得更好的效果。目前基于知識(shí)圖譜的用藥推薦研究進(jìn)展與其他基線水平相比有所提升,但還無法達(dá)到實(shí)際應(yīng)用的要求。

      (2)方法

      目前醫(yī)療用藥推薦系統(tǒng)使用的方法主要有以下兩種。

      第一種是圖卷積網(wǎng)絡(luò)的方法,即在圖上使用卷積神經(jīng)網(wǎng)絡(luò)。2018年Shang J Y等人[55]通過一個(gè)存儲(chǔ)模塊將藥物相互作用(drug-drug interaction,DDI)的知識(shí)圖譜集成為一個(gè)圖形卷積網(wǎng)絡(luò),并將縱向患者向量建模作為查詢,該方法在所有有效性度量方面都優(yōu)于所有基線方法,并且在現(xiàn)有電子健康記錄(electronic health record,EHR)數(shù)據(jù)中實(shí)現(xiàn)了3.60%的DDI率降低(即推薦藥品之間有相互作用的概率降低3.6%)。2019年,Wang S S等人[56]提出了一種針對(duì)藥物組合預(yù)測(cè)(medicine combination prediction,MCP)的圖卷積強(qiáng)化學(xué)習(xí)模型。其將MCP任務(wù)轉(zhuǎn)換為無序馬爾可夫決策過程(Markov decision process,MDP)問題,并設(shè)計(jì)了一個(gè)深度強(qiáng)化學(xué)習(xí)機(jī)制來學(xué)習(xí)藥物之間的相關(guān)性和不良相互作用。相比于GAMENet,CompNet在Jaccard和F1分?jǐn)?shù)標(biāo)準(zhǔn)上分別提高了3.74%、6.64%。2020年,Kwak H等人[57]構(gòu)造了一個(gè)藥物疾病圖譜,使用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)節(jié)點(diǎn)表示,根據(jù)學(xué)習(xí)到的節(jié)點(diǎn)表示來預(yù)測(cè)藥物節(jié)點(diǎn)和疾病節(jié)點(diǎn)是否具有藥物不良反應(yīng)(adverse drug reaction,ADR)關(guān)系。與其他算法相比,該模型的接受者工作特征曲線下的面積(area under curve of receiver operating characteristic,AUROC)和精度-召回率曲線下的面積(area under curve of precision recall curve,AUPRC)性能分別提高到0.795和0.775。

      第二種是知識(shí)圖譜嵌入的方法,包括將實(shí)體和關(guān)系轉(zhuǎn)化為連續(xù)的向量空間,從而簡(jiǎn)化操作,同時(shí)保留知識(shí)圖譜的原有的結(jié)構(gòu)。2017年Wang M等人[58]構(gòu)建了患者-疾病-藥品圖譜,將其嵌入低維空間后,進(jìn)行用藥推薦。首先構(gòu)建疾病和藥品圖譜,通過EHR分別連接疾病和藥品圖譜,形成兩個(gè)二分圖,通過患者數(shù)據(jù)將兩個(gè)二分圖連接起來,并構(gòu)建了一個(gè)高質(zhì)量的異構(gòu)圖,該方法的預(yù)測(cè)準(zhǔn)確度(即Jaccard系數(shù))、藥物相互作用發(fā)生率、冷啟動(dòng)(即沒有患者數(shù)據(jù)時(shí)的使用)、臨床專家評(píng)分均高于基線水平。2019年Wang X Y等人[59]構(gòu)建了疾病-藥品圖譜,將其嵌入低維空間后,進(jìn)行用藥推薦,并提出一種基于知識(shí)圖譜嵌入增強(qiáng)主題模型(knowledge graph enhanced topic model,KGETM)的中藥推薦模型。在中藥基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于當(dāng)時(shí)最新的方法,中藥知識(shí)圖嵌入在中藥推薦中有很好的應(yīng)用前景。

      (3)研究方向

      醫(yī)學(xué)知識(shí)圖譜在用藥推薦系統(tǒng)應(yīng)用領(lǐng)域的未來研究方向主要有以下幾方面。

      ① 構(gòu)建完整的醫(yī)學(xué)知識(shí)圖譜。人類對(duì)疾病與藥品的認(rèn)識(shí)是動(dòng)態(tài)變化的,結(jié)合疾病、癥狀、藥品、藥品間的相互作用及患者的臨床數(shù)據(jù)、患病的時(shí)間序列信息等,構(gòu)建一個(gè)完整的醫(yī)學(xué)動(dòng)態(tài)知識(shí)圖譜,確保知識(shí)的完整性、準(zhǔn)確性和時(shí)效性。

      ② 知識(shí)圖譜嵌入學(xué)習(xí)是將實(shí)體和關(guān)系映射到低維連續(xù)向量空間的表示方法,在保留知識(shí)圖譜結(jié)構(gòu)信息的同時(shí),還能夠改善數(shù)據(jù)稀疏問題,提高計(jì)算效率,因此在進(jìn)行后續(xù)用藥推薦任務(wù)之前,先對(duì)知識(shí)圖譜進(jìn)行表示學(xué)習(xí)是很有必要的。

      ③ 考慮到構(gòu)建動(dòng)態(tài)醫(yī)學(xué)知識(shí)圖譜的必要性,而目前大多數(shù)知識(shí)嵌入表示研究建立在靜態(tài)的知識(shí)圖譜上,如何對(duì)動(dòng)態(tài)知識(shí)圖譜進(jìn)行有效的知識(shí)表示是一個(gè)待解決的問題。將圖時(shí)空網(wǎng)絡(luò)與動(dòng)態(tài)知識(shí)圖譜相結(jié)合的知識(shí)嵌入表示用于用藥推薦是一個(gè)頗具價(jià)值的研究方向。

      9 醫(yī)學(xué)知識(shí)圖譜未來展望

      構(gòu)建醫(yī)療領(lǐng)域的知識(shí)圖譜,可以從海量數(shù)據(jù)中提煉出醫(yī)療知識(shí),并合理高效地對(duì)其進(jìn)行管理、共享及應(yīng)用,這對(duì)當(dāng)今的醫(yī)療行業(yè)具有重要意義,也是很多企業(yè)和研究機(jī)構(gòu)的研究熱點(diǎn)。本文對(duì)醫(yī)學(xué)知識(shí)圖譜構(gòu)建過程中的研究熱點(diǎn)、現(xiàn)有技術(shù)、挑戰(zhàn)及未來發(fā)展方向進(jìn)行了綜述,具體見表9。醫(yī)學(xué)知識(shí)圖譜將知識(shí)圖譜與醫(yī)學(xué)知識(shí)結(jié)合,定會(huì)推進(jìn)醫(yī)學(xué)數(shù)據(jù)的自動(dòng)化與智能化處理,為醫(yī)療行業(yè)帶來新的發(fā)展契機(jī)。醫(yī)學(xué)知識(shí)圖譜未來總的發(fā)展方向應(yīng)該體現(xiàn)以下幾個(gè)方面。

      表9 醫(yī)學(xué)知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)及研究進(jìn)展匯總

      (1)多語言醫(yī)學(xué)知識(shí)圖譜

      國(guó)內(nèi)外醫(yī)學(xué)知識(shí)的相互融合促進(jìn)更有利于醫(yī)學(xué)領(lǐng)域的發(fā)展,而實(shí)現(xiàn)不同國(guó)界醫(yī)學(xué)知識(shí)的相互溝通和交流,多語言醫(yī)學(xué)知識(shí)圖譜技術(shù)是關(guān)鍵,這會(huì)成為未來醫(yī)學(xué)知識(shí)圖譜發(fā)展的一個(gè)重要趨勢(shì)。

      (2)大規(guī)模多模態(tài)多源醫(yī)學(xué)知識(shí)庫

      受到多方面因素的影響,現(xiàn)有的醫(yī)學(xué)知識(shí)圖譜規(guī)模大多有局限,表現(xiàn)方式也較為單一,大多以文本和圖數(shù)據(jù)的形式呈現(xiàn),但聲音、影像、圖片等也蘊(yùn)含大量的醫(yī)學(xué)信息,在醫(yī)學(xué)臨床中也存在大量的醫(yī)療影像、X光等多模態(tài)信息,醫(yī)學(xué)知識(shí)的來源也可以來自書本、文獻(xiàn)、網(wǎng)頁、視頻等。因此未來醫(yī)學(xué)知識(shí)圖譜研究的一個(gè)熱點(diǎn)是構(gòu)建大規(guī)模多模態(tài)多源的醫(yī)學(xué)知識(shí)庫[60]。

      (3)基于時(shí)空特性的知識(shí)演化和多粒度知識(shí)推理

      研究基于深度學(xué)習(xí)與邏輯推理相互約束的大規(guī)模多粒度知識(shí)推理模型與方法,研制基于本體、規(guī)則與深度學(xué)習(xí)相結(jié)合的大規(guī)模知識(shí)推理系統(tǒng),使其能夠?qū)Π?0億級(jí)RDF三元組的知識(shí)庫和萬級(jí)規(guī)則進(jìn)行推理,平均響應(yīng)時(shí)間在秒級(jí),并具有良好的可伸縮性。在此基礎(chǔ)上,研究基于時(shí)空特性的知識(shí)演化模型與預(yù)測(cè)方法,研制知識(shí)演化系統(tǒng),使其能夠?qū)崟r(shí)地對(duì)知識(shí)庫進(jìn)行更新,平均響應(yīng)時(shí)間為秒級(jí)。

      猜你喜歡
      醫(yī)學(xué)知識(shí)本體圖譜
      Abstracts and Key Words
      繪一張成長(zhǎng)圖譜
      對(duì)姜夔自度曲音樂本體的現(xiàn)代解讀
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      思維導(dǎo)圖在醫(yī)學(xué)中的應(yīng)用
      加強(qiáng)班級(jí)凝聚力建設(shè),激發(fā)學(xué)生學(xué)習(xí)的積極性
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      新環(huán)境下《解剖學(xué)》教學(xué)資源開發(fā)探討分析
      衛(wèi)?;瘜W(xué)教學(xué)中滲透醫(yī)學(xué)知識(shí)的實(shí)踐
      肇东市| 荥经县| 长武县| 元阳县| 卢湾区| 思茅市| 鞍山市| 大洼县| 苍溪县| 孟连| 莎车县| 湖州市| 陆河县| 科技| 淮安市| 习水县| 涿鹿县| 威海市| 云浮市| 宁南县| 山阳县| 关岭| 神池县| 分宜县| 罗山县| 醴陵市| 黄冈市| 辰溪县| 九龙县| 凌云县| 武冈市| 舞钢市| 临清市| 灌南县| 嘉黎县| 金湖县| 尖扎县| 庆城县| 湘潭县| 吴桥县| 思南县|