• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于知識(shí)圖譜的原發(fā)性肝癌知識(shí)問(wèn)答系統(tǒng)

      2019-08-05 07:42:10曹明宇李青青楊志豪林鴻飛
      中文信息學(xué)報(bào) 2019年6期
      關(guān)鍵詞:三元組肝細(xì)胞圖譜

      曹明宇,李青青,楊志豪,王 磊,張 音,林鴻飛,王 健

      (1. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2.軍事醫(yī)學(xué)科學(xué)院,北京 100850)

      0 背景

      隨著大數(shù)據(jù)時(shí)代的到來(lái),知識(shí)工程受到了廣泛關(guān)注,如何從海量的數(shù)據(jù)中提取有用的知識(shí),是大數(shù)據(jù)分析的關(guān)鍵。知識(shí)圖譜技術(shù)提供了一種從海量文本和圖像中抽取結(jié)構(gòu)化知識(shí)的手段,并且已被廣泛應(yīng)用于智能搜索、智能問(wèn)答、個(gè)性化推薦等領(lǐng)域,因而受到了廣泛的關(guān)注。

      知識(shí)圖譜于2012年被Google正式提出[1],其初衷是為了提高搜索引擎的能力,增強(qiáng)用戶(hù)的搜索質(zhì)量及搜索體驗(yàn)。目前,已經(jīng)存在的大規(guī)模知識(shí)庫(kù)如Freebase、Wikidata、DBpedia、YAGO中,不僅包含大量的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),是知識(shí)圖譜數(shù)據(jù)的重要來(lái)源,而且具有較高的領(lǐng)域覆蓋面,與領(lǐng)域知識(shí)庫(kù)存在大量的鏈接關(guān)系。除此之外,一些行業(yè)知識(shí)庫(kù)(也稱(chēng)為垂直型知識(shí)庫(kù)),如MusicBrainz、IMDB、豆瓣等也已經(jīng)構(gòu)建起用來(lái)描述特定行業(yè)領(lǐng)域的知識(shí)。值得注意的是,在中文知識(shí)圖譜構(gòu)建方面,中文開(kāi)放知識(shí)圖譜聯(lián)盟OpenKG搭建了OpenKG.CN技術(shù)平臺(tái),吸引了國(guó)內(nèi)最著名知識(shí)圖譜資源的加入,如Zhishi.me、CN-DBPedia、PKUBase,并已經(jīng)包含了來(lái)自于常識(shí)、醫(yī)療、金融、 城市、出行等15個(gè)類(lèi)目的開(kāi)放知識(shí)圖譜[2]。同時(shí),由于與人類(lèi)健康密切相關(guān),生物醫(yī)學(xué)領(lǐng)域的知識(shí)受到密切關(guān)注。我們建立了一個(gè)生物醫(yī)學(xué)領(lǐng)域的與肝細(xì)胞癌(Hepatocellular carcinoma,HCC)相關(guān)的知識(shí)圖譜。肝細(xì)胞癌是成人中最常見(jiàn)的原發(fā)性肝癌,并且是肝硬化患者最常見(jiàn)的死亡原因[3]。構(gòu)建肝細(xì)胞癌相關(guān)的知識(shí)圖譜,結(jié)構(gòu)化地表示肝細(xì)胞癌與其相關(guān)的蛋白質(zhì)、藥物、疾病、病癥等之間的關(guān)系,對(duì)于醫(yī)學(xué)研究者來(lái)說(shuō)具有重要的意義。

      問(wèn)答系統(tǒng)是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要方向。它接受自然語(yǔ)言問(wèn)題的輸入,從知識(shí)庫(kù)中查詢(xún)到相應(yīng)的答案,并以自然語(yǔ)言文本的形式返回給用戶(hù)。傳統(tǒng)上人們獲取知識(shí)的途徑主要依賴(lài)于搜索引擎,然而搜索引擎只是單純的關(guān)鍵字查詢(xún),缺乏對(duì)用戶(hù)意圖的理解,需要用戶(hù)從返回的網(wǎng)頁(yè)中篩選自己想獲取的信息。與傳統(tǒng)的搜索引擎相比,問(wèn)答系統(tǒng)極大地增強(qiáng)了用戶(hù)獲取知識(shí)的便捷性,不但節(jié)省了篩選信息的時(shí)間,還能精確地獲得更符合需求的答案。

      傳統(tǒng)的問(wèn)答系統(tǒng)大多基于文檔檢索,使用爬蟲(chóng)從網(wǎng)絡(luò)上爬取百科數(shù)據(jù)、問(wèn)答對(duì)等知識(shí),再使用關(guān)鍵詞檢索或模板匹配的方式查詢(xún)答案。這種方式的知識(shí)來(lái)源并非結(jié)構(gòu)化,包含大量的冗余信息,需要時(shí)間來(lái)進(jìn)行檢索。而知識(shí)圖譜作為一種結(jié)構(gòu)化、關(guān)聯(lián)化的數(shù)據(jù)來(lái)源,可以為問(wèn)答系統(tǒng)提供更加高質(zhì)量的數(shù)據(jù)信息,面向領(lǐng)域的問(wèn)答系統(tǒng)也層出不窮。杜澤宇等[4]利用哈工大LTP 語(yǔ)義依存分析SDP及基于Word2Vec(https://code.google.com/archive/p/word2vec/)的語(yǔ)義相似度計(jì)算,開(kāi)發(fā)了面向電商領(lǐng)域的問(wèn)答系統(tǒng),極大地增強(qiáng)了電商網(wǎng)站用戶(hù)溝通的便捷性與時(shí)效性。

      近年來(lái),隨著“看病難”“掛號(hào)難”等社會(huì)問(wèn)題出現(xiàn),很多在線(xiàn)求醫(yī)問(wèn)藥的網(wǎng)站興起,用戶(hù)可以更便捷地在網(wǎng)絡(luò)上描述自己的病情并得到醫(yī)生的指導(dǎo)。但是這種方式仍然需要人力的維護(hù),并且醫(yī)生通常推薦面診來(lái)確定病情。同時(shí),由于大眾對(duì)疾病的知識(shí)了解過(guò)少,常常不能對(duì)醫(yī)生給予的治療方案的合理性進(jìn)行判斷。針對(duì)以上問(wèn)題,本文提出了一個(gè)面向肝細(xì)胞癌的基于知識(shí)圖譜的自動(dòng)問(wèn)答系統(tǒng),可以回答與肝癌相關(guān)的藥物、疾病、表征等問(wèn)題,幫助用戶(hù)更充分地了解肝癌相關(guān)知識(shí),緩解醫(yī)療機(jī)構(gòu)的壓力。

      本文提出的基于肝細(xì)胞癌知識(shí)圖譜的問(wèn)答系統(tǒng)有一套流水線(xiàn)式的結(jié)構(gòu)。首先,基于當(dāng)前主流的BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型,對(duì)問(wèn)題中的藥物、疾病等實(shí)體進(jìn)行識(shí)別; 然后將結(jié)合TFIDF與預(yù)訓(xùn)練的詞向量,得到問(wèn)題向量,將其與預(yù)先定義 的問(wèn)題模板進(jìn)行相似度匹配,得到最相似的問(wèn)題模板;再根據(jù)模板對(duì)應(yīng)的語(yǔ)義信息,使用Cypher查詢(xún)語(yǔ)句到知識(shí)圖譜中查詢(xún)答案;最后生成自然語(yǔ)言回答并返回給用戶(hù)。

      1 肝細(xì)胞癌知識(shí)圖譜的構(gòu)建

      1.1 肝細(xì)胞癌知識(shí)的獲取

      海量生物醫(yī)學(xué)文本中蘊(yùn)含著大量醫(yī)學(xué)實(shí)體及關(guān)系,新實(shí)體和新關(guān)系的更新速度比專(zhuān)業(yè)的數(shù)據(jù)庫(kù)系統(tǒng)更快,而專(zhuān)業(yè)數(shù)據(jù)庫(kù)中的知識(shí)更加精準(zhǔn)可靠?;谏鲜鰞煞N知識(shí)來(lái)源的特點(diǎn),本文同時(shí)使用以下兩種方式獲取肝細(xì)胞癌相關(guān)知識(shí):①應(yīng)用深度學(xué)習(xí)技術(shù)。對(duì)醫(yī)學(xué)指南和PubMed摘要文本進(jìn)行命名實(shí)體識(shí)別,再對(duì)實(shí)體對(duì)進(jìn)行關(guān)系分類(lèi),從中抽取出與HCC相關(guān)的三元組; ②從SemMedDB[5]中抽取所有與HCC相關(guān)的三元組。

      具體的知識(shí)獲取步驟描述如下。

      首先獲取了UpToDate臨床顧問(wèn)(http://www.uptodate.com)中與肝細(xì)胞癌相關(guān)的醫(yī)學(xué)指南,以及在PubMed中下載與肝細(xì)胞癌相關(guān)的1 000篇MEDLINE摘要,然后使用基于深度學(xué)習(xí)的方法,對(duì)文本進(jìn)行命名實(shí)體識(shí)別和關(guān)系抽取,得到與肝細(xì)胞癌相關(guān)的關(guān)系三元組。對(duì)得到的三元組進(jìn)行去重,將實(shí)體和關(guān)系映射到生物醫(yī)學(xué)本體中,形成了肝細(xì)胞癌與其相關(guān)的基因、蛋白質(zhì)、單個(gè)藥物、藥物組合、疾病、病癥以及治療方法之間的關(guān)系三元組。

      SemMedDB是使用SemRep工具(https://semrep.nlm.nih.gov)從MEDLINE摘要中進(jìn)行關(guān)系抽取得到的,包含9 100萬(wàn)個(gè)關(guān)系預(yù)測(cè)的數(shù)據(jù)庫(kù)[5]。該數(shù)據(jù)庫(kù)支持Semantic MEDLINE Web應(yīng)用程序,它集成了PubMed搜索、SemRep預(yù)測(cè)、自動(dòng)匯總和數(shù)據(jù)可視化。我們使用SQL語(yǔ)句從該數(shù)據(jù)庫(kù)中檢索與肝細(xì)胞癌直接相關(guān)的實(shí)體以及關(guān)系三元組,共得到46 172個(gè)三元組。然后對(duì)三元組進(jìn)行去重,去重后得到4 547個(gè)三元組。在這些三元組中,每個(gè)實(shí)體的類(lèi)型定義為概念唯一標(biāo)識(shí)符、實(shí)體標(biāo)準(zhǔn)名、實(shí)體類(lèi)型以及實(shí)體在文本中的名字。關(guān)系屬性定義為關(guān)系類(lèi)型和關(guān)系來(lái)源。

      結(jié)合以上兩種方式,我們得到了與肝細(xì)胞癌相關(guān)的實(shí)體和關(guān)系三元組。其中,使用深度學(xué)習(xí)的方法從醫(yī)學(xué)指南和PubMed文摘中獲得416個(gè)實(shí)體和500條關(guān)系;從SemMedDB中抽取了共2 723個(gè)實(shí)體和4 547條關(guān)系。對(duì)于實(shí)體和關(guān)系的詳細(xì)統(tǒng)計(jì),如表1所示。

      表1 肝細(xì)胞癌相關(guān)的實(shí)體和關(guān)系數(shù)據(jù)統(tǒng)計(jì)

      1.2 知識(shí)表示

      三元組是知識(shí)圖譜的一種通用表示方式,即g=(e,r,s),其中e={e1,e2,…,e|E|} 是知識(shí)庫(kù)中的實(shí)體集合,共包含|E|種不同實(shí)體;R={r1,r2,…,r|E|}是知識(shí)庫(kù)中的關(guān)系集合,共包含|R|種不同關(guān)系;S∈E×R×E代表知識(shí)庫(kù)中的三元組集合。三元組的基本形式主要包括實(shí)體1、關(guān)系、實(shí)體2和概念、屬性、屬性值等,實(shí)體是知識(shí)圖譜中的最基本元素,不同的實(shí)體間存在不同的關(guān)系。概念主要指集合、類(lèi)別、對(duì)象類(lèi)型、事物的種類(lèi),例如,藥物、疾病等;屬性主要指對(duì)象可能具有的屬性、特征、特性、特點(diǎn)以及參數(shù),例如實(shí)體名、實(shí)體概念標(biāo)識(shí)符等;屬性值主要指對(duì)象指定屬性的值,例如“肝細(xì)胞癌”“Q1148337”等。每個(gè)實(shí)體(概念的外延)可用一個(gè)全局唯一確定的ID來(lái)標(biāo)識(shí),每個(gè)屬性—屬性值對(duì)(attribute-value pair,AVP)可用來(lái)刻畫(huà)實(shí)體的內(nèi)在特性,而關(guān)系可用來(lái)連接兩個(gè)實(shí)體,刻畫(huà)它們之間的關(guān)聯(lián)[6]。

      1.3 知識(shí)存儲(chǔ)

      目前,圖結(jié)構(gòu)有兩種通用的存儲(chǔ)方案:RDF存儲(chǔ)和圖數(shù)據(jù)庫(kù)(Graph Database)。圖數(shù)據(jù)庫(kù)的結(jié)構(gòu)定義相比RDF數(shù)據(jù)庫(kù)更為通用,實(shí)現(xiàn)了用圖結(jié)構(gòu)中的節(jié)點(diǎn)、邊以及屬性來(lái)進(jìn)行圖數(shù)據(jù)的存儲(chǔ)。我們使用當(dāng)前流行的開(kāi)源圖數(shù)據(jù)庫(kù)Neo4j(https://neo4j.com/)進(jìn)行知識(shí)圖譜的存儲(chǔ),優(yōu)點(diǎn)是數(shù)據(jù)庫(kù)本身提供完善的圖查詢(xún)語(yǔ)言,支持各種圖挖掘算法。

      Neo4j提供Cypher語(yǔ)句來(lái)導(dǎo)入數(shù)據(jù)和查詢(xún)圖形數(shù)據(jù),Cypher是描述性的圖形查詢(xún)語(yǔ)言,語(yǔ)法簡(jiǎn)單,功能強(qiáng)大。除此之外,對(duì)于大規(guī)模的數(shù)據(jù),Neo4j還提供了neo4j-import 工具,可以快速地將大量的節(jié)點(diǎn)(實(shí)體)和邊(關(guān)系)導(dǎo)入圖數(shù)據(jù)庫(kù)。我們將醫(yī)學(xué)指南、PubMed摘要文本和SemMedDB中抽取的肝細(xì)胞癌相關(guān)的三元組通過(guò)Cypher CREATE 語(yǔ)句、Cypher LOAD CSV 語(yǔ)句以及neo4j-import 工具導(dǎo)入Neo4j數(shù)據(jù)庫(kù)。圖1展示了肝細(xì)胞癌知識(shí)圖譜的部分關(guān)系三元組。

      圖1 肝細(xì)胞癌知識(shí)圖譜中的部分關(guān)系三元組

      2 基于肝細(xì)胞癌知識(shí)圖譜的問(wèn)答系統(tǒng)

      本文設(shè)計(jì)并實(shí)現(xiàn)了基于肝細(xì)胞癌知識(shí)圖譜的英文問(wèn)答系統(tǒng),為用戶(hù)在線(xiàn)求醫(yī)提供了更加智能化的方式,提升了在線(xiàn)求醫(yī)的便捷性及實(shí)時(shí)性。該系統(tǒng)主要包括以下幾個(gè)模塊:①疾病和藥物的實(shí)體識(shí)別; ②問(wèn)題的模板匹配; ③基于Neo4j數(shù)據(jù)庫(kù)的查詢(xún); ④基于Web的圖形化展示。具體的流程如下所述:

      (1) 輸入問(wèn)題:在對(duì)話(huà)框內(nèi)輸入與疾病、藥物、表征相關(guān)的英文醫(yī)學(xué)問(wèn)題,如:“Whichmedicinecantreataids?”“WhatarethemanifestationsofHCC”。

      (2) 問(wèn)題的預(yù)處理及分詞:由于醫(yī)學(xué)領(lǐng)域的命名實(shí)體識(shí)別是以單個(gè)詞為單位,而很多實(shí)體常與標(biāo)點(diǎn)符號(hào)直接相連,如果問(wèn)題的分詞不準(zhǔn)確,則會(huì)直接影響實(shí)體識(shí)別的準(zhǔn)確性,也會(huì)對(duì)之后的模板匹配造成影響。比如上述問(wèn)題中的“aids?”被分解為“aids”和“?”兩個(gè)單詞。

      (3) 醫(yī)學(xué)實(shí)體識(shí)別:由于本文實(shí)現(xiàn)的問(wèn)答系統(tǒng)主要是面向普通用戶(hù)的,所以在這一環(huán)節(jié)識(shí)別出問(wèn)題中最常涉及的問(wèn)題,包括疾病名、藥物名及表征名。識(shí)別結(jié)果是一個(gè)形如[entity name1,label1]的列表,例如,問(wèn)題“Whichmedicinecantreataids?”,識(shí)別結(jié)果為[‘a(chǎn)ids’ ,‘disease’]。

      (4) 問(wèn)題模板匹配:根據(jù)識(shí)別出的實(shí)體信息,將問(wèn)題與相應(yīng)的問(wèn)題模板集進(jìn)行匹配。本文分別從Literal、Synonym兩個(gè)層面,利用TFIDF及基于Word2Vec詞向量的匹配方式,為原問(wèn)題匹配到最相似的問(wèn)題模板。這一環(huán)節(jié)實(shí)現(xiàn)了問(wèn)題理解的功能,可以得到問(wèn)題中蘊(yùn)含的關(guān)系,如:疾病—藥物、疾病—表征等。

      (5) 基于圖形化數(shù)據(jù)庫(kù)的查詢(xún):根據(jù)環(huán)節(jié)(3)、(4) 識(shí)別出的實(shí)體名及關(guān)系類(lèi)型,理解問(wèn)題的語(yǔ)義,使用Python語(yǔ)言中的Neo4j-driver模塊,在本文構(gòu)建的肝細(xì)胞癌知識(shí)圖譜中查詢(xún)對(duì)應(yīng)的實(shí)體或?qū)傩浴?/p>

      (6) 答案生成:根據(jù)問(wèn)題的意圖及查詢(xún)到的結(jié)果,生成符合對(duì)話(huà)邏輯并且語(yǔ)法通順的自然語(yǔ)言答案,返回給用戶(hù)。

      針對(duì)醫(yī)學(xué)實(shí)體識(shí)別、問(wèn)題模板匹配和基于知識(shí)圖譜的查詢(xún)的詳細(xì)介紹如下。

      2.1 生物醫(yī)學(xué)實(shí)體識(shí)別

      本文實(shí)體識(shí)別模型的訓(xùn)練使用biocreative評(píng)測(cè)提供的 CDR語(yǔ)料集。傳統(tǒng)的命名實(shí)體識(shí)別使用統(tǒng)計(jì)學(xué)習(xí)的機(jī)器學(xué)習(xí)方法,如條件隨機(jī)場(chǎng)(conditional random fields,CRF),對(duì)文本中的人名、地名、機(jī)構(gòu)名等實(shí)體進(jìn)行識(shí)別。而醫(yī)學(xué)領(lǐng)域的實(shí)體通常命名規(guī)則復(fù)雜,實(shí)體名中可能包含數(shù)字或符號(hào),并且實(shí)體的邊界更容易被誤識(shí)別。針對(duì)這些問(wèn)題,本文使用當(dāng)前流行的BiLSTM(Bi-directional LSTM)+CRF模型[7],在疾病、藥物和表征實(shí)體上分別達(dá)到了0.887、0.905和0.866的綜合分類(lèi)率(F1值)。

      長(zhǎng)短時(shí)記憶模型(long short-term memory,LSTM)[8]是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的一種。RNN的最大特點(diǎn)是可以接受序列的輸入,產(chǎn)生對(duì)應(yīng)的序列輸出,不同時(shí)刻的輸入之間存在著依賴(lài)關(guān)系,當(dāng)前時(shí)刻的輸出不僅取決于當(dāng)前時(shí)刻的輸入,還和上一時(shí)刻的輸出有關(guān)。由于這樣的特點(diǎn),RNN很適合用于學(xué)習(xí)單個(gè)詞的上下文信息。但是RNN仍然存在著長(zhǎng)距離依賴(lài)的問(wèn)題,即當(dāng)前時(shí)刻的輸入受距離當(dāng)前更近的時(shí)刻影響更大,而受距離較遠(yuǎn)的之前時(shí)刻輸出的影響相對(duì)較小,這就導(dǎo)致RNN不能充足地學(xué)習(xí)到遠(yuǎn)距離的上下文信息。LSTM在RNN的基礎(chǔ)上增加了門(mén)機(jī)制,可以控制信息在時(shí)刻之間傳遞的程度,更好地學(xué)習(xí)當(dāng)前詞的上下文信息。雙向長(zhǎng)短時(shí)記憶循環(huán)模型由兩個(gè)不同方向的LSTM組成,兩個(gè)LSTM分別從前向和后向?qū)W習(xí)單詞的上下文信息,再將二者拼接起來(lái),作為當(dāng)前時(shí)刻的輸出。

      本文的命名實(shí)體工作,首先使用預(yù)先訓(xùn)練好的詞向量,將詞映射為低維空間中稠密的50維詞向量,隨后將句子的詞向量序列輸入到BiLSTM中,用神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)前向及后向的上下文特征,最后在輸出層使用softmax來(lái)預(yù)測(cè)每個(gè)單詞的標(biāo)簽。這種方法的缺陷是對(duì)每個(gè)詞的標(biāo)簽都進(jìn)行獨(dú)立的預(yù)測(cè),不能參考上下文中已經(jīng)預(yù)測(cè)出的標(biāo)簽,導(dǎo)致預(yù)測(cè)出的標(biāo)簽序列可能是不合邏輯的。例如,標(biāo)簽I后面是不可能緊跟著標(biāo)簽B的,但神經(jīng)網(wǎng)絡(luò)無(wú)法利用到這個(gè)信息。為了實(shí)現(xiàn)標(biāo)簽級(jí)別的全局優(yōu)化,本文在神經(jīng)網(wǎng)絡(luò)的輸出后增加一個(gè)條件隨機(jī)場(chǎng)層進(jìn)行句子級(jí)的序列標(biāo)注。CRF層的參數(shù)是一個(gè) (k+2)×(k+2)的矩陣A(之所以要加2是因?yàn)橐獮榫渥邮撞刻砑右粋€(gè)起始轉(zhuǎn)移狀態(tài),在句子尾部添加一個(gè)終止轉(zhuǎn)移狀態(tài)),Aij表示的是從第i個(gè)標(biāo)簽到第j個(gè)標(biāo)簽的轉(zhuǎn)移得分,進(jìn)而在為一個(gè)位置進(jìn)行標(biāo)注的時(shí)候可以利用此前已經(jīng)標(biāo)注過(guò)的標(biāo)簽。結(jié)合了BiLSTM和CRF的命名實(shí)體識(shí)別,可以充分學(xué)習(xí)每個(gè)單詞的上下文信息及上下文標(biāo)簽信息,從局部和全局兩個(gè)層面,對(duì)詞標(biāo)簽的分類(lèi)進(jìn)行更好的優(yōu)化,達(dá)到良好的實(shí)體識(shí)別效果。

      2.2 問(wèn)題模板匹配

      常見(jiàn)的用于問(wèn)題理解的技術(shù)有基于模板匹配[9]、基于檢索模型及基于深度學(xué)習(xí)的模型方法[10]。本文實(shí)現(xiàn)的問(wèn)答系統(tǒng)使用了模板匹配的方式。與其他兩種問(wèn)題理解的方式相比,模板匹配只需要根據(jù)常見(jiàn)的問(wèn)題設(shè)計(jì)問(wèn)題模板,并實(shí)現(xiàn)匹配模板(即計(jì)算問(wèn)題與模板間的相似度)的算法,無(wú)須對(duì)大量人工標(biāo)注的語(yǔ)料進(jìn)行深度學(xué)習(xí),也不需要從大量的QA文本中檢索相似的問(wèn)題。本文模板匹配的具體流程如下。

      (1) 根據(jù)問(wèn)題中可能包含的實(shí)體數(shù)量及實(shí)體類(lèi)別,針對(duì)每一種情況,本文設(shè)計(jì)了6種情況共107個(gè)問(wèn)題模板,問(wèn)題模板集的信息見(jiàn)表2。

      表2 不同實(shí)體情況的問(wèn)題模板集

      (2) 根據(jù)實(shí)體識(shí)別環(huán)節(jié)中識(shí)別出的實(shí)體類(lèi)別及數(shù)量,在與實(shí)體情況對(duì)應(yīng)的問(wèn)題模板集中進(jìn)行相似度匹配,選擇相似度最高的問(wèn)題模板。本文的相似度匹配結(jié)合TFIDF算法[11]與Word2Vec詞向量[12],對(duì)于輸入的問(wèn)題中的每個(gè)詞,首先計(jì)算該詞的TF(term frequency,詞頻),即在該問(wèn)題中出現(xiàn)的頻率,詞的TF越高就越表明它能代表這個(gè)問(wèn)題。然后計(jì)算該詞的IDF(inverse document frequency,逆向文件頻率),由總模板問(wèn)題數(shù)目除以包含該詞的模板問(wèn)題數(shù)目得到,IDF可以衡量一個(gè)詞的區(qū)分能力。TF和IDF的乘積便代表這個(gè)詞在當(dāng)前問(wèn)題中的權(quán)重,將問(wèn)題中所有詞的詞向量加權(quán)求和,得到問(wèn)題的向量。我們分別計(jì)算模板問(wèn)題及用戶(hù)提出問(wèn)題的問(wèn)題向量,再分別計(jì)算句子向量之間的Cosine和 Euclidean距離,最后取平均作為提出問(wèn)題與模板問(wèn)題的相似度。

      2.3 基于知識(shí)圖譜的查詢(xún)

      本文使用Cypher語(yǔ)言在圖形數(shù)據(jù)庫(kù)中查詢(xún)答案。該語(yǔ)言是neo4j圖形數(shù)據(jù)庫(kù)的查詢(xún)語(yǔ)言,遵循SQL(structured query language)語(yǔ)法。問(wèn)題模板中包含著問(wèn)題的語(yǔ)義,根據(jù)預(yù)先定義的模板問(wèn)題到數(shù)據(jù)庫(kù)中關(guān)系的映射可以得到關(guān)系名,結(jié)合識(shí)別出的醫(yī)學(xué)實(shí)體名,根據(jù)規(guī)則生成Cypher語(yǔ)句。

      用于查詢(xún)與已知實(shí)體具有特定關(guān)系的相關(guān)實(shí)體名的Cypher語(yǔ)句模板如下:Match (a)-[: RelationName]-(b) where b.name=‘EntityName’ return a.name。其中,EntityName和RelationName用之前得到的實(shí)體和關(guān)系名替換。例如,對(duì)于問(wèn)題“Which medicine can treat HCC?”,首先識(shí)別出實(shí)體[HCC, drug],匹配問(wèn)題模板可以得到該問(wèn)題在數(shù)據(jù)庫(kù)中的對(duì)應(yīng)關(guān)系為“Treats”,然后根據(jù)實(shí)體名、實(shí)體類(lèi)別和關(guān)系名,按照規(guī)則生成Cypher語(yǔ)句:Match (a)-[: Treats]-(b) where b.name=‘HCC’ return a.name,根據(jù)返回的結(jié)果,生成自然語(yǔ)言回答:“HCC can be treated by acrylamide, transaminase, Bortezomib, etc.”

      3 實(shí)驗(yàn)與結(jié)果分析

      由于目前沒(méi)有肝細(xì)胞癌相關(guān)的標(biāo)準(zhǔn)問(wèn)答語(yǔ)料,我們?nèi)斯ぴO(shè)計(jì)了50個(gè)與模板問(wèn)題語(yǔ)義相近的肝細(xì)胞癌相關(guān)問(wèn)題,對(duì)其答案進(jìn)行評(píng)測(cè),以驗(yàn)證本文提出的問(wèn)答系統(tǒng)的性能。除此之外,也從英文醫(yī)療問(wèn)答網(wǎng)站(https://www.drugs.com)中爬取了100個(gè)與肝細(xì)胞癌相關(guān)的真實(shí)問(wèn)題進(jìn)行了實(shí)驗(yàn)。

      (1) 由于本文提出的問(wèn)答系統(tǒng)知識(shí)來(lái)源是結(jié)構(gòu)化的知識(shí)圖譜,因此,對(duì)于一個(gè)問(wèn)題,當(dāng)其命名實(shí)體識(shí)別結(jié)果準(zhǔn)確、問(wèn)題模板匹配符合語(yǔ)義且返回有效自然語(yǔ)言回答時(shí),就認(rèn)為該問(wèn)題得到了正確回答。

      從實(shí)驗(yàn)結(jié)果可以看出,76%人工設(shè)計(jì)的問(wèn)題可以得到正確回答。盡管有些問(wèn)題使用了與模板問(wèn)題不同的表示方式來(lái)表示語(yǔ)義,基于問(wèn)題向量進(jìn)行相似度匹配的方式仍然可以為大多數(shù)問(wèn)題匹配到語(yǔ)義相同的模板。對(duì)于醫(yī)療問(wèn)答網(wǎng)站爬取的問(wèn)題,28%可以得到正確回答,例如“Should I take Cipro for HCC?”,這類(lèi)包含藥物-疾病關(guān)系語(yǔ)義信息的問(wèn)題大多可以被正確地理解。對(duì)于網(wǎng)絡(luò)爬取的問(wèn)題,實(shí)體識(shí)別的準(zhǔn)確性良好,但語(yǔ)義理解的準(zhǔn)確度偏低。一些不能準(zhǔn)確回答的問(wèn)題,例如,“Does Xgeva need to be refrigerated?”,問(wèn)題的語(yǔ)義是咨詢(xún)藥物的保存事宜。由于本文搭建的知識(shí)圖譜側(cè)重于藥物、疾病、表征等實(shí)體關(guān)系,而藥物的保存事宜、服用方法等應(yīng)該被存儲(chǔ)于實(shí)體屬性中,由于信息抽取的并不完備,未能返回滿(mǎn)意的答案,這也是未來(lái)知識(shí)圖譜需要完善的部分。

      (2) 現(xiàn)有實(shí)驗(yàn)說(shuō)明本文提出的問(wèn)答系統(tǒng)可以有效地基于肝細(xì)胞癌知識(shí)圖譜,對(duì)肝細(xì)胞癌相關(guān)的藥物—疾病、疾病—表征、藥物—藥物及藥物—表征等問(wèn)題進(jìn)行回答。同時(shí)由于本文使用流水線(xiàn)式的結(jié)構(gòu),每個(gè)子模塊都具備進(jìn)一步優(yōu)化的可能性。結(jié)合回答失敗問(wèn)題的原因,本文的未來(lái)工作包括:①將實(shí)體的屬性信息補(bǔ)充加入知識(shí)圖譜; ②擴(kuò)充知識(shí)圖譜的疾病覆蓋率; ③使用深度學(xué)習(xí)技術(shù)對(duì)問(wèn)題理解進(jìn)行更深入的研究。

      4 結(jié)論

      本文針對(duì)成人中常見(jiàn)的原發(fā)性肝細(xì)胞癌,從醫(yī)學(xué)指南和相關(guān)醫(yī)學(xué)文摘及SemMedDB知識(shí)庫(kù)中抽取其知識(shí)三元組,構(gòu)建了原發(fā)性肝細(xì)胞癌的知識(shí)圖譜。在此基礎(chǔ)上,實(shí)現(xiàn)了流水線(xiàn)式的問(wèn)答系統(tǒng)。實(shí)驗(yàn)表明,該問(wèn)答系統(tǒng)可以回答藥物—疾病、藥物—表征、藥物-藥物等語(yǔ)義信息的問(wèn)題。下一步的工作包括使用深度學(xué)習(xí)方法來(lái)提高問(wèn)題理解的準(zhǔn)確度、擴(kuò)展該問(wèn)答系統(tǒng)可回答問(wèn)題的種類(lèi)以及豐富知識(shí)圖譜中實(shí)體的屬性信息。

      猜你喜歡
      三元組肝細(xì)胞圖譜
      基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
      外泌體miRNA在肝細(xì)胞癌中的研究進(jìn)展
      特征標(biāo)三元組的本原誘導(dǎo)子
      繪一張成長(zhǎng)圖譜
      關(guān)于余撓三元組的periodic-模
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      肝細(xì)胞程序性壞死的研究進(jìn)展
      肝細(xì)胞癌診斷中CT灌注成像的應(yīng)用探析
      三元組輻射場(chǎng)的建模與仿真
      新丰县| 云阳县| 贵州省| 鄂尔多斯市| 永寿县| 定远县| 天门市| 昌图县| 乌审旗| 渭源县| 临漳县| 腾冲县| 虞城县| 宣武区| 增城市| 同心县| 福清市| 临高县| 呼图壁县| 商河县| 南投县| 务川| 威远县| 石渠县| 七台河市| 汶川县| 乌拉特后旗| 静海县| 鄄城县| 恩施市| 泰宁县| 盱眙县| 额尔古纳市| 镇原县| 衡阳市| 罗山县| 濮阳市| 通州市| 龙井市| 葫芦岛市| 霍山县|