吳曉芳,楊志豪,林鴻飛,王 健
(大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧大連116024)
基于語(yǔ)義關(guān)系的疾病知識(shí)提取系統(tǒng)
吳曉芳,楊志豪,林鴻飛,王 健
(大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧大連116024)
在生物醫(yī)學(xué)領(lǐng)域,通過(guò)知識(shí)提取過(guò)程從海量的生物醫(yī)學(xué)文獻(xiàn)中提取疾病、基因和藥物之間的關(guān)系并可視化顯示,可以為臨床醫(yī)學(xué)實(shí)驗(yàn)提供有效的假設(shè)檢驗(yàn),推動(dòng)生物醫(yī)學(xué)科技的發(fā)展。為此,提出一種基于語(yǔ)義關(guān)系的以疾病為中心的疾病、基因和藥物間的知識(shí)提取系統(tǒng)。利用SemRep得到特定主題Medline文獻(xiàn)的語(yǔ)義輸出,通過(guò)顯著信息提取算法提取SemRep的語(yǔ)義輸出關(guān)系。對(duì)照OMIM和GHR在線數(shù)據(jù)庫(kù)進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果顯示該顯著信息提取系統(tǒng)的準(zhǔn)確率可達(dá)0.76。
知識(shí)提取;語(yǔ)義關(guān)系提取;顯著信息提取算法;SemRep工具;語(yǔ)義輸出;網(wǎng)絡(luò)圖可視化
生物醫(yī)學(xué)文獻(xiàn)持續(xù)不斷的增長(zhǎng)給傳統(tǒng)的信息檢索技術(shù)帶來(lái)極大的挑戰(zhàn)。有效的醫(yī)學(xué)文獻(xiàn)檢索,尤其是從海量的生物醫(yī)學(xué)文獻(xiàn)中發(fā)現(xiàn)顯著的疾病、基因、藥物之間的關(guān)聯(lián)信息對(duì)生物醫(yī)學(xué)工作者在臨床試驗(yàn)和病患診療方面有極大的幫助。傳統(tǒng)的人工閱讀大量文獻(xiàn)費(fèi)時(shí)費(fèi)力且效果甚微,在如今的數(shù)字化信息時(shí)代已經(jīng)不再適用。雖然早先的信息檢索技術(shù)已經(jīng)應(yīng)用到生物醫(yī)學(xué)領(lǐng)域的知識(shí)提取,但是信息檢索算法的有效性并沒(méi)有得到很好的評(píng)估[1]。文獻(xiàn)[2]從Medline中抽取有用的關(guān)系,簡(jiǎn)潔地概括出原始文獻(xiàn)的主要信息。文獻(xiàn)[3]提出了一個(gè)自動(dòng)從文獻(xiàn)集中提取摘要的算法Combo,該算法提取了與某一特定疾病相關(guān)的基因。文獻(xiàn)[4]在之前實(shí)驗(yàn)基礎(chǔ)上又提出了一個(gè)用于決策支持的文本摘要生成方法。為了跟蹤最新的醫(yī)學(xué)研究領(lǐng)域的工作進(jìn)展,生物醫(yī)學(xué)文獻(xiàn)的高效檢索,有效關(guān)系的提取和展示對(duì)臨床決策支持[5]來(lái)說(shuō)尤為重要。自動(dòng)摘要方法[6]在信息提取中有較好的效果,但是自動(dòng)摘要最終形成的依然是文本形式,不夠直觀。因此,需要有效基于語(yǔ)義關(guān)系抽取的算法來(lái)從大量的生物醫(yī)學(xué)文獻(xiàn)中提取出重要的實(shí)體關(guān)聯(lián)信息,并用可視化的方法將該關(guān)聯(lián)信息呈現(xiàn)給醫(yī)學(xué)工作者。
與以往研究不同,本文提出一個(gè)基于語(yǔ)義關(guān)系的以疾病為中心的疾病、基因和藥物間的知識(shí)提取系統(tǒng)。該系統(tǒng)利用從Medline生物醫(yī)學(xué)數(shù)據(jù)庫(kù)檢索到的相關(guān)疾病的語(yǔ)料集,運(yùn)用SemRep工具處理得到相關(guān)疾病語(yǔ)料集的語(yǔ)義輸出。通過(guò)顯著信息提取算法篩選出以疾病為中心的疾病、基因和藥物三者之間重要的關(guān)聯(lián)信息,并以網(wǎng)絡(luò)關(guān)系圖的形式呈現(xiàn)給生物醫(yī)學(xué)工作者。
2.1 系統(tǒng)流程
系統(tǒng)流程如圖1所示。
圖1 系統(tǒng)流程
對(duì)于特定的疾病,從PubMed上檢索到2003年-2013年與疾病相關(guān)的文獻(xiàn)集。針對(duì)疾病和基因、疾病和藥物給出不同的檢索語(yǔ)句,檢索得到相應(yīng)的文獻(xiàn)集。
通過(guò)SemRep工具處理文獻(xiàn)集得到相應(yīng)的語(yǔ)義輸出。SemRep能夠從Medline語(yǔ)料的句子中抽取出2個(gè)實(shí)體之間的關(guān)聯(lián)關(guān)系。如果一個(gè)句子中存在多個(gè)實(shí)體詞和關(guān)系連接詞,那么SemRep通過(guò)算法給每個(gè)關(guān)系打分,取分?jǐn)?shù)最高的連接關(guān)系作為語(yǔ)義輸出。
用KL散度、RlogF矩陣顯著信息評(píng)價(jià)算法分別對(duì)謂詞關(guān)系、謂詞關(guān)系連接的實(shí)體語(yǔ)義類(lèi)型進(jìn)行篩選,利用PredScal平衡前2種算法間的數(shù)值差,綜合3種算法共同完成對(duì)疾病和基因、疾病和藥物顯著信息的提取。
最后將提取得到的以疾病為中心的顯著信息網(wǎng)絡(luò)圖可視化,在系統(tǒng)界面中呈現(xiàn)給用戶。
2.2 文獻(xiàn)語(yǔ)料處理工具SemRep
SemRep[7]是一個(gè)基于規(guī)則自動(dòng)從文獻(xiàn)中識(shí)別關(guān)系預(yù)測(cè)的自然語(yǔ)言處理系統(tǒng)。SemRep集成了MetaMap規(guī)范化的概念實(shí)體,并通過(guò)謂詞關(guān)系將不同的實(shí)體概念連接起來(lái)。此外,SemRep為每個(gè)實(shí)體詞定義了相關(guān)的語(yǔ)義類(lèi)型,方便特征選取和語(yǔ)義類(lèi)型過(guò)濾。SemRep提取的關(guān)系是根據(jù)UMLS的規(guī)則進(jìn)行輸出的,其原始結(jié)果中包含有很多條目,主要用到其中的實(shí)體名、語(yǔ)義類(lèi)型和謂詞關(guān)系部分。
例如,對(duì)于句子:
Expression levels of CBX7 inversely correlate with the progression of tumor stage and grade in urothelial carcinomas of the bladder,suggesting that downregulation of CBX7 indicates aggressive urothelial carcinoma phenotype.
SemRep可以得到如下的語(yǔ)義輸出:
SE|18984978|RESULTS|ab|5|relation|5|1||| gngm,aapp|gngm|23492|CBX7|CBX7||||1000|53 |56|VERB|PART_OF||71|79|2|1|C0007138| Carcinoma,Transitional Cell|neop|neop|||urothelial carcinomas||||981|84|104
這里主要關(guān)注的是關(guān)聯(lián)信息[8]:
CBX7|gngm|PART_OF|urothelial carcinomas| neop
CBX7是一種參與調(diào)控細(xì)胞增殖衰老的轉(zhuǎn)錄抑制因子。從得到的輸出可以看出,CBX7轉(zhuǎn)錄抑制因子是癌細(xì)胞病變因子的組成部分。
關(guān)聯(lián)信息是一個(gè)三元組(概念1|語(yǔ)義類(lèi)型, Predication,概念2|語(yǔ)義類(lèi)型)[9],概念1和概念2是UMLS的超級(jí)敘詞表中定義的概念,每個(gè)概念包含該概念的標(biāo)準(zhǔn)化表示、概念標(biāo)示符(Concept Unique Identifier,CUI)和語(yǔ)義類(lèi)型。UMLS的語(yǔ)義網(wǎng)絡(luò)中共定義了54中謂詞關(guān)系(PART_OF是其中之一)。利用SemRep可以從一個(gè)句子中得到出一個(gè)或多個(gè)語(yǔ)義輸出,通過(guò)一定的算法,對(duì)得到的語(yǔ)義輸出進(jìn)行打分,選取得分高的語(yǔ)義輸出作為該句的關(guān)聯(lián)信息。從文獻(xiàn)中所有的句子里抽取出關(guān)聯(lián)信息集,進(jìn)一步運(yùn)用顯著信息提取算法進(jìn)行篩選。
2.3 實(shí)驗(yàn)數(shù)據(jù)
以膀胱癌(Carcinoma of bladder)為例,介紹實(shí)驗(yàn)中用到的數(shù)據(jù)集以及顯著信息提取算法的實(shí)現(xiàn)。
(1)與Carcinoma of bladder相關(guān)的基因方面的文獻(xiàn)集A
(“2003/01/01”[Publication Date]:“2013/07/31”[Publication Date])AND(Urinary Bladder Neoplasms/ genetics[majr] AND Urinary Bladder Neoplasms/ etiology[majr])AND English[la]AND humans[mh]
(2)與Carcinoma of bladder相關(guān)的藥物方面的文獻(xiàn)集B
(“2003/01/01”[Publication Date]:“2013/07/31”[Publication Date])AND Urinary Bladder Neoplasms [mh noexp]AND drug therapy[sh]AND Clinical Trial [pt]AND English[Lang]AND humans[mh]
這2組查詢語(yǔ)句檢索了從2003年-2013年的Medline文獻(xiàn)。與基因相關(guān)的文獻(xiàn)集A設(shè)定了基因和膀胱病因?qū)W等限制詞,檢索得到與膀胱癌相關(guān)的基因類(lèi)的文獻(xiàn)。與藥物相關(guān)的文獻(xiàn)集B設(shè)定了藥物、臨床治療和膀胱病因?qū)W等限制詞,檢索得到與膀胱癌相關(guān)的藥物類(lèi)文獻(xiàn)。通過(guò)上面2組查詢語(yǔ)句,從PubMed上下載對(duì)應(yīng)的Medline文獻(xiàn)集。
2.4 顯著信息評(píng)價(jià)算法
為了實(shí)現(xiàn)有用信息的提取,本文實(shí)驗(yàn)中使用了3種顯著信息提取算法,自動(dòng)地從SemRep的輸出結(jié)果中篩選出查詢的疾病與基因、藥物之間的關(guān)聯(lián)關(guān)系,排除掉繁多的相關(guān)性弱的關(guān)系。這3種顯著信息提取算法介紹如下:
(1)KL散度
KL散度[10],又叫相對(duì)熵,在信息論中用于衡量2個(gè)概率分布的相對(duì)距離。在這里對(duì)關(guān)系謂詞在疾病數(shù)據(jù)集A中的概率P和關(guān)系謂詞在所有數(shù)據(jù)集B中的概率Q作為要衡量的2個(gè)概率。相對(duì)距離大的關(guān)系謂詞表示在該疾病數(shù)據(jù)集中有比較突出的作用,從而通過(guò)得到的KLD(Kullback-Leibler Divergence)得分值對(duì)關(guān)系謂詞進(jìn)行排名,得到關(guān)系謂詞的篩選結(jié)果。
其中,x代表一個(gè)關(guān)系謂詞;P(x)代表關(guān)系謂詞x在分布P中的概率;Q(x)代表關(guān)系謂詞x在分布Q中的概率。例如,關(guān)系謂詞ASSOCIATED_WITH在分布P中的概率為0.290,在分布Q中的概率為0.076,那么關(guān)系謂詞ASSOCIATED_WITH的KLD值為0.560 3。
KLD算法中分布Q的統(tǒng)計(jì)數(shù)據(jù)選取了2003年1月1日-2013年7月31日之間所有的Medline文獻(xiàn)集。
(2)RlogF
RlogF矩陣[11]旨在得到SemRep輸出中同一個(gè)關(guān)系謂詞相關(guān)度較高的語(yǔ)義類(lèi)型,用函數(shù)R表示。關(guān)系謂詞在做統(tǒng)計(jì)的時(shí)候受限于它在SemRep中的語(yǔ)義類(lèi)型。
把檢索詞Carcinoma of bladder的語(yǔ)義類(lèi)型neop作為種子語(yǔ)義類(lèi)型。因?yàn)閿?shù)據(jù)集是跟Carcinoma of bladder直接相關(guān)的,所以得到的語(yǔ)義類(lèi)型中定有很多的neop,排除掉該語(yǔ)義類(lèi)型的影響,從而能更好地篩選出與該語(yǔ)義類(lèi)型相關(guān)聯(lián)的非種子語(yǔ)義類(lèi)型。
其中,條件概率(P(relevant|patterni))是在語(yǔ)料A中出現(xiàn)的與關(guān)系謂詞直接相關(guān)的實(shí)體的語(yǔ)義類(lèi)型的個(gè)數(shù)(包含重復(fù)的部分)與所有出現(xiàn)的語(yǔ)義類(lèi)型個(gè)數(shù)的比例。
例如,如果與關(guān)系謂詞ASSOCIATED_WITH共現(xiàn)的非種子語(yǔ)義類(lèi)型 gngm在文獻(xiàn)集 A中出現(xiàn)107次,所有與關(guān)系謂詞ASSOCIATED_WITH共現(xiàn)的非種子語(yǔ)義類(lèi)型共有171個(gè)(包含重復(fù)的部分),那么關(guān)系謂詞ASSOCIATED_WITH的RlogF值為4.22。
(3)PredScal
RlogF算法得到的值會(huì)遠(yuǎn)遠(yuǎn)超過(guò)KLD算法得到的值,在衡量一個(gè)關(guān)系的時(shí)候,RlogF的結(jié)果占很大的比例。為了共同引用2種算法的思想,引入一個(gè)尺度函數(shù)p作為平衡因子來(lái)調(diào)整2個(gè)函數(shù)在同一數(shù)據(jù)集中的計(jì)算結(jié)果。
在這個(gè)計(jì)算中,c代表不同的關(guān)系謂詞個(gè)數(shù)。例如,如果數(shù)據(jù)集中有16個(gè)不同的關(guān)系謂詞,那么PredScal的平衡因子值0.25。
以上3種算法結(jié)合起來(lái)共同完成對(duì)SemRep的輸出結(jié)果的信息提取,用Summa算法來(lái)表示每個(gè)謂詞關(guān)系的分值,運(yùn)算結(jié)果表示為summa。
對(duì)于SemRep輸出中的每一個(gè)關(guān)系,將謂詞和語(yǔ)義類(lèi)型分別通過(guò)算法KLD和RlogF篩選出來(lái),通過(guò)算法PredScal來(lái)矯正2個(gè)結(jié)果數(shù)值間的成倍差距。這樣每個(gè)關(guān)系都有一個(gè)Summa值來(lái)作為它們的顯著程度的量化。
實(shí)驗(yàn)中基因部分的信息提取共得到與疾病Carcinoma of bladder相關(guān)的基因54個(gè)。參照Online Mendelian Inheritance in Man(OMIM)和 Genetics Home Reference(GHR)中的基因文獻(xiàn)記錄進(jìn)行標(biāo)注,在得到的54個(gè)基因中有41個(gè)與疾病Carcinoma of bladder在OMIM和GHR里有關(guān)聯(lián)關(guān)系。由此計(jì)算得出,實(shí)驗(yàn)提取結(jié)果的準(zhǔn)確率為0.76。而SemRep語(yǔ)料中抽取的實(shí)體之間的關(guān)系準(zhǔn)確率為0.73,召回率為0.55,綜合分類(lèi)率F值為0.63[12],本文顯著信息提取算法的準(zhǔn)確率有所提升。
3.1 疾病與基因的關(guān)系
運(yùn)用KLD算法得到了與Carcinoma of bladder相關(guān)的關(guān)系謂詞,通過(guò)對(duì)關(guān)系謂詞排序篩選出前5個(gè)得分最高的實(shí)驗(yàn)結(jié)果,見(jiàn)表1。從表1可以看出關(guān)系謂詞ASSOCIATED_WITH得分最高,這說(shuō)明在疾病Carcinoma of bladder與基因的關(guān)系中,它們之間的相互作用關(guān)系,由ASSOCIATED_WITH關(guān)系詞所連接的關(guān)系尤其重要。生物醫(yī)學(xué)工作者可以從這個(gè)關(guān)系中尋找到與該疾病相關(guān)的基因,從而更有效地找到治療該疾病的基因方法。
表1 KLD算法得到的前5個(gè)關(guān)系謂詞(與基因相關(guān))
運(yùn)用RlogF算法得到了與Carcinoma of bladder相關(guān)的謂詞以及語(yǔ)義類(lèi)型之間的關(guān)系排名,篩選出前5個(gè)得分最高的實(shí)驗(yàn)結(jié)果,見(jiàn)表2。從表2可以看出語(yǔ)義類(lèi)型gngm與關(guān)系謂詞ASSOCIATED_WITH得分最高,這說(shuō)明在疾病Carcinoma of bladder與基因之間的相互作用關(guān)系中,由謂詞ASSOCIATED_ WITH所連接的實(shí)體類(lèi)型為gngm的關(guān)系最為突出。語(yǔ)義類(lèi)型gngm是Gene or Genome的縮寫(xiě),代表基因類(lèi)。從結(jié)果中可以看出,運(yùn)用顯著信息提取算法有效地篩選出了跟疾病相關(guān)的基因。
表2 RlogF算法得到的數(shù)據(jù)(與基因相關(guān))
以上2種算法,用PredScal算法做權(quán)衡后,得到疾病與基因相關(guān)的Summa的排名結(jié)果,見(jiàn)表3。
表3 Summa信息提取的前5個(gè)結(jié)果(與基因相關(guān))
3.2 疾病與藥物的關(guān)系
運(yùn)用KLD算法得到了與Carcinoma of bladder相關(guān)的謂詞,通過(guò)對(duì)關(guān)系謂詞排序篩選出前5個(gè)得分最高的實(shí)驗(yàn)結(jié)果,見(jiàn)表4。從表中4可以看出關(guān)系謂詞TREATS得分最高,這說(shuō)明在疾病Carcinoma of bladder與藥物之間的相互作用中,由謂詞TREATS所連接的關(guān)系尤其重要,通過(guò)KLD算法有效地找到了治療疾病的相關(guān)藥物。
表4 KLD算法得到的前5個(gè)關(guān)系謂詞(與藥物相關(guān))
運(yùn)用RlogF算法得到了與Carcinoma of bladder相關(guān)的謂詞以及語(yǔ)義類(lèi)型之間的關(guān)系排名,篩選出前5個(gè)得分最高的實(shí)驗(yàn)結(jié)果,如表5所示。從表5中可以看出語(yǔ)義類(lèi)型phsu與關(guān)系謂詞TREATS得分最高。這說(shuō)明,在疾病與基因之間的相互作用關(guān)系中,由謂詞TREATS所連接的實(shí)體類(lèi)型為phsu的關(guān)系最為突出。語(yǔ)義類(lèi)型 phsu是 Pharmacologic Substance的縮寫(xiě),代表藥物學(xué)物質(zhì)。結(jié)果表明,顯著信息提取算法有效地篩選出了能治療疾病Carcinoma of bladder的藥物。
表5 RlogF算法得到的數(shù)據(jù)(與藥物相關(guān))
以上2種算法,用PredScal算法做權(quán)衡后,得到疾病與藥物相關(guān)的 Summa的排名結(jié)果,如表6所示。
表6 Summa信息提取的前5個(gè)結(jié)果(與藥物相關(guān))
3.3 基因與藥物的關(guān)系
通過(guò) Summa算法得到了疾病 Carcinoma of bladder分別與基因、藥物的相關(guān)關(guān)系實(shí)體集合。對(duì)得到的基因和疾病詞對(duì)依次在SemRep數(shù)據(jù)庫(kù)中進(jìn)行檢索,得到了基因和藥物之間的關(guān)聯(lián)關(guān)系。表7為選取的部分相關(guān)的基因和藥物。
表7 部分基因和藥物的關(guān)聯(lián)關(guān)系
4.1 JUNG工具包
系統(tǒng)可視化用到的 JUNG[13](Java Universal Network/Graph framework)是一個(gè)Java開(kāi)源項(xiàng)目,其目的在于為開(kāi)發(fā)關(guān)于圖或網(wǎng)絡(luò)結(jié)構(gòu)的應(yīng)用程序提供一個(gè)易用、通用的基礎(chǔ)架構(gòu)。在系統(tǒng)實(shí)現(xiàn)過(guò)程中,使用JUNG功能調(diào)用,可以方便地構(gòu)造圖或網(wǎng)絡(luò)的數(shù)據(jù)結(jié)構(gòu)。應(yīng)用經(jīng)典算法如聚類(lèi)、最短路徑、最大流量等,編寫(xiě)和測(cè)試用戶自己的算法,以及可視化的顯示數(shù)據(jù)的網(wǎng)絡(luò)圖。
4.2 系統(tǒng)界面
圖2中的網(wǎng)絡(luò)圖是以疾病Carcinoma of bladder為中心的疾病和基因、藥物的關(guān)聯(lián)信息。
淺色的結(jié)點(diǎn)表示的是跟疾病相關(guān)的基因,深色的結(jié)點(diǎn)表示的是跟疾病相關(guān)的藥物。同時(shí),部分基因和藥物的關(guān)聯(lián)關(guān)系也在圖中展示出。
圖2 系統(tǒng)初始化顯示及結(jié)點(diǎn)詳細(xì)信息顯示
對(duì)于整個(gè)網(wǎng)絡(luò)圖,編輯欄可以選擇整體移動(dòng)(TRANSFORMING)和部分選取(PICKING)功能。在選擇(PICKING)功能,選擇圖中的任何一個(gè)結(jié)點(diǎn),在底部面板的Details display欄顯示該結(jié)點(diǎn)的詳細(xì)信息,包括實(shí)體所在的PubMed文檔號(hào)和包含該實(shí)體的句子。在Search node搜索框,輸入一個(gè)疾病,便可手動(dòng)檢索疾病,并將該結(jié)點(diǎn)移至面板中心,在底部顯示該結(jié)點(diǎn)的詳細(xì)信息。左邊的復(fù)選框用于單獨(dú)顯示某個(gè)模塊、關(guān)系的單獨(dú)子圖。例如,選擇Gene模塊中的ASSOCIATED_WITH就可以單獨(dú)顯示與疾病相關(guān)的基因,這些基因跟疾病之間的謂詞關(guān)系為ASSOCIATED_WITH。單個(gè)關(guān)系的子圖可以更方便用戶找到與疾病有顯著關(guān)系的基因和藥物,有針對(duì)性地對(duì)得到的關(guān)系進(jìn)行分析,提高生物醫(yī)學(xué)工作者的查詢效率。
信息提取在生物醫(yī)學(xué)領(lǐng)域發(fā)展迅速,信息時(shí)代的科技發(fā)展需要高效的工具作為輔助。本文在提出信息提取算法的基礎(chǔ)上,以疾病為中心,將疾病、基因和藥物三者信息集成在可視化系統(tǒng)中。該系統(tǒng)有利于醫(yī)學(xué)工作者快速了解跟疾病相關(guān)的基因信息,并能根據(jù)得到的藥物信息對(duì)病情進(jìn)行有效的分析和診斷。在算法方面,結(jié)果的準(zhǔn)確率還有欠缺,下一步將研究改進(jìn)方向并應(yīng)用到信息提取中,完善系統(tǒng)功能。
[1] Hersh W R,Hickam D H.How Well Do Physicians Use Electronic Information Retrieval Systems?[J].The Journal of the American Medical Association,1998, 280(15):1347-1352.
[2] Kilicoglu H,Fiszman M,Rodriguez A,et al.Semantic MEDLINE:A WebApplicationforManagingthe Results of Pub Med Searches[C]//Proceedings of the 3rd International Symposium for Semantic Mining in Biomedicine.[S.l.]:IEEE Press,2008:69-76.
[3] Workman T E,Hurdle J F.Dynamic Summarization of Bibliographic-based Data[J].BMC Medical Informatics and Decision Making,2011,11(1).
[4] Workman T E,Fiszman M,Hurdle J F.Text Summarization as a Decision Support Aid[J].BMC Medical Informatics and Decision Making,2012,12(1).
[5] Fraser C,Murray A,Burr J.Identifying Observational Studies of Surgical Interventions in Medline and Embase[J].BMC Medical Research Methodology,2006,6(1).
[6] 廖 濤,劉宗田,王 利.多主題文本摘要抽取的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2011,37(6):21-23.
[7] Rindflesch T C,Fiszman M,Libbus B.Semantic Interpretation for the Biomedical Research Lite-rature[M].[S.l.]: Springer,2005.
[8] Fiszman M,Rindflesch T C,Kilicoglu H.Abstraction Summarization for Managing the Biomedical Research Literature[C]//Proceedings of Workshop on Computational Lexical Semantics.[S.l.]:Springer,2004:76-83.
[9] 商 玥,林鴻飛,楊志豪.利用語(yǔ)義關(guān)系抽取生成生物醫(yī)學(xué)文摘的算法[J].計(jì)算機(jī)科學(xué)與探索,2011, 5(11):1027-1036.
[10] Kullback S,Leibler R A.On Information and Sufficiency[J].The Annals of Mathematical Statistics, 1951,22(1):79-86.
[11] Riloff E.Automatically Generating Extraction Patterns from Untagged Text[C]//Proceedings of National Conference on Artificial Intelligence.[S.l.]:Springer, 1996:1044-1049.
[12] Ahlers C B,Fiszman M,Demner F D,et al.Extracting Semantic Predications from Medline Citations for Pharmacogenomics[C]//Proceedings of Pacific Symposium on Biocomputing.[S.l.]:Springer,2006:209-210.
[13] O’Madadhain J,Fisher D,White S,et al.The Jung(Java Universal Network/Graph)Framework[D].Irvine, USA:University of California,2003.
編輯 顧逸斐
Disease Knowledge Extraction System Based on Semantic Relation
WU Xiaofang,YANG Zhihao,LIN Hongfei,WANG Jian
(School of Computer Science and Technology,Dalian University of Technology,Dalian 116024,China)
In the biomedical field,knowledge summarization can greatly promote the innovation of biomedical science and technology.Dynamic summarization can provide novel clinical experimental hypothesis by extracting the links among diseases,genes,drugs from the mass of biomedical literature and visualizing it.This paper presents a system which summarizes the salient relations by the salient extraction algorithm using the specific subject Medline corpus by SemRep semantic output.Experimental results show that the precise of experimental result is 0.76 referring to OMIM and GHR online databases.
knowledge extraction;semantic relation extraction;significant information extraction algorithm;SemRep tool;semantic output;network diagram visualization
1000-3428(2015)01-0284-05
A
TP311
10.3969/j.issn.1000-3428.2015.01.054
國(guó)家自然科學(xué)基金資助項(xiàng)目(61070098,61272373,61340020);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)基金資助項(xiàng)目(DUT13JB09);國(guó)家社會(huì)科學(xué)基金資助項(xiàng)目(08BTQ025)。
吳曉芳(1989-),女,碩士研究生,主研方向:知識(shí)發(fā)現(xiàn),文本挖掘;楊志豪,副教授、博士、博士生導(dǎo)師;林鴻飛,教授、博士、博士生導(dǎo)師;王 健,副教授。
2013-12-30
2014-03-14 E-mail:xfwu@mail.dlut.edu.cn
中文引用格式:吳曉芳,楊志豪,林鴻飛,等.基于語(yǔ)義關(guān)系的疾病知識(shí)提取系統(tǒng)[J].計(jì)算機(jī)工程,2015,41(1): 284-288.
英文引用格式:Wu Xiaofang,Yang Zhihao,Lin Hongfei,et al.Disease Knowledge Extraction System Based on Semantic Relation[J].Computer Engineering,2015,41(1):284-288.