• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)特征對(duì)文獻(xiàn)間接關(guān)聯(lián)發(fā)現(xiàn)的評(píng)價(jià)作用

      2016-03-21 11:34:04,,,,
      關(guān)鍵詞:詞項(xiàng)關(guān)聯(lián)實(shí)體

      , ,,,

      文獻(xiàn)是科研工作者獲取科學(xué)假設(shè)的重要途徑。傳統(tǒng)的文獻(xiàn)檢索平臺(tái)能夠幫助用戶快速查找目標(biāo)文獻(xiàn),但候選文獻(xiàn)數(shù)量依然龐大,要從大量的候選文獻(xiàn)集中獲得有效的知識(shí),需要人工閱讀分析,這是一項(xiàng)費(fèi)時(shí)費(fèi)力甚至是不可能實(shí)現(xiàn)的工作[1]?;谖墨I(xiàn)的知識(shí)發(fā)現(xiàn)(Literature-based Discovery, LBD)研究通過(guò)潛在的關(guān)聯(lián)挖掘推斷出新的科學(xué)假設(shè)。根據(jù)LBD的ABC模型[2],必須明確A、B、C元素才可以獲得一條有用的知識(shí)發(fā)現(xiàn)關(guān)系鏈,B 的出現(xiàn)為科研人員提供有益的啟發(fā)和關(guān)鍵性的引導(dǎo),幫助認(rèn)識(shí)和發(fā)現(xiàn)潛在有用的知識(shí)片斷間的關(guān)聯(lián),為揭示新關(guān)系規(guī)劃可行的研究路線。如有關(guān)魚(yú)油和雷諾病的兩類文獻(xiàn)報(bào)道,雷諾病人(C)有典型的血液和血管相關(guān)的血黏度、血小板凝集度升高、血管收縮等生理改變稱為B。魚(yú)油(A)及其活性成分可降低血黏度和血小板凝集度,且魚(yú)油可以引起血管舒張。由此得出,魚(yú)油A可能對(duì)雷諾病C有治療作用,即形成了A和C之間的關(guān)聯(lián),即得到了一條A(魚(yú)油)-B(生理改變)-C(雷諾病)的知識(shí)發(fā)現(xiàn)路徑[3]。

      文獻(xiàn)知識(shí)發(fā)現(xiàn)的實(shí)施主要包括概念實(shí)體A、B和C的識(shí)別、概念間的相關(guān)度計(jì)算以及關(guān)聯(lián)的源文獻(xiàn)檢索3個(gè)重要部分。用戶輸入概念A(yù),計(jì)算A-B-C之間的關(guān)聯(lián)強(qiáng)度,獲得按關(guān)聯(lián)強(qiáng)度由大到小的有序列表。在生物醫(yī)學(xué)信息學(xué)領(lǐng)域現(xiàn)已存在相關(guān)知識(shí)發(fā)現(xiàn)系統(tǒng),比如Facta+[4], CoPub[5], Arrowsmith[6]等,這使文獻(xiàn)知識(shí)發(fā)現(xiàn)的工作具有更強(qiáng)的可操作性。然而,文獻(xiàn)知識(shí)發(fā)現(xiàn)過(guò)程是一個(gè)啟發(fā)式的過(guò)程,獲得的潛在關(guān)聯(lián)知識(shí)是需要進(jìn)一步確證的假設(shè),不同種類、不同相關(guān)程度的關(guān)聯(lián)都可能是激發(fā)新假設(shè)的知識(shí)。盡管現(xiàn)有系統(tǒng)極大地提高了知識(shí)發(fā)現(xiàn)的效率,但由于無(wú)法明確A-B-C三者之間的語(yǔ)義關(guān)系,導(dǎo)致混雜的候選關(guān)聯(lián)數(shù)呈指數(shù)遞增,從中篩選出真正有效的關(guān)系鏈變得非常困難。因此,研究對(duì)候選詞項(xiàng)進(jìn)行排序篩選的關(guān)聯(lián)性評(píng)價(jià)指標(biāo)是當(dāng)前該領(lǐng)域研究重點(diǎn)之一。

      本文主要研究網(wǎng)絡(luò)特征在文獻(xiàn)知識(shí)發(fā)現(xiàn)中間接關(guān)聯(lián)的評(píng)價(jià)作用,通過(guò)整合共現(xiàn)統(tǒng)計(jì)信息與網(wǎng)絡(luò)結(jié)構(gòu)特征,嘗試建立間接關(guān)聯(lián)性評(píng)價(jià)計(jì)算的新指標(biāo),這對(duì)于提高文獻(xiàn)知識(shí)發(fā)現(xiàn)效率與構(gòu)建相關(guān)知識(shí)系統(tǒng)都具有重要意義。

      1 關(guān)聯(lián)建模

      利用圖來(lái)對(duì)關(guān)聯(lián)知識(shí)進(jìn)行建模,是目前相關(guān)領(lǐng)域最常用的方法。通常一個(gè)簡(jiǎn)單的無(wú)向無(wú)權(quán)網(wǎng)絡(luò),可記為G= (V ,E),其中集合 V 稱為節(jié)點(diǎn)集,V={v1,v2,…,vn},集合E稱為邊集,E={e1,e2,…,em},任意一條邊對(duì)應(yīng)一個(gè)節(jié)點(diǎn)的二元組:ex=(vi,vj),E是V ×V的一個(gè)子集。因此,我們將文獻(xiàn)集中的內(nèi)容相關(guān)性轉(zhuǎn)化為基于關(guān)聯(lián)信息存在的圖結(jié)構(gòu)數(shù)據(jù)模型,即根據(jù)文獻(xiàn)中的語(yǔ)義單元即概念實(shí)體及其關(guān)聯(lián)信息,對(duì)文獻(xiàn)中所蘊(yùn)含的知識(shí)進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)化,構(gòu)建文獻(xiàn)關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)。在關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)G=(V, G) 中,節(jié)點(diǎn)集V 是各種從生物醫(yī)學(xué)文獻(xiàn)中提取而來(lái)的實(shí)體的集合,如基因、蛋白質(zhì)、化合物或疾病等等,邊集E 是實(shí)體之間的關(guān)聯(lián)集合。

      1.1 問(wèn)題定義

      在文獻(xiàn)知識(shí)發(fā)現(xiàn)實(shí)施過(guò)程中,科研工作人員給定概念A(yù),先得到相關(guān)聯(lián)的B。然而,接下來(lái)根據(jù)B獲得C時(shí),必須滿足兩個(gè)條件:1) A與C之間不直接關(guān)聯(lián),2)A與C之間的潛在關(guān)聯(lián)性不一定就表明B與C存在強(qiáng)關(guān)聯(lián)性,即B與C之間的弱關(guān)聯(lián)也有可能導(dǎo)致A與C存在潛在關(guān)聯(lián)。關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)把文獻(xiàn)集中的知識(shí)以網(wǎng)絡(luò)形式表示出來(lái),即表示出知識(shí)之間的聯(lián)系,也過(guò)濾了冗余知識(shí)而以最簡(jiǎn)化的形式表示,從而為發(fā)現(xiàn)未直接報(bào)道的兩個(gè)對(duì)象間的隱含關(guān)系提供了方便。文獻(xiàn)知識(shí)發(fā)現(xiàn)的目標(biāo)是希望獲得較好的ABC關(guān)聯(lián)路徑,因此,文獻(xiàn)知識(shí)發(fā)現(xiàn)的核心問(wèn)題即為如何基于B建立與評(píng)價(jià)A與C的關(guān)聯(lián)。如何建立節(jié)點(diǎn)A與C的關(guān)聯(lián),即應(yīng)該按照怎樣的路徑建立它們之間的關(guān)聯(lián),等價(jià)于給定節(jié)點(diǎn)A,提取A-B-C路徑,然后從所有的路徑中篩選出關(guān)聯(lián)性強(qiáng)的ABC關(guān)系鏈,即按照ABC關(guān)系鏈的關(guān)聯(lián)強(qiáng)度對(duì)所有路徑進(jìn)行排序,得到有序的鏈列表,使強(qiáng)關(guān)聯(lián)鏈路能夠處在候選鏈列表的前面位置,如圖1所示。

      圖1 A-B-C關(guān)聯(lián)路徑發(fā)現(xiàn)的示意圖

      1.2 ABC關(guān)聯(lián)性計(jì)算

      由于ABC鏈?zhǔn)且粭l啟發(fā)性的關(guān)系鏈,不同于常規(guī)的兩個(gè)直接共現(xiàn)的實(shí)體間的二維關(guān)系。但一條關(guān)聯(lián)路徑在全局上是否存在有效的相關(guān)性,則必須很好地評(píng)價(jià)詞項(xiàng)B的質(zhì)量。在關(guān)聯(lián)網(wǎng)絡(luò)中,節(jié)點(diǎn)的度對(duì)間接關(guān)系的影響很大,度小的節(jié)點(diǎn)對(duì)A與C的關(guān)聯(lián)具有積極的作用,而且度過(guò)大的概念往往是那些寬泛的通用概念,這些概念實(shí)體缺乏具體的語(yǔ)義[7]。一方面,我們希望AB與BC之間都能保持強(qiáng)的關(guān)聯(lián);另一方面,我們希望中間詞B不是一些通用概念,而是可以傳遞出具體語(yǔ)義的概念實(shí)體。

      因此,我們綜合考慮共現(xiàn)統(tǒng)計(jì)與節(jié)點(diǎn)度兩個(gè)因素,建立了新的全局關(guān)聯(lián)度計(jì)算的評(píng)價(jià)指標(biāo)NBW(Network-Based Weight)如下:

      其中W(A, B),W(B,C)分別表示A和B、B和C的共現(xiàn)頻數(shù),degree(B)表示節(jié)點(diǎn)B在關(guān)聯(lián)網(wǎng)絡(luò)中的度。NBW指標(biāo)給度小的概念實(shí)體之間的頻繁共現(xiàn)的關(guān)聯(lián)賦予更高的權(quán)重,因?yàn)槊恳魂P(guān)聯(lián)路徑中的共現(xiàn)次數(shù)較小的關(guān)聯(lián),對(duì)整個(gè)鏈路具有至關(guān)重要的作用,只要中間連接有一個(gè)不連通,顯然整個(gè)關(guān)聯(lián)路徑很難形成很強(qiáng)的聯(lián)系。

      1.3 方法評(píng)價(jià)

      給定測(cè)試文獻(xiàn)數(shù)據(jù)集,將文獻(xiàn)數(shù)據(jù)集按時(shí)間分成訓(xùn)練集和測(cè)試集,分別建立訓(xùn)練網(wǎng)絡(luò)G1=(N1,E1)和測(cè)試網(wǎng)絡(luò)G2=(N2,E2)。從N1中隨機(jī)選擇m個(gè)詞作為種子詞項(xiàng)集A,其中A取訓(xùn)練網(wǎng)絡(luò)與測(cè)試網(wǎng)絡(luò)中共同擁有的詞項(xiàng),即A∈N1∩N2。

      (1)在訓(xùn)練網(wǎng)絡(luò)G1中,以種子集A中的節(jié)點(diǎn)為起點(diǎn)提取其間接節(jié)點(diǎn),得到間接節(jié)點(diǎn)集C,計(jì)算所有關(guān)系鏈(A-Btrain-C)的NBW,對(duì)結(jié)果集C按NBW值從大到小排序,取有序結(jié)果集CNBW中前L個(gè)詞項(xiàng),得到CNBW-TopL={c1,c2,…cL};

      (2)在測(cè)試網(wǎng)絡(luò)G2中,以種子節(jié)點(diǎn)集A中的節(jié)點(diǎn)為起點(diǎn)提取其直接關(guān)聯(lián)節(jié)點(diǎn),得到關(guān)聯(lián)節(jié)點(diǎn)集Btest;

      (3)計(jì)算有序結(jié)果集CNBW前L個(gè)詞項(xiàng)集CNBW-TopL的準(zhǔn)確率P(Precision):

      其中,CNBW-TopL∩Btest指CNBW-TopL和Btest的交集,即共同擁有的詞項(xiàng),|CNBW-TopL∩Btest|為交集的節(jié)點(diǎn)數(shù)量,|Btest|指Btest集的節(jié)點(diǎn)數(shù)量。

      對(duì)于一個(gè)文獻(xiàn)知識(shí)發(fā)現(xiàn)系統(tǒng)來(lái)說(shuō),返回的候選結(jié)果的數(shù)量比較大時(shí),排在前面的結(jié)果通常是用戶最關(guān)心的。利用NBW對(duì)候選結(jié)果集從大到小排序之后,在有序的結(jié)果列表中,確保排序靠前的多是全局關(guān)聯(lián)強(qiáng)度較好的結(jié)果,即只關(guān)注于分值最高的前L條關(guān)系鏈(A-B-C)的準(zhǔn)確度P,P越大效果越好。

      1.4 傳統(tǒng)的計(jì)算指標(biāo)

      (1)平均最小權(quán)重(Average Minimum Weight, AMW):

      AMW(A-B-C)=min(MIM(A,B),MIM(B,C))

      其中n是A與C共同包含的中間詞項(xiàng)B的數(shù)量,AB、BC的互信息計(jì)算MIM (Mutual Information Measure)[8]為:

      其中,Pmn是詞項(xiàng)m與n在同一個(gè)句子共現(xiàn)的概率,Pm與Pn分別是詞項(xiàng)m與n在所有句子中出現(xiàn)的概率。

      (2)絕對(duì)詞頻(Absolute Word Frequency,AWF):

      AWF(A-B-C)=min(W(A,B),W(B,C))

      其中w(x,y)分別為x與y的共現(xiàn)次數(shù)。

      (3)相對(duì)詞頻(Relative Word Frequency, RWF):

      RWF(A-B-C)=min(F(A,B),F(B,C))

      其中F(x,y)分別為x與y的頻率,其計(jì)算公式如下:

      其中w(x)、w(y)是指在預(yù)設(shè)的知識(shí)庫(kù)中x、y出現(xiàn)的次數(shù),w(x,y)是x,y共現(xiàn)的次數(shù)。

      2 數(shù)據(jù)測(cè)試

      2.1 數(shù)據(jù)準(zhǔn)備

      以關(guān)鍵詞“miRNA or MicroRNA”從PubMed中檢索得到51 118條結(jié)果,取標(biāo)題數(shù)據(jù),基于句子水平共現(xiàn)的方法,提取兩個(gè)概念間的關(guān)聯(lián)信息,將關(guān)聯(lián)的共現(xiàn)頻數(shù)作為邊的權(quán)重,構(gòu)建關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)[9]。關(guān)聯(lián)提取的基本步驟如下。

      第一步,根據(jù)自然語(yǔ)言處理的方法識(shí)別出句子的實(shí)體NP及其位置,

      第二步,如果在同一個(gè)句子中得到的實(shí)體按其在句子中的順序依次為NP1、NP2、NP3,則得到關(guān)聯(lián):(NP1,NP2),(NP1,NP3),(NP2,NP3)。

      例如:文獻(xiàn)標(biāo)題(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice. 提取得到實(shí)體及其位置的列表為:

      [(β1-syntrophin modulation, 1),(miR-222, 4),(mdx mouse, 6)]

      進(jìn)一步得到關(guān)聯(lián):(β1-syntrophin modulation, miR-222 ),(β1-syntrophin modulation , mdx mouse),( miR-222, mdx mouse)。

      這里直接利用自然語(yǔ)言處理的方法,從文獻(xiàn)中提取以名詞短語(yǔ)為基礎(chǔ)的概念實(shí)體,不針對(duì)特定的生物醫(yī)學(xué)實(shí)體,不但能提取到關(guān)鍵詞,而且能夠盡量多收集到文獻(xiàn)中出現(xiàn)的實(shí)體,以滿足通用性和覆蓋率的要求。

      以2012年作為時(shí)間分割點(diǎn),將2002-2012年的數(shù)據(jù)作為訓(xùn)練集,2013-2015年的數(shù)據(jù)作為測(cè)試集,得到訓(xùn)練網(wǎng)絡(luò)G1包含節(jié)點(diǎn)20998,邊102363;測(cè)試網(wǎng)絡(luò)G2包含節(jié)點(diǎn)28325,邊130369。隨機(jī)選擇m=50個(gè)詞作為種子詞集。

      2.2 與傳統(tǒng)計(jì)算指標(biāo)的比較

      在給定的測(cè)試數(shù)據(jù)集上,比較NBW指標(biāo)與傳統(tǒng)指標(biāo)(AWF,RWF,AMW)的準(zhǔn)確率P。

      一是取 L=0.1,0.2,0.3,…,1,即取有序結(jié)果集CNBW前10%、20%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的詞項(xiàng)時(shí),計(jì)算得到準(zhǔn)確率P的結(jié)果(圖2)。

      二是進(jìn)一步取靠前的區(qū)間,取 L=0.01,0.02,0.03,…,0.1,即取有序結(jié)果集CNBW前1%、2%、3%、4%、5%、6%、7%、8%、9%、10%的詞項(xiàng)時(shí),計(jì)算得到準(zhǔn)確率P的結(jié)果(圖3)。

      綜合圖2、圖3的測(cè)試結(jié)果,可以發(fā)現(xiàn),如果兩個(gè)節(jié)點(diǎn)A與C之間存在關(guān)聯(lián)的假設(shè),是因?yàn)榇嬖谝粭l強(qiáng)關(guān)聯(lián)的ABC路徑,即A-B-C關(guān)聯(lián)越強(qiáng),A與C越可能存在有效的聯(lián)系。很明顯,對(duì)結(jié)果集進(jìn)行關(guān)聯(lián)置優(yōu)排序的應(yīng)用中,基于網(wǎng)絡(luò)模型方法NBW的準(zhǔn)確率比其他方法(AWF,RWF,AMW)表現(xiàn)較好,即在靠前的結(jié)果中按照NBW指標(biāo)置優(yōu)的關(guān)聯(lián)數(shù)量越多,準(zhǔn)確率越高。

      圖2 L=0.1,0.2,0.3,… ,1.0時(shí)準(zhǔn)確率P的比較

      圖3 L=0.01,0.02,0.03,…,0.1時(shí)準(zhǔn)確率P的比較

      雖然以上4種評(píng)價(jià)方法都可篩選出有用的潛在關(guān)聯(lián),但因?yàn)樽匀徽Z(yǔ)言描述的文獻(xiàn)文本中本身存在太多寬泛概念,如“cell”“gene”“miRNA”等,使其在具體關(guān)聯(lián)發(fā)現(xiàn)過(guò)程中反而無(wú)實(shí)際用途,導(dǎo)致不同評(píng)價(jià)方法都未能獲得很高的準(zhǔn)確率。因此,已有的很多文獻(xiàn)知識(shí)發(fā)現(xiàn)系統(tǒng)都進(jìn)一步提供預(yù)定義概念集進(jìn)行語(yǔ)義過(guò)濾,限定了幾類重要的生物概念實(shí)體,如基因、疾病、癥狀等,以便縮小用戶篩選的范圍。

      3 總結(jié)與討論

      本文通過(guò)引入網(wǎng)絡(luò)特征評(píng)價(jià)計(jì)算文獻(xiàn)知識(shí)發(fā)現(xiàn)中間接關(guān)聯(lián)的,從測(cè)試數(shù)據(jù)來(lái)看,整合網(wǎng)絡(luò)的結(jié)構(gòu)特征與共現(xiàn)統(tǒng)計(jì)的信息可以提高間接關(guān)聯(lián)評(píng)估的準(zhǔn)確性,更好地發(fā)現(xiàn)有效的ABC關(guān)系鏈。對(duì)于間接關(guān)聯(lián)的獲取,關(guān)系鏈中的中間節(jié)點(diǎn)具有及其重要的“橋”的作用;從網(wǎng)絡(luò)結(jié)構(gòu)上來(lái)看,節(jié)點(diǎn)的度可以直觀地表示出節(jié)點(diǎn)在全局中的權(quán)重,因?yàn)閮H僅從關(guān)鍵詞出現(xiàn)的頻率來(lái)判斷,哪些頻率很大的節(jié)點(diǎn)往往是一些寬泛的概念,而一些頻率較小的節(jié)點(diǎn)或關(guān)聯(lián)反而很可能表達(dá)出重要的意義。利用節(jié)點(diǎn)度的特征較好地對(duì)中間詞B的特征進(jìn)行了一定控制,如果結(jié)合語(yǔ)義過(guò)濾可能會(huì)發(fā)現(xiàn)一些更好的結(jié)果。

      然而,從測(cè)試數(shù)據(jù)的結(jié)果來(lái)看,A-B-C評(píng)價(jià)面臨的一個(gè)最大的瓶頸仍是因“噪聲”的關(guān)聯(lián)太多導(dǎo)致的整體準(zhǔn)確性不高,一是實(shí)體概念提取過(guò)程中存在很多寬泛的概念,二是大量已有關(guān)聯(lián)對(duì)于發(fā)現(xiàn)新的知識(shí)作用不大。因此,知識(shí)發(fā)現(xiàn)系統(tǒng)提供分步式交互,每一步通過(guò)友好的人工交互界面提供便捷的手工語(yǔ)義過(guò)濾的功能,一定程度可以提高知識(shí)發(fā)現(xiàn)的效率。

      猜你喜歡
      詞項(xiàng)關(guān)聯(lián)實(shí)體
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      自然種類詞項(xiàng)二難、卡茨解決與二維框架
      奇趣搭配
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      英語(yǔ)詞項(xiàng)搭配范圍及可預(yù)見(jiàn)度
      依據(jù)語(yǔ)篇中多層次信息的句法分析方法
      大家(2011年9期)2011-08-15 00:45:37
      阳春市| 乐亭县| 浙江省| 永济市| 久治县| 洪江市| 明光市| 绥江县| 康乐县| 顺昌县| 秦安县| 红桥区| 建湖县| 夹江县| 京山县| 南开区| 图木舒克市| 凤山市| 灌阳县| 潜山县| 曲沃县| 鄯善县| 广宁县| 民乐县| 滕州市| 临安市| 香格里拉县| 宁武县| 会理县| 白山市| 托里县| 上林县| 天水市| 新化县| 房山区| 兴业县| 阜城县| 綦江县| 北安市| 得荣县| 莱州市|