曹春萍 張 政
(上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院 上海 200093)
本體作為一個(gè)重要的語(yǔ)義描述系統(tǒng)和存儲(chǔ)工具被應(yīng)用到生物醫(yī)學(xué)領(lǐng)域。目前已開發(fā)的生物醫(yī)學(xué)本體是從各知識(shí)領(lǐng)域出發(fā),對(duì)事物的高度概括和總結(jié),可以提供各領(lǐng)域知識(shí)的相對(duì)全面、綜合性的標(biāo)準(zhǔn)化理解。本體對(duì)醫(yī)學(xué)知識(shí)概念的高度統(tǒng)一化和標(biāo)準(zhǔn)化,使得相關(guān)醫(yī)學(xué)本體經(jīng)常被應(yīng)用在疾病研究等方面,提供一致性的知識(shí)表示。但是,由于疾病的產(chǎn)生和發(fā)展往往具有綜合性,涉及到基因、環(huán)境、心理、體征表現(xiàn)、疾病相似性關(guān)聯(lián)等多方面的因素,來(lái)自單個(gè)領(lǐng)域的本體在疾病研究上難以全方面的準(zhǔn)確覆蓋。為此,將現(xiàn)有本體進(jìn)行融合就成為當(dāng)下生物醫(yī)學(xué)中研究的重點(diǎn)。
目前已有許多針對(duì)領(lǐng)域本體融合方法的研究。此類研究主要是從本體自身的語(yǔ)義和結(jié)構(gòu)上的相似性出發(fā),尋找概念間的映射關(guān)系,由局部本體向全局本體進(jìn)行融合的方法。這些融合方法大多通過(guò)語(yǔ)義匹配的方式消除本體間的異構(gòu)。但是,由于不同領(lǐng)域本體的復(fù)雜性不同,融合后的本體往往存在局限性大,準(zhǔn)確率不高等問(wèn)題。文獻(xiàn)[1]提出一種基于Mediator模式的融合機(jī)制,基于本體概念的語(yǔ)義相似度定義了多種本體映射類型,包括直接映射、包含映射和組合映射,并根據(jù)映射類型的不同建立了不同融合連接。改進(jìn)了傳統(tǒng)本體概念間進(jìn)行一對(duì)一映射的不足,但缺少了對(duì)語(yǔ)義不一致的考慮,并且在映射關(guān)聯(lián)的建立上并沒有給出可做傾向性選擇的權(quán)值參考,不利于融合后本體的應(yīng)用。文獻(xiàn)[2]提出了一種粒化理論的地理本體融合方法。運(yùn)用了形式概念分析地理本體,再引入粒計(jì)算,在不同粒度下通過(guò)約簡(jiǎn)概念格完成本體融合過(guò)程。此方法將形式概念分析與粒計(jì)算結(jié)合用于地理本體融合,打破傳統(tǒng)形式背景下的二值局限性,通過(guò)粒度劃分增加了問(wèn)題求解的靈活性。文獻(xiàn)[3]立足于領(lǐng)域本體的結(jié)構(gòu)特征,分析本體中術(shù)語(yǔ)層次結(jié)構(gòu)所包含的語(yǔ)義信息,提出基于屬性的計(jì)算模型。在本體結(jié)構(gòu)層次中求解概念間的最小不可約集,通過(guò)對(duì)語(yǔ)義模型引入調(diào)節(jié)因子,提高了領(lǐng)域概念的融合效率。使用語(yǔ)義度量的方式將概念之間的關(guān)系進(jìn)行加權(quán),同時(shí)利用本體層級(jí)關(guān)系中不同層次概念節(jié)點(diǎn)所表達(dá)的概念范疇的差別,將概念節(jié)點(diǎn)深度對(duì)于相似度的影響進(jìn)行了量化,在一定程度上提高了本體融合的準(zhǔn)確性。但在語(yǔ)義距離的計(jì)算過(guò)程中依然不能避免本體中語(yǔ)義異構(gòu)帶來(lái)的影響,并且在多領(lǐng)域本體融合過(guò)程中,各本體概念所在層級(jí)結(jié)構(gòu)信息對(duì)產(chǎn)生跨本體融合連接的作用較小。
還有一些研究借助WordNet等外部詞典工具[4-5]或者文檔信息進(jìn)行融合。如基于文獻(xiàn)的跨本體融合方法[6],提出了在不同文獻(xiàn)中匹配共出現(xiàn)的本體概念對(duì),并從文獻(xiàn)的語(yǔ)義描述中挖掘這些術(shù)語(yǔ)關(guān)聯(lián),從而建立本體之間的關(guān)聯(lián),形成跨領(lǐng)域間本體的融合。由于本體概念存在大量的不同實(shí)例,這會(huì)導(dǎo)致匹配效果不佳。同時(shí)在本體的關(guān)聯(lián)表達(dá)上,同樣是通過(guò)對(duì)文檔信息的描述分析做語(yǔ)義匹配。由于構(gòu)成文檔的語(yǔ)義描述信息來(lái)源復(fù)雜,即使進(jìn)行關(guān)鍵語(yǔ)義抽取后,也可能由于數(shù)據(jù)來(lái)源的專業(yè)領(lǐng)域不同而導(dǎo)致得到的關(guān)聯(lián)表達(dá)準(zhǔn)確度不高。
文獻(xiàn)[7]創(chuàng)新性地提出了一種非語(yǔ)義匹配的方式,使用機(jī)器學(xué)習(xí)的方法針對(duì)地理本體進(jìn)行融合。雖然提高了融合效率,但隨著融合規(guī)模的擴(kuò)大,概念空間也會(huì)異常復(fù)雜。本體融合方式主要是建立本體之間的映射關(guān)系,通過(guò)本體概念、實(shí)例及屬性之間語(yǔ)義匹配機(jī)制和映射方法,實(shí)現(xiàn)本體最小元素之間的相似對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)本體的最終融合[8]。因此還有許多研究是通過(guò)改進(jìn)概念間的相似性度量方法來(lái)提高本體融合的準(zhǔn)確性[9-13]。
生物醫(yī)學(xué)中的本體具有較高的多樣性和復(fù)雜性,使得通過(guò)對(duì)生物醫(yī)學(xué)本體的融合以實(shí)現(xiàn)知識(shí)復(fù)用變得困難。對(duì)此,不同于上述由局部向全局進(jìn)行本體融合的一般方式,在生物醫(yī)學(xué)界一般通過(guò)對(duì)重要本體的融合,為相關(guān)問(wèn)題的解決提供多方位的信息支持。
GO、DO和HPO三個(gè)本體在疾病研究上的重要作用是在基因互作、疾病關(guān)聯(lián)、病癥表現(xiàn)三個(gè)方面提供通用的一致性知識(shí)表示,便于不同領(lǐng)域?qū)<覍?duì)疾病研究達(dá)成共同的理解。為此,將其進(jìn)行融合后得到的標(biāo)準(zhǔn)化信息對(duì)病因的多方位研究幫助也會(huì)比較大。所以不少學(xué)者對(duì)其進(jìn)行了相關(guān)研究。文獻(xiàn)[6]通過(guò)本體概念在文獻(xiàn)中的映射關(guān)系實(shí)現(xiàn)GO與DO的本體融合,但其研究側(cè)重點(diǎn)在于使用豐富的文獻(xiàn)信息增加跨本體間的術(shù)語(yǔ)關(guān)聯(lián)表達(dá)。在文獻(xiàn)[16]中,提出了在HPO中基于通路的相似度計(jì)算方法,通過(guò)與基因網(wǎng)絡(luò)的結(jié)合來(lái)進(jìn)行疾病和致病基因的預(yù)測(cè)。這類研究中大多是對(duì)本體之間的關(guān)聯(lián)進(jìn)行擴(kuò)展,并逐步通過(guò)相關(guān)數(shù)據(jù)的集成與本體數(shù)據(jù)進(jìn)行融合。這種方式?jīng)]有達(dá)到真正意義上的知識(shí)融合以形成標(biāo)準(zhǔn)化的共同理解。并且準(zhǔn)確率和融合效率一般不高。而目前針對(duì)多個(gè)核心本體的整體融合研究也相對(duì)較少。
本文在GO、DO、HPO三個(gè)核心領(lǐng)域本體融合研究中,采用以兩兩本體融合最終達(dá)到整體融合的方式進(jìn)行。由于融合方法是一致的,所以本文主要以GO與DO本體的融合為例進(jìn)行論述,同樣方法以建立DO與HPO的融合。通過(guò)對(duì)基因本體GO與疾病本體DO的組織結(jié)構(gòu)和內(nèi)容描述進(jìn)行分析,以本體的參考數(shù)據(jù)來(lái)源為切入點(diǎn),挖掘與當(dāng)前領(lǐng)域本體關(guān)聯(lián)緊密的相關(guān)生物網(wǎng)絡(luò)數(shù)據(jù)做非語(yǔ)義匹配。匹配過(guò)程中建立了本體注釋信息的基因字典樹,并改進(jìn)相關(guān)匹配算法,提出了基于本體參考數(shù)據(jù)的生物醫(yī)學(xué)本體融合模型。
為了解決由于本體異構(gòu)導(dǎo)致的“信息孤島”問(wèn)題,我們建立跨領(lǐng)域本體之間的融合連接,并在融合過(guò)程中盡可能規(guī)避繁瑣的語(yǔ)義匹配過(guò)程,給出了基于本體參考數(shù)據(jù)的本體融合模型(如圖1所示)。在現(xiàn)有本體基礎(chǔ)上,引入領(lǐng)域相關(guān)性較強(qiáng)的生物網(wǎng)絡(luò)數(shù)據(jù),將傳統(tǒng)跨本體間的概念語(yǔ)義匹配問(wèn)題轉(zhuǎn)化為基因功能相關(guān)性表達(dá)的問(wèn)題,簡(jiǎn)化融合過(guò)程,同時(shí)提高融合結(jié)果的準(zhǔn)確性。
圖1 模型
基于上述思想,多維度本體融合過(guò)程為:
1) 通過(guò)本體術(shù)語(yǔ)的參考數(shù)據(jù)源挖掘相關(guān)本體注釋的生物網(wǎng)絡(luò)數(shù)據(jù)。這里使用帶有GO與DO本體注釋信息的人類基因網(wǎng)絡(luò)數(shù)據(jù)(如圖2所示)。同理與HPO本體融合過(guò)程中使用HPO本體注釋的基因功能網(wǎng)絡(luò)數(shù)據(jù)。
(a) 基于GO標(biāo)注的人類基因網(wǎng)絡(luò)(N1) (b) 人類疾病與其致病基因關(guān)聯(lián)的敘詞表(N2)圖2 人類基因網(wǎng)絡(luò)數(shù)據(jù)
2) 跨本體間術(shù)語(yǔ)關(guān)聯(lián)表達(dá)使用本體相關(guān)生物網(wǎng)絡(luò)中的基因做非語(yǔ)義匹配建立。這里通過(guò)N1與N2中的基因功能相關(guān)性表達(dá),確定不同本體術(shù)語(yǔ)之間的關(guān)聯(lián)關(guān)系,并定性分析和量化這種關(guān)聯(lián)。
使用不同本體注釋的基因功能網(wǎng)絡(luò),可以通過(guò)基因之間相等或相似的匹配來(lái)建立跨本體間的融合連接。并且,基因相關(guān)性表達(dá)的結(jié)果在一定程度上也影響著融合后本體的可檢索能力。所以,我們對(duì)基因之間的關(guān)聯(lián)從定性和定量?jī)煞矫孢M(jìn)行了分析和研究。定性分析在粗粒度上確定本體之間融合連接的類型,而定量分析則在細(xì)粒度上區(qū)分關(guān)聯(lián)性的強(qiáng)弱。這樣,融合后的本體更具應(yīng)用性,本體的融合研究才具有意義。
首先,根據(jù)基因相關(guān)性計(jì)算方法不同,我們給出了兩種關(guān)聯(lián)表示方法:(1) 顯性關(guān)聯(lián)表示;(2) 隱性關(guān)聯(lián)表示。顯性關(guān)聯(lián)可以提高不同本體術(shù)語(yǔ)關(guān)聯(lián)的準(zhǔn)確性和可靠性,隱性關(guān)聯(lián)則允許在一定誤差(基因功能網(wǎng)絡(luò)權(quán)重)下可接受的術(shù)語(yǔ)關(guān)聯(lián)。這些隱性關(guān)聯(lián)有助于產(chǎn)生新的生物關(guān)系猜想。為有價(jià)值的生物學(xué)發(fā)現(xiàn)提供有利基礎(chǔ)。
定義1顯性關(guān)聯(lián):找到完全相同的基因使用不同本體術(shù)語(yǔ)注釋,從而確定不同本體術(shù)語(yǔ)間關(guān)聯(lián)。
定義2隱性關(guān)聯(lián):借助基因功能網(wǎng)絡(luò)[14],通過(guò)基因功能相似性找到不同本體注釋術(shù)語(yǔ),從而確定不同本體術(shù)語(yǔ)間關(guān)聯(lián)。
其次,借助基因功能網(wǎng)絡(luò)中的基因功能相似權(quán)重系數(shù),分別量化得到的每種關(guān)聯(lián)關(guān)系。由于顯性關(guān)聯(lián)是通過(guò)基因匹配的方式得到,即相同的基因注釋不同本體術(shù)語(yǔ),所以通過(guò)基因相關(guān)性衡量術(shù)語(yǔ)相關(guān)性的權(quán)重系數(shù)wx=1。而隱形關(guān)聯(lián)是通過(guò)計(jì)算不同基因之間的功能相似性來(lái)確定術(shù)語(yǔ)之間的相似性得來(lái),所以權(quán)重系數(shù)為計(jì)算得到,數(shù)值范圍在wx∈(0,1)。特別地,當(dāng)基因不存在基因功能網(wǎng)絡(luò)NET中時(shí),權(quán)重wx=0。gi和gj分別為注釋不同本體術(shù)語(yǔ)的基因。ti和tj為不同本體中的術(shù)語(yǔ),如下所示:
(1)
2.2.1 顯性關(guān)聯(lián)表示:使用本體術(shù)語(yǔ)注釋的基因集做等價(jià)匹配
本體中的每個(gè)術(shù)語(yǔ)包含一到多個(gè)注釋基因,大量的基因匹配過(guò)程會(huì)造成較高的時(shí)空開銷,所以我們借鑒了AC自動(dòng)機(jī)的思想[15]來(lái)降低暴力匹配過(guò)程中的時(shí)間復(fù)雜度。該匹配算法可以對(duì)于給定長(zhǎng)度為n的文本和模式集合p{p1,p2,…,pm},在O(n)時(shí)間復(fù)雜度內(nèi),找到文本中的所有目標(biāo)模式,而與模式集合的規(guī)模m無(wú)關(guān)。即我們?cè)诮⒈倔w術(shù)語(yǔ)間的關(guān)聯(lián)表達(dá)時(shí),可以較大程度地忽略掉基因模式的增加給基因匹配效率帶來(lái)的負(fù)擔(dān),從而達(dá)到我們通過(guò)基因的等價(jià)匹配來(lái)實(shí)現(xiàn)跨本體術(shù)語(yǔ)關(guān)聯(lián)映射的目的。
具體構(gòu)造過(guò)程可以分為兩個(gè)階段:
1) 構(gòu)造基因字典樹。將每種基因逐個(gè)字符插入到字典樹中,從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的任意一條路徑構(gòu)成一個(gè)完整的基因表示并對(duì)應(yīng)所注釋的本體術(shù)語(yǔ)表示碼。最終構(gòu)建的字典樹如圖3所示。
圖3 基因字典樹(Gene Trie)
字典樹構(gòu)建過(guò)程:從唯一的根節(jié)點(diǎn)q0開始,從基因集合p={p1,p2,…,pz}中,逐一插入pi(1≤i≤z),并盡可能沿著當(dāng)前基因pi中字符順序路徑進(jìn)行,如果pi在狀態(tài)節(jié)點(diǎn)q(q∈Q)中止,在q節(jié)點(diǎn)下標(biāo)記作為pi標(biāo)識(shí)符。如圖3所示,我們將用于描述每個(gè)基因的GO術(shù)語(yǔ)集合(集合中使用GO術(shù)語(yǔ)的表示碼)作為當(dāng)前基因模式的標(biāo)識(shí)符;如果在pi中所有字符使用完之前中止,則繼續(xù)以pi中剩下的字符作為路徑進(jìn)行插入新的狀態(tài)節(jié)點(diǎn)。
完成根節(jié)點(diǎn)的轉(zhuǎn)移函數(shù)g,如果a∈Σ并且不是根節(jié)點(diǎn)q0出來(lái)的字符路徑上的字符,那么g(0,a)=0。(即q0初始狀態(tài))
2) 完成f失配轉(zhuǎn)移函數(shù)。這個(gè)函數(shù)在字典樹上以廣度優(yōu)先的方式得到。當(dāng)計(jì)算經(jīng)過(guò)一個(gè)字符路徑a的狀態(tài)節(jié)點(diǎn)的f函數(shù)值時(shí),并假設(shè)比當(dāng)前節(jié)點(diǎn)更靠近根節(jié)點(diǎn)的f函數(shù)值已經(jīng)計(jì)算得到。當(dāng)發(fā)生失配時(shí),回溯到當(dāng)前狀態(tài)節(jié)點(diǎn)的父親節(jié)點(diǎn)的f函數(shù)值所指的狀態(tài)節(jié)點(diǎn),直到當(dāng)前狀態(tài)節(jié)點(diǎn)到它的每個(gè)直接子節(jié)點(diǎn)的字符路徑有a的時(shí)候,f函數(shù)值為此狀態(tài)節(jié)點(diǎn)。如果一直到根節(jié)點(diǎn)都沒有找到,那f函數(shù)值為0。
本文在算法實(shí)現(xiàn)中f失配函數(shù)的構(gòu)建中不同于傳統(tǒng)AC自動(dòng)機(jī)失配函數(shù)在普通連續(xù)字符串中的構(gòu)建方式。因?yàn)楸硎净虻淖址怯行蛞惑w的,并且基因的字符表示有可能存在包含和被包含的關(guān)系,所以在構(gòu)建失配函數(shù)時(shí),不能按最長(zhǎng)公共前后綴的方式進(jìn)行失配轉(zhuǎn)移。如圖4所示,當(dāng)狀態(tài)7發(fā)生失配時(shí),失配指針由父節(jié)點(diǎn)指向值為13的狀態(tài)節(jié)點(diǎn)繼續(xù)匹配可能存在的基因IF。但即使匹配成功,由于從根節(jié)點(diǎn)沿字符路徑進(jìn)行匹配的基因CIF只是包含了基因IF,所以不能將IF的GO注釋作為CIF的注釋。
圖4 傳統(tǒng)的失配轉(zhuǎn)移
因?yàn)槭腔诨虻牡葍r(jià)匹配方式,所以基因字典樹通過(guò)BFS搜索發(fā)生失配時(shí),從基因表示的整體性上考慮,只回溯到當(dāng)前失配狀態(tài)節(jié)點(diǎn)的父節(jié)點(diǎn)(已完成匹配),不再進(jìn)行當(dāng)前基因pi的匹配搜索,而是根據(jù)pi中下一個(gè)字符增加新的狀態(tài)節(jié)點(diǎn)形成新的基因表示以完成第一節(jié)階段基因字典樹的動(dòng)態(tài)擴(kuò)充(如圖5所示)。其實(shí)質(zhì)是不同本體參考數(shù)據(jù)所構(gòu)成的基因字典樹的疊加,最終構(gòu)成一顆多本體術(shù)語(yǔ)注釋的基因字典樹,增加生物醫(yī)學(xué)領(lǐng)域中其他跨本體術(shù)語(yǔ)關(guān)聯(lián)映射的可能。
圖5 基因字典樹動(dòng)態(tài)擴(kuò)充
實(shí)驗(yàn)過(guò)程中,改進(jìn)的匹配算法將GO標(biāo)注的人類基因網(wǎng)絡(luò)中的基因在人類疾病和致病基因網(wǎng)絡(luò)中進(jìn)行匹配,立起跨本體術(shù)語(yǔ)間的顯性關(guān)聯(lián)關(guān)系。同時(shí),基因字典樹的建立也促使了多領(lǐng)域本體進(jìn)行融合的可能性。
2.2.2 隱性關(guān)聯(lián)表示:使用基于基因功能關(guān)聯(lián)網(wǎng)絡(luò)的CroGO[14]算法進(jìn)行匹配關(guān)聯(lián)
定義3基因功能網(wǎng)絡(luò)(如圖6所示):基因功能網(wǎng)絡(luò)是一個(gè)基因功能概率網(wǎng)絡(luò)?;蚬δ芫W(wǎng)絡(luò)利用了一個(gè)改進(jìn)后的貝葉斯模型,整合了不同類型的生物網(wǎng)絡(luò),網(wǎng)絡(luò)中的節(jié)點(diǎn)代表基因,邊代表基因之間的功能關(guān)聯(lián),而邊的權(quán)重為通過(guò)貝葉斯統(tǒng)計(jì)模型計(jì)算得到的對(duì)數(shù)似然得分。如果兩個(gè)基因的對(duì)數(shù)似然得分為0,表示兩基因之間因?yàn)楣δ芟嚓P(guān)性而匹配的可能性不會(huì)比隨機(jī)匹配的幾率高。構(gòu)建基因功能關(guān)聯(lián)網(wǎng)絡(luò)的方法,最早由Lee等于2004年提出。
圖6 基因功能網(wǎng)絡(luò)(NET)示例
定義4直接功能距離:在基因網(wǎng)絡(luò)中任意兩個(gè)基因節(jié)點(diǎn)之間不經(jīng)過(guò)其他任何基因節(jié)點(diǎn)而直接相連,則這條邊上的權(quán)值作為這兩個(gè)基因節(jié)點(diǎn)之間的直接功能距離。
本文使用基因功能網(wǎng)絡(luò)找到與N2中每種疾病的致病基因關(guān)聯(lián)性強(qiáng)的基因集并借助N1通過(guò)CroGO算法計(jì)算得到GO與DO術(shù)語(yǔ)的隱性關(guān)聯(lián)。使用z-score(標(biāo)準(zhǔn)分?jǐn)?shù))作為閾值,通過(guò)調(diào)整合適的閾值大小,確定隱性關(guān)聯(lián)強(qiáng)度。
(2)
式中:x為致病基因到相近基因的功能關(guān)聯(lián)權(quán)值,μ表示與致病基因相近基因所有權(quán)值的平均值,σ表示所有基因功能關(guān)聯(lián)權(quán)值的方差。
不同本體術(shù)語(yǔ)隱性關(guān)聯(lián)關(guān)系的確定過(guò)程同樣需要經(jīng)過(guò)兩個(gè)階段完成:
1) 使用人類基因功能網(wǎng)絡(luò)NET,通過(guò)基因功能的相似性發(fā)現(xiàn)N2中使用DO標(biāo)注的術(shù)語(yǔ)t1對(duì)應(yīng)的致病基因集G1的相近基因集Gsim。
(1) 致病基因gi∈G并且gi存在于基因功能網(wǎng)絡(luò)NET中,則可以找到與基因gi存在直接功能距離的基因集合Ggi。如圖6所示,假如g3為致病基因,則與g3存在直接功能距離的基因集合Gg3={g1,g7,g6}。
(2) 使用標(biāo)準(zhǔn)分篩選基因集和Ggi中功能相關(guān)性較強(qiáng)的基因集Gsim?;蚬δ芫嚯x越小則基因功能相關(guān)性越低,基因功能距離越大則基因功能相關(guān)性越高。使用z-score作為閾值進(jìn)行篩選,在平均數(shù)之上會(huì)得到一個(gè)正的標(biāo)準(zhǔn)分?jǐn)?shù),在平均數(shù)之下會(huì)的到一個(gè)負(fù)的標(biāo)準(zhǔn)分?jǐn)?shù)。所以,正的標(biāo)準(zhǔn)分?jǐn)?shù)代表基因功能距離大于與當(dāng)前致病基因gi所有直接功能相關(guān)基因功能距離的平均值(即功能相關(guān)性越高);負(fù)的標(biāo)準(zhǔn)分?jǐn)?shù)代表基因功能距離小于與當(dāng)前致病基因gi所有直接功能相關(guān)基因功能距離的平均值(即功能相關(guān)性越低)。
在生物醫(yī)學(xué)上,與致病基因存在直接功能距離,即存在相關(guān)性的基因都可能影響當(dāng)前疾病的產(chǎn)生和發(fā)展。即使相似性很低,但存在就有一定的可能性,而這種低的可能性的保留可以針對(duì)疾病的深入研究提供更多可考量的方面和探索方向。但本文研究重點(diǎn)在于給出更精準(zhǔn)和重要的分子水平描述依據(jù),所以需要通過(guò)標(biāo)準(zhǔn)分?jǐn)?shù)篩選出重要的相似基因集。在圖6中,通過(guò)計(jì)算可以得到g3的功能相關(guān)性較強(qiáng)的基因集Gsim={g1}。
2) 使用CroGO算法[14]計(jì)算本體術(shù)語(yǔ)之間的關(guān)聯(lián)權(quán)值。
(1) 根據(jù)GO本體標(biāo)注的基因網(wǎng)絡(luò)找到Gsim基因集的基因子集,記作G2(G2??),每個(gè)子集G2唯一對(duì)應(yīng)GO本體中的一條術(shù)語(yǔ)t2。
(2) 計(jì)算基因G1和G2的關(guān)聯(lián)性,得到t1和t2的術(shù)語(yǔ)相似度sim(t1,t2)作為隱性關(guān)聯(lián)強(qiáng)度?;趥鹘y(tǒng)的衡量?jī)蓚€(gè)集合關(guān)聯(lián)關(guān)系的方法交集比并集。在功能網(wǎng)絡(luò)NET中,節(jié)點(diǎn)表示基因,邊表示基因之間的功能相互作用,每條邊的權(quán)重表示兩個(gè)基因之間存在的功能相關(guān)可能性。兩個(gè)基因集合G1和G2的功能相關(guān)性可以通過(guò)公式計(jì)算得到。公式如下:
(3)
式中:|X|表示集合X的大小,G1∪G2表示集合G1和G2的并集,f(G1,G2)表示兩個(gè)集合的差集,由公式計(jì)算得到:
(4)
根據(jù)基因集合G1和G2計(jì)算基因本體術(shù)語(yǔ)t1和疾病本體術(shù)語(yǔ)t2相似性,計(jì)算公式如下所示:
(5)
式中:GSA(G1,G2)由式(3)得到,Gt1和Gt2表示t1和t2所注釋的所有基因的組合。
實(shí)驗(yàn)環(huán)境配置:算法實(shí)現(xiàn)使用Python(v3.6.1)和MATLAB。服務(wù)器采用4 GB內(nèi)存,50 GB硬盤。
為了驗(yàn)證所提方法的表示精度,以及在生物醫(yī)學(xué)上的表現(xiàn)效果。我們分別從KEGG(京都基因與基因組百科全書)、Rectome(人類生物學(xué)反應(yīng)及信號(hào)通路數(shù)據(jù)庫(kù))中得到人類疾病與致病基因數(shù)據(jù),包含使用GO(基因本體)標(biāo)注的人類基因9 699條和使用DO(疾病本體)標(biāo)注的人類疾病1 858種進(jìn)行實(shí)驗(yàn)驗(yàn)證。
本體選擇GO基因本體和DO疾病本體作為待融合本體。GO基因本體中選擇GO術(shù)語(yǔ)總數(shù)為42 716條,選擇DO本體術(shù)語(yǔ)總數(shù)為6 878條。由于所選擇相關(guān)生物網(wǎng)絡(luò)種類的影響,并不能將本體全部術(shù)語(yǔ)信息進(jìn)行覆蓋。這里選擇人類相關(guān)生物網(wǎng)絡(luò)做實(shí)驗(yàn)驗(yàn)證。
為了驗(yàn)證本文所述的跨本體術(shù)語(yǔ)關(guān)聯(lián)算法的計(jì)算過(guò)程以及本體融合效果,實(shí)驗(yàn)過(guò)程主要從術(shù)語(yǔ)關(guān)聯(lián)精度上進(jìn)行了驗(yàn)證。并與同樣是對(duì)GO與DO本體進(jìn)行融合研究的基于文獻(xiàn)的跨本體術(shù)語(yǔ)關(guān)聯(lián)算法ARSS[6]進(jìn)行了比較。
實(shí)驗(yàn)一通過(guò)本文所述方法,對(duì)基因本體術(shù)語(yǔ)和疾病本體術(shù)語(yǔ)進(jìn)行關(guān)聯(lián)計(jì)算,并得到相應(yīng)的關(guān)聯(lián)權(quán)值對(duì)關(guān)聯(lián)術(shù)語(yǔ)對(duì)進(jìn)行了定量的分析。通過(guò)多樣本測(cè)試獲得的調(diào)整的p-value[6]計(jì)算所找到的關(guān)聯(lián),通過(guò)比較本文方法與ARSS方法獲取的相關(guān)術(shù)語(yǔ)對(duì)是否存在統(tǒng)計(jì)上的顯著性,來(lái)驗(yàn)證術(shù)語(yǔ)關(guān)聯(lián)的精度,即驗(yàn)證本體融合方法的精度。
(6)
式中:N是全部的基因數(shù)目;M和K分別表示疾病術(shù)語(yǔ)和基因本體術(shù)語(yǔ)相關(guān)的基因數(shù)目。X是疾病術(shù)語(yǔ)和基因術(shù)語(yǔ)共同的基因數(shù)目;C(N,K)是從N中選取K的組合。得到的pvalue最終進(jìn)行了假陽(yáng)性檢驗(yàn)。
如表1所示,分別使用本文方法和ARSS方法對(duì)疾病本體和基因本體的術(shù)語(yǔ)關(guān)聯(lián)對(duì)進(jìn)行了識(shí)別,并從1 000、3 000、5 000(識(shí)別的術(shù)語(yǔ)對(duì)約數(shù))的遞增序列來(lái)進(jìn)行具有統(tǒng)計(jì)上的顯著性的術(shù)語(yǔ)對(duì)的識(shí)別效果的比較。
表1 本文方法與ARSS方法識(shí)別跨本體術(shù)語(yǔ)對(duì)數(shù)目
通過(guò)兩種方法在找到的跨本體間的術(shù)語(yǔ)關(guān)聯(lián)中,本文方法識(shí)別出的具有統(tǒng)計(jì)上顯著性的術(shù)語(yǔ)關(guān)聯(lián)對(duì)數(shù)目明顯高于ARSS識(shí)別出的術(shù)語(yǔ)對(duì)(圖7),所以本文方法在識(shí)別精度上有一定的提高。并且由于本體參考來(lái)源數(shù)據(jù)對(duì)術(shù)語(yǔ)對(duì)有較高的領(lǐng)域數(shù)據(jù)貼合性,所以隨著術(shù)語(yǔ)對(duì)的梯度增加,識(shí)別出具有統(tǒng)計(jì)上的顯著性的術(shù)語(yǔ)對(duì)對(duì)數(shù)也呈線性增加。
圖7 本文方法與ARSS方法對(duì)存在統(tǒng)計(jì)上的顯著性的跨本體術(shù)語(yǔ)對(duì)的識(shí)別驗(yàn)證結(jié)果
實(shí)驗(yàn)二使用本文所述方法進(jìn)行跨領(lǐng)域本體融合結(jié)果(部分)。
表2和表3中分別給出了不同本體術(shù)語(yǔ)間通過(guò)顯隱性關(guān)聯(lián)表達(dá)得到的部分融合連接。以疾病本體中的術(shù)語(yǔ)概念“精神分裂癥”為例,通過(guò)基因功能匹配分別得到與GO和HPO本體中若干術(shù)語(yǔ)的關(guān)聯(lián)映射,并給出關(guān)聯(lián)權(quán)值W。其中,作用基因是不同本體術(shù)語(yǔ)之間映射建立的連接點(diǎn),權(quán)重代表通過(guò)基因相關(guān)性表達(dá)所建立的融合連接強(qiáng)度。相比通過(guò)語(yǔ)義匹配建立的關(guān)聯(lián),通過(guò)作用基因的相關(guān)性表達(dá)得到的關(guān)聯(lián)更具有確定性和傾向性,提高融合后本體的應(yīng)用能力。連接點(diǎn)表達(dá)了融合連接的方式和性質(zhì),而連接強(qiáng)度以量化的方式給出了跨本體知識(shí)檢索中術(shù)語(yǔ)關(guān)聯(lián)選擇的傾向。
表2 GO、DO本體融合結(jié)果(部分)
表3 DO、HPO本體融合結(jié)果(部分)
本體為各領(lǐng)域知識(shí)提供可共享的理解,在語(yǔ)義網(wǎng)的設(shè)計(jì)中起到關(guān)鍵性作用,一定程度上決定著語(yǔ)義網(wǎng)中元素具有的語(yǔ)義能力、語(yǔ)義正確性和推理能力,是語(yǔ)義網(wǎng)建設(shè)的堅(jiān)實(shí)數(shù)據(jù)基礎(chǔ)。融合后的特定領(lǐng)域本體可以提供多維度的知識(shí)理解,形成更廣泛的知識(shí)表達(dá),是本體在語(yǔ)義網(wǎng)絡(luò)中發(fā)揮重要作用的延伸。本文提出了生物醫(yī)學(xué)領(lǐng)域的本體融合模型,通過(guò)挖掘不同本體的來(lái)源數(shù)據(jù)和相關(guān)生物網(wǎng)絡(luò)數(shù)據(jù),再通過(guò)定性分析,形成領(lǐng)域內(nèi)多本體之間概念的量化關(guān)聯(lián),最終達(dá)到融合目的。經(jīng)實(shí)驗(yàn)驗(yàn)證,該融合模型具有的一定的準(zhǔn)確性和魯棒性。