周玉新
(內(nèi)蒙古民族大學計算機科學與技術(shù)學院,內(nèi)蒙古 通遼 028000)
生物醫(yī)學文獻中的蛋白質(zhì)相互作用抽取研究
周玉新
(內(nèi)蒙古民族大學計算機科學與技術(shù)學院,內(nèi)蒙古 通遼 028000)
在最近幾十年中,生物醫(yī)學取得了令人矚目的巨大發(fā)展,涌現(xiàn)出了大量實驗性和可計算生物醫(yī)學數(shù)據(jù),同事,相關(guān)的生物醫(yī)學文獻呈現(xiàn)出了指數(shù)增長。同時,科學界一直對利用文本挖掘工具發(fā)現(xiàn)諸如蛋白質(zhì)關(guān)系等對特定分析任務(wù)相關(guān)和有用的知識有巨大的興趣。本文提供了一個生物醫(yī)學領(lǐng)域蛋白質(zhì)相互作用發(fā)現(xiàn)的一個基本輪廓,同時討論了該領(lǐng)域進一步發(fā)展所面臨的挑戰(zhàn),并且討論了可能的解決方案。
生物醫(yī)學文獻;蛋白質(zhì)相互作用;信息抽取
在后基因組時代,蛋白質(zhì)被認為是復雜蛋白質(zhì)作用網(wǎng)絡(luò)中的重要因素,蛋白質(zhì)—蛋白質(zhì)作用(PPI)在細胞的結(jié)構(gòu)性和功能性組織的各個方面發(fā)揮著關(guān)鍵作用,關(guān)于PPI的知識揭示了生物過程的分子機制。然而,這類知識大部分隱藏在已發(fā)表文獻、科技期刊、書籍和技術(shù)報告中。迄今為止,超過1600萬此類文章的引用可以在MEDLINE數(shù)據(jù)庫中獲得,并且還建立了許多數(shù)據(jù)庫以存儲關(guān)于PPI信息的各種類型。然而,為了確保數(shù)據(jù)得正確性,這些數(shù)據(jù)庫中的數(shù)據(jù)主要是以手工采集的,但也因此限制了將純文本信息轉(zhuǎn)換為結(jié)構(gòu)信息的速度。
目前,已經(jīng)開發(fā)了很多系統(tǒng)來進行PPI信息的抽取,這些系統(tǒng)一般需要包括分區(qū)模塊、蛋白質(zhì)名稱識別模塊、PPI抽取模塊和可視化模塊等三到四個模塊。分區(qū)模塊主要將文檔劃分為基本的塊;蛋白質(zhì)名稱識別模塊主要用于蛋白質(zhì)名稱的識別;PPI抽取模塊則是系統(tǒng)的最主要環(huán)節(jié);而可視化模塊雖不像前三個模塊那樣關(guān)鍵,但是它為用戶提供了一個友好的接口從而允許用戶可以深入研究所抽取的知識
為了評估一個信息抽取系統(tǒng)的性能,通常采用的評估指標主要有正確率、召回率和F值,它們的定義如下:
正確率=識別出的正確實體數(shù)/識別出的實體數(shù);召回率=識別出的正確實體數(shù)/樣本中的實體數(shù)。
兩者的取值都在0和1之間,數(shù)值越接近1,正確率或召回率就越高。在實際應用中需要綜合考慮它們的加權(quán)調(diào)和平均值,也就是F值,其中最常用的F1值,當F1值較高時說明試驗方法比較有效。F1值定義如下:
F1值=(2*正確率*召回率)/(正確率+召回率)
本文側(cè)重于PPI抽取模塊,對現(xiàn)有方法進行了簡單綜述。通常,現(xiàn)有的方法依賴于一個或多個領(lǐng)域的技術(shù),包括信息檢索、機器學習、自然語言處理、信息抽取和文本挖掘等。早期的所用的方法主要依賴于命名實體共現(xiàn)和模式匹配,而后期則主要采用可以處理復雜句子中關(guān)系的可計算語言學技術(shù)。
通常,現(xiàn)有的方法可以被分為三類:基于計算語言學的方法、基于規(guī)則的方法和基于機器學習和統(tǒng)計的方法。
2.1 基于計算語言學的方法
基于計算語言學的方法采用語言學技術(shù)從句子中提取語法結(jié)構(gòu)或語義。在這種方法中,首先對語料庫進行解析以獲取每個句子的形態(tài)學和句法信息,在這之后才能完成識別PPI信息等復雜的任務(wù)。然而,對生物學領(lǐng)域中的非結(jié)構(gòu)化文本進行解析是非常困難的。
這類方法可以根據(jù)所采用語言學方法的復雜性進一步劃分為淺解析或深解析。淺解析執(zhí)行句子結(jié)構(gòu)的部分解析,它旨在通過犧牲分析的完整性和深度來從文本中高效可靠地提取句法信息。它首先將句子分為非重疊塊,接著抽取塊間的局部依賴而不重建整個句子結(jié)構(gòu)。淺解析在捕獲一個句子實體間相對簡單的二元關(guān)系方面表現(xiàn)良好,但是無法識別關(guān)系子句中更加復雜的關(guān)系。對包含三個或更多實體間復雜關(guān)系的句子來說,淺解析方法通常會產(chǎn)生錯誤的結(jié)果,這時采用基于全句的深解析方法往往更加精確。深解析以構(gòu)造語法的方式為基礎(chǔ)分析整個句子,這通??梢缘玫捷^好的性能,但是卻具有較高的計算復雜度?;谏罱馕龅姆椒梢员环譃橥ㄟ^人工定義語法的唯理論方法和通過觀察自動生成語法的經(jīng)驗主義方法。
2.2 基于規(guī)則的方法
在基于規(guī)則的方法中,需要定義建立在單詞或詞性標記上正規(guī)表達式的規(guī)則集,并以此為基礎(chǔ)識別實體間的關(guān)系。
通常,理論上來說,使用預定義的規(guī)則可以產(chǎn)生令人滿意的結(jié)果,然而在實際應用中卻是不可行的,因為當轉(zhuǎn)移到另一個域時,仍需要繁重的工作以重新定義規(guī)則集。
現(xiàn)有的基于規(guī)則的方法可以通過突破被抽取的互相作用集合上的整體局限和被處理句子的復雜性進行識別規(guī)則的擴展。但是,這些方法經(jīng)常忽略許多復雜的實例,比如跨越文本多個句子的互相作用?;谝?guī)則方法的缺點是它們無法處理除比較短的以及直接陳述以外的任何句子,而基于規(guī)則的方法能夠處理的句子在正常的生物醫(yī)學文獻中是相當少的。這種方法忽視了句子結(jié)構(gòu)的很多重要方面,比如句子的語氣、情態(tài)和否定,而這些都可以顯著改變甚至完全顛倒句子的意思。
2.3 基于機器學習和統(tǒng)計的方法
在生物信息學領(lǐng)域,已經(jīng)應用了很多機器學習方法,這些方法涵蓋了從在術(shù)語共現(xiàn)基礎(chǔ)上推斷術(shù)語間關(guān)系的簡單方法到采用NLP技術(shù)的復雜方法。
很多以蛋白質(zhì)名稱共現(xiàn)的發(fā)現(xiàn)為基礎(chǔ)的機器學習和統(tǒng)計方法已經(jīng)被用于PPI信息抽取,如果以挖掘單位為基礎(chǔ),它們可以被進一步分為三種類型,如摘要、句子等。后來的系統(tǒng)采用了其他的技術(shù),如隱馬爾科夫模型和支持向量機來識別描述PPI的句子。一般來說,使用基于機器學習和統(tǒng)計的方法檢測PPI的過程可以被分為三個階段:建立訓練和測試語料庫、構(gòu)建判別詞和通過討論PPI的可能性對測試語料庫中的每個摘要進行評分。
一般來說,基于蛋白質(zhì)共現(xiàn)的簡單統(tǒng)計方法往往不能精確地描述蛋白質(zhì)間的關(guān)系,因而會產(chǎn)生比較低的F1值。相反,復雜的統(tǒng)計模型需要大量訓練數(shù)據(jù)估計模型參數(shù),但這在實際應用中通常難以實現(xiàn)。在實際應用中,許多現(xiàn)存的系統(tǒng)都采用了結(jié)合來自兩個或更多上面所提方法的混合方法以獲得較好的性能。
在不久的將來,知識發(fā)現(xiàn)工具將在系統(tǒng)生物學中起到關(guān)鍵的作用。近些年來,生物醫(yī)學的信息抽取已經(jīng)從簡單的基于規(guī)則的模式匹配發(fā)展到復雜的、應用計算語言學技術(shù)的混合解析器。但是知道現(xiàn)在,仍存在一些諸如性能差、無法處理生物實體間可變關(guān)系以及被抽取的知識自相矛盾等障礙,以后的發(fā)展,必將以解決這些問題作為首要的問題。
[1]陳謀通,劉建軍.蛋白質(zhì)相互作用的研究方法[J].生物技術(shù)通報,2009.
[2]冀俊忠,劉志軍,劉紅欣等.蛋白質(zhì)相互作用網(wǎng)絡(luò)功能模塊檢測的研究綜述[J].自動化學報,2014,40(04):577-593.
[3]劉念,馬長林,張勇等.基于樹核的蛋白質(zhì)相互作用關(guān)系提取的研究[J].華中科技大學學報 (自然科學版),2013(02).
10.16640/j.cnki.37-1222/t.2016.20.207