宋憶非++鄒強(qiáng)
摘要:美國(guó)國(guó)立圖書館下屬的生物技術(shù)信息中心,為生物醫(yī)學(xué)研究者提供了龐大的信息資源和強(qiáng)大可靠的檢索工具??删幊涕_發(fā)工具就是NCBI所開發(fā)的功能強(qiáng)大的檢索編程工具接口,通過(guò)它可以自動(dòng)化的大批量的從Entrez數(shù)據(jù)庫(kù)檢索數(shù)據(jù),從而為科研人員了解本專業(yè)動(dòng)態(tài)提供材料,并為未來(lái)研究提供方向指導(dǎo)。
關(guān)鍵詞:E-utilities;Entrez數(shù)據(jù)庫(kù);生物技術(shù)信息中心;數(shù)據(jù)管道
自2003年,美國(guó)國(guó)立醫(yī)學(xué)圖書館下屬的生物技術(shù)信息中心發(fā)布第一版NLM歸檔和交換標(biāo)記套件以來(lái)[1],基于NCBI可編程開發(fā)工開發(fā)的數(shù)據(jù)挖掘的產(chǎn)品便大量問(wèn)世。如由陳朝美開發(fā)的可視化文獻(xiàn)引文分析工具CiteSpace[2],也有多個(gè)針對(duì)某一特定領(lǐng)域的數(shù)據(jù)挖掘工具[3]。
1 應(yīng)用程序編程接口
API是提供應(yīng)用程序與開發(fā)人員基于某軟件或硬件得以訪問(wèn)的能力,而又無(wú)需訪問(wèn)源碼,或理解內(nèi)部工作機(jī)制的細(xì)節(jié)。一些桌面操作系統(tǒng)如Windows、Linux,移動(dòng)端操作系統(tǒng)Android、IOS等都提供有相應(yīng)的API于開發(fā)人員,以便開發(fā)人員開發(fā)用戶需要的軟件。E-utilities便是NCBI提供給開發(fā)人員使用的結(jié)構(gòu)化接口--API接口。
2 E-utilities組成
E-utilities是一組9個(gè)服務(wù)器端程序組成的,包括:①EInfo:提供在給定數(shù)據(jù)庫(kù)的每個(gè)字段索引記錄的數(shù)量;數(shù)據(jù)庫(kù)的最后更新日期;從數(shù)據(jù)庫(kù)中可用的鏈接到其他Entrez數(shù)據(jù)庫(kù);②ESearch:在給定的數(shù)據(jù)庫(kù)中查詢匹配的唯一標(biāo)識(shí)符列表的文本查詢的響應(yīng);查詢的術(shù)語(yǔ)翻譯;③EPost:從指定數(shù)據(jù)庫(kù)中接受UIDs列表,在歷史服務(wù)器上存儲(chǔ)該套內(nèi)容;響應(yīng)查詢和網(wǎng)絡(luò)環(huán)境,上傳數(shù)據(jù)集;④ESummary:給定的數(shù)據(jù)庫(kù)通過(guò)UIDs列表,相應(yīng)的文檔摘要反饋;⑤EFetch:給定的數(shù)據(jù)庫(kù)通過(guò)UIDs列表,相應(yīng)數(shù)據(jù)記錄的以指定的格式反饋;⑥ELink:給定的數(shù)據(jù)庫(kù)響應(yīng)UIDs列表,既有相同數(shù)據(jù)庫(kù)相關(guān)的UIDs列表,又有其他Entrez數(shù)據(jù)庫(kù)中的UIDs列表;從一個(gè)或者多個(gè)UIDs中檢查指定鏈接的存在;通過(guò)原LinkOut提供的一個(gè)創(chuàng)建特殊UID和數(shù)據(jù)庫(kù)或者LinkOut URLs和多個(gè)UIDs屬性創(chuàng)建超鏈接;⑦EGQuery:在每個(gè)Entrez數(shù)據(jù)庫(kù)中,反饋一個(gè)應(yīng)用大量數(shù)據(jù)匹配的文本查詢;⑧Espell:給定的數(shù)據(jù)庫(kù)查詢用的一個(gè)文本拼寫的建議;⑨EcitMatch:檢索PMID相關(guān)的一組輸入引用字符串。
3 Entrez數(shù)據(jù)庫(kù)
Entrez是NCBI開發(fā)的跨數(shù)據(jù)庫(kù)檢索系統(tǒng),通過(guò)一個(gè)統(tǒng)一的檢索界面和檢索詞,可以檢索NCBI開發(fā)的所有數(shù)據(jù)庫(kù),包括PubMed在內(nèi)的40個(gè)數(shù)據(jù)庫(kù)。
任何計(jì)算機(jī)語(yǔ)言均可通過(guò)E-utilities訪問(wèn)Entrez數(shù)據(jù)庫(kù)。通過(guò)計(jì)算機(jī)語(yǔ)言將輸入到軟件的參數(shù)翻譯為可用于檢索和檢索請(qǐng)求的統(tǒng)一資源定位器語(yǔ)法。結(jié)合E-utilities組件,在應(yīng)用中形成定制數(shù)據(jù)管道。每個(gè)Entrez數(shù)據(jù)庫(kù)中的數(shù)據(jù)記錄都帶有UID,一個(gè)不可重復(fù)的ID。例如,有的UID為核酸和蛋白的GI數(shù)字,PubMed的PMIDs,又或者是分子模型數(shù)據(jù)ID。通過(guò)E-utilities訪問(wèn)Entrez數(shù)據(jù)庫(kù)的過(guò)程見圖1。
圖1 Entrez數(shù)據(jù)庫(kù)訪問(wèn)的過(guò)程
4 Entrez的歷史服務(wù)器
Entrez系統(tǒng)的一個(gè)強(qiáng)大功能是在服務(wù)器上可以儲(chǔ)存一組檢索UID,以便他們能夠隨后組合或者提供其他E-utility輸入響應(yīng)。Entrez歷史服務(wù)器提供這一服務(wù),并且可在Entrez檢索頁(yè)面使用Preview/Index或History鍵在Web上訪問(wèn)。每一個(gè)E-utilities組件都能訪問(wèn)歷史服務(wù)器,&query_key標(biāo)簽分配UID和&WebEnv編碼cookie字符串。EPost允許任何一組UID上傳到歷史服務(wù)器中,并返回查詢鍵和網(wǎng)絡(luò)環(huán)境。在&usehistory被設(shè)置為y時(shí),ESearch同樣能夠?qū)⑤敵鲆唤MUID到歷史服務(wù)器;在&cmd被設(shè)置成neighbor_history時(shí)ELink也可以輸出到歷史服務(wù)器。EPost或ESearch的結(jié)果查詢和網(wǎng)絡(luò)環(huán)境都能被用于替代ESummary、EFetch和ELink。
在歷史服務(wù)器上的每個(gè)網(wǎng)絡(luò)環(huán)境都能接受任意數(shù)量的查詢關(guān)鍵詞。通過(guò)采用布爾邏輯操作符組合的不同的數(shù)據(jù)集或者進(jìn)行其他Entrez查詢。必須在同一個(gè)網(wǎng)絡(luò)環(huán)境下兩個(gè)數(shù)據(jù)集的組合。默認(rèn)情況下,連續(xù)的E-utility請(qǐng)求產(chǎn)生查詢鍵,如果不是在相同的網(wǎng)絡(luò)環(huán)境下,為了克服這一點(diǎn),每個(gè)E-utility請(qǐng)求都在最初請(qǐng)求之后在已有的網(wǎng)絡(luò)環(huán)境下設(shè)置&WebEnv參數(shù)值。
5 利用E-utility請(qǐng)求創(chuàng)建Entrez應(yīng)用
可以使用單個(gè)的URL通過(guò)E-utilities訪問(wèn)Entrez;當(dāng)連續(xù)的E-utility URL結(jié)合,則需要?jiǎng)?chuàng)建一個(gè)數(shù)據(jù)管道,便可發(fā)揮其最大作用。使用這樣的管道時(shí),Entrez歷史服務(wù)器會(huì)通過(guò)允許在連續(xù)E-utility響應(yīng)進(jìn)行簡(jiǎn)單數(shù)據(jù)傳輸而簡(jiǎn)化復(fù)雜的檢索任務(wù)。E-utilities組合見表1,箭頭代表的是從一個(gè)E-utility到另一個(gè)的db,WebEnv和query_key值。
6 E-utility DTDs
除了EFetch,每一個(gè)E-utilities組件均能輸出單個(gè)的符合NLM文檔類型定義標(biāo)準(zhǔn)的可擴(kuò)展標(biāo)記語(yǔ)言輸出格式。E-utility返回的XML標(biāo)題中,提供了這些NLM DTDs的鏈接。ESummary可以為每個(gè)Entrez數(shù)據(jù)庫(kù)生成唯一的XML DocSums。正因?yàn)槿绱?,每個(gè)Entrez數(shù)據(jù)庫(kù)對(duì)于DocSums來(lái)說(shuō),有一個(gè)唯一的NLM DTD。Efetch可以生成并輸出各種格式,也可以是XML。這些個(gè)XML格式大部分都符合NLM DTDs,或者與Entrez有關(guān)的特定模式。
7 結(jié)語(yǔ)
隨著生物醫(yī)學(xué)文獻(xiàn)數(shù)量的不斷增加,如何從海量信息中高效率挖掘出所需文獻(xiàn),是所有醫(yī)學(xué)研究者所需要掌握的技能。
參考文獻(xiàn):
[1]鄒強(qiáng),袁慶,康林,等.Pubmed Central 的數(shù)字化出版簡(jiǎn)介[J].中國(guó)科技期刊研究,2014,25(2):240-242.
[2]陳悅,侯劍華,梁永霞.CiteSpace Ⅱ:科學(xué)文獻(xiàn)中新趨勢(shì)與新動(dòng)態(tài)的識(shí)別與可視化[J].情報(bào)學(xué)報(bào),2009,28(6):401-421.
[3]Torii M,Li G,Li Z,et al.RLIMS-P:an online text-mining tool for literature-based extraction of protein phosphorylation information[J].Database(Oxford),2014:13.編輯/成森