翟文忠 曹麗
關(guān)鍵詞知識服務(wù) 美國國立醫(yī)學(xué)圖書館 NLM
美國國立醫(yī)學(xué)圖書館(TheNational Library of Medicine,NLM)歷史悠久,館藏資源豐富,是美國三大國家圖書館之一(美國國會圖書館、醫(yī)學(xué)圖書館和農(nóng)業(yè)圖書館)。從紙本時代、信息時代再到數(shù)據(jù)時代,無論信息和社會環(huán)境如何變化,NLM始終能以前瞻的思維和精準(zhǔn)的戰(zhàn)略,為全球用戶提供優(yōu)異的服務(wù)和先進(jìn)的技術(shù),引領(lǐng)美國乃至世界圖書館的發(fā)展。因此,探究NLM的知識服務(wù)內(nèi)容和方式,分析NLM知識服務(wù)的特點和新進(jìn)展,可為我國圖書館的知識服務(wù)提供參考和借鑒。
NLM是世界上最大的生物醫(yī)學(xué)圖書館,也是美國乃至全世界的醫(yī)學(xué)、藥理學(xué)、醫(yī)藥生物學(xué)和醫(yī)藥化學(xué)專業(yè)信息中心。坐落于美國的馬里蘭州貝塞斯達(dá)的NLM,隸屬于美國衛(wèi)生與公眾服務(wù)部下的美國國立衛(wèi)生研究院(NIH)。NLM支持和開展生物醫(yī)學(xué)信息學(xué)和健康信息技術(shù)方面的研究、開發(fā)和培訓(xùn)。1988年,NLM建立了國家生物技術(shù)信息中中心(National Center ofBiotech.nology Information,NCBI),NCBI的任務(wù)是發(fā)展新的信息學(xué)技術(shù),以幫助世人理解控制健康和疾病的基本分子和遺傳過程。此外,該圖書館還承擔(dān)了協(xié)調(diào)了國家醫(yī)學(xué)圖書館網(wǎng)絡(luò)的重任,旨在促進(jìn)和提供美國各地社區(qū)的衛(wèi)生信息。
知識服務(wù)是當(dāng)代圖書館的核心競爭力所在,NLM提供的知識服務(wù)在圖書館界具有前瞻性和示范性。所謂知識服務(wù),是指根據(jù)人們的需求,將知識從各種顯性和隱性信息中提煉出來、傳輸出去的過程。它可以通過采取多種途徑與方法,從大量信息資源中提取出有用的知識資源。換言之,知識服務(wù)是以用戶需求目標(biāo)驅(qū)動的、面向知識內(nèi)容的、融入用戶決策過程并能有效支持知識應(yīng)用和知識創(chuàng)新的增值服務(wù)。近年來,隨著大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、人工智能以及移動互聯(lián)網(wǎng)的發(fā)展,知識創(chuàng)造、知識傳播和利用的環(huán)境迅速改變,為圖書館知識服務(wù)帶來了巨大的挑戰(zhàn)。直面挑戰(zhàn),NLM具有敏銳的洞察力,在紛繁復(fù)雜的變化中把握了知識服務(wù)的發(fā)展態(tài)勢,對圖書館的本質(zhì)及服務(wù)形態(tài)進(jìn)行創(chuàng)新性的思考和設(shè)計,為圖書館用戶及自己創(chuàng)造了美好的未來。
(一)建設(shè)醫(yī)學(xué)知識產(chǎn)品和資源
NLM收藏了大量的醫(yī)學(xué)類的紙本資源,數(shù)量達(dá)到270萬件,物理館藏類型有圖書、期刊、技術(shù)報告、手稿、縮微膠片、照片和影像。該館行使“圖書館的圖書館”職能,只提供館際外借(圖書和聲像資料可借原件,期刊論文只予復(fù)?。?,1957年起個人不能直接外借資料。
數(shù)字資源是NLM提供知識服務(wù)的主要資源。NLM開發(fā)了一系列深層次的、主題廣泛的數(shù)字產(chǎn)品,形成了以文獻(xiàn)庫、事實庫、指南庫、醫(yī)學(xué)數(shù)據(jù)庫等互為補(bǔ)充、相互鏈接的系列化資源庫群。每年被世界各地數(shù)百萬人搜索,次數(shù)達(dá)十億之多。數(shù)字資源主要有以下類別:
1.Locatorplus館藏目錄數(shù)據(jù)庫。提供NLM的圖書目錄。
2.文獻(xiàn)數(shù)據(jù)庫:PubMed(生物醫(yī)學(xué)文獻(xiàn)檢索系統(tǒng))、PubMedCentral、OMIM(在線人類孟德爾遺傳數(shù)據(jù)庫)、休閑圖書等。
PubMed是NLM所屬的NCBI建立的網(wǎng)絡(luò)生物醫(yī)學(xué)文獻(xiàn)檢索系統(tǒng),是檢索全世界生物醫(yī)學(xué)期刊論文的重要工具。數(shù)據(jù)主要來源有:MEDLINE、OLDMEDLlNE、Record in process、Recordsupplied by publisher等。MEDLINE是NLM最重要的期刊文獻(xiàn)書目文摘數(shù)據(jù)庫,也是PubMed的主要數(shù)據(jù)源,收錄了1966年以來的70多個國家和地區(qū)的4800多種生物醫(yī)學(xué)期刊上千萬條的文獻(xiàn)數(shù)據(jù),內(nèi)容涉及基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)和衛(wèi)生科學(xué)等領(lǐng)域。Pub.Med提供對這些數(shù)據(jù)的訪問,并能部分鏈接到期刊出版商網(wǎng)絡(luò)站點的全文文章。
3.分子數(shù)據(jù)庫:分子數(shù)據(jù)庫、蛋白質(zhì)數(shù)據(jù)庫、生物門類數(shù)據(jù)庫、基因數(shù)據(jù)庫、蛋白質(zhì)clusters、分子模型數(shù)據(jù)庫等。
4.基因組數(shù)據(jù)庫:geo bank、gene、基因組數(shù)據(jù)庫、dbGAP、圖譜瀏覽器、癌癥染色體數(shù)據(jù)庫等。
(二)基于搜索引擎的醫(yī)學(xué)知識整合
NLM的主頁提供了統(tǒng)一檢索,統(tǒng)一檢索框本質(zhì)上是元搜索引擎,這就意味著整個圖書館的知識產(chǎn)品和資源都能通過單一檢索框來獲得,減少了用戶的搜索成本。在元搜索之下,針對不同的資源,NLM開發(fā)了不同的檢索系統(tǒng),用于醫(yī)學(xué)資源的整合:在文獻(xiàn)資源建設(shè)方面有檢索系統(tǒng)Gateway和EnWez、檢索序列方面有Genbank的Entrze、比對序列Blast和醫(yī)學(xué)圖片開放檢索系統(tǒng)Open-i。
NLM下設(shè)的國家生物醫(yī)學(xué)通信中心(LHNCBC)和NCBI共同致力于網(wǎng)絡(luò)信息研究,分別開發(fā)了Gateway和Entrez。2001年4月,Gateway推出,主要應(yīng)用于檢索艾滋病、衛(wèi)生學(xué)、毒理學(xué)方面的文獻(xiàn)。Entrez是NCBI的為用戶提供整合的訪問序列、定位、分類和結(jié)構(gòu)數(shù)據(jù)的檢索系統(tǒng),能向因特網(wǎng)用戶提供基因數(shù)據(jù)庫、蛋白質(zhì)數(shù)據(jù)庫和PubMed等的免費(fèi)檢索,并在這三個數(shù)據(jù)庫中建立了非常完善的聯(lián)系。Entrez可以從一個DNA序列查詢到蛋白產(chǎn)物以及相關(guān)文獻(xiàn),而且每個條目均有一個類鄰信息,即與查詢條目接近的信息,幫助用戶擴(kuò)展查詢。檢索相關(guān)的序列、結(jié)構(gòu)和參考文獻(xiàn)的能力是Entrez的一個強(qiáng)大和獨(dú)特的特點。Entrez同時也提供序列和染色體圖譜的圖形視圖。BLAST是一個基于序列相似性的數(shù)據(jù)庫搜索程序,是“局部相似性基本查詢工具”(Basic Local Aligemnent Search Tool)的縮寫。它主要檢索蛋白質(zhì)(肽)序列數(shù)據(jù)庫、核酸序列數(shù)據(jù)庫、連接核酸與蛋白質(zhì)的數(shù)據(jù)庫。Open-i是NLM的圖片檢索系統(tǒng),可以檢索來自開源文獻(xiàn)的摘要和圖像(包括圖表、圖形、臨床圖像等)以及生物醫(yī)學(xué)圖像集合。Open-i檢索對象包括大約120萬篇PubMed Central文章中的370多萬張圖片;7000多次胸部x光檢查;近4000次放射學(xué)報告;來自NLM館藏的6.7萬余幅圖像;2000余幅骨科插圖。檢索可以使用文本查詢和查詢圖像來完成,檢索結(jié)果以圖片形式呈現(xiàn),選中圖片均能看到圖片來源,包括文章題名、作者、期刊卷次、基線等詳細(xì)信息。
通過這些檢索系統(tǒng),NLM作為多種生物信息學(xué)數(shù)據(jù)庫的集合實現(xiàn)了各種資源的知識整合,建立了個數(shù)據(jù)庫之間的信息互聯(lián),在檢索過程中只要定位其中的一條記錄,通過數(shù)據(jù)庫之間的超鏈接就可以定位其他的相關(guān)鏈接。
(三)醫(yī)學(xué)知識組織和知識組織工具
在醫(yī)學(xué)資源的揭示方面,NLM較早超越了MARC著錄階段,采用了RDA(ResottrceDescription&Access)編目。RDA是《英美編目條例(第2版)》(AACR2)的升級產(chǎn)品,是一種基于數(shù)字信息而設(shè)計的資源描述與檢索的新標(biāo)準(zhǔn),在內(nèi)容和結(jié)構(gòu)上滿足了數(shù)字環(huán)境下資源著錄、檢索和資源共享的新要求,成為國際性的資源描述與檢索的內(nèi)容標(biāo)準(zhǔn)。RDA具有超強(qiáng)的靈活性和擴(kuò)展性,其產(chǎn)生的數(shù)據(jù)能在很廣泛的數(shù)據(jù)環(huán)境下使用,不僅支持單條書目記錄的著錄,還支持書目記錄的聚類,顯示作品及其創(chuàng)建者之間的關(guān)系,可幫助用戶查找、標(biāo)識、選擇和獲得他們所需要的信息。2011年,美國國會圖書館、美國國家農(nóng)業(yè)圖書館與NLM一起對RDA進(jìn)行聯(lián)合測試,6月發(fā)布了RDA測試報告。報告顯示RDA能夠提供一個一致、靈活并且可擴(kuò)展的框架,用于所有類型的資源和內(nèi)容。在此基礎(chǔ)上,美國國會圖書館和NLM都采用了RDA進(jìn)行知識資源的揭示,為醫(yī)學(xué)知識資源的檢索和共享提供了數(shù)據(jù)基礎(chǔ),也引領(lǐng)了圖書館界的編目改革。
在資源的組織方面,NLM有知識組織工具的優(yōu)秀代表——醫(yī)學(xué)主題詞表MeSH(Medical Subject Headings)和語義網(wǎng)絡(luò)UMLS(Unified Medical Language System,統(tǒng)一醫(yī)學(xué)語言系統(tǒng))。MeSH最初是NLM為《醫(yī)學(xué)文獻(xiàn)索引》開發(fā)設(shè)計的醫(yī)學(xué)標(biāo)題表,后來經(jīng)過紙本、電子化和網(wǎng)絡(luò)化的發(fā)展,已經(jīng)成為分析生物醫(yī)學(xué)方面的期刊文獻(xiàn)、圖書、電子資源等多種醫(yī)學(xué)資源的主題詞表。同時,MeSH也是世界上最權(quán)威最常用的醫(yī)學(xué)主題詞表,可以不夸張地說是世界醫(yī)學(xué)主題詞表的通用標(biāo)準(zhǔn),世界各國或者直接采用,或者以之為范本進(jìn)行本國醫(yī)學(xué)詞表的修改和完善。MeSH主要由主題詞、副主題詞、增補(bǔ)概念表和“作品類型描述表”組成,主題詞以樹形結(jié)構(gòu)進(jìn)行組織,通過MeSH瀏覽器,為全世界用戶提供MeSH主題詞的檢索和瀏覽。MeSH具有可擴(kuò)充性、動態(tài)性,每年更新,目前詞組超過2萬多。MeSH支持Medline、PubMed的檢索,也是UMLS的核心詞表。此外,NLM通過MeSH自動標(biāo)引系統(tǒng)實現(xiàn)知識資源的動態(tài)擴(kuò)展,提供醫(yī)學(xué)專業(yè)知識服務(wù)。專業(yè)的"MeSH on Demand"提供了為醫(yī)學(xué)文本自動標(biāo)引的功能,通過標(biāo)引提供了醫(yī)學(xué)主題詞,同時推薦PubMed中與主題詞相關(guān)的文章,實現(xiàn)了醫(yī)學(xué)知識資源的動態(tài)擴(kuò)展。
UMLS是NLM知識組織工具的另一利器。1986年,NLM開始建設(shè)的UMLS一體化醫(yī)學(xué)知識語言,建設(shè)的目標(biāo)是力圖使計算機(jī)系統(tǒng)能夠理解生物醫(yī)學(xué)和健康語言,即實現(xiàn)語義化。UMLS以MeSH為核心,整合了全球上百種詞表的語義網(wǎng)絡(luò),主要包括四大部分:超級敘詞表、語義網(wǎng)絡(luò)、專家詞典和支持性的軟件工具。因此,UMLS具有集成性和跨領(lǐng)域的特點。UMLS應(yīng)用的領(lǐng)域和場景非常廣泛,信息檢索、自然語言處理、電子病歷、健康數(shù)據(jù)標(biāo)準(zhǔn)等都可見其身影;Pubmed、NLM gateway、Clinicaltrials.gov等檢索系統(tǒng)、網(wǎng)頁都使用了UMLS。UMLS在醫(yī)學(xué)智能信息檢索中的應(yīng)用效果良好,主要體現(xiàn)在擴(kuò)展查詢、語義檢索、問答式檢索方面0。難能可貴的是,NLM將這樣的知識組織工具利器向全世界免費(fèi)開放,提供了MeSH和UMLS各種格式的下載服務(wù),包括普通文本的電子版、適用于圖書館的ASCII、MARC 21以及具有語義的XML、RDF版本。
(四)醫(yī)學(xué)數(shù)據(jù)服務(wù)
在大數(shù)據(jù)時代,科學(xué)研究第四范式滲透到各個研究領(lǐng)域,研究人員從大量科研數(shù)據(jù)中發(fā)現(xiàn)新的知識和科學(xué)規(guī)律,科研數(shù)據(jù)管理和服務(wù)成為科學(xué)研究的首要問題。在科學(xué)數(shù)據(jù)服務(wù)方面,NLM走在世界前列。
首先,提供面向世界的臨床試驗數(shù)據(jù)庫(ClinicalTrials.gov)服務(wù)。ClinicalTrials.gov是NML與美國食品與藥物管理局于1997年開發(fā),2002年2月正式運(yùn)行的臨床試驗資料庫。其主旨在于向患者、醫(yī)療衛(wèi)生人員和社會大眾提供臨床試驗信息的查詢服務(wù),向醫(yī)學(xué)科研人員和機(jī)構(gòu)提供臨床試驗注冊服務(wù)。Clinical-Trials.gov是目前國際上最重要的臨床試驗注冊機(jī)構(gòu)之一,其注冊和查詢臨床試驗均為免費(fèi),被譽(yù)為公開化、國際化臨床試驗注冊的典范。國際醫(yī)學(xué)雜志編輯委員會(International Committee ofMedicalJournalEditors,ICMJE)宣布,從2005年7月1日起不出版未注冊的臨床試驗論文。因此,臨床試驗注冊成為了醫(yī)學(xué)研究的國際化慣例。目前,有超過200多個國家和地區(qū)319,012件的醫(yī)學(xué)研究進(jìn)行了注冊。在ClinicalTrials.gov,人們可以獲得臨床試驗的研究全文和研究報告結(jié)果。當(dāng)然,有的試驗未提供全文,只有研究報告,甚至沒有研究結(jié)果,則可獲得研究設(shè)計信息如研究目的、研究類型、疾病、干預(yù)、研究結(jié)局、入組信息、贊助信息、NCT代碼等。
其次,NLM提供了開放共享的術(shù)語服務(wù)。用戶可申請UMLS詞表服務(wù),獲得許可后,創(chuàng)建一個UMLS術(shù)語服務(wù)(The UMLSTerminology Services,UTS)賬戶,就能通過NLM專門開發(fā)的詞表瀏覽器、語義網(wǎng)絡(luò)瀏覽器、SNOMED CT瀏覽器下載相關(guān)術(shù)語數(shù)據(jù)。術(shù)語數(shù)據(jù)包括UMLS、每周和每月的升級版RxNorm(臨床藥品標(biāo)準(zhǔn)命名術(shù)語表)、SNOMED CT(Systemafized Nomencla.ture ofMedicine.Clinical Term,醫(yī)學(xué)系統(tǒng)化命名.臨床術(shù)語)等。NLM的術(shù)語服務(wù)有效地促進(jìn)了醫(yī)學(xué)信息交換和知識共享,對于術(shù)語的重用、管理、標(biāo)準(zhǔn)化、互操作而言都有重大意義。
最后,NLM海量的醫(yī)學(xué)數(shù)據(jù)為醫(yī)學(xué)知識關(guān)聯(lián)及知識挖掘提供了資源。由于NLM數(shù)據(jù)的權(quán)威性、全面性與標(biāo)引的準(zhǔn)確性,針對這些醫(yī)學(xué)數(shù)據(jù)開展知識挖掘成為了研究的首選方法僅以Pubmed為例,該數(shù)據(jù)庫中儲存的每篇期刊文章包含了摘要和全文這些非結(jié)構(gòu)化文本,以及標(biāo)題、作者、分類、醫(yī)學(xué)主題詞等結(jié)構(gòu)化字段。Pubmed中的論文平均提供10-20個左右的MeSH主題詞。表中的主題詞被分類成為解剖、生物、疾病、藥物等類別。主題詞因其具有語義關(guān)聯(lián)屬性,常被用來推測、獲取或驗證藥物與疾病之間關(guān)聯(lián)關(guān)系。此外,醫(yī)學(xué)專家常采用NLM的大量醫(yī)學(xué)數(shù)據(jù)進(jìn)行知識抽取,建立知識庫。專家采用關(guān)聯(lián)規(guī)則算法,能自動地從醫(yī)學(xué)文獻(xiàn)中抽取大量信息,從而為知識庫、專家系統(tǒng)提供證據(jù)。
(五)健康信息服務(wù)
NLM有三項使命:一是促進(jìn)生物醫(yī)學(xué)研究;二是支持衛(wèi)生保健和公眾健康;三是促進(jìn)健康行為。為促進(jìn)衛(wèi)生保健和公眾衛(wèi)生事業(yè)的發(fā)展,NLM建設(shè)了MedlinePlus公眾健康知識科普網(wǎng)站,為用戶提供可靠的醫(yī)學(xué)信息服務(wù),促進(jìn)健康素養(yǎng)。MedlinePlus所提供的信息、知識全部來自NLM、美國國立衛(wèi)生研究院及相關(guān)專業(yè)團(tuán)體或權(quán)威機(jī)構(gòu),如Clinical Trials.gov、美國國立衛(wèi)生研究院的SeniorHealth等數(shù)據(jù)庫和電子資源。Medilineplus提供500多個衛(wèi)生專題的信息以及9000余種處方藥和非處方藥的使用指南;聚合了權(quán)威的知識、醫(yī)療、學(xué)術(shù)網(wǎng)站,為用戶提供包括維基百科、知乎問答、國際前沿學(xué)術(shù)論文等權(quán)威、真實內(nèi)容。由于Med-lineplus提供的醫(yī)學(xué)信息和知識全面、準(zhǔn)確、權(quán)威,深受美國民眾的喜歡,很多醫(yī)學(xué)專業(yè)人士也經(jīng)常查閱參考。
NLM是世界上最大的生物醫(yī)學(xué)信息中心,也是最大的研究型圖書館之一,其在生物醫(yī)學(xué)信息和健康信息長期保存和管理,特別是知識服務(wù)方面,做出了卓越的貢獻(xiàn),堪稱研究型圖書館的楷模。。NLM建設(shè)了一系列深層次的、主題廣泛的數(shù)字產(chǎn)品,和紙質(zhì)文獻(xiàn)一起,相得益彰,發(fā)揮了NLM世界醫(yī)學(xué)知識中心的作用;NLM始終追隨時代的腳步,在信息技術(shù)的道路上不斷努力,整合文本、數(shù)據(jù)、圖片、基因序列等各種類型、各種格式的數(shù)據(jù),實現(xiàn)了跨庫檢索;不斷更新知識組織工具M(jìn)eSh和UMLS,與其他知識組織工具的互操作,使得醫(yī)學(xué)信息檢索能夠科學(xué)和精準(zhǔn);Cli-nicalTrials.gov和開放共享的術(shù)語服務(wù)推動了世界醫(yī)學(xué)數(shù)據(jù)的標(biāo)準(zhǔn)化、互操作,極大地促進(jìn)了醫(yī)學(xué)研究;健康信息服務(wù)貼近民眾,為全世界的人民衛(wèi)生健康知識普及做出了貢獻(xiàn)。NLM的知識服務(wù)體現(xiàn)和滲透在醫(yī)學(xué)信息的揭示、發(fā)布、獲取、集成、利用和共享等各個環(huán)節(jié),其知識服務(wù)的內(nèi)容、方式和技術(shù)值得我國醫(yī)學(xué)圖書館以及其他類型的專業(yè)圖書館學(xué)習(xí)和借鑒。