徐 榮
(中國中醫(yī)科學(xué)院廣安門醫(yī)院 北京 100053)
國家中醫(yī)臨床研究基地是2008年12月國家發(fā)改委和國家中醫(yī)藥管理局共同啟動實施的建設(shè)項目[1],旨在通過基地業(yè)務(wù)建設(shè)工作,系統(tǒng)構(gòu)建中醫(yī)臨床研究、協(xié)作攻關(guān)、成果轉(zhuǎn)化推廣平臺,培養(yǎng)領(lǐng)軍人才,全面提高自主創(chuàng)新能力,提升中醫(yī)藥防病治病能力,促進中醫(yī)藥事業(yè)的發(fā)展。文獻信息庫作為中醫(yī)臨床研究基地基礎(chǔ)平臺建設(shè)的一項重要內(nèi)容,對搜集臨床研究基地重點病種古今中外診療信息及研究資料、挖掘和整理中醫(yī)診療經(jīng)驗、實現(xiàn)對中醫(yī)診療經(jīng)驗的傳承和創(chuàng)新有著非常重要的作用。中國中醫(yī)科學(xué)院廣安門醫(yī)院是國家中醫(yī)臨床研究基地之一,圍繞本基地重點病種肺癌、糖尿病、冠狀動脈粥樣動脈硬化性心臟病進行文獻信息庫系統(tǒng)研究和設(shè)計。
在文獻信息庫建設(shè)過程中要以國際、國家、學(xué)科領(lǐng)域標(biāo)準(zhǔn)規(guī)范為基礎(chǔ),著眼于信息庫的服務(wù)對象、內(nèi)容組織、技術(shù)架構(gòu)等多個方面,形成相對完整的規(guī)范體系[2],建設(shè)易操作、易管理、易維護和易擴展的各類文獻信息庫。
文獻信息庫的建設(shè)要有強大的安全保障體系來保證系統(tǒng)中數(shù)據(jù)存儲和傳輸?shù)陌踩?。要選用高可靠性設(shè)備和技術(shù)支持?jǐn)?shù)據(jù)資源的冗余、備份、容災(zāi)、恢復(fù)等功能[3]。同時還要建立一整套安全管理制度,從管理和技術(shù)上確保系統(tǒng)及其資源的安全訪問與監(jiān)控。
文獻信息庫的建設(shè)要依托廣安門醫(yī)院數(shù)字圖書館平臺,全方位展示肺癌、糖尿病、冠狀動脈粥樣動脈硬化性心臟病這3個重點病種的臨床及科研成果,根據(jù)不同病種研究需求,全面收集古今中外的診療信息及研究資料,使文獻信息建設(shè)集成化、動態(tài)化、知識化,滿足用戶個性化的信息需求,實現(xiàn)對信息庫內(nèi)容的實時更新和拓展。
文獻信息庫服務(wù)系統(tǒng)平臺采用大量的元數(shù)據(jù)作為數(shù)據(jù)源,本地底層數(shù)據(jù)通過管理層進行管理,應(yīng)用層對其進行各種應(yīng)用的分布式架構(gòu)。在數(shù)據(jù)底層定期更新,在管理層管理各種元數(shù)據(jù)及各級機構(gòu)、學(xué)者、科研成果的對照關(guān)系,在服務(wù)層為用戶展示重點病種的全方位、多層次的信息數(shù)據(jù)[4],提供檢索和指標(biāo)評價分析服務(wù)。文獻信息庫平臺框架,見圖1。
圖1 文獻信息庫平臺框架
3.2.1 信息采集 分為兩個子系統(tǒng),即互聯(lián)網(wǎng)信息采集和本地文獻數(shù)據(jù)庫采集,可根據(jù)用戶指定的數(shù)據(jù)采集范圍進行模板定制開發(fā),信息采集功能架構(gòu),見圖2。信息采集系統(tǒng)支持對各種數(shù)據(jù)庫及網(wǎng)頁內(nèi)容的解析和抓取,包括各種附件和音視頻內(nèi)容。系統(tǒng)具有高效的數(shù)據(jù)去重處理機制和多種對網(wǎng)絡(luò)采集屏蔽技術(shù)的反制措施,采集內(nèi)容的噪音去除和正文自動抽取準(zhǔn)確率高,能幫助用戶有效利用網(wǎng)絡(luò)資源和降低功耗。
圖2 信息采集功能架構(gòu)
3.2.2 分布式全文檢索 分布式全文檢索系統(tǒng)(SolrCloud)作為搜索引擎的重要組成部分,為用戶提供平臺各種核心資源的檢索服務(wù),系統(tǒng)部署,見圖3。
圖3 分布式檢索系統(tǒng)部署
使用Zookeeper作為集群的配置信息中心,實現(xiàn)集中式配置信息, 將SolrCloud的相關(guān)配置文件上傳Zookeeper,多機器共用。實現(xiàn)自動容錯,SolrCloud對索引分片并對每個分片創(chuàng)建多個備份。每個備份都可以對外提供服務(wù),1個備份出現(xiàn)錯誤也不會影響索引服務(wù);實現(xiàn)近實時搜索,立即推送式的備份可以在秒內(nèi)檢索到新加入索引。此外,SolrCloud在用戶查詢時可以實現(xiàn)自動負載均衡,SolrCloud索引的多個備份可以分布在多臺機器上,均衡查詢壓力[5]。如果查詢壓力大,可以通過擴展機器,增加備份來減緩。
3.2.3 數(shù)字化加工 主要是為實現(xiàn)已有內(nèi)容資源的結(jié)構(gòu)化拆分解析,為內(nèi)容資源的產(chǎn)品化重組奠定數(shù)據(jù)基礎(chǔ)。數(shù)字化加工系統(tǒng)可以進行文本、圖片、表格拆分并對經(jīng)過加工的數(shù)據(jù)進行清洗和規(guī)范化存儲。(1)文本拆分。系統(tǒng)可對文檔進行細化到段落層級的拆分加工并將拆分的結(jié)構(gòu)進行結(jié)構(gòu)化存儲。處理組件首先將讀入的待處理文檔進行載入,依據(jù)掛載的待解析內(nèi)容模塊依次將每個資源項解析出需要的元數(shù)據(jù),將這些數(shù)據(jù)傳遞給存儲組件進行后續(xù)處理。存儲組件按照元數(shù)據(jù)類型將不同資源存儲至預(yù)定義的目錄結(jié)構(gòu)及數(shù)據(jù)庫中。文檔拆分整理完畢后,各碎片可作為元數(shù)據(jù)項供其他程序使用。(2)圖片拆分。對文檔中的圖片進行單獨提取,拆分后的每張圖片及其附屬文件均存放于獨立文件夾下,每張圖片均保存原圖(原分辨率導(dǎo)出)、低分辨率圖(根據(jù)用戶在頁面中輸入的數(shù)值導(dǎo)出)、預(yù)覽圖(72dpi導(dǎo)出)及描述文件。(3)表格拆分。對文檔中的結(jié)構(gòu)化表格進行單獨提取,拆分后的每個獨立表格均存放于獨立文件夾下,每個表格保存為一個對應(yīng)的獨立目錄,目錄下存放表格對應(yīng)的描述文件,描述文件中存儲表格碎片的位置、內(nèi)容信息。
3.2.4 元數(shù)據(jù)管理及資源倉儲 文獻信息庫建設(shè)采用國際通用標(biāo)準(zhǔn)都柏林核心元素集(Doblin Core Element Set,DC),依照中國高等教育文獻保障體系《特色庫項目本地系統(tǒng)技術(shù)規(guī)范》以及國家中醫(yī)藥管理局制定的《中醫(yī)藥文獻數(shù)據(jù)庫數(shù)據(jù)來源規(guī)范》、《中醫(yī)藥文獻數(shù)據(jù)庫數(shù)據(jù)資源加工指導(dǎo)規(guī)范》[6]等相關(guān)標(biāo)準(zhǔn)進行元數(shù)據(jù)處理。系統(tǒng)平臺能夠進行元數(shù)據(jù)類型、映射以及索引管理,其功能架構(gòu),見圖4。系統(tǒng)提供元數(shù)據(jù)定義與編輯維護功能,包括設(shè)置元數(shù)據(jù)的規(guī)范名稱(中英文)、數(shù)據(jù)庫數(shù)據(jù)類型、solr字段類型、字段描述、是否多值等;可對數(shù)據(jù)源與信息庫字段進行一一映射,完成從數(shù)據(jù)源到知識庫的數(shù)據(jù)導(dǎo)入操作;能夠直接與檢索邏輯相關(guān)聯(lián),靈活設(shè)置元數(shù)據(jù)是否可索引、可查詢展示及權(quán)重和排序策略配置,管理與維護情報分析所需要的各級分類,實現(xiàn)不同類型資源整合以及統(tǒng)一檢索。基于元數(shù)據(jù)存儲的數(shù)字資源倉儲系統(tǒng)支持元數(shù)據(jù)存儲、添加、修改、刪除、整合以及數(shù)據(jù)的導(dǎo)入和導(dǎo)出。數(shù)字資源倉儲系統(tǒng)能夠為不同特色的文獻信息庫構(gòu)建不同結(jié)構(gòu)規(guī)范的元數(shù)據(jù)倉儲庫,通過不同適配器從不同數(shù)據(jù)源中提取數(shù)字資源的元數(shù)據(jù)信息,將元數(shù)據(jù)信息通過生成的結(jié)構(gòu)保存,提高文獻信息庫建設(shè)效率。
圖4 數(shù)字資源元數(shù)據(jù)管理功能架構(gòu)
3.3.1 信息來源及信息組織方式 文獻信息庫資源來自于期刊論文、會議論文、學(xué)位論文、報紙、圖書、專利、報告、標(biāo)準(zhǔn)、網(wǎng)頁及論壇等,支持按年度、成果類型、收錄類型、學(xué)科、基金、數(shù)據(jù)來源等多個方面篩選查看內(nèi)容。突破以往以文獻為單位進行信息組織的模式,在一些特色數(shù)據(jù)庫如診療方劑、特色制劑、中醫(yī)古籍文獻庫等的建設(shè)過程中對中醫(yī)藥文獻題錄數(shù)據(jù)、引文數(shù)據(jù)以及中醫(yī)古籍內(nèi)容全部進行關(guān)聯(lián)和深度標(biāo)注,全方位構(gòu)建元數(shù)據(jù)之間的關(guān)系網(wǎng)絡(luò)。確定對應(yīng)的特色數(shù)據(jù)庫中存在的所有數(shù)據(jù)類型。在數(shù)據(jù)資源的基礎(chǔ)上確定數(shù)據(jù)庫的專家、特色方劑、特色療法、科研成果以及報道和研討活動等信息,這些信息將以元數(shù)據(jù)異構(gòu)共享的形式組成特色數(shù)據(jù)庫的共享資源。
3.3.2 建設(shè)知識本體形式化的特色數(shù)據(jù)庫 在文獻信息庫的構(gòu)建過程中,基于本體的模型能夠有效地明確特色數(shù)據(jù)庫內(nèi)容和形式、標(biāo)準(zhǔn)與規(guī)范等,針對各種數(shù)據(jù)資源類型的相互關(guān)系和外部數(shù)據(jù)源的連接標(biāo)準(zhǔn),形成元數(shù)據(jù)與知識本體形式化的特色數(shù)據(jù)庫。本體構(gòu)建主要包括創(chuàng)建、管理和服務(wù)3個方面[7]。在本體創(chuàng)建方面,要實現(xiàn)從結(jié)構(gòu)化詞表中自動獲取概念和概念層級結(jié)構(gòu)以及從中醫(yī)藥相關(guān)專業(yè)教材和文獻中學(xué)習(xí)概念的屬性及其屬性值,提取領(lǐng)域知識概念之間的關(guān)系;在本體管理方面,要實現(xiàn)多人在線的輔助校對和版本管理,文獻信息庫的知識關(guān)系更多地蘊含在深層次的領(lǐng)域知識當(dāng)中,要獲取深層次的領(lǐng)域知識關(guān)系,應(yīng)充分運用圖書情報學(xué)領(lǐng)域知識,同時也需要各個臨床重點學(xué)科專家對所建立的知識關(guān)系進行及時校對,形成各個臨床專家和本體學(xué)習(xí)功能的良性互動;在本體服務(wù)方面,要實現(xiàn)本體知識的搜索和展示,主要包括知識導(dǎo)航、知識檢索和概念關(guān)聯(lián)的可視化展示、概念屬性的展示。在建設(shè)過程中首先需要根據(jù)不同類別的中醫(yī)藥特色文獻信息庫元數(shù)據(jù)體系構(gòu)建形式本體模型,有效表達各種數(shù)據(jù)資源和類型的形式化。將各類專題文獻信息數(shù)據(jù)庫的系統(tǒng)性、學(xué)術(shù)性以及深度廣度等信息作為數(shù)據(jù)庫的構(gòu)建內(nèi)容,通過對某些特色領(lǐng)域中元概念的構(gòu)建以確保最終的數(shù)字化表現(xiàn)形式能夠滿足不同類別數(shù)據(jù)庫之間元數(shù)據(jù)共享的需求。將需要建設(shè)的文獻信息庫中的元概念和元關(guān)系描述出來,構(gòu)造具有元數(shù)據(jù)與知識本體形式化的特色數(shù)據(jù)庫模型。在數(shù)據(jù)庫建設(shè)過程中應(yīng)與各個重點病種以及計算機學(xué)科專家互相配合,構(gòu)建出適合不同臨床學(xué)科的知識本體形態(tài)。根據(jù)國家中醫(yī)藥管理局科技司對國家中醫(yī)臨床研究基地業(yè)務(wù)建設(shè)方案的要求,項目建設(shè)的7個文獻信息庫主要內(nèi)容包括:(1)專家。重點收集各個科室代表專家基本信息、臨床經(jīng)驗、學(xué)術(shù)思想、研究成果、發(fā)表的論文論著和媒體報道等信息。(2)優(yōu)勢病種。針對各個學(xué)科單病種的中醫(yī)療法、診療方案、診療技術(shù)、療效評價方法等信息資源進行整合,全面搜集與該病種有關(guān)的論文、論著、視頻及課件等信息。(3)診療方劑。收集古籍及現(xiàn)代文獻中的古今中藥方劑,全面介紹方劑信息,提供有關(guān)方劑藥味組成等統(tǒng)計信息,詳細介紹每一方劑的不同名稱、處方來源、藥物組成、功效、主治、用藥禁忌、藥理作用、制備方法等信息。(4)特色制劑。對學(xué)科在中醫(yī)理論及臨床實踐中研制出的特色制劑進行介紹,包括藥物的合理組方、功能主治、用法用量及不良反應(yīng)采集等。(5)特色療法。針對各個學(xué)科在長期臨床經(jīng)驗中形成的大量特色診療方法進行歸納總結(jié),收集疾病的概述、診療要點、辨證要點、治療規(guī)范、療效評定標(biāo)準(zhǔn)、臨床分期等信息。(6)中醫(yī)古籍。對中醫(yī)經(jīng)典古籍進行數(shù)字化加工,對其中的醫(yī)經(jīng)、醫(yī)理、診斷、針灸推拿、本草、方書、臨證各科、養(yǎng)生、醫(yī)案醫(yī)論醫(yī)話、醫(yī)史等信息進行分類整理、標(biāo)引入庫。(7)科研成果。重點介紹科研成果的項目完成人、完成單位、研究內(nèi)容、研究結(jié)果和研究意義,該數(shù)據(jù)庫應(yīng)充分展示不同學(xué)科的研究成果,揭示該學(xué)科在國內(nèi)乃至國際上所處的研究水平及地位。
通過文獻閱讀以及實況調(diào)研確定文獻信息庫建設(shè)的技術(shù)方案以及基本框架,形成總體建設(shè)方案,將3個重點病種作為試點,進行文獻信息庫建設(shè)工作。確定數(shù)據(jù)采集加工、質(zhì)量控制以及著錄標(biāo)引規(guī)范。與3個重點病種建立密切聯(lián)系,了解學(xué)科需求,確定文獻信息庫建設(shè)的核心技術(shù)及基本框架。邀請相關(guān)專家對信息庫建設(shè)方案進行論證評估,根據(jù)評估意見修改建設(shè)方案,開展信息庫建設(shè)工作。
根據(jù)前期制定的文獻信息庫建設(shè)方案進行文獻的收集、著錄、整理和入庫工作,搭建出中醫(yī)學(xué)科特色化文獻信息庫的框架與模式。針對不同類型文獻信息庫的具體要求確定數(shù)據(jù)庫結(jié)構(gòu),對參與文獻信息庫建設(shè)的人員進行技術(shù)培訓(xùn),開展文獻信息庫內(nèi)容的收集整理以及數(shù)字化加工工作。首先確立文獻搜集的范圍和檢索策略,分別交由各臨床科室或研究室的人員進行文獻資料的搜集整理工作;其次通過信息采集系統(tǒng)對各種數(shù)據(jù)庫及網(wǎng)頁內(nèi)容的解析和抓取,結(jié)合詞表、自動識別技術(shù),對采集數(shù)據(jù)內(nèi)出現(xiàn)的內(nèi)容實體進行自動識別和抽取并進行存儲;最后通過數(shù)字化加工技術(shù)對已有內(nèi)容資源的結(jié)構(gòu)化拆分解析并將拆分的結(jié)構(gòu)進行結(jié)構(gòu)化存儲,為不同文獻類型數(shù)據(jù)庫的建設(shè)奠定數(shù)據(jù)基礎(chǔ)。將檢索到的文獻逐條分析,按類別進行標(biāo)引、著錄,導(dǎo)入到相應(yīng)的文獻信息庫中,形成文獻信息庫的整體模型。
將試點科室的文獻信息庫建設(shè)方案和成果逐步推廣到其他臨床科室及研究室,逐步建立系統(tǒng)、完善、全面反映基地臨床及科研成果的文獻信息系統(tǒng)應(yīng)用平臺。
臨床科研平臺文獻信息庫基于廣安門醫(yī)院數(shù)字圖書館的平臺,建立集綜合檢索、開放獲取、學(xué)術(shù)分析、個性化服務(wù)于一體的中醫(yī)藥特色文獻信息庫及服務(wù)系統(tǒng),為中醫(yī)臨床研究基地建設(shè)提供強有力的信息保障。