刁羽 暢佩 王德平
摘 要 文章以構建“生物醫(yī)學工程知識庫聯(lián)盟”為例,通過數(shù)據(jù)解析、整體構架、服務功能的設想與思考,探討專業(yè)學科領域知識庫聯(lián)盟的構建模式,并提出構建知識庫聯(lián)盟的建議,目的在于推動國內(nèi)專業(yè)學科知識庫聯(lián)盟的建設與發(fā)展,以期促進各相關行業(yè)服務功能智能化、便利化的發(fā)展。
關鍵詞 大數(shù)據(jù) 專業(yè)學科 知識庫 生物醫(yī)學 聯(lián)盟
分類號 G251
DOI 10.16810/j.cnki.1672-514X.2019.05.006
Abstract Taking the construction of the “Biomedical Science Repository Alliance” as an example, this paper probes into the construction mode of knowledge base alliance of professional subject domain through data analysis, overall framework, and thoughts on constructing the service function, and puts forward the suggestion of constructing repository alliance. The aim is to promote the construction and development of the professional discipline repository alliance in China, and promote the development of the intelligent and convenient service function of the related industries.
Keywords Big data. Professional discipline. Repository. Biomedical science. Alliance.
0 引言
在當今如火如荼的信息技術飛速發(fā)展時代,大數(shù)據(jù)已經(jīng)成為與信息資源、人力資源并列的生產(chǎn)要素,并且越來越被廣泛和深入地整合到各專業(yè)學科領域知識庫中。歐美國家已經(jīng)陸續(xù)成立了許多數(shù)據(jù)科學研究機構。Nature和Science也分別于2008年和2011年推出了大數(shù)據(jù)??瑢Υ髷?shù)據(jù)帶來的挑戰(zhàn)進行討論[1]。大數(shù)據(jù)環(huán)境造就了新的科研范式,在此背景下,鑒于近年來機構知識庫聯(lián)盟這一概念的興起,同時考慮到不同專業(yè)學科領域機構知識庫數(shù)據(jù)資源的多樣性與敏感性,我們提出構建大數(shù)據(jù)背景下的專業(yè)學科領域知識庫聯(lián)盟,希望通過該聯(lián)盟重構不同行業(yè)的生態(tài)數(shù)據(jù)環(huán)境,發(fā)掘各行業(yè)跨機構學術研究、資源開放與共享、數(shù)據(jù)存儲與備份、系統(tǒng)故障查詢與修復等功能,目的在于推動國內(nèi)專業(yè)學科知識庫聯(lián)盟的建設與發(fā)展,以期促進各相關行業(yè)服務功能智能化、便利化的發(fā)展。本文以構建“生物醫(yī)學知識庫聯(lián)盟”為例,在高校醫(yī)學院、醫(yī)療科研機構、醫(yī)院、疾控中心等機構知識庫的基礎上提出與區(qū)域生物醫(yī)學大數(shù)據(jù)中心建立共享關系,最終實現(xiàn)生物醫(yī)學知識庫聯(lián)盟的服務功能的設想。
1 專業(yè)學科領域知識庫聯(lián)盟
在當今大數(shù)據(jù)背景下,建立專業(yè)學科領域知識庫聯(lián)盟是基于科學研究數(shù)據(jù)集,以“專業(yè)學科領域的數(shù)據(jù)痛點”為導向,旨在通過預測性數(shù)據(jù)推送、數(shù)據(jù)規(guī)劃、數(shù)據(jù)重構、專題數(shù)據(jù)關聯(lián)性管理等處理過程,為科研人員及被服務群體提供信息移動推薦服務,解決其個性化的、動態(tài)性的、知識性的行業(yè)信息需求。
大數(shù)據(jù)背景下的專業(yè)學科領域知識庫聯(lián)盟以專業(yè)學科領域下多個機構、組織為起點,收集密集的專業(yè)學科領域及相關行業(yè)實踐大數(shù)據(jù)集,并各自建立可用于數(shù)據(jù)共享的機構知識庫,圍繞新建或指定的專業(yè)學科領域大數(shù)據(jù)研究中心,多個機構知識庫通過合作的方式建立資源共享關系,形成專業(yè)學科領域知識庫聯(lián)盟。該聯(lián)盟采用最新的大數(shù)據(jù)技術進行數(shù)據(jù)整合和挖據(jù),以達到追蹤、信息預測等目的,并將其數(shù)據(jù)分析成果最終應用于相關專業(yè)領域機構的各種服務,旨在為相關專業(yè)學科領域的科學研究、行業(yè)智能發(fā)展、行業(yè)監(jiān)控與決策提供大數(shù)據(jù)驅(qū)動的決策支持。在專業(yè)學科領域知識庫聯(lián)盟整個構建和服務的過程中,數(shù)據(jù)流貫穿其中。
2 專業(yè)學科領域知識庫聯(lián)盟數(shù)據(jù)構成
各專業(yè)學科領域的大數(shù)據(jù)性質(zhì)是不同的,作為最活躍的科學研究領域之一,生物醫(yī)學領域的大數(shù)據(jù)也備受關注[1]??梢哉f全球范圍內(nèi)的科研人員、醫(yī)院以及手機移動設備等都在不斷地產(chǎn)生多種多樣的、復雜的、混亂無序、大規(guī)模的生物醫(yī)學領域的大數(shù)據(jù),主要包括以下幾類來源。
(1)數(shù)據(jù)提供者和使用者。生物醫(yī)學數(shù)據(jù)的重要產(chǎn)生地有高校醫(yī)學院、醫(yī)學科研機構、區(qū)域疾控中心等機構,機構中專門從事醫(yī)學研究工作的科研人員是醫(yī)學數(shù)據(jù)的主要來源之一;另一個重要的來源地就是醫(yī)院,醫(yī)院是醫(yī)生和病人(普通民眾)的活動場所。醫(yī)生在為病人治療的過程中,會產(chǎn)生大量的醫(yī)學數(shù)據(jù)。醫(yī)院在醫(yī)學大數(shù)據(jù)的應用中有著舉足輕重的作用,因為它可以直接獲取到病人的信息。
(2)基金機構和數(shù)據(jù)分析專家。對生物醫(yī)學研究提供資金支持的基金機構也掌握大量的生物醫(yī)學數(shù)據(jù),這些機構尤其是國有機構在大數(shù)據(jù)背景下應該承擔起自己的那份責任。而對大量生物醫(yī)學數(shù)據(jù)的整理、分析和應用都依賴于數(shù)據(jù)分析專家的技術支持。
(3)出版商和圖書館。醫(yī)學科研工作者的研究成果主要收藏在出版商和圖書館,如何獲取和利用這些海量生物醫(yī)學數(shù)據(jù)是我們需要關注的焦點所在。
(4)其他。生物醫(yī)學的影響范圍涉及方方面面,除以上的機構人員外,還有其他的相關者,如制藥廠、藥房等,他們所擁有的信息也是重要的生物醫(yī)學數(shù)據(jù)。
3 專業(yè)學科領域知識庫聯(lián)盟整體框架
生物醫(yī)學知識庫聯(lián)盟以高校醫(yī)學院、醫(yī)療科研機構、醫(yī)院、疾控中心等機構為起點,收集密集的生物醫(yī)學領域及醫(yī)療實踐大數(shù)據(jù)集,并各自建立可用于數(shù)據(jù)共享的機構知識庫;圍繞區(qū)域生物醫(yī)學大數(shù)據(jù)研究中心,高校醫(yī)學院、醫(yī)療科研機構、醫(yī)院、疾控中心等機構知識庫形成生物醫(yī)學知識庫聯(lián)盟,該聯(lián)盟整合海量復雜的生物醫(yī)學大數(shù)據(jù),并結合大數(shù)據(jù)、人工智能、醫(yī)療儀器設備檢測等技術,進行數(shù)據(jù)加工、智能處理、信息挖掘等,為醫(yī)療行業(yè)的科學研究、醫(yī)療戰(zhàn)略、醫(yī)學實踐和全人群健康管理提供大數(shù)據(jù)驅(qū)動的決策支持[3]。
生物醫(yī)學知識庫聯(lián)盟構架主要劃分成四個層次,即數(shù)據(jù)來源、數(shù)據(jù)采集、數(shù)據(jù)整合、數(shù)據(jù)管理,如圖1。每個層次都有相應的機構參與溝通協(xié)作,在保證數(shù)據(jù)流貫穿整個知識聯(lián)盟架構的同時,充分發(fā)揮醫(yī)療實踐的多種創(chuàng)新職能,進而逐漸形成一個保存?zhèn)鞑W術知識、收集醫(yī)療實踐信息、開發(fā)智能醫(yī)療的重要端口。
圖1 生物醫(yī)學知識庫聯(lián)盟框架
(1)數(shù)據(jù)來源。聯(lián)盟將集成來自高校醫(yī)學院、醫(yī)療科研機構、醫(yī)院、區(qū)域疾控中心等機構的生物醫(yī)學大數(shù)據(jù),采用國際前沿的數(shù)據(jù)處理和分析技術,為區(qū)域健康醫(yī)療戰(zhàn)略、醫(yī)學實踐和全人群健康管理提供大數(shù)據(jù)驅(qū)動的決策支持。
(2)數(shù)據(jù)采集。通過建立生物醫(yī)學知識庫聯(lián)盟實現(xiàn)生物醫(yī)學大數(shù)據(jù)的最初采集。收集各個重點數(shù)據(jù)來源的機構庫共享資源以及一些外購數(shù)據(jù)庫資源,如生物醫(yī)學特色型數(shù)據(jù)庫、醫(yī)療行業(yè)系統(tǒng)數(shù)據(jù)庫等。
(3)數(shù)據(jù)整合。專業(yè)學科領域的實驗數(shù)據(jù)、分析數(shù)據(jù)、管理數(shù)據(jù)在量方面可能有所欠缺,因此在數(shù)據(jù)分析與評價過程中可能要涉及相關聯(lián)的其他數(shù)據(jù),如網(wǎng)絡數(shù)據(jù)、文獻數(shù)據(jù)、平臺數(shù)據(jù)等[4]。這些關聯(lián)數(shù)據(jù)將有助于構造整個醫(yī)療行業(yè)的生態(tài)數(shù)據(jù)環(huán)境,推動醫(yī)療行業(yè)智能化、便利化的發(fā)展。如利用 ASN.1格式為生物醫(yī)學數(shù)據(jù)提供相應的編碼、解碼、數(shù)據(jù)傳輸標準,利用標準化的XML格式有效地整合和存儲高緯度、格式復雜的生物醫(yī)學數(shù)據(jù)。
(4)數(shù)據(jù)管理。數(shù)據(jù)管理的核心是對醫(yī)療科研過程中及診斷過程中所產(chǎn)生的科學數(shù)據(jù)的處理能力,生物醫(yī)學知識庫聯(lián)盟的組織形式是以各機構庫為核心、生物醫(yī)學大數(shù)據(jù)中心為支撐的數(shù)據(jù)服務架構。大數(shù)據(jù)中心的后臺即數(shù)據(jù)管理系統(tǒng)在數(shù)據(jù)日常維護、管理、信息反饋等方面發(fā)揮主導作用,具體包括數(shù)據(jù)的著錄、審核、發(fā)布、導出等,從而實現(xiàn)信息資源的分類管理、代碼管理、指標管理等。
4 專業(yè)學科領域知識庫聯(lián)盟服務功能
生物醫(yī)學數(shù)據(jù)在生物醫(yī)學大數(shù)據(jù)研究中心內(nèi)部經(jīng)歷過錘煉和醫(yī)療實踐驗證后,可以幫助各機構知識庫迅速搭建具有自身特色的大數(shù)據(jù)應用系統(tǒng),如數(shù)據(jù)評價與分析系統(tǒng)、醫(yī)療信息管理系統(tǒng)等,系統(tǒng)中逐漸積累的數(shù)據(jù)流經(jīng)過生物醫(yī)學大數(shù)據(jù)分析專家科學地加工與發(fā)現(xiàn),形成集知識性、學術性及功能性為一體的醫(yī)療分析報告,這些報告將為人工智能決策、政府決策、智能醫(yī)療行業(yè)監(jiān)控、醫(yī)療APP的發(fā)展等提供指導和支持。
(1)人工智能決策。在生物醫(yī)學大數(shù)據(jù)管理系統(tǒng)中,不同的人群在不同場景下有不同的響應,結合這些數(shù)據(jù)深度挖掘后形成數(shù)據(jù)模型,進行人工智能決策,如定制化推薦、個性化搜索等。
(2)開發(fā)醫(yī)療APP。醫(yī)療類APP軟件開發(fā)借助生物醫(yī)學知識庫聯(lián)盟產(chǎn)生的數(shù)據(jù)分析結果,擬在為患者提供更好更優(yōu)質(zhì)的醫(yī)療服務,通過知識庫聯(lián)盟的醫(yī)療信息管理系統(tǒng)打造醫(yī)療機構和患者之間的信息交互平臺[5]。
(3)智能醫(yī)療行業(yè)監(jiān)控。我們需要依托生物醫(yī)學知識庫聯(lián)盟的共享數(shù)據(jù)資源和醫(yī)療科研團隊的監(jiān)測調(diào)研資料數(shù)據(jù)對該行業(yè)的運營成本、安全性、隱私問題及未來發(fā)展趨勢進行全面監(jiān)控,從而促進智能醫(yī)療行業(yè)的規(guī)模化、集群化和可持續(xù)性發(fā)展。
(4)政府決策。通過對生物醫(yī)學知識庫聯(lián)盟內(nèi)的數(shù)據(jù)進行整合與分析,圍繞醫(yī)療改革發(fā)展中重大發(fā)展專題、重大政策文件,開展研究和咨詢活動,可形成不同區(qū)域的醫(yī)療市場現(xiàn)狀調(diào)研與發(fā)展趨勢報告及具有影響力的對策報告和決策參考。
5 專業(yè)學科領域知識庫聯(lián)盟的構建模式
目前機構知識庫聯(lián)盟模式主要分為集中式、分布式及組合式。集中式知識庫聯(lián)盟指多個機構單位構建單一、集中的數(shù)據(jù)管理系統(tǒng),聯(lián)盟機構成員直接將元數(shù)據(jù)和內(nèi)容提交到某個共享的服務器中,實現(xiàn)數(shù)字資產(chǎn)的統(tǒng)一保存、 利用、傳播;分布式知識庫聯(lián)盟指聯(lián)盟成員機構分別建立各自的數(shù)據(jù)管理系統(tǒng),通過元數(shù)據(jù)收割的方式實現(xiàn)聯(lián)盟機構資源的集中呈現(xiàn)和揭示;組合式知識庫聯(lián)盟是集中式和分布式的結合,既通過集中提交方式聚合資源,又分別收割元數(shù)據(jù)[6]??偟膩碚f,集中式有利于控制聯(lián)盟的建設成本,但各聯(lián)盟成員會在一定程度上受約束;分布式有利于保證聯(lián)盟成員的自主權益,但會出現(xiàn)資源重復建設的情況;組合式可兼顧兩者的優(yōu)點,但需抓住知識庫聯(lián)盟建設的適宜時機進行切換。
專業(yè)學科領域知識庫聯(lián)盟在建設過程中應根據(jù)自身的實際情況選擇不同的構建模式。在建設初期宜采用集中構建模式,該模式可以通過建立區(qū)域?qū)I(yè)學科大數(shù)據(jù)處理中心,整合多個機構單位的數(shù)據(jù)資源,形成一個具有專業(yè)學科資源、相關行業(yè)信息資源的知識庫聯(lián)盟。在知識庫聯(lián)盟的發(fā)展過程中,考慮到各區(qū)域?qū)I(yè)學科大數(shù)據(jù)處理中心的運載能力,知識庫聯(lián)盟可分批進行,具有典型性行業(yè)實力的機構或單位可第一批加入聯(lián)盟,其他相關專業(yè)學科領域的中小組織、機構可視情況陸續(xù)申請加盟。在知識庫聯(lián)盟穩(wěn)定發(fā)展的中后期,可考慮采用集中與分布有機結合的模式,在該模式下,聯(lián)盟中實力較弱的成員機構知識庫仍采用集中構建模式,聚集共享資源,實力較強的成員機構知識庫可獨立形成相關專業(yè)學科領域的大數(shù)據(jù)處理中心,實現(xiàn)元數(shù)據(jù)的集中收割。隨著專業(yè)科學領域大數(shù)據(jù)集在大數(shù)據(jù)處理中心并逐漸沉淀累積,專業(yè)科學領域知識庫聯(lián)盟可攝取到更多有價值的數(shù)據(jù),圍繞這些數(shù)據(jù),各相關專業(yè)機構就可以開發(fā)出更多便利化、智能化的服務功能,從而為不同領域的用戶提供更精準的服務。
6 構建專業(yè)學科領域知識庫聯(lián)盟的建議
由于構建專業(yè)學科領域知識庫聯(lián)盟還沒有成熟的體系以供參考,筆者在深入了解其他領域機構知識庫建設過程中出現(xiàn)的各種不足后,總結出大數(shù)據(jù)背景下構建專業(yè)學科領域知識庫聯(lián)盟應從數(shù)據(jù)的標準化和規(guī)范化、數(shù)據(jù)的開放性和互動性、非文本信息資源的存取、知識庫聯(lián)盟資源版權管理及復合型人才的培養(yǎng)等方面進行努力。
6.1 數(shù)據(jù)的標準化和規(guī)范化
專業(yè)學科領域數(shù)據(jù)龐雜,產(chǎn)生和更新速度更快,統(tǒng)一的著錄特征是數(shù)據(jù)共享的前提,只有實現(xiàn)數(shù)據(jù)標準化和規(guī)范化的有效融合和整合,才能充分發(fā)揮生物醫(yī)學大數(shù)據(jù)的利用價值?;诖?,可以考慮搭建一種可拔插的開放式數(shù)據(jù)倉庫架構,主要用于規(guī)范和統(tǒng)一各種數(shù)據(jù)結構的標準,以便數(shù)據(jù)能實時地介入與快速地發(fā)布。
6.2 數(shù)據(jù)的開放性和互動性
由于各種不同類型的數(shù)據(jù)都廣泛存儲在各種機構庫服務器中,各種服務器之間的數(shù)據(jù)交換、各機構庫之間的數(shù)據(jù)集成與共享、數(shù)據(jù)結果的及時發(fā)布都成為知識庫聯(lián)盟中數(shù)據(jù)處理的當務之急。為此,構建專業(yè)學科領域知識庫聯(lián)盟不僅需要強化各相關專業(yè)機構知識庫與大數(shù)據(jù)中心之間的信息數(shù)據(jù)集成與共享功能,更重要的是開放、強化各種不同類型數(shù)據(jù)接口,最大程度地滿足數(shù)據(jù)提供者和數(shù)據(jù)受益者的個性化及人性化需求。
6.3 非文本信息資源的存取
要保證專業(yè)學科領域知識庫聯(lián)盟優(yōu)異的服務功能和貢獻力,就必須支持非文本信息資源(NTM)的存取。非文本資源是由不同字符組成的文檔,并且有各自特有的格式和屬性,可考慮利用Fedora與 DSpace知識庫軟件平臺靈活性和可重構性強的特點支持生物醫(yī)學知識庫聯(lián)盟創(chuàng)建與處理不同類型的數(shù)據(jù),如文檔、圖像、多媒體對象、數(shù)據(jù)集、元數(shù)據(jù)等[7],進而滿足不同層次用戶的信息需求。
6.4 知識庫聯(lián)盟資源的版權管理
專業(yè)學科領域知識庫聯(lián)盟數(shù)據(jù)來源的多樣性決定了不同類型資源受到不同的版權限制,各種機構庫資源在大數(shù)據(jù)中心過濾的過程中應標注有無版權的著錄,有版權文獻可以設置為對生物醫(yī)學知識庫聯(lián)盟用戶開放,其他機構用戶可以進行DOI跳轉(zhuǎn)后瀏覽[8]。同時,相關職能部門要考慮構建以專業(yè)學科領域知識庫聯(lián)盟為基礎的版權管理制度以及與之相關的法律法規(guī),從而最大程度地保護知識庫聯(lián)盟資源的版權。
6.5 復合型學科人才的培養(yǎng)
面對海量且無序的各專業(yè)學科領域的信息,我們?nèi)鄙購秃闲蛯W科人才對知識庫聯(lián)盟的有序管理以及有效使用、分析數(shù)據(jù)的工具和技術,這在一定程度上影響了大數(shù)據(jù)對知識庫聯(lián)盟建設事業(yè)的推動。為此,我們需要在對相關人員進行數(shù)據(jù)處理、分析培訓的同時,積極推進交叉學科教育與長遠發(fā)展,以便在數(shù)據(jù)分析、挖掘的開發(fā)應用技術上能更好地應對大量數(shù)據(jù)帶來的復雜性,在專業(yè)學科及相關行業(yè)方面提供優(yōu)質(zhì)服務。
參考文獻:
王波,呂筠,李立明.生物醫(yī)學大數(shù)據(jù):現(xiàn)狀與展望[J].中華流行病學雜志,2014(6):617-620.
溫華影,高嶺,姚延芳,等.中國生物醫(yī)學知識庫(全文版)檢索與應用[J].中國現(xiàn)代醫(yī)生,2008(8):147-148.
陳惠芳,徐衛(wèi)國.大數(shù)據(jù)視角下醫(yī)療行業(yè)發(fā)展的新思維[J].現(xiàn)代管理科學,2015(4):70-72.
刁羽.大數(shù)據(jù)環(huán)境下高校圖書館嵌入式創(chuàng)客群體信息服務的策略探索[J].圖書館學研究,2016(16):70-75.
醫(yī)療類app開發(fā)功能需求分析[EB/OL].[2016-03-20].http://www.mdkg.net/iosnews_3227.html.
陳雨杏.我國區(qū)域機構知識庫聯(lián)盟的構建模式選擇與實施策略[J].圖書館學研究,2011(7):59-63.
潘璇.機構知識庫的非文本信息處理功能探討[J].圖書館理論與實踐,2017(2):44-48.
邵波,陳慧香,劉嘯.基于聯(lián)盟的高校機構知識庫的構建研究[J].圖書館學研究,2016(24):33-38.