全志薇 陳曉玲
摘 要:異構(gòu)數(shù)據(jù)異構(gòu)性主要表現(xiàn)在不同的數(shù)據(jù)庫類型和數(shù)據(jù)結(jié)構(gòu)。為解決異構(gòu)數(shù)據(jù)整合中的統(tǒng)一檢索問題,以科技資訊庫、政策庫、統(tǒng)計庫、項目庫、機構(gòu)庫和人才庫為例,建立不同類型文獻資源元數(shù)據(jù)結(jié)構(gòu)和規(guī)范,構(gòu)建吉林省區(qū)域創(chuàng)新數(shù)據(jù)庫系統(tǒng),解決不同種類數(shù)據(jù)庫之間的數(shù)據(jù)整合問題。實踐證明,基于該方式構(gòu)建的區(qū)域創(chuàng)新數(shù)據(jù)庫可為后續(xù)學科個性化服務(wù)提供有效的檢索支撐,在系統(tǒng)利用和服務(wù)方面具有一定實用價值。
關(guān)鍵詞:異構(gòu)數(shù)據(jù);區(qū)域創(chuàng)新;數(shù)據(jù)整合;元數(shù)據(jù);統(tǒng)一檢索
DOI:10. 11907/rjdk. 201004
中圖分類號:TP392文獻標識碼:A 文章編號:1672-7800(2020)010-0214-04
Abstract: This research mainly solves the problem of unified retrieval of heterogeneous data integration which is mainly manifested in different database types and data structures. Taking science and technology information database, policy database, statistics database, project database, institution database and talent database as examples, this paper designs the metadata structure of different types of literature resources and establishes the metadata of literature resources. According to the standard, the regional innovation database system of Jilin Province is constructed to solve the problem of data conversion between different kinds of databases. The practice proves that the unified retrieval platform of regional innovation database based on this method provides effective retrieval support for the personalized service of the follow-up disciplines and has a certain practical value for the utilization and service of the system.
Key Words: heterogeneous data; regional innovation; data integration; metadata; unified retrieval
0 引言
國家科技部2018年2月頒布了《國家科技資源共享服務(wù)平臺管理辦法》,科技資源共享有利于促進科技信息資源為社會、經(jīng)濟、科研等提供更有效的服務(wù)。目前國內(nèi)有多個商業(yè)化數(shù)字資源提供商,如中國知網(wǎng)、維普、讀秀等,但缺乏區(qū)域性特色科技資源共享平臺。吉林省科學技術(shù)信息研究所經(jīng)過多年科研項目積累,形成了眾多分散式、區(qū)域性的科技資訊類、政策類、統(tǒng)計數(shù)據(jù)、項目、人才、機構(gòu)等不同主體、不同種類、不同形態(tài)的資源,至今未對其進行有效的匯集、整合、存儲與表述,急需建立資訊、政策、數(shù)據(jù)、成果、人才、機構(gòu)等科技信息共享平臺。本文充分利用模塊化構(gòu)造方法,重點研究資訊類、政策類、統(tǒng)計數(shù)據(jù)類、科研項目類、人才類、機構(gòu)類等分散式異構(gòu)數(shù)據(jù)集成技術(shù),以數(shù)據(jù)類型為例,統(tǒng)一協(xié)調(diào)不同數(shù)據(jù)庫管理軟件,對數(shù)據(jù)進行整合,構(gòu)建吉林省區(qū)域創(chuàng)新數(shù)據(jù)庫。
1 文獻回顧
眾多學者對異構(gòu)數(shù)據(jù)整合、創(chuàng)新數(shù)據(jù)庫進行了研究。張宏偉等[1]建立了基于DC元數(shù)據(jù)倉儲的一站式檢索系統(tǒng)架構(gòu)模型;徐愛萍等[2]構(gòu)建了水文及水環(huán)境數(shù)據(jù)共享平臺;顧瑋[3]闡述了異構(gòu)數(shù)據(jù)源特點和集成技術(shù);邵桐等[4]實現(xiàn)了數(shù)據(jù)交換系統(tǒng);張洋[5]設(shè)計了異構(gòu)數(shù)據(jù)庫實現(xiàn)方案;王宏起等[6]構(gòu)建了各區(qū)域政府科技管理部門及區(qū)域共享平臺,為發(fā)展管理提供科學依據(jù)和參考;周瑩[7]對異構(gòu)分布式數(shù)據(jù)庫系統(tǒng)具體設(shè)計思路進行了研究;道仁·哈尼開[8]提出采用XML技術(shù)針對異構(gòu)數(shù)據(jù)的轉(zhuǎn)換模式。但是,針對區(qū)域創(chuàng)新數(shù)據(jù)庫共享平臺異構(gòu)數(shù)據(jù)整合的研究鮮有涉及。因此本文針對不同類型數(shù)據(jù)庫,建立相應(yīng)元數(shù)據(jù)結(jié)構(gòu)和規(guī)范,構(gòu)建吉林省區(qū)域創(chuàng)新數(shù)據(jù)庫系統(tǒng),解決不同種類數(shù)據(jù)庫之間的數(shù)據(jù)整合問題。本文研究對提升區(qū)域創(chuàng)新和共享集成服務(wù)能力、豐富平臺管理方法具有重要的現(xiàn)實意義。
2 異構(gòu)數(shù)據(jù)特點與整合
2.1 異構(gòu)數(shù)據(jù)特點
數(shù)據(jù)庫系統(tǒng)模型有層次、網(wǎng)狀和關(guān)系,各種類型數(shù)據(jù)庫用戶群體、特征、數(shù)據(jù)結(jié)構(gòu)均存在明顯區(qū)別[9]。異構(gòu)數(shù)據(jù)庫系統(tǒng)是相關(guān)多個數(shù)據(jù)庫系統(tǒng)的集成,以實現(xiàn)數(shù)據(jù)共享和透明訪問。異構(gòu)性主要體現(xiàn)在數(shù)據(jù)源異構(gòu)、數(shù)據(jù)結(jié)構(gòu)異構(gòu),因此對多個數(shù)據(jù)源集成非常重要,而異構(gòu)數(shù)據(jù)庫集成可屏蔽數(shù)據(jù)來源和結(jié)構(gòu)異構(gòu)性,將分散的、異構(gòu)的多個數(shù)據(jù)源相關(guān)數(shù)據(jù)進行有效集成[10-11]。
2.2 異構(gòu)數(shù)據(jù)整合
吉林省區(qū)域創(chuàng)新數(shù)據(jù)庫整合了7類數(shù)據(jù)科技,如圖1所示。
(1)科技資訊、科技政策和科技統(tǒng)計數(shù)據(jù)存儲在SQL Server數(shù)據(jù)庫,包括國內(nèi)外科技資訊和科技政策、吉林省歷年科技統(tǒng)計數(shù)據(jù)等。
(2)科技項目和軟科學項目數(shù)據(jù)存儲在Access數(shù)據(jù)庫,包括項目類別、年限、地區(qū)、來源、經(jīng)費、承擔人、承擔單位等基本信息,以及項目鑒定時間、摘要、關(guān)鍵詞、研究成果等項目詳細信息。
(3)科技人才和科技機構(gòu)存儲為Excel文件,沒有形成數(shù)據(jù)庫??萍既瞬判畔ㄐ彰?、性別、年齡、學歷、工作單位、職稱、職務(wù)、研究方向等信息;科技機構(gòu)信息包括名稱、簡介、地址、聯(lián)系人、類型等。
綜上所述,現(xiàn)有7類數(shù)據(jù)采用不同的數(shù)據(jù)源和數(shù)據(jù)結(jié)構(gòu),將其分散的異構(gòu)數(shù)據(jù)庫集中存儲到共享信息數(shù)據(jù)庫中,用戶可通過整合之后的吉林省區(qū)域創(chuàng)新數(shù)據(jù)庫進行全面了解科技類信息,實現(xiàn)統(tǒng)一檢索、聚類分析、分類導(dǎo)航等功能[12-13]。對不同數(shù)據(jù)源的數(shù)據(jù)進行封裝,對外提供統(tǒng)一的數(shù)據(jù)訪問方式,同時對各種類型的數(shù)據(jù)進行統(tǒng)一標識,實現(xiàn)信息統(tǒng)一和透明訪問[14]。
3 吉林省區(qū)域創(chuàng)新數(shù)據(jù)庫設(shè)計與實現(xiàn)
3.1 系統(tǒng)功能設(shè)計
首先采用元數(shù)據(jù)倉儲技術(shù)對異構(gòu)數(shù)據(jù)進行統(tǒng)一描述和創(chuàng)建,其次系統(tǒng)提供統(tǒng)一跨庫檢索,可整合多個類型的資源并提供一站式檢索與服務(wù),實現(xiàn)檢索結(jié)果統(tǒng)一展現(xiàn)。向用戶提供統(tǒng)一的檢索接口,將用戶檢索要求轉(zhuǎn)化為不同的數(shù)據(jù)源檢索表達式,提供基于元數(shù)據(jù)倉儲服務(wù)的集成功能,實現(xiàn)檢索結(jié)果整合[6]。系統(tǒng)主要功能需求如表1所示。
系統(tǒng)后臺功能模塊設(shè)計如圖2所示。
3.2 數(shù)據(jù)庫結(jié)構(gòu)設(shè)計
不同類型和結(jié)構(gòu)的科技文獻元數(shù)據(jù)描述各不相同,但在使用、傳輸、共享過程中,可形成相對全面且固定的描述信息[15]。本文主要采用將DC元數(shù)據(jù)與區(qū)域創(chuàng)新數(shù)據(jù)實際需求相結(jié)合的數(shù)據(jù)結(jié)構(gòu)。系統(tǒng)主要DC元數(shù)據(jù)包括標題、創(chuàng)建者、主題、出版者、發(fā)布日期、類型、格式、標識符等,元數(shù)據(jù)規(guī)范如表2所示。
3.3 系統(tǒng)體系架構(gòu)
系統(tǒng)采用B/S模式結(jié)構(gòu),具體系統(tǒng)架構(gòu)如圖3所示。
對不同類型的數(shù)據(jù)源數(shù)據(jù)進行采集、傳輸與交換,通過數(shù)據(jù)導(dǎo)入、自動入庫、下載入庫和整理入庫等多種方式,將數(shù)據(jù)統(tǒng)一遷移和存儲到區(qū)域創(chuàng)新數(shù)據(jù)庫中,管理員在系統(tǒng)后臺進行用戶管理與權(quán)限認證。系統(tǒng)采用模塊化構(gòu)造,具有良好的開放性和擴展性,根據(jù)需求拓展需求不斷進行調(diào)整組合,開拓新功能[16]。
3.4 系統(tǒng)功能實現(xiàn)
該系統(tǒng)以促進區(qū)域經(jīng)濟發(fā)展和科技創(chuàng)新的服務(wù)需求為目標,成為區(qū)域產(chǎn)業(yè)升級、戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展、政府管理部門科技咨詢和科技決策的載體[17]。以用戶為核心,以門戶網(wǎng)站為媒介,其服務(wù)功能如下:
(1)集成功能。根據(jù)自身優(yōu)勢將區(qū)域科技資訊、政策、項目、機構(gòu)、人才等分布散亂的資源進行集成并優(yōu)化重組,確定科技資源存儲形式,以實現(xiàn)供需高效對接。
(2)整合功能。根據(jù)用戶創(chuàng)新數(shù)據(jù)需求將資源進行有效整合、分割和重組,不同資源轉(zhuǎn)變?yōu)閷嶋H服務(wù),包括科技文獻、專業(yè)技術(shù)、專家咨詢等服務(wù),增強中小企業(yè)創(chuàng)新實力,提高區(qū)域資源利用率[14]。
(3)共享功能。以用戶科技需求為前提,匯集、整合、存儲科技資源,通過共享為戰(zhàn)略性新興企業(yè)、中小企業(yè)、科研院所、高等院校等創(chuàng)新創(chuàng)業(yè)主體提供服務(wù)。如系統(tǒng)為需求方提供文獻資源和專家技術(shù)等,加快企業(yè)創(chuàng)新進程,解決實質(zhì)性科技問題,提高企業(yè)對當下科技資源的利用率,降低企業(yè)創(chuàng)新成本[18-19]。
3.4.1 統(tǒng)一跨庫檢索
系統(tǒng)首頁為統(tǒng)一跨庫檢索入口,按標題、關(guān)鍵詞、來源等字段在全部數(shù)據(jù)庫中進行檢索:①全部數(shù)據(jù)庫按標題、作者、來源字段進行檢索;②資訊和政策數(shù)據(jù)庫按標題、作者、簡介(正文)字段進行檢索;③統(tǒng)計數(shù)據(jù)庫按標題、年份字段進行檢索;④項目數(shù)據(jù)庫按項目名稱、項目簡介、項目負責人、承擔單位、立項年字段進行檢索;⑤機構(gòu)數(shù)據(jù)庫按機構(gòu)名稱、機構(gòu)簡介、機構(gòu)類型字段進行檢索;⑥人才數(shù)據(jù)庫按姓名、個人簡介字段進行檢索。
在首頁提供所有數(shù)據(jù)庫圖片和文字鏈接入口,點擊圖片進入相應(yīng)單庫界面,在單庫中也可進行高級檢索,選擇主要字段(全文、年份、標題、作者、摘要等)進行多條件組合檢索。
3.4.2 元數(shù)據(jù)管理
(1)元數(shù)據(jù)類型管理。其主要設(shè)置的系統(tǒng)元數(shù)據(jù)類型有多種,同時對每一種元數(shù)據(jù)類型進行配置。
(2)元數(shù)據(jù)字段管理。其主要設(shè)置系統(tǒng)對每一類元數(shù)據(jù)類型的字段配置,包括所有元數(shù)據(jù)類型的字段,如標題、主題、作者、來源、單位、年份、所屬行業(yè)等,同時針對每一個字段的中文名稱、要素、控件類型、數(shù)據(jù)類型、檢索名稱等進行詳細配置。
3.4.3 索引創(chuàng)建
由于系統(tǒng)提供統(tǒng)一跨庫檢索功能,對于后臺首次新創(chuàng)建的文獻信息,需重新創(chuàng)建索引,便于前臺統(tǒng)一跨庫檢索的數(shù)據(jù)集是最新全集。
4 結(jié)語
本文結(jié)合異構(gòu)數(shù)據(jù)庫特點,解決了7類異構(gòu)資源庫數(shù)據(jù)集成與共享問題。平臺通過測試和實際使用,實現(xiàn)了數(shù)據(jù)共享功能,證明了該系統(tǒng)可靠性和穩(wěn)定性。本文對數(shù)據(jù)資源檢索特點及檢索需求進行分析,采取構(gòu)建不同文獻資源類型的元數(shù)據(jù)整合方式,實現(xiàn)了整個平臺統(tǒng)一檢索,提供了可有效滿足用戶需求的檢索服務(wù)方式和功能。
通過前期基礎(chǔ)元數(shù)據(jù)倉儲構(gòu)建與檢索平臺建設(shè),以海量文獻資源元數(shù)據(jù)倉儲為基礎(chǔ),通過信息資源不斷積累,圍繞吉林省區(qū)域創(chuàng)新科技資源建設(shè),后續(xù)可按學科、服務(wù)對象對整合平臺進行升級改造。下一步將引用知識庫概念,在文本內(nèi)容挖掘與價值發(fā)現(xiàn)方面,展現(xiàn)學科知識點關(guān)聯(lián)關(guān)系,實現(xiàn)資源多維分類導(dǎo)航,圍繞各種類型最終用戶,打造更具個性化特色的科技資源服務(wù)平臺;還可將基礎(chǔ)文獻資源統(tǒng)一檢索服務(wù)功能嵌入至各應(yīng)用系統(tǒng),充分利用統(tǒng)一檢索的作用,更好地為廣大用戶提供文獻資源服務(wù)。
參考文獻:
[1] 張宏偉,許慧. 基于DC元數(shù)據(jù)倉儲的數(shù)字存儲資源整合研究[J].圖書館學刊,2014,36(6):32-34.
[2] 徐愛萍,宋先明,徐武平. 分布式異構(gòu)數(shù)據(jù)庫集成系統(tǒng)研究與實現(xiàn)[J]. 計算機工程與科學,2015,37(10):1909-1916.
[3] 顧瑋. 異構(gòu)數(shù)據(jù)庫集成技術(shù)研究[J]. 辦公自動化,2016(19):44-45.
[4] 李秉鍵. 基于XML的高校異構(gòu)數(shù)據(jù)交換平臺設(shè)計[J]. 軟件導(dǎo)刊,2014,13(2):100-102.
[5] 張洋. 云計算中異構(gòu)數(shù)據(jù)庫方案的研究與設(shè)計[J]. 電腦編程技巧與維護,2017(12):63-65.
[6] 王宏起,程淑娥,李玥. 大數(shù)據(jù)環(huán)境下區(qū)域科技資源共享平臺云服務(wù)模式研究[J]. 情報理論與實踐,2017,30(3):42-47.
[7] 周瑩. 分布式異構(gòu)數(shù)據(jù)集成系統(tǒng)的研究與分析[J]. 數(shù)字技術(shù)與應(yīng)用,2018,36(7):220,222.
[8] 道仁·哈尼開. 基于XML的異構(gòu)數(shù)據(jù)庫數(shù)據(jù)的轉(zhuǎn)換[J]. 電子世界,2018(11):64,66.
[9] 柳原. 多源異構(gòu)數(shù)據(jù)整合系統(tǒng)在醫(yī)療大數(shù)據(jù)中的研究[J]. 電子制作,2019(14):64-65.
[10] 陳正思.? 基于TRS信息檢索技術(shù)的文獻資源統(tǒng)一檢索平臺的構(gòu)建[D]. 長沙:中南大學,2011.
[11] 黃鏑. 異構(gòu)數(shù)據(jù)庫的跨庫檢索技術(shù)綜述[J]. 圖書情報工作,2003。47(6):94-97, 109.
[12] 邵桐,朱明東. 基于元數(shù)據(jù)的數(shù)據(jù)交換系統(tǒng)研究[J]. 軟件導(dǎo)刊,2016,15(7):158-160.
[13] 王亮,蘇云. 基于Lucene的異構(gòu)數(shù)據(jù)庫全文檢索技術(shù)[J]. 指揮控制與仿真,2017,39(2):141-144,148.
[14] 陳鳳巖,唐振宇,步兆軍. 基于Java和XML的異構(gòu)數(shù)據(jù)庫集成研究[J]. 情報雜志,2006,25(7):16-17,21.
[15] 何卓桁,劉志勇,李璐,等. 異構(gòu)文本數(shù)據(jù)轉(zhuǎn)換中XML解析方法對比研究[J]. 計算機工程,2020,46(7):286-293,299.
[16] 趙瑜,李曉東,張新建. 基于元數(shù)據(jù)的分布式數(shù)據(jù)統(tǒng)一訪問技術(shù)[J]. 指揮信息系統(tǒng)與技術(shù),2019,10(4):33-37,60.
[17] 李璋琪.? 基于異構(gòu)數(shù)據(jù)庫的歷史數(shù)據(jù)中心建設(shè)[J]. 電子技術(shù)與軟件工程,2019(18):154-158.
[18] 肖剛. 異構(gòu)數(shù)據(jù)庫更新同步研究與實現(xiàn)[J]. 軟件導(dǎo)刊,2019,18(10):182-185.
[19] 劉順利,李銀生,吳峰,等. 我國科技報告建設(shè)面臨的發(fā)展瓶頸及其對策建議[J]. 科技管理研究,2019,39(12):252-256.
(責任編輯:江 艷)