●陳立華(德州學(xué)院圖書館,山東德州253023)
面向企業(yè)需求的數(shù)字信息資源整合及信息集成服務(wù)平臺的設(shè)計(jì)與實(shí)現(xiàn)
●陳立華(德州學(xué)院圖書館,山東德州253023)
信息整合;服務(wù)集成;服務(wù)平臺;企業(yè)需求
解決數(shù)字信息資源整合和服務(wù)集成的機(jī)制、管理和技術(shù)問題,探索網(wǎng)絡(luò)環(huán)境下企業(yè)信息需求導(dǎo)向的信息集成服務(wù)平臺的系統(tǒng)構(gòu)建、功能選擇、用戶需求等.
基于信息資源整合與信息門戶集成設(shè)計(jì)的企業(yè)信息服務(wù)平臺建設(shè),目的是運(yùn)用集成管理理念,把分屬各行業(yè)體系的信息資源進(jìn)行整合,原先獨(dú)立運(yùn)行的管理體系通過集成融合為有機(jī)的運(yùn)作整體,在技術(shù)層面上提供統(tǒng)一的用戶檢索界面和信息服務(wù)平臺.
1.1整合信息資源
信息資源的整合是對多樣、分散的信息資源進(jìn)行匯集并提供結(jié)構(gòu)組織和邏輯引導(dǎo).通過本體語義關(guān)系將元信息進(jìn)行描述,方便企業(yè)用戶檢索利用.面向企業(yè)需求導(dǎo)向的信息資源整合首先從數(shù)據(jù)庫及數(shù)據(jù)結(jié)構(gòu)進(jìn)行整合,通常包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、知識評估及表達(dá).[1]其集成過程是將資源信息元數(shù)據(jù)輸入平臺數(shù)據(jù)庫,經(jīng)過合并查重后在同一平臺上提供檢索服務(wù),從根本上解決了各類信息資源孤立、異構(gòu)等問題,實(shí)現(xiàn)信息資源應(yīng)用服務(wù)的統(tǒng)一,使信息集成服務(wù)上升到一個新高度.
1.2實(shí)施技術(shù)協(xié)同
面向企業(yè)需求導(dǎo)向的技術(shù)協(xié)同是基于資源整合和服務(wù)集成的信息服務(wù)平臺建設(shè)的關(guān)鍵.技術(shù)協(xié)同的目的在于通過統(tǒng)一的操作界面,為企業(yè)用戶定制個性化的服務(wù)功能,實(shí)現(xiàn)多個信息資源共享.技術(shù)協(xié)同并沒有改變各信息資源元數(shù)據(jù)的源碼結(jié)構(gòu),是通過數(shù)據(jù)接口實(shí)現(xiàn)元數(shù)據(jù)的互操作,[2]例如,中國科學(xué)圖書館管理的"中國科學(xué)文獻(xiàn)管理系統(tǒng)",把各科學(xué)圖書館館藏資源以不同深度的文獻(xiàn)身份整合在一起,用戶可以通過運(yùn)行元數(shù)據(jù)的互操作實(shí)現(xiàn)OPAC檢索,在身份的確認(rèn)下直接查看文獻(xiàn)全文.技術(shù)協(xié)同的意旨在于促進(jìn)異構(gòu)資源的深層次交融關(guān)聯(lián),并提供符合用戶個性定制服務(wù)功能實(shí)現(xiàn)對多個信息資源系統(tǒng)的透明訪問與檢索,從而在技術(shù)上解決了內(nèi)容重復(fù)、互不關(guān)聯(lián)、彼此孤立的信息資源的統(tǒng)一問題.
1.3形成服務(wù)集成
服務(wù)集成的目的在于提高整合信息資源的利用率,并且在衡量信息服務(wù)平臺效果中主要標(biāo)準(zhǔn)在于基于信息資源整合的集成服務(wù)功能產(chǎn)生的效益.服務(wù)集成必須遵循信息服務(wù)的業(yè)務(wù)規(guī)范,以企業(yè)對信息的實(shí)際需求為導(dǎo)向,實(shí)施調(diào)整信息資源整合內(nèi)容和服務(wù)方式,實(shí)現(xiàn)信息資源、人力資源、服務(wù)技術(shù)資源的共享,達(dá)到信息資源與行業(yè)信息服務(wù)有機(jī)結(jié)合的目的.
面向企業(yè)需求導(dǎo)向的集成服務(wù)平臺以數(shù)字技術(shù)和網(wǎng)絡(luò)技術(shù)為支撐,基本組成元素有計(jì)算機(jī)軟硬件、信息資源、信息資源整合與服務(wù)集成應(yīng)用軟件、面向企業(yè)服務(wù)的信息用戶.圖1為包含各組成元素的集成服務(wù)平臺結(jié)構(gòu)圖.
圖1 面向企業(yè)需求導(dǎo)向的集成服務(wù)平臺結(jié)構(gòu)圖
本結(jié)構(gòu)圖分三個層面.
第一個層面是環(huán)境層.環(huán)境層是保持信息服務(wù)平臺常規(guī)運(yùn)行的基礎(chǔ),包括網(wǎng)絡(luò)化設(shè)備、服務(wù)技術(shù)和組織管理.第二個層面是信息資源層.信息資源層內(nèi)的資源建設(shè)應(yīng)體現(xiàn)多樣化、異構(gòu)性的信息資源彼此依存和彼此補(bǔ)充.實(shí)施建設(shè)時(shí)要明確資源共享的程度、具有擴(kuò)展采集信息資源范圍的潛力、信息深加工和深處理的能力,使信息組織具有足夠的深度和廣度,以滿足企業(yè)用戶的各種需求.第三個層面是信息管理層.信息管理的目的在于集合分布的資源,進(jìn)行整合并深度挖掘,構(gòu)建基于企業(yè)內(nèi)容的平臺數(shù)字信息來源庫,為企業(yè)用戶群發(fā)布信息和提供集成服務(wù)功能.在集成服務(wù)平臺界面上,具有信息資源檢索、元數(shù)據(jù)信息來源、學(xué)習(xí)研究、策略研析等集成式功能模塊,實(shí)現(xiàn)基于平臺管理的集成服務(wù)模式的操作.實(shí)施集成服務(wù)平臺界面流程,可以根據(jù)檢索策略從網(wǎng)絡(luò)上查詢、檢索信息,對實(shí)際采集的信息進(jìn)行去重和分詞操作,對檢索詞進(jìn)行權(quán)重賦予,從而形成詞語類化,以實(shí)現(xiàn)基于某一聚類的分布式信息發(fā)布.
根據(jù)企業(yè)信息集成服務(wù)平臺的層面結(jié)構(gòu),設(shè)計(jì)平臺功能框架(見圖2).
圖2 企業(yè)信息集成服務(wù)平臺功能框架
(1)分布、異構(gòu)的信息資源以本體形式進(jìn)行語言描述并封合為統(tǒng)一的界面,將描述和封合的規(guī)范內(nèi)容登記于公共元數(shù)據(jù)系統(tǒng),以發(fā)布形式轉(zhuǎn)換至集成服務(wù)系統(tǒng),支持基于本體語言描述的各類信息服務(wù)系統(tǒng)互操作,實(shí)現(xiàn)個人定制、檢索、評議等功能.
(2)元數(shù)據(jù)本體描述系統(tǒng)通過規(guī)范方式實(shí)施各類元數(shù)據(jù)的登記,支持?jǐn)?shù)據(jù)的個性化檢索和長久性管理,支持資源檢索請求方對元數(shù)據(jù)的鏈接、分析與檢索.元數(shù)據(jù)本體描述是分布的,可以分別對某類元數(shù)據(jù)進(jìn)行描述、登記,系統(tǒng)本身也作為服務(wù)對象在集成服務(wù)登記系統(tǒng)中登記.
(3)集成服務(wù)登記系統(tǒng)支持各個信息服務(wù)系統(tǒng)的語言描述和邏輯結(jié)構(gòu),支持對描述信息的登記、組織管理和檢索輸出,支持資源檢索請求方對元數(shù)據(jù)的挖掘與分析.服務(wù)登記系統(tǒng)可以是分布的,可對某類或某部分功能模塊進(jìn)行登記,本身也作為信息元素被登記或被開放檢索.
(4)集成信息門戶根據(jù)企業(yè)用戶群的需求向?qū)Ξ悩?gòu)的各信息服務(wù)系統(tǒng)的資源和各類服務(wù)進(jìn)行整合,并依據(jù)服務(wù)流程進(jìn)行數(shù)據(jù)鏈接,將檢索結(jié)果顯示在用戶桌面上.集成信息門戶可以運(yùn)用集成服務(wù)登記系統(tǒng)中的模塊管理功能搜尋信息資源數(shù)據(jù),通過服務(wù)定制功能調(diào)制和集成,其本身也作為服務(wù)系統(tǒng)被登記,可被資源檢索請求方所檢索和分析.
(5)組織協(xié)調(diào)機(jī)制遵循邏輯規(guī)范原則,支持對各個登記系統(tǒng)的分析、搜尋,協(xié)調(diào)元數(shù)據(jù)本體描述系統(tǒng)與集成服務(wù)登記系統(tǒng)之間資源與服務(wù)選取的鏈接、分析、嵌套與輸出.組織協(xié)調(diào)機(jī)制中的諸多功能,如服務(wù)流程設(shè)置、數(shù)據(jù)轉(zhuǎn)換、鏈接分析等也可以作為資源檢索提供方被登記和檢索.
元數(shù)據(jù)的本體描述是一種開放描述.各信息服務(wù)系統(tǒng)中的元數(shù)據(jù)是在開放狀態(tài)下規(guī)范方式的描述,包括資源集合(各類圖書館、互聯(lián)網(wǎng)站)、知識(分類法、敘詞表)、管理(用戶控制、產(chǎn)權(quán)管理、協(xié)議)、服務(wù)(數(shù)據(jù)交換、檢索輸出)等.信息服務(wù)系統(tǒng)的語言描述主要是元數(shù)據(jù)功能的本體語言描述,其系統(tǒng)功能結(jié)構(gòu)包括概念生成器、本體生成器、RSS解析器等主要組件,如圖3所示.
圖3 元數(shù)據(jù)本體語言描述系統(tǒng)功能圖
系統(tǒng)通過對信息資源的語義分析形成領(lǐng)域概念和組織形成,通過概念生成器和本體生成器生成具有概念語義關(guān)系的領(lǐng)域本體.集成信息門戶通過領(lǐng)域本體的語義映射功能對各組件進(jìn)行分類設(shè)置并獲取相關(guān)意義的檢索詞,進(jìn)而通過RSS解析概念生成RSS種子. RSS種子本身具有解析功能,可解析信息資源元數(shù)據(jù)獲取組件內(nèi)容.用戶通過個性化檢索要求,定制對應(yīng)的集成信息門戶組件,實(shí)現(xiàn)個性化定制服務(wù)檢索.
4.1領(lǐng)域概念的產(chǎn)生
擇取DOAJ中主題為Digital Resources的相關(guān)論文20篇作為分析對象,運(yùn)用Stanford Parser對論文進(jìn)行分析統(tǒng)計(jì),根據(jù)分析情況產(chǎn)生關(guān)于Digital Resources的相關(guān)概念.
4.2概念格形式下領(lǐng)域本體的產(chǎn)生
利用Stanford Parser對相關(guān)論文中有關(guān)Digital Resources的主體概念和屬性概念進(jìn)行提取和處理,獲取到了OA Journal Database、Publisher Journal Database、Indel&Abstract Datdbase、Publisher Journal Repository等概念屬性,得到了beFree、beOpenAccess、Authorize、by Web、Periodicity、Fulltext、E-only等組織形式.在概念格的形式下構(gòu)建領(lǐng)域本體,本體生成器完成這項(xiàng)工作.本體生成器通過基于OWL的語義表述,實(shí)施概念映射本體,生成領(lǐng)域本體.
(1)類群映射.把概念格中一個屬性映射為本體中一個對象,通過概念的屬性內(nèi)涵和外延范疇進(jìn)行概念背景解析,建立相應(yīng)的本體類.[3]在映射過程中,需要通過人工方式對生成的本體類進(jìn)行修訂.映射標(biāo)準(zhǔn)為:層次最高的概念描述為"Database Resources",自動映射為"Concept_1".
(2)層面映射.層面映射是通過語義分析,運(yùn)用謂詞來揭示概念之間的各種關(guān)系.所獲得的OAJournalDatabase、PublisherJournalDatabase、Indel&Abstract Datdbase、Publisher Journal Repository等所有概念屬性與上位概念Database Resources是上下位關(guān)系,關(guān)系描述謂詞是"rdfs:subClassOf".在OWL語言描述中, E-journal是Database Resources的具體化標(biāo)識符號.
(3)關(guān)聯(lián)映射.概念在組織形式下的屬性到領(lǐng)域本體下屬性的映射,即把be Free、be Open Access、Authorize、by Web、Periodicity、Fulltext、E-only等組織形式映射為領(lǐng)域本體.
(4)領(lǐng)域本體的生成.通過以上三種類型的映射,即可生成概念格式下的語義概念,也可生成謂詞描述概念關(guān)系的領(lǐng)域本體實(shí)例.
(5)領(lǐng)域本體映射信息表的建立.在形成一定數(shù)量的信息資源語義分析統(tǒng)計(jì)的境況下,建立概念生成的敘詞詞典.將獲取的概念與敘詞詞典依據(jù)詞頻建立映射詞典,成為映射信息表.其功能是本體搜索轉(zhuǎn)變?yōu)閼?yīng)用數(shù)據(jù)源的關(guān)系型數(shù)據(jù)庫檢索.
4.3RSS解析
企業(yè)用戶根據(jù)需求進(jìn)行個性請求,在集成門戶界面中輸入主題詞語,平臺集成服務(wù)登記系統(tǒng)依據(jù)其模塊控制功能,運(yùn)用SPARQL(Simple Protocol And RDF Query Language)進(jìn)行概念語義查詢,分析和輸出與用戶請求具有語義關(guān)聯(lián)的檢索條件.
語義關(guān)聯(lián)的檢索條件生成后,通過領(lǐng)域本體映射信息表把檢索條件轉(zhuǎn)化成若干關(guān)系型數(shù)據(jù)庫的SQL語句,[4]實(shí)現(xiàn)對各信息服務(wù)系統(tǒng)中信息資源的檢索.同時(shí),檢索結(jié)果可以通過RSS生成RSS種子,通過集成信息門戶實(shí)時(shí)將檢索結(jié)果推送給用戶.
集成登記系統(tǒng)服務(wù)是一種分布服務(wù),把各個信息服務(wù)系統(tǒng)視為一個對象整體,集中對檢索界面、模塊功能、數(shù)據(jù)流向、注冊協(xié)議進(jìn)行描述.集成登記服務(wù)機(jī)制利用XML語言對整體信息系統(tǒng)進(jìn)行規(guī)范描述,實(shí)現(xiàn)元數(shù)據(jù)的登記與檢索,通過注冊協(xié)議支持信息資源的調(diào)用,[5]具有互操作的管理功能.這種分布服務(wù)的代表是Web Services Architecture、ebXML.下面以Web Services Architecture分布服務(wù)體系為例說明集成登記服務(wù)機(jī)制與功能(見圖4).
圖4 Architecture分布服務(wù)體系機(jī)制與功能說明圖
(1)網(wǎng)絡(luò)中分布、異構(gòu)的各個信息服務(wù)系統(tǒng)以規(guī)范的SOAP協(xié)議通過遠(yuǎn)程控制程序傳輸數(shù)據(jù)單元進(jìn)行互操作.在這種XML傳遞消息方式下,任何一個信息服務(wù)系統(tǒng)既為服務(wù)請求者也為服務(wù)提供者.
(2)運(yùn)用WSDL描述語言對各個信息服務(wù)系統(tǒng)的操作機(jī)制、數(shù)據(jù)流向、元數(shù)據(jù)類型、注冊協(xié)議等集成方式和網(wǎng)絡(luò)方位進(jìn)行描述,形成一個XML管理文件,[6]用來建立和管理裝在集成信息門戶的服務(wù)系統(tǒng)的標(biāo)準(zhǔn)界面.
(3)這種基于XML的Web描述文件以直線管理的方式,指令信息服務(wù)提供方提供搜索引擎搜尋或在集成服務(wù)登記系統(tǒng)中登記,并通過電子郵件或FTP文件傳送信息資源給信息服務(wù)請求者.
(4)Web描述文件通過UDDI公共登記系統(tǒng)進(jìn)行登記,同時(shí)并行登記其他信息,支持以規(guī)范描述方式對描述服務(wù)文件和相關(guān)信息的檢索.
(5)在SOAP的支持下,信息服務(wù)請求方通過服務(wù)定制選擇合適的Web信息服務(wù)模塊,可以直接向信息服務(wù)提供方實(shí)施OAI搜索或檢索公共服務(wù)登記系統(tǒng).
(6)信息服務(wù)請求方、提供方通過集成服務(wù)登記系統(tǒng)進(jìn)行信息傳遞,是基于SOPA協(xié)議下的捆綁于HTTP上的服務(wù)方式.為此,集成后的信息服務(wù)門戶可以在萬維網(wǎng)上順利實(shí)施功能操作,而且通過WSFL等開放式描述語言實(shí)施服務(wù)流程中的角色、功能及數(shù)據(jù)格式和流向控制等語言描述,從而支持業(yè)務(wù)管理來調(diào)用和集成多個信息服務(wù)系統(tǒng).
分布服務(wù)體系本身可以優(yōu)化和擴(kuò)展,由簡單的信息服務(wù)登記和搜索擴(kuò)展到不同類型、層次的元數(shù)據(jù)規(guī)范描述、檢索輸出,進(jìn)一步還可擴(kuò)展到應(yīng)用業(yè)務(wù)內(nèi)容的開放描述和對各個信息服務(wù)系統(tǒng)資源的調(diào)用、配置.[7]在網(wǎng)絡(luò)信息服務(wù)業(yè),分布服務(wù)形式多樣:OAI系統(tǒng)具有元數(shù)據(jù)開放搜索、檢索和提供增值服務(wù)等功能;SDLIP組織協(xié)議基于查詢界面語言描述,實(shí)施對異構(gòu)信息服務(wù)系統(tǒng)進(jìn)行封合;STARTS協(xié)議以SOIF格式的形式對元數(shù)據(jù)源、檢索輸出格式進(jìn)行描述,支持用戶終端對檢索系統(tǒng)類型進(jìn)行選擇、對檢索結(jié)果進(jìn)行整合.可以說,分布服務(wù)體系建立在網(wǎng)絡(luò)規(guī)范描述上,有利于信息服務(wù)系統(tǒng)方便地接入和靈活地調(diào)用,有效地實(shí)施分布、異構(gòu)的信息服務(wù)系統(tǒng)的集成和集成信息門戶的功能展現(xiàn).
[1]張文德.信息資源整合系統(tǒng)與技術(shù)研究[J].現(xiàn)代圖書情報(bào)技術(shù),2003(6):72-73.
[2]Van de Sompel H,Beit-Arie O.Generalizing the OpenURL Framework beyond Reference to Scholarly Works:TheBison-futeModel[J].D-LibMagazine, 2001(7):31-37.
[3]滕廣青,畢強(qiáng).基于概念格的異構(gòu)資源領(lǐng)域本體構(gòu)建研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011(5): 7-12.
[4]張宗仁,楊天奇.基于自然語言理解的SPARQL本體查詢[J].計(jì)算機(jī)應(yīng)用,2010(12):3397-3400.
[5]De Maio C,et al.Ontology-based Knowledge Structuring:An Application on RSS Feeds[C]//Proceeding of the 2nd Conference on Human System Interactions, Catania.Piscataway,NJ,USA:IEEE Press,2009: 464-470.
[6]Hong H S,Colomb R M.Ontology Mapping Between Heterogeneous Systemsfor Semantic Web[J].Journal of Korea Information Science Society,2004,1(1): 25-32.
[7]Emathieu.Posh[EB/OL].[2011-12-05].http:// sour-ceforge.net/mediawiki/posh/index.php?title=Poshdocumentation.
G250.73;254.97
B
1005-8214(2015)10-0107-04
陳立華(1970-),男,管理學(xué)碩士,德州學(xué)院圖書館副館長,副研究館員,研究方向:信息集成與資源管理.
2014-12-21[責(zé)任編輯]徐娜