張龍昌,劉冬升,楊艷紅,王曉明
(渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121013)
數(shù)字圖書館云計(jì)算研究
張龍昌,劉冬升,楊艷紅,王曉明
(渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121013)
選取中國(guó)知識(shí)網(wǎng)為檢索工具,以近4年國(guó)內(nèi)數(shù)字圖書館云計(jì)算技術(shù)研究的373篇文獻(xiàn)為分析對(duì)象,概括國(guó)內(nèi)學(xué)者圍繞數(shù)字圖書館云計(jì)算技術(shù)研究重點(diǎn),著重從數(shù)字圖書館云平臺(tái)構(gòu)建、數(shù)字資源存儲(chǔ)、數(shù)字資源檢索、數(shù)字圖書館遷移、數(shù)字資源整合、數(shù)字資源調(diào)度、云計(jì)算中心的負(fù)載和網(wǎng)絡(luò)優(yōu)化以及數(shù)字資源安全技術(shù)共8個(gè)方面研究國(guó)內(nèi)數(shù)字圖書館云計(jì)算技術(shù)。選取ISI Web of Knowledge和Engineering Village為檢索工具,以近4年國(guó)外數(shù)字圖書館云計(jì)算技術(shù)研究的398篇文獻(xiàn)為分析對(duì)象,概括國(guó)外學(xué)者圍繞數(shù)字圖書館云計(jì)算技術(shù)研究重點(diǎn),著重從數(shù)字圖書館云平臺(tái)構(gòu)建、數(shù)字圖書館虛擬化技術(shù)、數(shù)字資源語(yǔ)義技術(shù)、數(shù)字圖書館遷移技術(shù)、數(shù)字圖書館中基于云的高性能計(jì)算、數(shù)字圖書館云服務(wù)模式共6個(gè)方面研究國(guó)外數(shù)字圖書館云計(jì)算技術(shù)。最后提出數(shù)字圖書館云計(jì)算技術(shù)目前研究存在的不足和未來(lái)發(fā)展趨勢(shì)。
數(shù)字圖書館;云計(jì)算;數(shù)字資源;數(shù)據(jù)檢索;數(shù)據(jù)存儲(chǔ);數(shù)據(jù)遷移;云平臺(tái)構(gòu)建
1.1 相關(guān)研究概況
選取中國(guó)知識(shí)網(wǎng)-CNKI的中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)作為數(shù)據(jù)來(lái)源,進(jìn)行文獻(xiàn)統(tǒng)計(jì)。在標(biāo)準(zhǔn)檢索下,檢索時(shí)段不設(shè)定,以“篇名”作為“檢索項(xiàng)”,以“圖書館”、“云計(jì)算”為檢索詞,匹配模式為精確匹配,共檢索到以圖書館云計(jì)算為題名的論文373篇(檢索時(shí)間是2013年1月24日),分析見(jiàn)表1。發(fā)文量大幅提高,說(shuō)明數(shù)字圖書館云計(jì)算技術(shù)已經(jīng)成為圖書、情報(bào)領(lǐng)域關(guān)注的焦點(diǎn)和熱點(diǎn)問(wèn)題之一。
1.2 相關(guān)研究成果
目前國(guó)內(nèi)學(xué)者對(duì)數(shù)字圖書館云計(jì)算技術(shù)的研究,主要集中在數(shù)字圖書館云計(jì)算平臺(tái)構(gòu)建、云計(jì)算中心的負(fù)載和網(wǎng)絡(luò)優(yōu)化、數(shù)字資源安全技術(shù)、數(shù)字資源存儲(chǔ)技術(shù)、信息檢索技術(shù)、數(shù)字圖書館遷移技術(shù)、數(shù)字圖書館信息資源整合技術(shù)、數(shù)字圖書館資源調(diào)度技術(shù)等方面。
表1 2009-2013年國(guó)內(nèi)數(shù)字圖書館
(1)數(shù)字圖書館云平臺(tái)構(gòu)建。
為獲得圖書館數(shù)字化服務(wù)系統(tǒng)在開(kāi)源云計(jì)算平臺(tái)上實(shí)現(xiàn)的可行解決方案,學(xué)者對(duì)基于開(kāi)源云平臺(tái)的數(shù)字圖書館架構(gòu)設(shè)計(jì)進(jìn)行了研究。王文清等基于CALIS“十五”成果和三期建設(shè)目標(biāo),提出了CALIS云戰(zhàn)略和相應(yīng)的數(shù)字圖書館云服務(wù)平臺(tái)模型,描述了平臺(tái)的整合機(jī)制(包括開(kāi)放接口和服務(wù)整合方式等),給出數(shù)字圖書館公有云、私有云和混合云的構(gòu)建方式,論述該平臺(tái)需要解決的部分關(guān)鍵問(wèn)題并介紹其進(jìn)展情況[1]。胡新平在分析當(dāng)前數(shù)字文獻(xiàn)保障服務(wù)模式的基礎(chǔ)上,從文獻(xiàn)資源云的服務(wù)模型、資源組織、商務(wù)模型和服務(wù)工具等方面闡述了文獻(xiàn)資源云平臺(tái)構(gòu)建模式,同時(shí)對(duì)文獻(xiàn)資源云平臺(tái)構(gòu)建的實(shí)施主體、資源來(lái)源和版權(quán)保護(hù)以及DOI系統(tǒng)的推廣等關(guān)鍵問(wèn)題作了分析探討[2]。張興旺等提出適用于高校圖書館的中小型云計(jì)算中心的規(guī)劃建設(shè)模型,通過(guò)對(duì)云計(jì)算技術(shù)的研究,結(jié)合數(shù)字化信息資源建設(shè)的業(yè)務(wù)特征,構(gòu)建了基于云計(jì)算的數(shù)字化信息資源建設(shè)體系架構(gòu)模型、實(shí)施方案[3]。秦曉珠等認(rèn)為移動(dòng)云計(jì)算為數(shù)字圖書館的構(gòu)建和環(huán)境提供了更深層次的可觸摸性,為解決傳統(tǒng)的移動(dòng)圖書館計(jì)算能力弱、存儲(chǔ)能力差等問(wèn)題提供了無(wú)限的可能性;通過(guò)分析移動(dòng)云計(jì)算環(huán)境下數(shù)字圖書館的云服務(wù)模式,提出一種基于應(yīng)用融合的MaaS(Mobility as a Service)服務(wù)模型[4]。王亞民等對(duì)Hadoop云環(huán)境進(jìn)行比較深入的研究,介紹云計(jì)算的關(guān)鍵技術(shù),設(shè)計(jì)基于云計(jì)算的數(shù)字圖書館的框架和一些功能的實(shí)現(xiàn)方法[5]。
(2)數(shù)字資源存儲(chǔ)技術(shù)。
收集、組織、收藏有價(jià)值的信息資源,為廣大讀者提供免費(fèi)的信息服務(wù),減小信息鴻溝,構(gòu)建和諧社會(huì),是圖書館的一項(xiàng)重要職能。江秋菊對(duì)目前數(shù)字圖書館資源存儲(chǔ)中常用的5種存儲(chǔ)方案進(jìn)行比較,找出資源存儲(chǔ)中現(xiàn)存的主要問(wèn)題,并在闡述云存儲(chǔ)特性的基礎(chǔ)上,分析云存儲(chǔ)在解決這些問(wèn)題方面的優(yōu)勢(shì),從技術(shù)前提及關(guān)鍵技術(shù)、體系結(jié)構(gòu)幾方面具體講述數(shù)字圖書館資源云存儲(chǔ)方案,指出云存儲(chǔ)在安全方面以及數(shù)字版權(quán)方面的缺陷[6]。張艷等闡述圖書館數(shù)字資源存儲(chǔ)現(xiàn)狀,分析云存儲(chǔ)給數(shù)字圖書館建設(shè)帶來(lái)的好處,提出基于開(kāi)源云計(jì)算Hadoop的分布式文件系統(tǒng)HDFS與分布式存儲(chǔ)系統(tǒng)HBase相結(jié)合的圖書館資源存儲(chǔ)架構(gòu),并深入探討了云存儲(chǔ)系統(tǒng)中的關(guān)鍵組件[7]。馬曉亭等為提高云圖書館分布式系統(tǒng)的存儲(chǔ)容量、可靠性以及效率,分析了云數(shù)字圖書館對(duì)云存儲(chǔ)的需求,介紹了云存儲(chǔ)的技術(shù)架構(gòu)和應(yīng)用原理,提出一種新的基于云計(jì)算的存儲(chǔ)策略;該策略可以使存儲(chǔ)設(shè)施負(fù)載均衡,提高系統(tǒng)數(shù)據(jù)傳輸性能,解決了云圖書館海量存儲(chǔ)需求的問(wèn)題[8]。
(3)數(shù)字資源檢索技術(shù)。
云計(jì)算技術(shù)將圖書館系統(tǒng)中眾多的服務(wù)器(計(jì)算機(jī))組合成資源群,從而形成一個(gè)資源利用率高、運(yùn)算速度快的圖書館信息檢索服務(wù)系統(tǒng),推動(dòng)圖書館信息檢索服務(wù)的發(fā)展。付永貴針對(duì)云計(jì)算平臺(tái)下信息檢索的特性,在對(duì)經(jīng)典余弦向量度量法文本檢索模型局限性進(jìn)行分析的基礎(chǔ)上,提出按查詢索引項(xiàng)在文本不同檢索范圍設(shè)置不同權(quán)值計(jì)算方法的基于云計(jì)算的余弦向量度量法文本檢索模型[9]。韓法旺認(rèn)為從龐大的信息源篩選出用戶所需的信息,尤其是圖像信息,就必須對(duì)這些信息進(jìn)行高效地檢索;針對(duì)傳統(tǒng)圖像檢索算法難以解決海量數(shù)據(jù)存儲(chǔ)、計(jì)算及傳遞等一系列問(wèn)題,提出基于云計(jì)算的圖像檢索系統(tǒng)[10]。賀令輝認(rèn)為在數(shù)據(jù)資源檢索方面,云計(jì)算所擁有的超速計(jì)算速度優(yōu)勢(shì)明顯;在云計(jì)算概念及圖書館檢索服務(wù)建設(shè)的基礎(chǔ)上,對(duì)云計(jì)算在圖書館資源檢索中的應(yīng)用、實(shí)現(xiàn)及關(guān)鍵技術(shù)等方面進(jìn)行探討[11]。
(4)數(shù)字圖書館遷移技術(shù)。
利用安全、科學(xué)的遷移策略,將傳統(tǒng)數(shù)字圖書館應(yīng)用服務(wù)平臺(tái)和業(yè)務(wù)數(shù)據(jù)安全、高效、快速、低成本地遷移到云計(jì)算環(huán)境中,在保證云數(shù)字閱讀服務(wù)業(yè)務(wù)連續(xù)性的前提下,實(shí)現(xiàn)較低的建設(shè)、運(yùn)營(yíng)、維護(hù)、升級(jí)成本和較高的資源利用率與讀者服務(wù)水平,在數(shù)字圖書館云計(jì)算平臺(tái)建設(shè)中具有重要的現(xiàn)實(shí)意義和實(shí)際應(yīng)用價(jià)值。馬曉亭研究了云計(jì)算及在線遷移技術(shù),從動(dòng)態(tài)資源配置角度對(duì)遷移的收益進(jìn)行討論;利用云的資源動(dòng)態(tài)性、按需分配特點(diǎn),提出了一種新的數(shù)字圖書館動(dòng)態(tài)云遷移策略。該策略可實(shí)現(xiàn)傳統(tǒng)數(shù)字圖書館系統(tǒng)平滑遷移到云計(jì)算環(huán)境[12]。
(5)數(shù)字圖書館信息資源整合技術(shù)。
云計(jì)算能夠?yàn)閳D書館提供強(qiáng)大的計(jì)算環(huán)境和海量的存儲(chǔ)能力,但要想盡可能多地連通網(wǎng)絡(luò)上的信息資源,實(shí)現(xiàn)網(wǎng)絡(luò)上信息資源的全面共享,還必須屏蔽網(wǎng)絡(luò)上信息資源的異構(gòu)性,進(jìn)行信息資源的整合。王長(zhǎng)全等分析云計(jì)算環(huán)境下數(shù)字圖書館進(jìn)行信息資源整合的實(shí)現(xiàn)機(jī)制,即數(shù)據(jù)倉(cāng)庫(kù)整合機(jī)制、中介器封裝器整合機(jī)制和代理整合機(jī)制,提出云計(jì)算環(huán)境下的數(shù)字圖書館創(chuàng)新服務(wù)模式[13]。張軍玲等認(rèn)為云計(jì)算環(huán)境下高校數(shù)字圖書館信息資源整合的實(shí)現(xiàn)機(jī)制主要包括數(shù)據(jù)倉(cāng)庫(kù)整合機(jī)制、中介器封裝器整合機(jī)制和代理整合機(jī)制;需要根據(jù)整合內(nèi)容的不同,結(jié)合云計(jì)算的特點(diǎn)采取相應(yīng)的整合機(jī)制,才能達(dá)到預(yù)期目標(biāo)[14]。
(6)數(shù)字圖書館資源調(diào)度技術(shù)。
實(shí)現(xiàn)云圖書館存儲(chǔ)、計(jì)算、網(wǎng)絡(luò)、基礎(chǔ)設(shè)施、應(yīng)用進(jìn)程的智能調(diào)度與虛擬化管理技術(shù)是云計(jì)算環(huán)境下數(shù)字化圖書館建設(shè)的關(guān)鍵問(wèn)題。陳臣等認(rèn)為高效的資源交付與調(diào)度是云計(jì)算環(huán)境下數(shù)字圖書館建設(shè)的關(guān)鍵問(wèn)題,提出云計(jì)算環(huán)境下數(shù)字圖書館資源交付與調(diào)度策略。該策略能夠保證云計(jì)算資源分配的可靠性,能獲得較高的資源利用率并降低能量消耗[15]。
(7)數(shù)字圖書館云計(jì)算中心的負(fù)載和網(wǎng)絡(luò)優(yōu)化。
面向大規(guī)模的文獻(xiàn)存儲(chǔ)、檢索、用戶請(qǐng)求,數(shù)字圖書館云計(jì)算中心的負(fù)載均衡是一個(gè)必須解決的問(wèn)題。郜正亞等構(gòu)建了一個(gè)三級(jí)層次式云計(jì)算網(wǎng)絡(luò)拓?fù)浼軜?gòu),提出混合式負(fù)載均衡算法進(jìn)行任務(wù)的分配。該方法有效地改善了每個(gè)運(yùn)算節(jié)點(diǎn)的任務(wù)負(fù)擔(dān),并可根據(jù)任務(wù)的特性來(lái)選擇最合適的運(yùn)算節(jié)點(diǎn),為圖書中心云計(jì)算網(wǎng)絡(luò)拓?fù)涞呢?fù)載均衡與執(zhí)行效率提供質(zhì)量保證[16]。
(8)數(shù)字資源安全技術(shù)。
云計(jì)算為數(shù)字資源共享帶來(lái)便利的同時(shí),也帶來(lái)了各種各樣的安全問(wèn)題。潘輝概述了數(shù)字圖書館用戶隱私保護(hù)的概念、國(guó)內(nèi)外研究現(xiàn)狀、數(shù)字圖書館建設(shè)中產(chǎn)生的隱私問(wèn)題等,探討了云計(jì)算服務(wù)給數(shù)字圖書館建設(shè)帶來(lái)的機(jī)遇和挑戰(zhàn),進(jìn)而探討在云計(jì)算環(huán)境下數(shù)字圖書館用戶隱私保護(hù)的對(duì)策和方法[17]。陳臣等分析了“云”圖書館面臨的安全問(wèn)題,并根據(jù)基礎(chǔ)設(shè)施“云”平臺(tái)特點(diǎn),提出了“云”數(shù)字圖書館面向基礎(chǔ)設(shè)施“云”的安全框架,以及解決“云”數(shù)字圖書館安全問(wèn)題的對(duì)策[18]。張葉紅認(rèn)為數(shù)字圖書館云計(jì)算安全問(wèn)題是當(dāng)前一個(gè)突出的問(wèn)題,需要建立相應(yīng)數(shù)字圖書館云計(jì)算安全架構(gòu),并制定相應(yīng)的安全策略;將數(shù)字圖書館云計(jì)算安全架構(gòu)分為物理層、核心層、資源架構(gòu)層、開(kāi)發(fā)平臺(tái)層、應(yīng)用層;采取在物理層上建立日志審計(jì)、在核心層上建立專用協(xié)議棧、在資源架構(gòu)層上建立信息安全風(fēng)險(xiǎn)評(píng)估、在開(kāi)發(fā)與平臺(tái)層上建立可信云、在應(yīng)用層上建立操作權(quán)限與訪問(wèn)控制等安全策略[19]。馬曉亭等在云存儲(chǔ)OSI安全模型的基礎(chǔ)上,針對(duì)云存儲(chǔ)系統(tǒng)及其在應(yīng)用過(guò)程中的數(shù)據(jù)安全問(wèn)題,提出了一種新的基于云計(jì)算環(huán)境下圖書館的安全存儲(chǔ)策略[20]。
2.1 國(guó)外相關(guān)研究概況
選取Thomson Reuters公司開(kāi)發(fā)的信息檢索平臺(tái)—ISI Web of Knowledge和美國(guó)工程信息公司(Engineering information Inc.)出版的著名工程技術(shù)類綜合性檢索工具—工程索引(Engineering Index,EI)為數(shù)據(jù)來(lái)源,進(jìn)行文獻(xiàn)統(tǒng)計(jì)。檢索條件設(shè)置為TS(主題)=“l(fā)ibrary” and TS(主題)=“cloud”;限制條件設(shè)置為時(shí)間跨度選擇所有年份,引文數(shù)據(jù)庫(kù)選擇Science Citation Index Expanded (SCI-EXPANDED)-2003年至今(2013年8月1日)、Social Sciences Citation Index (SSCI)-2007年至今(2013年8月1日)和Conference Proceedings Citation Index-Science (CPCI-S)-2004年至今(2013年8月1日);精煉依據(jù)設(shè)置為SU(研究方向)=COMPUTER SCIENCE OR INFORMATION SCIENCE LIBRARY SCIENCE。共檢索論文79篇,下面對(duì)被檢索到的論文按年代分布作簡(jiǎn)要分析,如圖1和表2所示。
圖1 ISI Web of Knowledge平臺(tái)的數(shù)字
年份年發(fā)文量/篇占總發(fā)文量百分比/%200833.797200978.861201078.86120111721.51920123848.1012013911.392
Engineering Village是最權(quán)威的工程、應(yīng)用科學(xué)領(lǐng)域文獻(xiàn)檢索平臺(tái),包含EI Compendex、US Patents(美國(guó)專利)和EP Patents(歐洲專利)三個(gè)數(shù)據(jù)庫(kù)。檢索條件設(shè)置為“l(fā)ibrary in Subject/Title/Abstract and cloud computing in Subject/Title/Abstract”;Limited to設(shè)置為時(shí)間2008-2013(2013年8月1日)。共檢索論文319篇,從圖2和表3可看出發(fā)表的研究論文數(shù)量總體呈現(xiàn)快速上升趨勢(shì),說(shuō)明數(shù)字圖書館云計(jì)算技術(shù)在國(guó)際上也已經(jīng)成為圖書、情報(bào)領(lǐng)域關(guān)注的焦點(diǎn)和熱點(diǎn)問(wèn)題之一。
表3 2008-2013年Engineering Village平臺(tái)總數(shù)字
圖2 Engineering Village平臺(tái)的數(shù)字圖書館
2.2 國(guó)外相關(guān)研究成果
目前國(guó)際學(xué)者和研究機(jī)構(gòu)對(duì)數(shù)字圖書館云計(jì)算技術(shù)的研究,主要集中在數(shù)字圖書館云平臺(tái)構(gòu)建、數(shù)字圖書館虛擬化技術(shù)、數(shù)字資源語(yǔ)義技術(shù)、數(shù)字圖書館遷移技術(shù)、數(shù)字圖書館中基于云的高性能計(jì)算、數(shù)字圖書館云服務(wù)模式等方面。
1)數(shù)字圖書館云平臺(tái)構(gòu)建。
(1)具有3D能力的數(shù)字圖書館云平臺(tái)。Web 3D技術(shù)可以在統(tǒng)一的標(biāo)準(zhǔn)下帶給用戶更為直觀、交互性更強(qiáng)的體驗(yàn)。因此,利用Web 3D虛擬瀏覽技術(shù)建設(shè)數(shù)字化圖書館是一個(gè)被很多業(yè)內(nèi)專家所看好而在實(shí)際應(yīng)用中還沒(méi)有一個(gè)成熟范例的領(lǐng)域。由于3D模型的構(gòu)建需要消耗大量的時(shí)間和資源,一些在線3D系統(tǒng)采用庫(kù)存的方法存儲(chǔ)3D模型[21];尤其在數(shù)字圖書館建設(shè)中,大量3D模型的存儲(chǔ)、在線檢索、展示等問(wèn)題成為提供數(shù)據(jù)圖書館用戶體驗(yàn)和服務(wù)質(zhì)量的關(guān)鍵問(wèn)題。文獻(xiàn)[21]設(shè)計(jì)了一套基于亞馬遜云計(jì)算平臺(tái)的在線模型庫(kù)系統(tǒng)。該平臺(tái)提出Web 3D模型庫(kù)體系結(jié)構(gòu)。展現(xiàn)層是用戶的接口,包含3D模型顯示與交互模塊、3D模型上傳和下載模塊、3D模型檢索模塊;應(yīng)用層提供業(yè)務(wù)邏輯處理和數(shù)據(jù)存儲(chǔ)功能,包括Web應(yīng)用服務(wù)器和元數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫(kù)服務(wù)器,部署在亞馬遜EC2上;數(shù)據(jù)層存儲(chǔ)3D模型文件,部署在亞馬遜S3上,S3采用分布式存儲(chǔ)方式,具有較高的可靠性和擴(kuò)展性。
(2)知識(shí)共享的數(shù)字圖書館云平臺(tái)。如何通過(guò)互聯(lián)網(wǎng)向每個(gè)讀者提供所需的知識(shí)是當(dāng)前需要解決的問(wèn)題,云計(jì)算使數(shù)據(jù)真正地移動(dòng)起來(lái),用戶能夠通過(guò)互聯(lián)網(wǎng)訪問(wèn)設(shè)備在任何時(shí)候都能訪問(wèn)云中的數(shù)據(jù)和應(yīng)用,并且能夠有效降低數(shù)據(jù)共享成本。文獻(xiàn)[22]基于云計(jì)算技術(shù)設(shè)計(jì)出圖書館知識(shí)共享系統(tǒng)模型。該模型分為三層,最底層為CPU和存儲(chǔ)器層;第二層為軟件層,包括支持并行計(jì)算的操作系統(tǒng)、中間件等;最上層是各種應(yīng)用,如電子郵件、辦公軟件等。實(shí)現(xiàn)多圖書館知識(shí)共享和個(gè)性化的讀者需求,除了需要建立合理的共享系統(tǒng)模型外,還需要實(shí)現(xiàn)各層次的虛擬化,如服務(wù)器虛擬化、數(shù)據(jù)虛擬化、網(wǎng)絡(luò)虛擬化、軟件虛擬化、知識(shí)虛擬化等。
2)數(shù)字圖書館虛擬化技術(shù)。
傳統(tǒng)基于B/S架構(gòu)的數(shù)字圖書館系統(tǒng)為用戶提供檢索服務(wù),必須在每個(gè)圖書館都進(jìn)行部署。如果各圖書館將應(yīng)用服務(wù)器和數(shù)據(jù)服務(wù)器部署到云平臺(tái)上,將會(huì)出現(xiàn)存放相似數(shù)字內(nèi)容的云節(jié)點(diǎn),根據(jù)存放內(nèi)容的相似性計(jì)算相似節(jié)點(diǎn)集合,再根據(jù)用戶請(qǐng)求時(shí)刻相似節(jié)點(diǎn)集合中節(jié)點(diǎn)的負(fù)載情況,選擇負(fù)載較輕節(jié)點(diǎn)提供服務(wù)[23]。
3)數(shù)字資源語(yǔ)義技術(shù)。
多圖書館的數(shù)字資源共享,可以有效提高數(shù)據(jù)資源的存儲(chǔ)量,但云平臺(tái)上的數(shù)字資源存儲(chǔ)形式取決于加入到云平臺(tái)上的數(shù)字資源提供者,數(shù)據(jù)格式往往具有異構(gòu)性,存儲(chǔ)的文件形式可能有傳統(tǒng)的文檔文件、描述某實(shí)體的對(duì)象文件、元數(shù)據(jù)文件、導(dǎo)出的模型文件,以及其他復(fù)雜的數(shù)字實(shí)體和關(guān)系等。在云平臺(tái)中,對(duì)這些文件的瀏覽和展示是一個(gè)迫切需要解決的問(wèn)題。文獻(xiàn)[24]提出一個(gè)基于門戶的社區(qū)數(shù)據(jù)云的瀏覽和展示工具。該工具設(shè)計(jì)了一個(gè)語(yǔ)義資源瀏覽插件,能夠?yàn)g覽來(lái)自云平臺(tái)中不同資源庫(kù)的不同格式文件。
4)數(shù)字圖書館遷移技術(shù)。
將傳統(tǒng)數(shù)字圖書館應(yīng)用服務(wù)平臺(tái)和業(yè)務(wù)數(shù)據(jù)安全、高效、快速、低成本地遷移到云計(jì)算平臺(tái)中,并且在保證云數(shù)字閱讀服務(wù)業(yè)務(wù)連續(xù)性的前提下,實(shí)現(xiàn)較低的建設(shè)、運(yùn)營(yíng)、維護(hù)、升級(jí)成本和較高的資源利用率和高質(zhì)量的讀者服務(wù)水平,在數(shù)字圖書館云計(jì)算平臺(tái)建設(shè)中具有重要的現(xiàn)實(shí)意義和實(shí)際應(yīng)用價(jià)值。文獻(xiàn)[25]探索了SeerSuite系統(tǒng)遷移到現(xiàn)有云計(jì)算平臺(tái)上的可行性,研究?jī)?nèi)容如下:
(1)分析了SeerSuite體系結(jié)構(gòu),包括Web應(yīng)用、抓取和元數(shù)據(jù)提取服務(wù)、系統(tǒng)維護(hù)、聯(lián)合服務(wù)、備份和復(fù)制等模塊;接著分析了SeerSuite的部署方案。
(2)SeerSuite中的模塊遷移到云計(jì)算平臺(tái)上需要考慮其優(yōu)點(diǎn)和缺點(diǎn),分析了影響上述模塊遷移的兩個(gè)因素:遷移過(guò)程需要做的工作和遷移成本。
(3)以亞馬遜的EC2、EBS和Google App Engine為例,分析SeerSuite系統(tǒng)的遷移成本。
(4)分析組件之間的數(shù)據(jù)傳輸關(guān)系圖,根據(jù)傳輸量在云計(jì)算平臺(tái)中部署相應(yīng)組件。
(5)基于對(duì)用戶行為的研究,60%~80%的用戶是訪問(wèn)或下載緩存庫(kù)中的數(shù)字資源,在該研究背景下提出虛擬化解決方案。
(6)實(shí)驗(yàn)結(jié)果表明,CiteSeerx系統(tǒng)遷移到云計(jì)算平臺(tái)是可行的,能很好地解決在持續(xù)運(yùn)營(yíng)過(guò)程中數(shù)字資源、用戶規(guī)模的不斷增加帶來(lái)的系統(tǒng)壓力。
5)數(shù)字圖書館中基于云的高性能計(jì)算。
數(shù)字圖書館中的數(shù)據(jù)分析和文本數(shù)據(jù)挖掘不能被廣泛應(yīng)用的主要原因是高昂的計(jì)算成本。為解決該問(wèn)題,文獻(xiàn)[26]進(jìn)行了以下研究:
(1)介紹了數(shù)字圖書館中常用的可視化文本分析工具—自組織神經(jīng)網(wǎng)絡(luò)(SOM)算法,以及兩種較常用的文本數(shù)據(jù)降維方法—隱式語(yǔ)義索引(Latent Semantic Indexing)和隨機(jī)索引(Random Indexing)。
(2)比較分析基于MapReduce的Hadoop、Phoenix++開(kāi)源框架和基于MPI的MR-MPI開(kāi)源框架的性能特點(diǎn)。
(3)以亞馬遜EC2為服務(wù)器集群,以MR-MPI為分布式并行計(jì)算平臺(tái),分析SOM可視化工具在上述兩種降維方法中的性能,從而為海量數(shù)據(jù)分析工具在數(shù)字圖書館云計(jì)算平臺(tái)上的應(yīng)用提供一定的參考。
6)數(shù)字圖書館云服務(wù)模式。
當(dāng)前的用戶服務(wù)模式主要包括WWW服務(wù)模式、FTP服務(wù)模式、BBS和電子郵件服務(wù)模式等。在面對(duì)資金、人力、物力短缺的問(wèn)題時(shí),這些用戶服務(wù)模式已經(jīng)不能滿足數(shù)字圖書館建設(shè)的需求,甚至已經(jīng)引起資源的浪費(fèi)。使用公有云建立多圖書館共用平臺(tái),不僅能夠節(jié)省圖書館資源還能夠提高用戶滿意度[27]。該平臺(tái)可提供5類服務(wù):統(tǒng)一搜索服務(wù)、綜合咨詢服務(wù)、實(shí)時(shí)訪問(wèn)服務(wù)、知識(shí)服務(wù)、面向大眾的數(shù)字資源服務(wù)。
學(xué)術(shù)界對(duì)數(shù)字圖書館云計(jì)算技術(shù)的研究已經(jīng)取得了一定成果。但該研究仍然處在探索階段,總體上看,還有若干關(guān)鍵問(wèn)題需要解決,具體表現(xiàn)在:
1)三網(wǎng)融合環(huán)境區(qū)域數(shù)字圖書館云計(jì)算技術(shù)。
三網(wǎng)融合是電信網(wǎng)、廣播電視網(wǎng)和互聯(lián)網(wǎng)融合發(fā)展,實(shí)現(xiàn)三網(wǎng)互聯(lián)互通,資源共享,為用戶提供話音、數(shù)據(jù)和廣播電視等多種服務(wù)。三網(wǎng)融合后,數(shù)字圖書館利用數(shù)字電視與移動(dòng)通信作為平臺(tái)開(kāi)展服務(wù),將使數(shù)字圖書館終端用戶數(shù)量大量增加,也讓數(shù)字圖書館的作用得以充分發(fā)揮。同時(shí),用戶數(shù)增長(zhǎng)所帶來(lái)的巨大商機(jī),也吸引更多社會(huì)機(jī)構(gòu)、更多人才、更多資金投入到數(shù)字圖書館的建設(shè)中來(lái),進(jìn)一步推動(dòng)數(shù)字圖書館的發(fā)展。因此,數(shù)字圖書館云計(jì)算平臺(tái)的建設(shè)需要考慮三網(wǎng)融合環(huán)境下數(shù)字圖書館的特點(diǎn):
(1)服務(wù)平臺(tái)增多并且異構(gòu);
(2)服務(wù)用戶增多而且趨于個(gè)性化;
(3)三網(wǎng)融合要求圖書館的網(wǎng)絡(luò)體系功能更加強(qiáng)大。
2)基于關(guān)聯(lián)數(shù)據(jù)(或本體)的數(shù)字圖書館云計(jì)算技術(shù)。
關(guān)聯(lián)數(shù)據(jù)是語(yǔ)義網(wǎng)的主題之一,描述了通過(guò)可鏈接的URI方式來(lái)發(fā)布、分享、連接Web中各類資源的方法。大規(guī)模存在于云計(jì)算平臺(tái)上的數(shù)字資源發(fā)現(xiàn)是非常重要的一項(xiàng)技術(shù),關(guān)聯(lián)數(shù)據(jù)為云計(jì)算平臺(tái)上的數(shù)字資源發(fā)現(xiàn)服務(wù)提供了良好的途徑。云計(jì)算平臺(tái)上使用關(guān)聯(lián)數(shù)據(jù)表示數(shù)字資源需要解決下列問(wèn)題:數(shù)字資源描述、數(shù)字資源發(fā)現(xiàn)、數(shù)字資源匹配、數(shù)字資源調(diào)度、關(guān)聯(lián)數(shù)據(jù)發(fā)布。
3)數(shù)字圖書館云服務(wù)評(píng)價(jià)與聚合技術(shù)。
數(shù)字圖書館云計(jì)算平臺(tái)上將出現(xiàn)大量提供相同或相近內(nèi)容的數(shù)字資源云服務(wù)(尤其基于公有云建立的數(shù)字圖書館),需要對(duì)數(shù)字資源云服務(wù)質(zhì)量進(jìn)行評(píng)價(jià),進(jìn)而從眾多數(shù)字資源云服務(wù)中選擇服務(wù)質(zhì)量最優(yōu)的云服務(wù),需要考慮下列因素:
(1)數(shù)字圖書館用戶所處環(huán)境、偏好等上下文信息;
(2)數(shù)字資源云服務(wù)質(zhì)量。
數(shù)字圖書館云計(jì)算平臺(tái)用戶規(guī)模較大、需求差異也較大,單一數(shù)字資源云服務(wù)不能滿足用戶需求,需對(duì)數(shù)字資源云服務(wù)進(jìn)行聚合,滿足用戶的個(gè)性化需求。
4)數(shù)字圖書館云計(jì)算平臺(tái)評(píng)價(jià)技術(shù)。
隨著云計(jì)算技術(shù)的發(fā)展,提供云服務(wù)的提供商會(huì)越來(lái)越多,對(duì)圖書館選擇合適的云服務(wù)提供商變得更加困難。未來(lái)需要建立數(shù)字圖書館云平臺(tái)評(píng)價(jià)方法。
5)數(shù)字圖書館云計(jì)算中心的負(fù)載和優(yōu)化技術(shù)。
目前對(duì)數(shù)字圖書館云計(jì)算中心的負(fù)載和優(yōu)化技術(shù)研究較少,可以借鑒已有的優(yōu)化技術(shù),結(jié)合數(shù)字資源的特點(diǎn)對(duì)云計(jì)算的網(wǎng)絡(luò)技術(shù)、存儲(chǔ)技術(shù)、調(diào)度技術(shù)進(jìn)行合理的改進(jìn)與調(diào)整,以適應(yīng)未來(lái)的大規(guī)模數(shù)字資源存儲(chǔ)、檢索、訪問(wèn)的需求。
選取中國(guó)知識(shí)網(wǎng)、ISI Web of Knowledge和Engineering Village為檢索工具,以近4年國(guó)內(nèi)外數(shù)字圖書館云計(jì)算技術(shù)研究的相關(guān)文獻(xiàn)為分析對(duì)象,概括國(guó)內(nèi)外學(xué)者圍繞數(shù)字圖書館云計(jì)算的研究重點(diǎn)和現(xiàn)狀,提出數(shù)字圖書館云計(jì)算技術(shù)目前研究存在的不足和未來(lái)發(fā)展趨勢(shì)。
[1] 王文清,陳 凌.CALIS數(shù)字圖書館云服務(wù)平臺(tái)模型[J].大學(xué)圖書館學(xué)報(bào),2009,27(4):13-18.
[2] 胡新平.文獻(xiàn)資源云平臺(tái)構(gòu)建研究[J].情報(bào)理論與實(shí)踐,2012,35(4):81-84.
[3] 張興旺,李晨暉,秦曉珠.基于云計(jì)算的數(shù)字化信息資源建設(shè)模型的研究[J].情報(bào)理論與實(shí)踐,2011,34(8):100-105.
[4] 秦曉珠,張興旺,李晨暉.移動(dòng)云計(jì)算環(huán)境下的數(shù)字圖書館云服務(wù)模式構(gòu)建研究[J].情報(bào)理論與實(shí)踐,2012,35(5):90-93.
[5] 王亞民,劉學(xué)勝.基于Hadoop平臺(tái)的數(shù)字圖書館研究[J].圖書情報(bào)工作,2011(S2):305-309.
[6] 江秋菊.基于云存儲(chǔ)的數(shù)字圖書館資源存儲(chǔ)[J].圖書館學(xué)刊,2012(2):109-111.
[7] 張 艷,潘吳斌.基于云存儲(chǔ)的圖書館海量數(shù)字資源存儲(chǔ)研究與設(shè)計(jì)[J].圖書館學(xué)研究,2012(15):31-35.
[8] 馬曉亭,陳 臣.數(shù)字圖書館云存儲(chǔ)應(yīng)用系統(tǒng)研究與實(shí)現(xiàn)[J].圖書館理論與實(shí)踐,2012(5):8-13.
[9] 付永貴.基于云計(jì)算的余弦向量度量法文本檢索模型[J].情報(bào)科學(xué),2012,30(5):736-739.
[10] 韓法旺.基于云計(jì)算模式的圖像檢索研究[J].情報(bào)科學(xué),2011,29(10):1534-1538.
[11] 賀令輝.圖書館群資源檢索中云計(jì)算的應(yīng)用[J].圖書館學(xué)刊,2012(9):107-108.
[12] 馬曉亭.面向云計(jì)算的數(shù)字圖書館動(dòng)態(tài)遷移關(guān)鍵問(wèn)題及優(yōu)化[J].高校圖書館工作,2012(6):69-71.
[13] 王長(zhǎng)全,艾 雰.云計(jì)算環(huán)境下的數(shù)字圖書館信息資源整合與服務(wù)模式創(chuàng)新[J].圖書館工作與研究,2011(1):48-51.
[14] 張軍玲.云計(jì)算環(huán)境下高校數(shù)字圖書館信息資源整合機(jī)制研究[J].圖書館學(xué)研究,2012(7):25-28.
[15] 陳 臣,馬曉亭,韓金倉(cāng).云計(jì)算環(huán)境下數(shù)字圖書館動(dòng)態(tài)資源交付與調(diào)度策略研究[J].情報(bào)理論與實(shí)踐,2012,35(10):81-84.
[16] 郜正亞,周偉波.云計(jì)算圖書中心的負(fù)載和網(wǎng)絡(luò)優(yōu)化[J].杭州電子科技大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2012,8(1):74-78.
[17] 潘 輝.數(shù)字圖書館用戶隱私問(wèn)題研究及其對(duì)云計(jì)算服務(wù)的啟示[J].情報(bào)理論與實(shí)踐,2011,34(4):44-47.
[18] 陳 臣,馬曉亭.“云”數(shù)字圖書館信息安全與對(duì)策研究[J].高校圖書館工作,2011,31(5):58-60.
[19] 張葉紅.數(shù)字圖書館云計(jì)算安全架構(gòu)及其管理策略[J].圖書館學(xué)研究,2010(11):30-34.
[20] 馬曉亭,陳 臣.基于分布式存儲(chǔ)的數(shù)字圖書館云存儲(chǔ)安全架構(gòu)研究[J].圖書館理論與實(shí)踐,2012(4):88-91.
[21] Chen M,Cai W,Ma L.Cloud computing platform for an online model library system[J].Mathematical Problems in Engineering,2013(3):532-546.
[22] Wang H,Zhao D,Kong J.Library knowledge sharing based on cloud computing[C]//Proc of 2nd international conference on software technology and engineering.[s.l.]:IEEE,2010.
[23] Gao L,Zhao Y.Application on cloud computing in the future library[C]//Proc of IEEE international conference on cloud computing and intelligence systems.[s.l.]:IEEE,2011:175-177.
[24] Liu Y,Kotwani K,Rodriguez A,et al.Beyond the document library:portal-based browsing and exploration of community data clouds[C]//Proc of fifth IEEE international conference one-science.[s.l.]:IEEE,2009:178-184.
[25] Teregowda P,Urgaonkar B,Giles C L.Cloud computing:a digital libraries perspective[C]//Proc of IEEE 3rd international conference on cloud computing.[s.l.]:IEEE,2010:115-122.
[26] Wittek P,Darányi S.Leveraging on high-performance computing and cloud technologies in digital libraries:a case study[C]//Proc of IEEE third international conference on cloud computing technology and science.[s.l.]:IEEE,2011:606-611.
[27] Feng Xiaona,Bao Lingyun.Application of cloud computing in university library user service model[C]//Proc of 3rd international conference on advanced computer theory and engineering.[s.l.]:IEEE,2010.
Research on Cloud Computing for Digital Library
ZHANG Long-chang,LIU Dong-sheng,YANG Yan-hong,WANG Xiao-ming
(College of Information Science and Technology,Bohai University,Jinzhou 121013,China)
It selects the China Knowledge Resource Integrated Database as the retrieval tool in this paper,taking the 373 articles in nearly 4 years of cloud computing for domestic digital library as the analysis object,and focuses on the technology of cloud computing in the digital library,summarizing the research status of cloud computing technology in the domestic digital library from 8 aspects which involve the construction of the digital library,storage,retrieval,integration and scheduling for digital library,digital library migration,cloud computing center load and network optimization,digital resource security technology.The ISI Web of Knowledge and Engineering Village is selected as the retrieval tool,taking the 398 articles in nearly 4 years of foreign digital library cloud computing,and the technology of cloud computing in the digital library is focused on,summarizing the research status of cloud computing technology in the foreign digital library from 6 aspects which involve the construction of digital library,the virtual technology of digital library,the technology of digital resource semantic,the technology of digital library migration,the high performance computing based on cloud,and the cloud service model of digital library.At last,the lacks of research and the future development trend for cloud computing technology of digital library are presented.
digital library;cloud computing;digital resource;data retrieval;data storage;data migration;cloud platform construction
2015-09-17
2015-12-29
時(shí)間:2016-07-29
教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目(15YJC870028);遼寧省自然科學(xué)基金(2015020009);遼寧省教育科學(xué)技術(shù)研究一般項(xiàng)目(L2014451);遼寧省哲學(xué)社會(huì)科學(xué)規(guī)劃基金項(xiàng)目(L15BTQ002)
張龍昌(1977-),男,博士,副教授,碩士生導(dǎo)師,CCF會(huì)員,研究方向?yàn)閿?shù)字圖書館和云計(jì)算。
http://www.cnki.net/kcms/detail/61.1450.TP.20160729.1833.020.html
TP31
A
1673-629X(2016)08-0098-06
10.3969/j.issn.1673-629X.2016.08.021