谷參
摘 要: 針對(duì)目前普遍采用的基于單式中心服務(wù)的信息檢索搜索時(shí)間長(zhǎng)、不準(zhǔn)確等缺點(diǎn),結(jié)合數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)管理等技術(shù),在B/S模式和C/S模式的基礎(chǔ)上開(kāi)發(fā)基于P2P平臺(tái)的分布式結(jié)構(gòu)數(shù)字圖書(shū)館信息檢索系統(tǒng),完善和優(yōu)化了圖書(shū)館信息檢索的功能,實(shí)現(xiàn)了高效、實(shí)用、方便、快捷的圖書(shū)館信息服務(wù),為用戶(hù)提供了更好的圖書(shū)館服務(wù)體驗(yàn)。
關(guān)鍵詞: 分布式結(jié)構(gòu); 數(shù)字圖書(shū)館; B/S模式; C/S模式; P2P; 信息檢索服務(wù)
中圖分類(lèi)號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)01?0083?03
Abstract: Since the commonly?used information retrieval system based on simplex center service has the shortages of long time and low accuracy for information retrieval search, in combination the technologies of data mining and database management, the distributed digital library information retrieval system based on P2P platform was developed on the basis of B/S mode and C/S mode. The system improved and optimized the library information retrieval function, realized the efficient, practical, convenient and quick library information service, and provides a better library service experience for users.
Keywords: distributed structure; digital library; B/S mode; C/S mode; P2P; information retrieval service
0 引 言
在當(dāng)今信息技術(shù)快速發(fā)展的環(huán)境下,圖書(shū)館已經(jīng)由傳統(tǒng)的人工紙質(zhì)化狀態(tài)進(jìn)入數(shù)字信息時(shí)代,傳統(tǒng)的信息檢索系統(tǒng)已經(jīng)不能滿(mǎn)足人們對(duì)圖書(shū)館的服務(wù)要求,對(duì)信息的搜索效率已經(jīng)成為衡量數(shù)字化圖書(shū)館先進(jìn)與否的關(guān)鍵因素。信息檢索中最早出現(xiàn)的是集中搜索模式[1],它由一個(gè)服務(wù)中心集中收集處理信息并將信息反饋給各個(gè)子搜索中心。這種單一的搜索系統(tǒng)容易出現(xiàn)交通阻塞、信息滯后繼而出現(xiàn)系統(tǒng)崩盤(pán)等隱患,穩(wěn)定性和安全性極低[1]。分布式搜索模式的出現(xiàn)克服了以上缺點(diǎn),圖書(shū)館的信息檢索系統(tǒng)利用分布式信息搜索模式實(shí)現(xiàn)了圖書(shū)信息檢索的高效智能化。
2004年,第一個(gè)基于P2P架構(gòu)的數(shù)字圖書(shū)館系統(tǒng)在英國(guó)的蘭開(kāi)斯特大學(xué)由Walkerdine等人設(shè)置完成[1];2004年Haase等聯(lián)合開(kāi)發(fā)了Bibster系統(tǒng);2005年美國(guó)麻省理工學(xué)院的Jcremy等設(shè)計(jì)并開(kāi)發(fā)了一種基于DHT的分布式合作數(shù)字圖書(shū)館系統(tǒng)OverCite[1];Hao Ding在數(shù)字圖書(shū)館環(huán)境中基于P2P結(jié)構(gòu)創(chuàng)建了數(shù)據(jù)搜索模型算法[2];德國(guó)馬克斯·普朗克信息學(xué)研究所的Matthias Bender等人首次將信息檢索技術(shù)與P2P技術(shù)結(jié)合實(shí)現(xiàn)了對(duì)數(shù)字圖書(shū)館信息的檢索功能,以上對(duì)數(shù)字圖書(shū)館搜索系統(tǒng)的設(shè)置都有一定的進(jìn)步與改善,但也存在著擴(kuò)展性差、搜索擁堵、運(yùn)行維護(hù)成本高等缺點(diǎn)。通過(guò)對(duì)歷史背景的研究及現(xiàn)狀的評(píng)估,本文提出基于P2P技術(shù)的分布式圖書(shū)館信息檢索系統(tǒng),此系統(tǒng)避免了傳統(tǒng)的單一搜索模式的弊端,在服務(wù)器端與客戶(hù)端分別設(shè)置B/S模式和C/S模式[3],形成了分布式檢索形式,在此基礎(chǔ)上,將P2P技術(shù)加入分布式搜索模式中進(jìn)行算法優(yōu)化與改進(jìn),使圖書(shū)館信息檢索能力大大提高,對(duì)圖書(shū)館信息智能化的發(fā)展具有重大意義。
1 P2P搜索技術(shù)
1.1 P2P搜索算法
計(jì)算機(jī)對(duì)等(Peer?to?Peer,P2P)[1]技術(shù)是當(dāng)今信息網(wǎng)絡(luò)的一種熱門(mén)研究技術(shù),主要對(duì)網(wǎng)絡(luò)信息資源進(jìn)行研究。P2P搜索算法可分為結(jié)構(gòu)化搜索和非結(jié)構(gòu)化搜索[4],如圖1所示。結(jié)構(gòu)化算法是指點(diǎn)對(duì)點(diǎn)的網(wǎng)絡(luò)搜索,網(wǎng)絡(luò)結(jié)構(gòu)中的每個(gè)點(diǎn)都有確定的ID,因此在進(jìn)行搜索任務(wù)時(shí)要將關(guān)鍵信息從頭到尾逐一查詢(xún),造成搜索重復(fù)冗余、網(wǎng)絡(luò)結(jié)構(gòu)龐大刻板;非結(jié)構(gòu)化的網(wǎng)絡(luò)布局中每個(gè)網(wǎng)點(diǎn)分布隨機(jī)在需要時(shí)及時(shí)加入結(jié)構(gòu),網(wǎng)點(diǎn)的位置和數(shù)目隨著搜索任務(wù)的變化而變化,在進(jìn)行搜索時(shí),指針有策略地對(duì)網(wǎng)點(diǎn)進(jìn)行搜索,同時(shí)及時(shí)更改搜索路線(xiàn)即算法,因此,非結(jié)構(gòu)化的P2P搜索模式相對(duì)靈活簡(jiǎn)單,但是容易出現(xiàn)搜索不完全、陷入死循環(huán)等[5]。
1.2 P2P搜索模式
P2P搜索模式分為中央索引模式[1]和分布式索引模式。中央索引模式如圖2所示,在進(jìn)行信息檢索時(shí)子端信息只能傳輸?shù)街醒刖W(wǎng)點(diǎn),再由中央網(wǎng)點(diǎn)進(jìn)行下一級(jí)信息傳遞,這樣的傳輸模式共享性差,資源利用率低;分布式索引模式如圖3所示,其中沒(méi)有中央服務(wù)器,每個(gè)網(wǎng)點(diǎn)具有相同的功能與職責(zé),他們之間可以自由進(jìn)行信息傳輸(只要線(xiàn)路存在),當(dāng)某個(gè)網(wǎng)點(diǎn)進(jìn)行搜索時(shí)會(huì)向周邊網(wǎng)點(diǎn)傳遞信息,周邊網(wǎng)點(diǎn)會(huì)將此信息向外擴(kuò)張,直到完成信息的整個(gè)檢索[6]。分布式索引避開(kāi)了集中索引模式的許多弊端,使整個(gè)系統(tǒng)靈活快捷,但是這種模式占用太多內(nèi)存,容易出現(xiàn)擁堵?tīng)顩r,因此可以將集中式與分布式結(jié)合實(shí)現(xiàn)混合P2P搜索模式。
2 基于P2P的數(shù)字圖書(shū)館分布式搜索系統(tǒng)分析
如今,人們處于多元化社會(huì),出現(xiàn)了諸多一詞多義、模糊詞語(yǔ)、一語(yǔ)多關(guān)的現(xiàn)象,傳統(tǒng)基于集中式的搜索模式已經(jīng)不能滿(mǎn)足人們搜索目標(biāo)的要求,因此引入P2P分布式搜索模式系統(tǒng)[7],在原有基礎(chǔ)上,進(jìn)一步將語(yǔ)義進(jìn)行肢解與關(guān)聯(lián),達(dá)到準(zhǔn)確快速搜索的目的。
2.1 分布式搜索系統(tǒng)結(jié)構(gòu)模型及關(guān)系
基于P2P的數(shù)字圖書(shū)館分布式搜索系統(tǒng)結(jié)構(gòu)模型分為分層搜索節(jié)點(diǎn)模式和數(shù)據(jù)資源模式,此結(jié)構(gòu)模式首先對(duì)信息進(jìn)行查詢(xún)服務(wù),對(duì)用戶(hù)輸入信息進(jìn)行判斷,如果信息符合驗(yàn)證將進(jìn)行查詢(xún)解析,同時(shí)相對(duì)應(yīng)的數(shù)據(jù)資源將對(duì)信息進(jìn)行注冊(cè)驗(yàn)證查詢(xún)[8],然后在數(shù)據(jù)資源庫(kù)中進(jìn)行搜索,最后將搜索結(jié)果進(jìn)行傳輸,呈現(xiàn)在用戶(hù)查詢(xún)結(jié)果頁(yè)面,結(jié)構(gòu)模型示意圖如圖4所示,服務(wù)器之間的關(guān)系如圖5所示。
2.2 文件共享與分布式搜索流程
文件共享[1]是指根據(jù)用戶(hù)提供的信息,在網(wǎng)路節(jié)點(diǎn)之間進(jìn)行信息交流與傳遞,對(duì)文件進(jìn)行詳細(xì)解剖,根據(jù)文件的具體內(nèi)容與特征分配不同的網(wǎng)點(diǎn)進(jìn)行處理與承接反饋[9];文件搜索與文件共享類(lèi)似,首先由用戶(hù)輸入信息發(fā)出搜索請(qǐng)求,請(qǐng)求的指令傳輸?shù)骄W(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中,由具體網(wǎng)點(diǎn)進(jìn)行接收,然后判斷處理搜索內(nèi)容,對(duì)內(nèi)容進(jìn)行解析,進(jìn)入下一環(huán)節(jié)。圖6,圖7分別為信息共享流程圖和分布式搜索流程圖。
3 B/S模式和C/S模式和數(shù)據(jù)庫(kù)分析
服務(wù)器的B/S模式可以完成對(duì)查詢(xún)信息的訪(fǎng)問(wèn),主要是完成瀏覽器與服務(wù)器之間的連接;C/S模式可以完成對(duì)輸入信息的訪(fǎng)問(wèn),主要是完成客戶(hù)端與服務(wù)器的連接。B/S模式和C/S模式的采用可以合理分工信息流傳處理過(guò)程,使要查詢(xún)的檢索信息按照預(yù)定的通道傳輸,不會(huì)出現(xiàn)差錯(cuò)與混亂[10],采用B/S模式,可以將要查詢(xún)的信息通過(guò)服務(wù)器完成,只需要將用戶(hù)輸入的信息加載到瀏覽器的系統(tǒng)中就能實(shí)現(xiàn)搜索功能,大大減輕了服務(wù)器的負(fù)荷;采用C/S模式可以將服務(wù)器要完成的任務(wù)交于客戶(hù)端進(jìn)行,減輕了服務(wù)器的擁堵?tīng)顩r,使整個(gè)道路暢通。系統(tǒng)總體模型圖如圖8所示。
來(lái)自客戶(hù)端和服務(wù)端的數(shù)據(jù)需要經(jīng)過(guò)數(shù)據(jù)庫(kù)進(jìn)行收集整合,數(shù)據(jù)庫(kù)一方面從服務(wù)器端獲取數(shù)據(jù),一方面從客戶(hù)端獲取客戶(hù)錄入的數(shù)據(jù),將雙方數(shù)據(jù)進(jìn)行資格認(rèn)證,將查詢(xún)內(nèi)容準(zhǔn)確無(wú)誤地傳輸給用戶(hù)[11],數(shù)據(jù)流程圖如圖9所示。
4 結(jié) 論
基于集中搜索模式的圖書(shū)館搜索系統(tǒng)已經(jīng)不能適應(yīng)當(dāng)今時(shí)代的需求,分布式搜索模式能夠有效地解決集中式系統(tǒng)搜索效率低、內(nèi)存占用大、系統(tǒng)易崩潰等缺點(diǎn),為圖書(shū)館搜索服務(wù)提供更好的技術(shù)支持。本文提出的基于分布式的搜索系統(tǒng)加入了P2P技術(shù),解決的問(wèn)題主要體現(xiàn)在:
(1) 本文在圖書(shū)館數(shù)據(jù)庫(kù)管理系統(tǒng)中加入B/S模式和C/S模式,使得信息查詢(xún)和結(jié)果反饋流程規(guī)范簡(jiǎn)化,減輕了服務(wù)器與客戶(hù)端的負(fù)荷,使得信息在客戶(hù)端輸入時(shí)不會(huì)產(chǎn)生信息阻塞,這樣輸入的信息不會(huì)對(duì)后續(xù)搜索產(chǎn)生影響,在服務(wù)器端將要搜索的信息直接傳遞給瀏覽器,不僅使服務(wù)器的負(fù)荷減輕還使得信息搜索更加廣泛,搜索的結(jié)果更加多樣化,結(jié)果更加準(zhǔn)確。
(2) 本文在分布式的搜索系統(tǒng)中加入了P2P技術(shù),詳細(xì)分析了P2P的搜索結(jié)構(gòu)模式和搜索流程,P2P使得分布式搜索模式更加有效,降低了分布式搜索模式的搜索風(fēng)險(xiǎn),通過(guò)對(duì)關(guān)鍵詞和特征詞的具體剖析,提高了搜索的準(zhǔn)確率,適應(yīng)了當(dāng)代詞義的變化,給用戶(hù)提供更多的選擇。
(3) 采用混合P2P模式,成功地避免了單一搜索模式的諸多弊端,改善了搜索查詢(xún)機(jī)制性能,使得搜索模式具有更大的擴(kuò)展性,搜索更加全面高效。在加入P2P的搜索模式中,搜索語(yǔ)言更加多元化,算法得到了改進(jìn),與數(shù)據(jù)挖掘等技術(shù)可以有效結(jié)合。能夠形成更強(qiáng)大的搜搜引擎。
參考文獻(xiàn)
[1] 馬率廣.基于P2P的數(shù)字圖書(shū)館分布式搜索引擎研究[D].秦皇島:燕山大學(xué),2007.
[2] 王哲.數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館個(gè)性化服務(wù)中的應(yīng)用研究[D].重慶:重慶大學(xué),2012.
[3] 譚鑫鑫.分布式圖書(shū)館信息檢索與引導(dǎo)服務(wù)系統(tǒng)[D].長(zhǎng)沙:湖南大學(xué),2012.
[4] 秦健.基于信息可視化與數(shù)據(jù)挖掘的高校圖書(shū)館推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2014.
[5] 趙捧未,馬亭,竇永香.基于P2P和Web Service的數(shù)字圖書(shū)館資源共享框架研究[J].信息資源管理學(xué)報(bào),2011(2):55?58.
[6] 張麗君.圖書(shū)館信息資源知識(shí)管理模式構(gòu)建[J].圖書(shū)與情報(bào),2010(6):134?136.
[7] 蔡學(xué)森.基于B/S的學(xué)生成績(jī)管理系統(tǒng)[D].長(zhǎng)春:吉林大學(xué),2008.
[8] 沈濟(jì)南,梁芳.基于C/S與B/S混合模式的學(xué)生成績(jī)管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].牡丹江師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2006(4):18?19.
[9] 張瑤,陳維斌,傅順開(kāi).基于大數(shù)據(jù)的高校圖書(shū)館推薦系統(tǒng)仿真研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2013(7):2533?2541.
[10] 張路路.基于數(shù)據(jù)挖掘的高校圖書(shū)館藏推薦系統(tǒng)模型研究[D].淄博:山東理工大學(xué),2012.
[11] 王斌.數(shù)據(jù)挖掘在高校圖書(shū)館服務(wù)中的應(yīng)用研究[D].西安:西安理工大學(xué),2010.