國(guó)內(nèi)數(shù)字圖書(shū)館技術(shù)研究的可視化分析
韓牧哲,李秀霞,張藝蔓
(曲阜師范大學(xué)傳媒學(xué)院,日照 276826)
摘要:數(shù)字圖書(shū)館是隨迅速發(fā)展的信息技術(shù)產(chǎn)生的圖書(shū)館新形態(tài),經(jīng)過(guò)對(duì)數(shù)字圖書(shū)館20年的研究和實(shí)踐,國(guó)內(nèi)很多數(shù)字圖書(shū)館建設(shè)和服務(wù)中應(yīng)用的技術(shù)已經(jīng)非常成熟。文章通過(guò)對(duì)21世紀(jì)以來(lái)我國(guó)關(guān)于數(shù)字圖書(shū)館應(yīng)用技術(shù)的期刊論文進(jìn)行統(tǒng)計(jì)和計(jì)量分析,在初步了解數(shù)字圖書(shū)館技術(shù)發(fā)文量趨勢(shì)之后進(jìn)行聚類(lèi)分析,將數(shù)字圖書(shū)館技術(shù)分為十類(lèi),并生成了可視化圖譜,從而更深入地了解數(shù)字圖書(shū)館各種技術(shù)及其關(guān)聯(lián)結(jié)構(gòu)。
關(guān)鍵詞:數(shù)字圖書(shū)館;技術(shù)應(yīng)用;聚類(lèi)分析;可視化分析
Visualization of research of digital library technologies in China
HAN Mu-zhe, LI Xiu-xia, ZHANG Yi-man
(Qufu Normal University, Rizhao 276826, China)
Abstract:Digital library is a new form of library which was spawned by the rapid developing information technology. Through the research and practice of the digital library in China with a history of more than 20 years, the authors hold that both the construction and service technologies of digital library have already become mature. This article uses statistical and quantitative analysis method to study the journal papers on the theme of “technologies of digital library” in China since the beginning of the twenty-first century. The cluster analysis was also conducted after a preliminary understanding of trends of the quantity of published technological assays on digital library, and we have divided the digital library technologies into ten categories. A diagram of the major technologies of digital library is presented in this article, which helps the fellow workers to perceive a deeper understanding of various technologies associated with the structure of digital library.
Key words:digital library; major technologies; cluster analysis; visualization
引言
數(shù)字圖書(shū)館是一個(gè)數(shù)字化系統(tǒng)。它將分散于不同載體、不同地理位置的信息資源以數(shù)字化的形式貯存,以網(wǎng)絡(luò)化的方式互相連接,提供及時(shí)利用,實(shí)現(xiàn)資源共享,其核心是數(shù)字化和網(wǎng)絡(luò)化,其實(shí)質(zhì)則是形成有序的信息空間[1]。國(guó)內(nèi)關(guān)于數(shù)字圖書(shū)館的研究始于1995年,前十年引入網(wǎng)絡(luò)信息技術(shù),豐富了圖書(shū)館的職能,并在一定程度上用網(wǎng)絡(luò)信息技術(shù)取代和發(fā)展了部分圖書(shū)館傳統(tǒng)工作。而步入“后數(shù)字圖書(shū)館”時(shí)代以來(lái),以數(shù)字圖書(shū)館為依托的“泛在圖書(shū)館”“移動(dòng)圖書(shū)館”等數(shù)字圖書(shū)館未來(lái)形態(tài)也是以這些關(guān)鍵技術(shù)為基礎(chǔ)的。本文統(tǒng)計(jì)了數(shù)字圖書(shū)館研究和建設(shè)中所使用的各種關(guān)鍵技術(shù),理清各種技術(shù)之間的關(guān)系,并運(yùn)用趨勢(shì)分析方法和聚類(lèi)分析方法得到相關(guān)的可視化結(jié)果,揭示數(shù)字圖書(shū)館研究和建設(shè)中所使用的各種具體技術(shù),旨在對(duì)數(shù)字圖書(shū)館及其未來(lái)形態(tài)的技術(shù)模式能有更深入的了解。
1研究方法和工具
本文運(yùn)用趨勢(shì)分析方法對(duì)數(shù)字圖書(shū)館技術(shù)的學(xué)術(shù)關(guān)注度進(jìn)行統(tǒng)計(jì),以便從整體上把握數(shù)字圖書(shū)館和數(shù)字圖書(shū)館技術(shù)應(yīng)用主題的發(fā)展趨勢(shì)和現(xiàn)狀。使用基于關(guān)鍵詞的聚類(lèi)分析方法對(duì)數(shù)字圖書(shū)館所使用的各種關(guān)鍵技術(shù)進(jìn)行分類(lèi),生成可視化結(jié)果,用以揭示數(shù)字圖書(shū)館技術(shù)主題內(nèi)部的學(xué)科關(guān)系。使用的主要工具是書(shū)目共現(xiàn)分析軟件Bicomb,用來(lái)統(tǒng)計(jì)和提取目標(biāo)文獻(xiàn)的高頻關(guān)鍵詞并生成共詞矩陣;統(tǒng)計(jì)分析軟件包SPSS19.0,用來(lái)做聚類(lèi)分析。
2文獻(xiàn)來(lái)源和數(shù)據(jù)處理
本文從CNKI全國(guó)期刊論文數(shù)據(jù)庫(kù)中,限定專(zhuān)業(yè)檢索,檢索數(shù)字圖書(shū)館研究主題內(nèi)相關(guān)的具體技術(shù)的應(yīng)用。使用檢索式“核心期刊=Y 或者 來(lái)源標(biāo)識(shí)碼=P0209 并且 年 between (2000,2013) 并且 主題=數(shù)字圖書(shū)館 并且 題名=技術(shù) (精確匹配)”,檢索日期為2014年7月18日。得到期刊論文671篇,排除紀(jì)要類(lèi)、綜述類(lèi)等無(wú)關(guān)文獻(xiàn)后,得到有效文獻(xiàn)488篇,構(gòu)成本文的數(shù)據(jù)來(lái)源。
為對(duì)整個(gè)數(shù)字圖書(shū)館的研究關(guān)注趨勢(shì)進(jìn)行更全面的把握,本文同時(shí)統(tǒng)計(jì)了2000~2013年CNKI中文核心期刊數(shù)據(jù)庫(kù)中收錄的以“數(shù)字圖書(shū)館”為主題的期刊論文的發(fā)文量,并分年展示,用以與技術(shù)應(yīng)用類(lèi)發(fā)文數(shù)量和關(guān)注趨勢(shì)進(jìn)行對(duì)比,這部分?jǐn)?shù)據(jù)將不應(yīng)用于本文的聚類(lèi)分析。
關(guān)鍵詞利用Bicomb書(shū)目共現(xiàn)分析系統(tǒng)提取數(shù)字圖書(shū)館技術(shù)應(yīng)用類(lèi)論文488篇的字段,并進(jìn)行一定的數(shù)據(jù)清洗工作:同義詞合并,如“射頻識(shí)別”和“RFID”進(jìn)行合并;上下位詞合并,如“智能Agent”“移動(dòng)Agent”合并為“Agent”技術(shù);無(wú)關(guān)詞清理,只保留相關(guān)的具體技術(shù)詞項(xiàng)、技術(shù)分類(lèi)詞項(xiàng)和應(yīng)用領(lǐng)域詞項(xiàng),剔除高頻詞中表意籠統(tǒng)或沒(méi)有分析價(jià)值的詞項(xiàng)如“趨勢(shì)”“發(fā)展”等。最終得到有效的關(guān)鍵詞1911個(gè),其中不同詞項(xiàng)694個(gè)。
關(guān)鍵詞本文采用手動(dòng)劃定閾值進(jìn)行高頻詞界分,設(shè)定出現(xiàn)頻次不低于5次的詞項(xiàng)為高頻,得到高頻詞項(xiàng)57個(gè),占累計(jì)百分比60.85%,具有較好的代表性。由于“數(shù)字圖書(shū)館”作為主題詞具有超高頻詞,無(wú)法反映該主題的內(nèi)部關(guān)系,“圖書(shū)館”“Internet”涵蓋內(nèi)容過(guò)于寬泛,沒(méi)有統(tǒng)計(jì)意義,在分析時(shí)不予采用。最終得到高頻關(guān)鍵詞54個(gè)。
3數(shù)據(jù)分析
學(xué)術(shù)關(guān)注度通過(guò)對(duì)目標(biāo)學(xué)科領(lǐng)域的發(fā)文量進(jìn)行統(tǒng)計(jì),可以從一定程度上反應(yīng)該領(lǐng)域的研究進(jìn)展和發(fā)展速度。本文通過(guò)兩個(gè)絕對(duì)指標(biāo)和一個(gè)相對(duì)指標(biāo)來(lái)研究數(shù)字圖書(shū)館技術(shù)的學(xué)術(shù)關(guān)注度:
(1)2000~2013年數(shù)字圖書(shū)館主題領(lǐng)域內(nèi)有關(guān)具體技術(shù)的開(kāi)發(fā)和應(yīng)用研究的核心期刊論文數(shù)量,單位用“篇”來(lái)表示;能夠直觀展現(xiàn)數(shù)字圖書(shū)館技術(shù)類(lèi)研究的學(xué)術(shù)關(guān)注度。
(2)2000~2013年數(shù)字圖書(shū)館主題的核心期刊論文數(shù)量,單位用“十篇”來(lái)表示;能夠和技術(shù)類(lèi)研究趨勢(shì)進(jìn)行對(duì)比。
(3)數(shù)字圖書(shū)館主題論文中技術(shù)類(lèi)文獻(xiàn)所占的比例,單位為“千分比(‰)”;能夠揭示對(duì)具體技術(shù)類(lèi)研究在整個(gè)數(shù)字圖書(shū)館研究中的重要性。
為了將三個(gè)指標(biāo)更直觀地展示在一張圖上,采用不同的單位計(jì)量,主要需要分析的是整體趨勢(shì)而非絕對(duì)數(shù)量,由此生成的圖譜如圖1所示。
圖1 文獻(xiàn)量分年統(tǒng)計(jì)圖
國(guó)內(nèi)關(guān)于數(shù)字圖書(shū)館的研究自1995年發(fā)端以來(lái),在21世紀(jì)進(jìn)入快速發(fā)展時(shí)期,其學(xué)術(shù)關(guān)注度在2004年達(dá)到頂峰,當(dāng)年核心期刊發(fā)表相關(guān)主題論文869篇,隨后其關(guān)注度逐漸被一些繼起的新興理念和后數(shù)字圖書(shū)館研究所取代而走向衰退。而數(shù)字圖書(shū)館中應(yīng)用的各種具體技術(shù)的研究趨勢(shì)和數(shù)字圖書(shū)館研究主題的發(fā)展趨勢(shì)并非完全一致,但是深受數(shù)字圖書(shū)館整體研究趨勢(shì)的影響。技術(shù)應(yīng)用類(lèi)的研究自21世紀(jì)以來(lái)一直以較快的速度發(fā)展,并在2004~2006三年間達(dá)到峰值,其后開(kāi)始衰弱;其在數(shù)字圖書(shū)館的總體研究中所占比例在2006年達(dá)到峰值,隨后也逐漸走向衰弱,象征著在“后數(shù)字圖書(shū)館”時(shí)代的數(shù)字圖書(shū)館具體技術(shù)的研究和開(kāi)發(fā)已經(jīng)不再是主流話(huà)題,這個(gè)階段學(xué)者們對(duì)數(shù)字圖書(shū)館的研究更多集中于基于成熟技術(shù)之上的對(duì)數(shù)字圖書(shū)館服務(wù)模式的探討和在新時(shí)期對(duì)數(shù)字圖書(shū)館未來(lái)發(fā)展形態(tài)的思辨。
從整體趨勢(shì)上來(lái)看,預(yù)計(jì)未來(lái)幾年數(shù)字圖書(shū)館的研究熱度會(huì)繼續(xù)下降,很多關(guān)鍵技術(shù)已經(jīng)非常成熟并且大量投入到數(shù)字圖書(shū)館的建設(shè)實(shí)踐中,而對(duì)各種關(guān)鍵技術(shù)的研究和開(kāi)發(fā)將不會(huì)局限于數(shù)字圖書(shū)館領(lǐng)域,可能在其他新興領(lǐng)域得到進(jìn)一步發(fā)展。
關(guān)鍵詞利用Bicomb軟件生成54*54的高頻共詞矩陣,導(dǎo)入SPSS19.0統(tǒng)計(jì)軟件進(jìn)行分析。選擇分析-分類(lèi)-系統(tǒng)聚類(lèi),距離方法選擇離差平方和法,度量標(biāo)準(zhǔn)選用計(jì)數(shù)Phi方度量,標(biāo)準(zhǔn)化選擇Z得分,由此得到系統(tǒng)聚類(lèi)分析可視化結(jié)果如圖2所示。
圖2聚類(lèi)分析樹(shù)狀圖
關(guān)鍵詞通過(guò)樹(shù)狀圖分析結(jié)果,結(jié)合各間的語(yǔ)義關(guān)系,可以將54個(gè)目標(biāo)詞項(xiàng)劃分為十個(gè)類(lèi)團(tuán),具體的類(lèi)團(tuán)劃分已用輔助標(biāo)線(xiàn)在圖中進(jìn)行標(biāo)注。由此通過(guò)計(jì)算類(lèi)團(tuán)內(nèi)部關(guān)鍵詞的粘合度,結(jié)合語(yǔ)義對(duì)各個(gè)類(lèi)團(tuán)進(jìn)行命名。由此得到了十個(gè)涵蓋關(guān)鍵技術(shù)的類(lèi)團(tuán),分別涉及數(shù)字圖書(shū)館的存儲(chǔ)、檢索、資源建設(shè)、資源描述、信息組織、信息安全、知識(shí)服務(wù)和系統(tǒng)集成等各個(gè)方面,如表2所示。
中圖分類(lèi)號(hào):G252.8 文獻(xiàn)標(biāo)識(shí)碼:A
作者簡(jiǎn)介:韓牧哲,男,碩士研究生。
收稿日期:2014-09-24
表2 各類(lèi)團(tuán)命名及粘合度
其中值得注意的是,由于聚類(lèi)算法本身存在排斥性缺陷[2],單純依靠聚類(lèi)分析結(jié)果會(huì)有不合理的地方,如“信息采訪”詞項(xiàng)涵蓋了圖書(shū)采訪、數(shù)字資源采購(gòu)等關(guān)鍵詞,應(yīng)該屬于類(lèi)IX資源建設(shè)范疇,但是聚類(lèi)分析卻將此詞項(xiàng)歸類(lèi)于推薦技術(shù)。這里并非試圖隔斷信息采訪與各種信息推薦技術(shù)的客觀聯(lián)系,不過(guò)僅從語(yǔ)義上判斷聚類(lèi)分析的結(jié)果有時(shí)很難做到合理精確。
4數(shù)字圖書(shū)館應(yīng)用技術(shù)分析
從上文的數(shù)據(jù)分析中能夠清楚地看到國(guó)內(nèi)對(duì)數(shù)字圖書(shū)館的應(yīng)用技術(shù)研究分為十類(lèi),下面將具體闡述每一類(lèi)中的具體技術(shù)及其在數(shù)字圖書(shū)館中的應(yīng)用狀況。
數(shù)字圖書(shū)館需要對(duì)海量數(shù)字化虛擬化的信息資源進(jìn)行存儲(chǔ)。存儲(chǔ)技術(shù)類(lèi)團(tuán)中涉及了四種具體技術(shù),分別是磁盤(pán)陣列(Redundant Arrays of independent Disks,RAID)、直連式存儲(chǔ)(Direct-Attached Storage,DAS)、網(wǎng)絡(luò)附屬存儲(chǔ)(Network-Attached Storage,NAS)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)(Storage Area Network,SAN)。
RAID是當(dāng)前數(shù)字圖書(shū)館廣泛使用的存儲(chǔ)大量數(shù)字化資源的存儲(chǔ)設(shè)備,是數(shù)字存儲(chǔ)的硬件基礎(chǔ)[3]。而DAS、NAS、SAN分別是當(dāng)前最為流行的三種數(shù)據(jù)存儲(chǔ)方式。其中DAS與計(jì)算機(jī)采用直連方式,硬件要求較低,技術(shù)成熟,成本低,在數(shù)據(jù)量較小的數(shù)字圖書(shū)館應(yīng)用較為普遍,但是由于效率較低,不適合大規(guī)模數(shù)據(jù)的存儲(chǔ)。NAS和SAN都是網(wǎng)絡(luò)存儲(chǔ)技術(shù),NAS又稱(chēng)“網(wǎng)絡(luò)存儲(chǔ)器”,以其開(kāi)放性、共享性而被廣泛應(yīng)用,但是由于其數(shù)據(jù)傳輸需要占用帶寬而會(huì)使效率降低;SAN則因其獨(dú)立存儲(chǔ)和高效率被需要進(jìn)行大規(guī)模的數(shù)據(jù)存儲(chǔ)和傳輸?shù)臋C(jī)構(gòu)所青睞[4]。在非結(jié)構(gòu)化數(shù)據(jù)激增的大數(shù)據(jù)時(shí)代,有學(xué)者開(kāi)始關(guān)注NAS和SAN技術(shù)的互補(bǔ)利用、強(qiáng)強(qiáng)聯(lián)合,從而為移動(dòng)環(huán)境下的圖書(shū)館存儲(chǔ)找到更好的解決方式。
對(duì)數(shù)字化信息資源的描述是數(shù)字圖書(shū)館開(kāi)展信息組織工作的基礎(chǔ),這項(xiàng)技術(shù)其實(shí)是傳統(tǒng)圖書(shū)館編目和著錄工作的延伸,自從數(shù)字圖書(shū)館和數(shù)字化資源理念提出以來(lái)就一直廣受關(guān)注。
該類(lèi)團(tuán)涵蓋五個(gè)具體詞項(xiàng)。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是數(shù)字化資源描述的基礎(chǔ),而DC則是當(dāng)前國(guó)際上最權(quán)威的元數(shù)據(jù)標(biāo)準(zhǔn);機(jī)讀目錄格式(Machine-Readable Cataloging,MARC),是進(jìn)行信息資源描述的格式標(biāo)準(zhǔn),用以讓圖書(shū)館或出版商之間作目錄信息交換用途,常用的有美國(guó)的USMARC和我國(guó)的CNMARC[5];XML和RDF是兩種用于描述信息資源的標(biāo)記語(yǔ)言,資源描述框架(Resource Description Framework,RDF)是可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language,XML)的子集,RDF使用XML的語(yǔ)法將Web資源的元數(shù)據(jù)描述成數(shù)據(jù)模型[6],對(duì)數(shù)字圖書(shū)館標(biāo)記和描述網(wǎng)絡(luò)虛擬資源有重要作用。
文獻(xiàn)信息檢索是圖書(shū)館的傳統(tǒng)工作,但是數(shù)字化信息檢索技術(shù)的應(yīng)用對(duì)傳統(tǒng)圖書(shū)館而言是革命性的。數(shù)據(jù)挖掘技術(shù)、信息抽取技術(shù)、信息過(guò)濾技術(shù)和Agent技術(shù)都為實(shí)現(xiàn)數(shù)字化、網(wǎng)絡(luò)化信息檢索提供了技術(shù)基礎(chǔ)。但是在這個(gè)類(lèi)團(tuán)中,需要著重探討的是有關(guān)檢索本身的幾種技術(shù)。
基于內(nèi)容的檢索(Content-Based Retrieval,CBR),是一種區(qū)別于傳統(tǒng)基于文本的檢索理念,它對(duì)信息資源內(nèi)容本身進(jìn)行編碼,并通過(guò)對(duì)比可以識(shí)別的內(nèi)容特征實(shí)現(xiàn)檢索,而不是像傳統(tǒng)檢索一樣從標(biāo)題、標(biāo)簽、描述、格式等外部特征出發(fā)進(jìn)行檢索[7]。基于內(nèi)容的檢索是實(shí)現(xiàn)圖像檢索和多媒體檢索的基礎(chǔ),因此該類(lèi)團(tuán)中另外兩種技術(shù)可以更準(zhǔn)確地稱(chēng)之為基于內(nèi)容的圖片檢索和基于內(nèi)容的多媒體檢索。這種技術(shù)在當(dāng)前的IT領(lǐng)域非常熱門(mén),有些多媒體搜索引擎已經(jīng)開(kāi)始投入使用。這種檢索方式的創(chuàng)新對(duì)于數(shù)字圖書(shū)館所收藏的大量靜態(tài)動(dòng)態(tài)圖像資源和多媒體信息資源的整序與服務(wù)有重要意義。
本類(lèi)團(tuán)涉及的關(guān)鍵技術(shù)有:數(shù)字版權(quán)管理(Digital Right Management,DRM),這是一種數(shù)字版權(quán)加密保護(hù)技術(shù)[8]。它不僅能夠?qū)ξ谋绢?lèi)型的數(shù)字資源進(jìn)行加密保護(hù),而且能夠?qū)σ纛l、視頻等多媒體資源提供版權(quán)保護(hù)。數(shù)字水印技術(shù)是將一種隱藏的標(biāo)識(shí)信息嵌入到數(shù)字化資源中或者間接表示,數(shù)字水印不會(huì)影響用戶(hù)對(duì)數(shù)字資源的正常使用,無(wú)法被更改和刪除,但是可以通過(guò)相關(guān)技術(shù)讀取和識(shí)別,從而為版權(quán)人提供版權(quán)保護(hù)。用戶(hù)識(shí)別和訪問(wèn)控制技術(shù)都是對(duì)用戶(hù)權(quán)限進(jìn)行限制的必要安全技術(shù)手段,可以從源頭上杜絕一些侵權(quán)行為或者非法訪問(wèn)和編輯,從而更好地為其他用戶(hù)提供權(quán)力均等的服務(wù)。
信息推薦是數(shù)字圖書(shū)館開(kāi)展主動(dòng)服務(wù)和個(gè)性化服務(wù)的重要手段和形式,數(shù)字圖書(shū)館研究中涉及較多的技術(shù)有推拉技術(shù)(Push & Pull)和信息聚合技術(shù)(RSS)。這兩種技術(shù)通過(guò)分析用戶(hù)的喜好評(píng)價(jià)用戶(hù)的閱讀習(xí)慣,從而有針對(duì)性地向用戶(hù)推送其所需要的信息,提供主動(dòng)的知識(shí)信息服務(wù)。而信息聚合技術(shù)則是在數(shù)字圖書(shū)館平臺(tái)上嵌入RSS訂閱服務(wù),用戶(hù)可以自行設(shè)計(jì)和選擇感興趣的信息模塊接受信息訂閱。
該類(lèi)團(tuán)中電子商務(wù)和信息采訪兩個(gè)詞項(xiàng)從語(yǔ)義判斷應(yīng)該歸類(lèi)到資源建設(shè)類(lèi)團(tuán),受制于聚類(lèi)算法的局限性,在此處不做探討。
互操作是指一種能力,使得分布的控制系統(tǒng)設(shè)備通過(guò)相關(guān)信息的數(shù)字交換,能夠協(xié)調(diào)工作,從而達(dá)到一個(gè)共同的目標(biāo)。數(shù)字圖書(shū)館的互操作性主要是分布式系統(tǒng)間實(shí)現(xiàn)互操作,從而完成資源共享、館際互借等操作。解決分布式異構(gòu)系統(tǒng)的互操作性問(wèn)題的關(guān)鍵技術(shù)主要有網(wǎng)格技術(shù)、OAI協(xié)議和公共對(duì)象請(qǐng)求代理體系結(jié)構(gòu)(Common Object Request Broker Architecture, CORBA)。另外,在高頻詞中沒(méi)有體現(xiàn)的中間件技術(shù)(middleware)也與此類(lèi)團(tuán)密切相關(guān)。
網(wǎng)格技術(shù)是一種分布式系統(tǒng),可以實(shí)現(xiàn)資源共享,消除信息孤島;具有協(xié)同工作特性;提供通用的開(kāi)放標(biāo)準(zhǔn)、非集中控制;提供動(dòng)態(tài)服務(wù),能夠適應(yīng)變化并具有高度的可擴(kuò)展性[9]。OAI協(xié)議是一種能獨(dú)立應(yīng)用的、能夠提高Web上資源共享范圍和能力的互操作協(xié)議標(biāo)準(zhǔn)[10]。CORBA是OMG組織制定的一種標(biāo)準(zhǔn)的面向?qū)ο髴?yīng)用程序體系規(guī)范,是為解決分布式處理環(huán)境(DCE)中,硬件和軟件系統(tǒng)的互連而提出的一種解決方案。CORBA協(xié)議將分布式計(jì)算和面向?qū)ο蟮母拍钕嗷ソY(jié)合,它本身也是一種中間件技術(shù),可以被看作把應(yīng)用程序和通信核心的細(xì)節(jié)分離的軟件[11]。
數(shù)字圖書(shū)館建設(shè)中需要面對(duì)和處理大量異構(gòu)系統(tǒng)和非結(jié)構(gòu)化的信息資源,這些異構(gòu)和非結(jié)構(gòu)化問(wèn)題會(huì)帶來(lái)集成性隔斷,人為地阻礙知識(shí)的共享和傳遞。因此,數(shù)字圖書(shū)館研究中必須要深入探討各種集成技術(shù)。
數(shù)字圖書(shū)館面臨的集成化問(wèn)題至今還是重要的話(huà)題,界面集成化、信息與工作空間集成化、行政集成化、鑒權(quán)集成化、信息技術(shù)與服務(wù)集成化等問(wèn)題在20年的發(fā)展中很多已經(jīng)得到了良好的改善。如針對(duì)異構(gòu)數(shù)據(jù)庫(kù)提出的集成化技術(shù),如多代理系統(tǒng)(Multi-agent)和跨庫(kù)檢索技術(shù)(CSDL)、跨語(yǔ)言檢索技術(shù)(CLIR)等已經(jīng)非常成熟并廣泛應(yīng)用于數(shù)字圖書(shū)館的建設(shè)中。而一些旨在支持全格式存儲(chǔ)、傳遞、閱讀數(shù)字化信息資源的資源整合技術(shù)對(duì)解決非結(jié)構(gòu)化數(shù)據(jù)的整序問(wèn)題大有幫助。而被劃分在本類(lèi)團(tuán)的WebService技術(shù)是一種被廣泛應(yīng)用的綜合性技術(shù)。該技術(shù)首次利用web標(biāo)準(zhǔn)將拆解后的不同軟件的組成部分集成起來(lái),這項(xiàng)技術(shù)為當(dāng)時(shí)的web技術(shù)提供了一種全新的功能模式[12]。
數(shù)字化技術(shù)是將紙質(zhì)、磁介質(zhì)、縮微膠片等傳統(tǒng)方式存儲(chǔ)的圖文聲像資源進(jìn)行數(shù)字轉(zhuǎn)化,使之成為能夠被計(jì)算機(jī)網(wǎng)絡(luò)識(shí)別、讀取、傳輸和利用的數(shù)字化資源的技術(shù)類(lèi)型[13]。早期的文本識(shí)別、OCR等文獻(xiàn)資源數(shù)字化技術(shù)近年來(lái)發(fā)展迅速,我國(guó)的書(shū)生公司當(dāng)前已經(jīng)研發(fā)出先進(jìn)的全息數(shù)字化技術(shù)[14];同時(shí)隨著新興的虛擬現(xiàn)實(shí)技術(shù)的日漸成熟,在不久的將來(lái),數(shù)字閱讀或可無(wú)限接近紙質(zhì)文獻(xiàn)的閱讀體驗(yàn)。數(shù)字化文獻(xiàn)信息資源的長(zhǎng)期保存問(wèn)題也是圖書(shū)館學(xué)領(lǐng)域研究的熱點(diǎn),這項(xiàng)技術(shù)一方面和數(shù)字倉(cāng)儲(chǔ)技術(shù)密切相關(guān),但是很大程度上受到數(shù)字化資源類(lèi)型的限制。被劃分到其他類(lèi)團(tuán)的信息采訪和電子商務(wù)應(yīng)與數(shù)字化資源的采訪有關(guān),也屬于資源建設(shè)范疇,但是并非具體技術(shù)的應(yīng)用,此處不再贅述。
這個(gè)類(lèi)團(tuán)所涉及的技術(shù)范疇是綜合性的,都和Web2.0及Web3.0理念有關(guān)。其主要涉及的是基于本體論(Ontology)提出的語(yǔ)義網(wǎng)(Semantic Web)概念、流媒體形式的信息組織形式和基于P2P理念的信息共享技術(shù)。
本體論是一個(gè)哲學(xué)范疇,在信息系統(tǒng)和知識(shí)系統(tǒng)領(lǐng)域被賦予了新的含義,Studer等人認(rèn)為本體論是共享概念模型的明確的形式化規(guī)范說(shuō)明,這也是目前對(duì) Ontology 概念的統(tǒng)一看法[15]。Tim Berners-Lee于1998年提出的語(yǔ)義網(wǎng)模型有三個(gè)關(guān)鍵要素,其以RDF和XML為技術(shù)基礎(chǔ),而本體論則是具有一個(gè)分類(lèi)體系和一系列的推理原則的形式化定義語(yǔ)詞關(guān)系的規(guī)范化文件[16]。這個(gè)模型與Web3.0理念不謀而合,對(duì)實(shí)現(xiàn)資源描述和信息組織方式的創(chuàng)新有重要意義。流媒體技術(shù)是當(dāng)前在信息組織中應(yīng)用最廣的方法之一,它的安全性高,傳輸性好,廣為數(shù)字圖書(shū)館研究者所青睞。對(duì)等互聯(lián)網(wǎng)技術(shù)(P2P)對(duì)于有針對(duì)性的需求-服務(wù)匹配的信息資源共享有很好的作用。這些技術(shù)被綜合應(yīng)用于數(shù)字圖書(shū)館中,提供了良好的信息組織和知識(shí)服務(wù)手段。
為用戶(hù)提供個(gè)性化服務(wù)是評(píng)價(jià)和衡量數(shù)字圖書(shū)館的重要指標(biāo)。而個(gè)性化服務(wù)體現(xiàn)在數(shù)字圖書(shū)館工作的各個(gè)方面,本類(lèi)團(tuán)中涉及的技術(shù)主要是指在云計(jì)算和數(shù)據(jù)挖掘技術(shù)基礎(chǔ)上的支持個(gè)性化信息檢索的Agent技術(shù);能夠提供個(gè)性化服務(wù)環(huán)境的應(yīng)用程序虛擬化技術(shù);基于信息抽取和信息過(guò)濾技術(shù)的個(gè)性化信息服務(wù)。
Agent技術(shù)是一種分布式計(jì)算技術(shù),基于它開(kāi)發(fā)的異構(gòu)數(shù)據(jù)庫(kù)信息檢索系統(tǒng)在滿(mǎn)足用戶(hù)個(gè)性化信息需求方面有不錯(cuò)的效果[17]。虛擬化技術(shù)主要分為平臺(tái)虛擬化、資源虛擬化、應(yīng)用程序虛擬化和表示層虛擬化。基于應(yīng)用層的虛擬化技術(shù),通過(guò)保存用戶(hù)個(gè)性化計(jì)算環(huán)境的配置信息,可以實(shí)現(xiàn)在任意計(jì)算機(jī)上重現(xiàn)用戶(hù)的個(gè)性化計(jì)算環(huán)境[18]。信息抽取技術(shù)和信息檢索相輔相成,它是將文本中所包含的信息進(jìn)行結(jié)構(gòu)化處理,將各個(gè)文檔中的信息點(diǎn)抽取出來(lái),然后用統(tǒng)一的形式集成在一起,對(duì)處理大數(shù)據(jù)時(shí)代的海量信息有重要作用。信息抽取技術(shù)與信息過(guò)濾技術(shù)和信息推送技術(shù)相結(jié)合,可以按照用戶(hù)需求屏蔽掉冗余信息并向用戶(hù)推送其感興趣的信息,從而可以很好地實(shí)現(xiàn)個(gè)性化信息服務(wù)。數(shù)字圖書(shū)館中的各項(xiàng)技術(shù)其實(shí)都有以個(gè)性化服務(wù)為指標(biāo)進(jìn)行的度量,在大數(shù)據(jù)時(shí)代,各種非結(jié)構(gòu)化信息大規(guī)模增長(zhǎng),需要未來(lái)數(shù)字圖書(shū)館服務(wù)更加注重個(gè)性化。個(gè)性化服務(wù)的技術(shù)遠(yuǎn)不止于此,隨著以用戶(hù)為本理念的推行,個(gè)性化服務(wù)將成為數(shù)字圖書(shū)館未來(lái)形態(tài)中最受關(guān)注的指標(biāo)。
5結(jié)語(yǔ)
本文對(duì)21世紀(jì)以來(lái)的我國(guó)數(shù)字圖書(shū)館應(yīng)用技術(shù)主題的期刊論文進(jìn)行了統(tǒng)計(jì)分析。由于所分析的主題已經(jīng)進(jìn)入學(xué)科發(fā)展的后期階段,再進(jìn)行發(fā)展趨勢(shì)預(yù)測(cè)沒(méi)有意義,不過(guò)對(duì)數(shù)字圖書(shū)館關(guān)鍵技術(shù)的革新以及這部分學(xué)者關(guān)注的最新熱點(diǎn)對(duì)數(shù)字圖書(shū)館未來(lái)形態(tài)的發(fā)展意義重大。同樣這些技術(shù)作為數(shù)字圖書(shū)館的基礎(chǔ)性技術(shù),其最新的發(fā)展也會(huì)是筆者今后關(guān)注的重點(diǎn)。
參考文獻(xiàn):
[1] 李培.數(shù)字圖書(shū)館原理及應(yīng)用[M].北京:高等教育出版社,2004.3-6.
[2] 李佳.共詞矩陣在聚類(lèi)結(jié)果分析中的作用[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2009,(4):77-80.
[3] 金海,張江陵.磁盤(pán)陣列技術(shù)及其發(fā)展趨勢(shì)[J].微處理機(jī),1995,(2):5-11.
[4] 謝勝彬,陶洋,王國(guó)梁.DAS、NAS與SAN的研究與應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,2003,(7):8-11.
[5] 胡小菁,李?lèi)?MARC四十年的發(fā)展及其未來(lái)[J].中國(guó)圖書(shū)館學(xué)報(bào),2010,(2):83-89.
[6] 黃偉紅,張福炎.基于XML/RDF的MARC元數(shù)據(jù)描述技術(shù)[J].情報(bào)學(xué)報(bào),2000,(4):326-332.
[7] 趙一丹.論數(shù)字圖書(shū)館基于內(nèi)容的多媒體數(shù)據(jù)查詢(xún)和檢索技術(shù)[J].中國(guó)圖書(shū)館學(xué)報(bào),2001,(3):57-59.
[8] 吳慰慈,董焱.圖書(shū)館學(xué)概論[M].北京:國(guó)家圖書(shū)館出版社,2008.350-351.
[9] 史寧.網(wǎng)格技術(shù)與分布式數(shù)字圖書(shū)館[J].現(xiàn)代情報(bào),2007,(4):102-105.
[10] 鄭志蘊(yùn),徐瑋,宋瀚濤等.網(wǎng)格環(huán)境下基于OAI的數(shù)字圖書(shū)館互操作機(jī)制[J].計(jì)算機(jī)工程,2006,(10).
[11] 周善儒.基于CORBA中間構(gòu)件的數(shù)字圖書(shū)館異構(gòu)資源集成方法研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2003,(2):19-20.
[12] Roman D, Keller U, Lausen H, et al. Web service modeling ontology[J]. Applied ontology,2005,1(1):77-106.
[13] 林靜.圖書(shū)館館藏資源數(shù)字化建設(shè)[J].圖書(shū)館學(xué)研究,2004,(7):33-35.
[14] 劉錦山.書(shū)生全息數(shù)字化技術(shù)在數(shù)字圖書(shū)館建設(shè)中的應(yīng)用[J].圖書(shū)情報(bào)工作,2001,(9).
[15] 劉穎,詹 萌.Ontology在數(shù)字圖書(shū)館領(lǐng)域中的應(yīng)用與研究綜述[J].圖書(shū)館雜志,2005,(6):53-58.
[16] 簡(jiǎn)玉仙,程曉穎,朱曉冰.一種基于本體語(yǔ)義控制的數(shù)字圖書(shū)館技術(shù)研究[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2009,(8):34-35.
[17] 滕勝娟.從移動(dòng)Agent技術(shù)的應(yīng)用看圖書(shū)館信息服務(wù)的個(gè)性化[J].圖書(shū)情報(bào)工作,2011,(S1):223-224.
[18] 劉榮發(fā).服務(wù)器虛擬化技術(shù)在圖書(shū)館數(shù)字化服務(wù)中的應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007,(4).
(責(zé)任編輯:王靖雯)