文 / 王瑩
隨著互聯(lián)網(wǎng)的快速發(fā)展,信息聚合技術在各領域的應用越來越廣泛。檔案機構在推動信息化建設的過程中,需要加強信息聚合技術的使用,進一步提高檔案信息服務的質(zhì)量。當前的信息聚合技術已發(fā)展到關聯(lián)數(shù)據(jù)聚合、云計算聚合階段。這些新技術的出現(xiàn)有效地提升了檔案信息聚合的效應。
在互聯(lián)網(wǎng)時代,我國的檔案信息化建設進入一個新的階段。越來越多的檔案機構通過互聯(lián)網(wǎng)進行檔案信息的管理和傳播,網(wǎng)絡上的檔案信息日益增多。特別是在新媒體語境下,檔案機構利用微博、微信等新媒體發(fā)布各種信息,而政府部門在政務改革的要求下,也會將政務信息在官方微博、微信公共號上公開發(fā)布。這些信息多跟檔案相關,成為需要納入檔案信息化建設的一個重要內(nèi)容[1]。從總體情況看,互聯(lián)網(wǎng)上的檔案信息雖然數(shù)量較多,但信息分布非常雜亂,信息來源較為分散,且許多檔案信息屬于異構信息,沒有一個統(tǒng)一的標準,信息采集和應用缺少規(guī)范的流程,離這些信息的有效使用尚有一段很長的距離。而檔案信息聚合服務能夠集中處理和展現(xiàn)互聯(lián)網(wǎng)上的各種檔案信息,使這些信息得到有效利用,因此檔案信息聚合服務的重要性日益凸顯。
檔案信息聚合服務主要分為兩個部分,即信息發(fā)布和信息整合。對于前者來說,檔案機構需要構建自身的發(fā)布源,將適合公開與共享的檔案信息通過門戶網(wǎng)站、官方微博、微信公共號、網(wǎng)絡論壇等平臺發(fā)布到互聯(lián)網(wǎng)上,有效拓展檔案信息的利用范圍。對于后者來說,由于互聯(lián)網(wǎng)上分布著大量的檔案信息資源,包括檔案館、政府部門、社會機構及個人發(fā)布的諸多與檔案相關的信息,需要通過信息聚合工具對這些信息進行整合。信息聚合工具既可以是自行研發(fā)的,也可以購買第三方應用軟件,通過智能工具對檔案用戶的偏好進行分析,然后采集與整合用戶感興趣的信息,方便用戶的瀏覽和使用[2]。在這種服務模式下,互聯(lián)網(wǎng)上與檔案相關的各種零碎信息得到了關聯(lián),轉(zhuǎn)化為能夠被檔案用戶利用的有效信息,并具備個性化與共享特征。
檔案信息聚合服務經(jīng)歷了多個發(fā)展階段,從早期的RSS聚合、專業(yè)工具聚合、新媒體聚合到最新的關聯(lián)數(shù)據(jù)聚合、Web3.0聚合、云計算聚合,信息聚合服務的質(zhì)量和水平變得越來越高。從實際情況看,盡管RSS聚合已經(jīng)逐漸被淘汰,但專業(yè)工具聚合、新媒體聚合依然是當前檔案機構主要的信息聚合方式,而關聯(lián)數(shù)據(jù)聚合、云計算聚合等新模式并沒有得到普及。信息聚合服務直接關系到我國檔案事業(yè)的快速發(fā)展,特別是云計算聚合代表著當前互聯(lián)網(wǎng)信息聚合的發(fā)展方向。為了提高檔案信息服務質(zhì)量,還需要增強新技術的使用力度。檔案機構應在信息聚合方面敢于改革創(chuàng)新,及時用新技術替代原有的聚合方式,使檔案信息服務再上一個新的層次。
RSS是早期互聯(lián)網(wǎng)中的一種通用型信息聚合工具,也叫做簡易聚合。在檔案信息管理領域,主要通過RSS對檔案門戶網(wǎng)站及其它相關網(wǎng)站的信息進行聚合,關鍵手段是搜索引擎和主題導航。這種聚合工具以XML為標準,利用訂閱的方式集中處理和推送不同數(shù)據(jù)源的檔案信息,同時檔案門戶網(wǎng)站自身也可以成為數(shù)據(jù)源,根據(jù)訂閱量發(fā)布內(nèi)容。檔案利用者則基于自身喜好以及對檔案信息的需求,從檔案門戶網(wǎng)站或者相關來源中訂閱所需的檔案內(nèi)容。在一般情況下,RSS聚合工具會自動瀏覽與監(jiān)測指定的內(nèi)容,當發(fā)現(xiàn)信息有更新時,會及時把新的內(nèi)容推送給檔案利用者。RSS推出的一種個人閱讀器可以將不同信息在統(tǒng)一界面中聚合,使用戶無需打開來源網(wǎng)站就能閱讀到相關信息。對于RSS聚合工具來說,核心要點并非傳統(tǒng)的用戶找信息,而是信息找用戶。它具備了強大的自動跟蹤能力,可以將新的信息內(nèi)容主動傳送給檔案利用者。但RSS也存在著一些突出的問題,如不能跟用戶進行互動交流,這是RSS逐步被淘汰的主要原因之一。
在早期的檔案信息聚合中,除了RSS之外,許多檔案機構還按照自身的實際需求,設計開發(fā)專業(yè)化的信息聚合工具,通過智能檢索、全景分析、自動化處理等專業(yè)功能,使檔案信息資源得到充分的聚合。這種專業(yè)工具可以根據(jù)檔案信息的特征規(guī)律,為各類檔案信息建立起不同的連接,基于不同立場有序展現(xiàn)檔案信息。當用戶需要利用檔案信息的時候,通過一個檢索請求就能查詢到所有相關的信息,因而極大地提升了檔案信息的檢索效率。當時較為流行的是一站式聚合檢索工具,能夠?qū)崿F(xiàn)實時的跨庫檢索,檔案利用者只需在檢索界面輸入關鍵詞,就能一次性檢索到多個數(shù)據(jù)庫的信息,由此形成了專業(yè)化的檔案信息聚合服務[3]。從整體情況來看,以檔案信息專業(yè)工具為基礎的信息聚合通常能夠檢索出高質(zhì)量的檔案信息,這使得專業(yè)化服務質(zhì)量達到了一個較高的層次。但這種模式也存在著一些問題,主要是專業(yè)化的信息聚合工具需要投入的開發(fā)成本較大,而一般的檔案機構運營預算有限,尚無法承擔這樣的成本投入,不具備推廣價值。
隨著微博、微信等新媒體的快速發(fā)展,互聯(lián)網(wǎng)的社交功能越來越突出,互動性日益增強。以新媒體為基礎的檔案信息聚合有效解決了RSS互動性不足的問題。這種信息聚合模式主要是根據(jù)新媒體用戶的交互行為,在互聯(lián)網(wǎng)中聚合類型相同、內(nèi)容相近的檔案信息。它所依賴的基礎是新媒體中的各類社交關系。通過新媒體聚合檔案信息,不但可以聚合同類型的信息,而且能起到“橋梁”的作用,將志趣相同的檔案利用者、服務者以及相關研究人員聯(lián)系起來,提高他們的溝通交流程度,形成一個強大的信息聚合促進群體[4]?;谛旅襟w的檔案信息聚合服務以其互動性、個性化等優(yōu)勢,逐漸代替了RSS,且大多數(shù)新媒體都是開放式、免費式,這有效地降低了檔案信息聚合的成本,提高了檔案信息的傳播量。但這種信息聚合模式也存在一定的問題。首先,是難以掌控信息聚合的質(zhì)量和數(shù)量,容易出現(xiàn)信息質(zhì)量偏低、信息“堵塞”等現(xiàn)象,且對于信息聚合順序、重要程度的判斷尚沒有一個統(tǒng)一標準。其次,是新媒體聚合只注重表面信息,對于專業(yè)人員的關聯(lián)程度不夠,導致信息聚合與專業(yè)人員缺乏聯(lián)系,難以快速挖掘出真正符合用戶需求的檔案信息。
關聯(lián)數(shù)據(jù)技術主要是通過對互聯(lián)網(wǎng)中分散化、異構化的數(shù)據(jù)進行語義關聯(lián),并利用有助于人機理解的最佳方式實現(xiàn)信息整合,由此創(chuàng)造出新的知識[5]。關聯(lián)數(shù)據(jù)技術不但能夠準確定位及選擇數(shù)據(jù),而且能描述各種信息數(shù)據(jù)之間的關聯(lián)狀態(tài),最終達到關聯(lián)聚合的目的。檔案機構可以通過該技術深入挖掘檔案資源,促進檔案信息的整合。這種深度聚合的模式在使用時并不復雜。檔案利用者只需關注信息本身,關聯(lián)數(shù)據(jù)技術就能提供曾經(jīng)被聚合過的相關數(shù)據(jù)源,然后對來源不同的數(shù)據(jù)對象進行再次聚合。該技術在一定程度上提升了檔案信息服務的可塑性,拓展了檔案信息資源的應用范圍,使服務水平得到有效加強。基于關聯(lián)數(shù)據(jù)技術的檔案信息聚合,不僅深度揭示了檔案專業(yè)信息,還揭示了與檔案相關的其它信息資源,從語義層為檔案信息聚合提供強大的技術支撐。它的核心優(yōu)勢在于,整合來源不同的同一個對象,使檔案信息價值得到最大發(fā)揮。如今,隨著互聯(lián)網(wǎng)及信息技術的快速發(fā)展,檔案機構的信息管理系統(tǒng)已經(jīng)能夠?qū)崿F(xiàn)全球聯(lián)網(wǎng),信息聚合變得更加開放與規(guī)范,這為關聯(lián)數(shù)據(jù)的使用奠定了良好基礎。
當前的互聯(lián)網(wǎng)已從Web2.0走向Web3.0。它的核心優(yōu)勢在于融合各種網(wǎng)絡信息,根據(jù)用戶個人的網(wǎng)絡訪問習慣,自動聚合相關的信息,由此形成個人門戶。在這種情況下,每一位用戶都能夠擁有個性化的瀏覽器首頁,而Web3.0根據(jù)用戶對信息關注的偏好,以用戶的實際需求為基礎達到信息聚合的目的。從本質(zhì)上看,Web3.0瀏覽器是一種第三方信息服務平臺,使用非常方便,且能對各種網(wǎng)絡信息進行聚合。檔案利用者在使用這種瀏覽器的過程中,瀏覽器本身會自動記錄用戶的訪問痕跡,辨別出該用戶對哪些檔案信息感興趣,自動聚合并顯示相應的檔案信息,而用戶不常訪問的信息則不會顯示。Web3.0的最大特點是實現(xiàn)了個性化,以Web3.0為基礎的檔案信息聚合可以看作是一種個性化的聚合。它在智能識別技術的支撐下,能夠快速分析出檔案利用者的行為規(guī)律。通過Web3.0聚合的檔案信息來源廣泛,檔案利用者只需提交請求,Web3.0瀏覽器就能對各種數(shù)據(jù)源進行分辨,然后利用信息聚合技術展現(xiàn)用戶感興趣的信息,由此實現(xiàn)個性化服務[6]??傮w來看,在Web3.0背景下,檔案利用者所面對的并非是某一個檔案館,而是一個整體的檔案信息資源環(huán)境。
云計算是當前互聯(lián)網(wǎng)技術的一個主要發(fā)展方向。云計算的基本服務模式有三種:通過軟件進行服務;通過平臺進行服務;通過基礎設施進行服務[7]。在這些服務模式中,通過軟件進行服務的級別是最高的。在該模式下,用戶無需購買相應的軟件,只需租用云服務商所提供的共享軟件即可,這極大地降低了用戶的軟件使用成本,且這些軟件的功能和性能并不會降低,而是比普通管理軟件具備更加強大的計算能力。檔案管理人員既可以通過共享軟件進行日常的信息管理工作,又可以在云端儲存檔案信息。而云服務商則在檔案信息云存儲的基礎之上,向用戶提供信息聚合服務,由此形成了“檔案管理就是服務”“檔案信息聚合就是服務”的新理念。于是,傳統(tǒng)的檔案管理業(yè)務由云服務平臺接手。云計算技術的支持極大地提高了檔案信息聚合的功能。總體來看,以云計算為基礎的檔案信息聚合成為“軟件就是服務”的主要功能之一,檔案管理人員無需為服務器租用、軟件開發(fā)支付更多的費用,而云服務商只需將相應的管理程序整合進云平臺,即可為無數(shù)的檔案管理人員提供服務。云計算提供了一種全新的檔案信息服務理念。由于云服務商已經(jīng)很好地解決了信息聚合問題,用戶無需對這方面進行更多的考慮,這使得檔案信息服務變得更加專注。