張雪莉
(鄭州澍青醫(yī)學高等??茖W校,河南 鄭州450000)
隨著信息的增長,海量數(shù)據(jù)正以迅猛態(tài)勢,全方位進入社會生活的各個領域,引起了諸多行業(yè)的巨大變革。實現(xiàn)大數(shù)據(jù)驅動的智慧信息服務成為圖書館轉型變革的必經(jīng)之路,圖書館需要快速、高效、準確地從海量基礎數(shù)據(jù)中提取到有用的信息資源,將用戶所需的信息以直觀和豐富的表現(xiàn)形式智慧化地傳遞給用戶,這給圖書館帶來了巨大的挑戰(zhàn)。雖然圖書館也給予大數(shù)據(jù)較多的關注,但仍然存在著諸多現(xiàn)實問題,許多圖書館的大數(shù)據(jù)服務處于理論研究階段,在圖書館大數(shù)據(jù)服務實際運用中所面臨的資源、技術、安全、成本、人才等方面還存在著瓶頸。區(qū)塊鏈是一種網(wǎng)絡技術,可以讓用戶有機會安全地共享內容或進行交易,而無需中間人或中央管理系統(tǒng),它是通過去中心化和去信任的方式集體維護一個可靠數(shù)據(jù)庫的技術方案,這不僅使區(qū)塊鏈和大數(shù)據(jù)有著緊密的聯(lián)系,甚至可以說,區(qū)塊鏈將重構大數(shù)據(jù)。借助區(qū)塊鏈技術,圖書館可低成本地實施大數(shù)據(jù)戰(zhàn)略,解決大數(shù)據(jù)環(huán)境下服務所面臨的問題,以進一步提升圖書館服務管理質量的效率和效能,實現(xiàn)大數(shù)據(jù)在圖書館領域更廣泛的應用。筆者擬探討圖書館在大數(shù)據(jù)環(huán)境下的瓶頸問題,闡述區(qū)塊鏈技術如何與大數(shù)據(jù)技術互補,并解決這些問題。
大數(shù)據(jù)(big data)是指規(guī)模巨大,在合理時間范圍內無法用常規(guī)軟硬件設備進行獲取、處理和管理的海量數(shù)據(jù)集合,這些大數(shù)據(jù)包括結構化、半結構化以及非結構化的數(shù)據(jù),大數(shù)據(jù)通過深層分析和價值挖掘可以獲得洞察和決策的能力。它具有Volume(海量性)、Value(高價值)、Variety(多樣性)三大特征。隨著圖書館信息化、智慧化、數(shù)字圖書館建設進程的加速,圖書館數(shù)據(jù)也初步具備了大數(shù)據(jù)特征。圖書館大數(shù)據(jù)主要包括資源數(shù)據(jù)、用戶數(shù)據(jù)、感知數(shù)據(jù)[1],這些數(shù)據(jù)量大且增長迅速,僅以資源數(shù)據(jù)為例,平均每所高校圖書館的館藏資源記錄已接近1500萬條,并且每日都在增加。同時圖書館數(shù)據(jù)類型繁多,既包括了結構化的數(shù)字圖書館資源,也包括了非結構化圖書館感知數(shù)據(jù)以及讀者個人數(shù)據(jù)等,數(shù)據(jù)類型包括了音頻、視頻、圖片、位置信息、設備使用數(shù)據(jù)、監(jiān)控數(shù)據(jù)等等,這些多類型的數(shù)據(jù)對圖書館數(shù)據(jù)處理能力提出了更高要求。圖書館大數(shù)據(jù)同樣具有較高的價值,大數(shù)據(jù)在圖書館領域可以被運用到讀者行為識別與串聯(lián)、讀者信息與服務需求預判、圖書館運行狀態(tài)描述、資源建設成效評估和文獻資源配置優(yōu)化、圖書館管理助力等[2]。
對信息數(shù)據(jù)的收集、處理、存儲、分析、利用,這是大部分現(xiàn)有的信息數(shù)據(jù)管理均遵循的流程,而大數(shù)據(jù)環(huán)境下圖書館在這一流程中也面臨著諸多的困境,例如數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)利用等技術方面的制約,也會受到如知識產權等法律方面的制約,具體如下所述。
圖書館作為信息機構,收集、整合和共享資源是其根本任務,然而在實際工作中圖書館數(shù)據(jù)源的收集上卻存在著瓶頸問題,首先是數(shù)據(jù)源的完整性問題,它要求圖書館不能有漏收和間斷情況出現(xiàn),但由于受到經(jīng)費、渠道等因素的制約,圖書館并不能保證完整而系統(tǒng)地收集數(shù)據(jù)。一方面圖書館希望獲得更多更好的數(shù)據(jù)源進行深度挖掘,而另一方面雖然數(shù)據(jù)開放和共享是大數(shù)據(jù)時代的核心精神,但當前各個數(shù)據(jù)庫開放程度低,而數(shù)據(jù)庫商對于數(shù)據(jù)的共享猶豫不決,相關數(shù)據(jù)庫存在著壟斷現(xiàn)象,圖書館大數(shù)據(jù)中心在建設和使用過程中面臨著信息孤島、數(shù)據(jù)封閉、數(shù)據(jù)分享動力不足等實際問題,圖書館在與數(shù)據(jù)庫商的談判中往往處于劣勢,付出高昂成本。其次是數(shù)據(jù)可信度問題,圖書館數(shù)據(jù)本身往往被視為“可靠數(shù)據(jù)”,但實際上圖書館數(shù)據(jù)來源的不可追溯以及以中心存儲的方式也使得數(shù)據(jù)可以被修改,而無法證明其有效性,不利于科學研究。如圖書館書目數(shù)據(jù)的來源包括聯(lián)合編目、編目外包等等,書目數(shù)據(jù)的質量不能得到有效控制,影響了文獻的利用水平和讀者的時間成本。以上可以看出,在圖書館數(shù)據(jù)資源開發(fā)中,數(shù)據(jù)完整獲取存在困難,底層數(shù)據(jù)的缺失和混亂,使其數(shù)據(jù)的利用和分析也就缺乏基礎。
大數(shù)據(jù)環(huán)境下,知識的存儲是圖書館的基本責任,國內數(shù)字圖書館建設的熱潮下,數(shù)字資源建設速度逐年遞增、規(guī)模急劇擴大、種類日益豐富,構建了海量的分布式數(shù)字資源庫群、大規(guī)模元數(shù)據(jù)和關聯(lián)數(shù)據(jù)群。而圖書館在數(shù)據(jù)存儲上的痛點主要包括數(shù)據(jù)量巨大,且不同類型的異構數(shù)據(jù)的存儲方式和數(shù)據(jù)格式也大相徑庭,圖書館傳統(tǒng)的單一形式的集中式的計算機系統(tǒng)面對如此龐大的數(shù)據(jù)量和異構數(shù)據(jù),無論是儲存能力還是計算能力都難以勝任,而受到技術瓶頸和經(jīng)費短缺的限制,大多數(shù)圖書館要想全面升級換代現(xiàn)有數(shù)據(jù)庫和提高現(xiàn)有存儲容量是不可能的。其次圖書館不同類型的數(shù)據(jù)的使用有著不同性能要求、不同容量要求,這些需求隨時會發(fā)生改變,需要有效地管理和按需分配存儲資源以提高利用率。這給圖書館基礎設施帶來了極大的壓力,由于成本的制約,越來越多的圖書館將應用由高端服務器向中低端硬件構成的大規(guī)模計算機集群轉換[3]。
圖書館需要存儲的大量數(shù)據(jù)還面臨著包括數(shù)據(jù)丟失、隱私泄露以及黑客攻擊等安全問題。一般來說,圖書館存儲著大量的讀者個人數(shù)據(jù),其中不乏身份證號、學號、手機號、電子郵箱、讀者借閱信息、讀者閱讀行為數(shù)據(jù)等敏感數(shù)據(jù),而對這些敏感數(shù)據(jù)的使用因易侵犯讀者個人隱私而存在很大的法律風險。圖書館對用戶個人信息的數(shù)據(jù)監(jiān)控不能實時進行查看,日常安全防護管理不能有效進行。同時,圖書館存儲的數(shù)據(jù)需要保證數(shù)據(jù)不被丟失或者遭受攻擊造成的數(shù)據(jù)泄露,而沒有訪問權限的訪問者、第三方甚至黑客可能非法入侵、訪問、修改、下載和刪除相關信息,存儲的數(shù)據(jù)出現(xiàn)安全風險的幾率加大。
大數(shù)據(jù)環(huán)境下,圖書館也會面臨數(shù)據(jù)的知識產權問題,例如高校圖書館對本校特色和優(yōu)勢學科,利用網(wǎng)絡數(shù)據(jù)自動抓取工具獲取感興趣的數(shù)據(jù)資源,自己構建該學科的文獻數(shù)據(jù)庫,完成數(shù)據(jù)的收集,可能會造成對下載作品的復制權、匯編權侵權,對館藏文獻數(shù)字化造成的著作權糾紛[4],網(wǎng)絡來源的數(shù)據(jù)也難以確權,造成著作者知識產權保護的困難。此外,圖書館自建數(shù)據(jù)庫將他人作品數(shù)字化也會可能會構成知識產權的問題,出于知識產權保護的原因,有些圖書館自建數(shù)據(jù)庫沒有完全對外來機構或個人開放,只在限定范圍內提供給讀者使用,或是根據(jù)資源的安全級別和其他使用限制,不同圖書館相互訪問數(shù)字資源也存在信任壁壘。以上種種原因都說明了圖書館在知識產權上存在的問題。
大數(shù)據(jù)功能實現(xiàn)的基本方法是通過對數(shù)據(jù)分析獲取所需要的信息,大數(shù)據(jù)技術發(fā)展很快,很多先進的大數(shù)據(jù)技術,如針對非結構化大數(shù)據(jù)處理的Hadapt數(shù)據(jù)庫等被開發(fā)出來,技術上的障礙主要表現(xiàn)在先進的大數(shù)據(jù)技術無法全部或部分在圖書館大數(shù)據(jù)中運用上。大數(shù)據(jù)分析是一項技術含量很高的工作,要求數(shù)據(jù)分析人員不僅要懂技術,還要精通圖書館業(yè)務,并具有靈活的思維能力和很高的信息意識,但很多圖書館都缺乏這樣的復合人才。圖書館受人才、經(jīng)費和軟硬件條件的制約,很難將大數(shù)據(jù)技術全部引進并應用到大數(shù)據(jù)管理和數(shù)據(jù)挖掘中,而這對圖書館大數(shù)據(jù)功能發(fā)揮的影響是非常直接的,技術跟不上很難保證大數(shù)據(jù)功能得到充分實現(xiàn)。數(shù)據(jù)種類的多樣化給圖書館傳統(tǒng)常規(guī)分析帶來了極大的挑戰(zhàn),大量的異構數(shù)據(jù)處理與分析需要有新的突破。其次,現(xiàn)有的圖書館之間的數(shù)據(jù)往往是各自創(chuàng)建和維護,彼此之間并沒有共享數(shù)據(jù),即便是圖書館聯(lián)盟之間也是如此,這給數(shù)據(jù)利用也帶來了諸多不便。
區(qū)塊鏈(BlockChain)是現(xiàn)代信息社會最前沿的技術之一,也是繼大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)之后的又一項顛覆性技術。區(qū)塊鏈概念是2008年由Satoshi Nakamoto提出的,用于創(chuàng)建“純粹的點對點的電子貨幣”,區(qū)塊鏈技術的首次成功應用是比特幣加密貨幣,比特幣系統(tǒng)記錄了誰擁有比特幣,流通重每個比特幣的支付歷史,支持比特幣的系統(tǒng)因為同樣適用于其他領域而受到關注。從根本上來說,區(qū)塊鏈本質上是一個分布式數(shù)據(jù)庫,區(qū)塊鏈中每個用戶可以在這里讀取和寫入數(shù)據(jù)庫交易,沒有第三方來檢查這些交易,區(qū)塊鏈有一個內置的共識機制,可以檢查交易以確保它們的安全,由于區(qū)塊鏈采用一種單向哈希算法,傳遞的事務得到哈希,基本上,分配了一個標識事務的數(shù)字指紋。那些經(jīng)過驗證的事務然后被組合成一個塊,該塊被分配了自己的哈希值。該哈希成為下一個事務塊的第一個哈希,將它們鏈接在一起。在正常情況下,區(qū)塊鏈理論上可以為我們提供一個值得信賴的良好交易數(shù)據(jù)庫,而無需人或機構進行干預以驗證這些交易。區(qū)塊鏈的主要特征可歸納如下:
①具有分布式結構。經(jīng)驗證的交易信息作為塊生成并存儲在區(qū)塊鏈中,它是分散的數(shù)據(jù)分發(fā)存儲系統(tǒng)。此時,數(shù)據(jù)被復制并存儲在分布式節(jié)點中,而不是存儲在中央服務器中。由于所有節(jié)點都具有相同的數(shù)據(jù),因此可以在不通過中央服務器的情況下直接在個人之間進行交易。任何人都可以參與系統(tǒng),參與系統(tǒng)的所有節(jié)點共享相同的數(shù)據(jù)。
②數(shù)據(jù)難以被篡改。塊與前一個塊的哈希值鏈接在一起。如果數(shù)據(jù)被任意改變,則連接塊的哈希值將改變,并且在系統(tǒng)中不被識別。因此,幾乎不可能更改數(shù)據(jù),因為所有節(jié)點都必須立即更改數(shù)據(jù)。區(qū)塊鏈作為可靠的分布式數(shù)據(jù)存儲技術受到了密切關注。區(qū)塊鏈是一種用于在不使用中央服務器的情況下將復制數(shù)據(jù)存儲和分發(fā)給參與系統(tǒng)的所有節(jié)點的技術。幾乎不可能對記錄進行任何更改,因為區(qū)塊鏈會不時地比較每個節(jié)點的數(shù)據(jù)以查找更改的部分。因此,區(qū)塊鏈保證了數(shù)據(jù)的完整性,并且可以保持永久記錄。
③智能合約實現(xiàn)了自動化和高效的工作流程。用戶可以通過簡單創(chuàng)建嵌入在區(qū)塊鏈中的腳本來創(chuàng)建應用程序。由于可以在線完成合同,因此它是有效的,因為它可以克服位置限制并用代碼替換合同所需的文檔和簽名。最重要的是,如果滿足預先編寫的代碼的條件,則自動執(zhí)行合同以便可以快速處理業(yè)務。
區(qū)塊鏈與大數(shù)據(jù)有著天然的關聯(lián)性,區(qū)塊鏈和大數(shù)據(jù)相互協(xié)作、相互推進,可以讓大數(shù)據(jù)更加活躍起來,從數(shù)據(jù)源、數(shù)據(jù)存儲、數(shù)據(jù)安全、數(shù)據(jù)知識產權以及數(shù)據(jù)利用上改善圖書館大數(shù)據(jù)服務,如表1所示。
表1 區(qū)塊鏈對圖書館數(shù)據(jù)服務的重塑
3.2.1 區(qū)塊鏈對圖書館數(shù)據(jù)源的改善
區(qū)塊鏈技術的分布式結構、數(shù)據(jù)難以被篡改以及智能合約實現(xiàn)自動化和高效化等特性,使得圖書館可以突破數(shù)據(jù)收集的瓶頸,在數(shù)據(jù)來源方面,可信任、安全的區(qū)塊鏈使得更多的數(shù)據(jù)被解放出來,圖書館得以獲取更多的數(shù)據(jù)。其次,區(qū)塊鏈技術在時間維度生成、傳播的完整鏈條,使得數(shù)據(jù)交易可以在不同主體之間直接進行,基于智能合約技術的區(qū)塊鏈使得圖書館可以直接從出版機構,甚至從作者處采購相關數(shù)據(jù),從而打破原有的必須從數(shù)據(jù)庫商處購買數(shù)據(jù)的傳統(tǒng)方式,并且,也突破了數(shù)據(jù)庫商各自開發(fā)所造成的數(shù)據(jù)孤島現(xiàn)象。最后,由于區(qū)塊鏈的數(shù)據(jù)是可追溯的,任何一條數(shù)據(jù)的記錄都可以留存在區(qū)塊鏈上,一旦數(shù)據(jù)被寫入,區(qū)塊鏈對數(shù)據(jù)的準確性和質量負責,這就使得進入鏈中的數(shù)據(jù)質量得到保證,從而改善數(shù)據(jù)的來源和質量問題,保障數(shù)據(jù)收集的完整性和可信度。
3.2.2 區(qū)塊鏈對圖書館數(shù)據(jù)存儲的改善
區(qū)塊鏈本身可以看成是一套由多方參與的、可靠的分布式數(shù)據(jù)存儲系統(tǒng),其獨特之處在于:一是記錄行為的多方參與,即各方可參與記錄;二是數(shù)據(jù)存儲的多方參與、共同維護,即文件的分散存儲。區(qū)塊鏈可以通過向人們提供具有貨幣價值的代幣來激勵人們托管數(shù)據(jù),使得數(shù)據(jù)的存儲比集中式存儲或維護自己的服務器的方案更加便宜而得以改善。數(shù)據(jù)在P2P網(wǎng)絡上進行分片、加密、復制和分發(fā)。存儲數(shù)據(jù)的節(jié)點通常會因在網(wǎng)絡上托管數(shù)據(jù)而獲得加密貨幣補償。為了確保數(shù)據(jù)在需要訪問時是可用的,并確定節(jié)點的正常運行時間,可以要求存儲節(jié)點提供抵押品,由智能合約來保證和觸發(fā),數(shù)據(jù)不可用時可以要求抵押品。這些節(jié)點的分布式特性還具有使分散存儲具有高度可擴展性的優(yōu)勢。目前,國外的Storj.io和Sia.tech是兩種可用的區(qū)塊鏈存儲產品。據(jù)報道,Sia的分散式云存儲成本平均比現(xiàn)有云存儲提供商低90%;在Sia上存儲1TB文件的成本約為每月兩美元,而亞馬遜網(wǎng)絡服務的S3服務則為23美元。相信今后還會有更多的同類的區(qū)塊鏈存儲產品。這使得圖書館的部分存儲需求可以放到更加具有性價比的區(qū)塊鏈存儲產品上,從而改善圖書館數(shù)據(jù)存儲的技術和經(jīng)費瓶頸的限制。
3.2.3 區(qū)塊鏈對圖書館數(shù)據(jù)安全的改善
各類型的數(shù)據(jù)是圖書館的重要資產之一,區(qū)塊鏈在數(shù)據(jù)安全上有著特有的優(yōu)勢,區(qū)塊鏈對數(shù)據(jù)的安全性表現(xiàn)在以下幾個方面:①加密和驗證。區(qū)塊鏈平臺對數(shù)據(jù)進行加密,這意味著修改數(shù)據(jù)是一項艱巨的任務,這將為用戶提供一種確保文件不受篡改的方式,而無需將整個文件保存在區(qū)塊鏈上。由于其分散的性質,始終可以在網(wǎng)絡中所有節(jié)點上的所有分類賬中交叉檢查文件簽名,并確認它們沒有被更改,如果有人確實更改了記錄,那么簽名將變?yōu)闊o效。②分散式數(shù)據(jù)保護方式。由于區(qū)塊鏈技術本質上是分散的,因此它不依賴于一個中央控制點,使系統(tǒng)更公平、更安全。它是每臺擁有完整數(shù)據(jù)副本的計算機的交易數(shù)字分類賬。區(qū)塊鏈不依賴中央機構與其他用戶安全地進行交易,而是利用跨節(jié)點網(wǎng)絡的創(chuàng)新共識協(xié)議,以可靠的方式驗證交易和記錄數(shù)據(jù)。由于區(qū)塊鏈是信息的分類賬,因此存儲的信息真實、準確非常重要。由于數(shù)據(jù)保存在多臺計算機上,因此即使一臺或兩臺計算機出現(xiàn)故障,也可以確保數(shù)據(jù)的高度安全。③黑客難點。區(qū)塊鏈是包含交易記錄的數(shù)字“塊”鏈,每個塊都連接到它之前和之后的所有塊,盡管黑客可以闖入傳統(tǒng)網(wǎng)絡并在單個存儲庫中找到所有數(shù)據(jù)并對其進行泄漏或破壞,但區(qū)塊鏈使這變得難以實施。這使得圖書館所存儲的數(shù)據(jù)不可篡改、丟失以及被攻擊,從而保證了圖書館的數(shù)據(jù)的安全。
3.2.4 區(qū)塊鏈對圖書館數(shù)據(jù)知識產權的改善
區(qū)塊鏈還可以被應用到數(shù)據(jù)知識產權的保護上,這對圖書館來說也可以解決原有模式的瓶頸。區(qū)塊鏈是公開顯示的可信分類賬,使用區(qū)塊鏈建設的數(shù)據(jù)庫可以通過將哈希值安全地放在區(qū)塊鏈上來保護所有類型的知識產權,例如數(shù)據(jù)、文本、圖像、音樂、視頻、代碼、3D資產、網(wǎng)站或商業(yè)秘密,使得任何數(shù)據(jù)所有者可以安全共享和出售其作品和敏感信息,通過構建允許用戶存儲和交易數(shù)據(jù)的區(qū)塊鏈,知識產權所有者和最終消費者都將從中受益,知識產權所有者可以通過防御性出版來保護發(fā)明和科學發(fā)現(xiàn),并確保其他使用和消費者在研究過程中能夠快速訪問此信息。在所有權發(fā)生爭議時,交易的時間戳可以作為證據(jù)在法庭上使用。圖書館完全可以通過區(qū)塊鏈拓展資源渠道,建設用戶生成知識資源的區(qū)塊鏈,從而徹底解決版權問題。
3.2.5 區(qū)塊鏈對圖書館數(shù)據(jù)利用的改善
區(qū)塊鏈對圖書館數(shù)據(jù)利用上也能提供一定的改善,首先是數(shù)據(jù)的透明和共享使得利用更加方便。以往的數(shù)據(jù)是封閉的,區(qū)塊鏈智能合約的使用允許不同的組織通過由智能合約編寫的一組已批準和共享的業(yè)務規(guī)則來共享數(shù)據(jù)的控制。允許其控制誰可以通過區(qū)塊鏈訪問其數(shù)據(jù)。使得圖書館之間所收集的數(shù)據(jù)以一種安全可行的方式共享,需要使用數(shù)據(jù)的一方可以發(fā)起數(shù)據(jù)事務請求,請求數(shù)據(jù)生成器提供數(shù)據(jù)使用權,從區(qū)塊鏈獲得授權的數(shù)據(jù)集,這就打破了以往的“數(shù)據(jù)孤島”的壁壘。其次,區(qū)塊鏈有助于創(chuàng)建一個系統(tǒng)來管理被稱為分類賬的內容塊,信息分析是安全且自動化的,通過將數(shù)據(jù)分析的算法集成到區(qū)塊鏈中,使得數(shù)據(jù)的分析和利用自動執(zhí)行,Omnilytics就是將區(qū)塊鏈與大數(shù)據(jù)分析相結合的平臺,使用人工智能和機器學習來大大提高數(shù)據(jù)處理速度和質量。最后,區(qū)塊鏈還可以用于徽章來促進館員所需的證書或培訓,以大大地增強館員的素質,從而提高數(shù)據(jù)的利用。