陳娜 祁寧 陳新
摘?要:文章簡要論述了大數(shù)據(jù)的產(chǎn)生、基本特征及具體應(yīng)用,探討了圖書館數(shù)據(jù)是否屬于大數(shù)據(jù)和哪些數(shù)據(jù)是大數(shù)據(jù)的問題,從圖書館的資源組織、數(shù)據(jù)發(fā)現(xiàn)、編目索引等優(yōu)勢和特長出發(fā),分析了圖書館在大數(shù)據(jù)時代應(yīng)重塑角色,為用戶提供數(shù)據(jù)服務(wù),滿足用戶的信息需求。
中圖分類號:G250文獻(xiàn)標(biāo)識碼:A文章編號:1003-1588(2019)01-0075-03
關(guān)鍵詞:大數(shù)據(jù);圖書館;數(shù)據(jù)服務(wù)
1?大數(shù)據(jù)概述
2011年5月,麥肯錫公司發(fā)布了研究報告《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》,自此大數(shù)據(jù)開始引起世界各行各業(yè)的廣泛關(guān)注。大數(shù)據(jù)是科技迅猛發(fā)展的必然產(chǎn)物,隨著互聯(lián)網(wǎng)的普及、感知技術(shù)的應(yīng)用及平板電腦、智能手機(jī)等移動設(shè)備的使用,人們?nèi)粘I畹母黝愋袨槎紩a(chǎn)生大量數(shù)據(jù),如:網(wǎng)絡(luò)購物的交易痕跡,微信、微博上的社交評論,服務(wù)器產(chǎn)生的各類日志,有關(guān)天氣、水、智能電網(wǎng)的傳感器數(shù)據(jù),二維碼、條形碼及RFID的掃描數(shù)據(jù),以及攝像頭拍下的圖像視頻監(jiān)控數(shù)據(jù)等。這些數(shù)據(jù)數(shù)量巨大,通常可達(dá)到PB級或EB級,且類型多樣,其中結(jié)構(gòu)化數(shù)據(jù)占20%,非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)占80%。此外,這些數(shù)據(jù)還具有移動速度迅速、價值密度低等特征,這就使傳統(tǒng)的數(shù)據(jù)庫軟件工具無法對其進(jìn)行有效獲取、存儲、管理和分析。隨著云計算技術(shù)的出現(xiàn),大數(shù)據(jù)的應(yīng)用有了良好的運(yùn)行平臺,不斷發(fā)展的云計算技術(shù)還能進(jìn)一步降低大數(shù)據(jù)業(yè)務(wù)創(chuàng)新的成本。因此,公司及公共部門都希望利用大數(shù)據(jù)提高自身的生產(chǎn)力和競爭力,進(jìn)而創(chuàng)造更多的社會價值和經(jīng)濟(jì)價值。
在營利性領(lǐng)域,大數(shù)據(jù)能夠幫助企業(yè)創(chuàng)造巨大的商業(yè)價值。麥肯錫的估計數(shù)據(jù)顯示,大數(shù)據(jù)能夠幫助零售商提高60%的年營運(yùn)利潤及增加0.5%~1%的年生產(chǎn)效率。沃爾瑪、亞馬遜等公司利用大數(shù)據(jù)驅(qū)動市場營銷,實現(xiàn)了創(chuàng)新商業(yè)的運(yùn)作模式。在非營利性領(lǐng)域,大數(shù)據(jù)可被用于分析城市能源、廢物、交通、污染、噪音及犯罪等情況。如:紐約大學(xué)的城市科學(xué)與進(jìn)步中心(CUSP)是一個以提高紐約市管理效率為目標(biāo)的大數(shù)據(jù)學(xué)術(shù)研究中心,該中心旨在通過傳感器自動采集并分析數(shù)據(jù),從而改善紐約市民的生活質(zhì)量,創(chuàng)建智慧城市。大數(shù)據(jù)的有效利用能為政府部門節(jié)省大量的開支,英國政府通過有效利用大數(shù)據(jù)每年可節(jié)省開支330億英鎊;美國也表示大數(shù)據(jù)能使政府機(jī)關(guān)每年的預(yù)算節(jié)約14%,金額可達(dá)5,000億美元。大數(shù)據(jù)還可被用于預(yù)測疾病的爆發(fā)和流行,公共衛(wèi)生服務(wù)部門可通過自我跟蹤設(shè)備采集監(jiān)控數(shù)據(jù),進(jìn)而預(yù)防疾病的發(fā)生。在不久的將來,大數(shù)據(jù)會逐步影響社會各個行業(yè)和領(lǐng)域,大數(shù)據(jù)環(huán)境下的圖書館作為公共文化服務(wù)機(jī)構(gòu),要善于利用大數(shù)據(jù),以適應(yīng)用戶的需求變化。
2?圖書館與大數(shù)據(jù)
圖書館的數(shù)據(jù)是否屬于真正的大數(shù)據(jù),是圖書館領(lǐng)域迫切需要探討的問題。大數(shù)據(jù)除具有數(shù)量大、結(jié)構(gòu)復(fù)雜、速度快、價值密度低等基本屬性外,其最本質(zhì)的特征還在于能夠通過挖掘數(shù)據(jù)間的隱含關(guān)系,創(chuàng)造新的價值。圖書館擁有大量的館藏書目數(shù)據(jù),這些數(shù)據(jù)記錄了各類型文獻(xiàn)的詳細(xì)信息,并以元數(shù)據(jù)的格式被存儲。圖書館利用這些數(shù)據(jù),提取有關(guān)作者、題名、主題、分類、團(tuán)體機(jī)構(gòu)及出版社等信息間的關(guān)聯(lián)關(guān)系,從而創(chuàng)建關(guān)聯(lián)其他作品、人物、事件等的知識脈絡(luò)。從這個角度看,圖書館的書目數(shù)據(jù)應(yīng)該屬于大數(shù)據(jù)的范疇。圖書館已經(jīng)通過科學(xué)的方法和特定的標(biāo)識符對這些結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行了有序組織和存儲,因此,書目數(shù)據(jù)是目前圖書館記錄最完備的數(shù)據(jù)資源,可作為大數(shù)據(jù)的有效數(shù)據(jù)來源。此外,讀者的書目檢索借閱記錄、數(shù)據(jù)庫的檢索下載痕跡、門禁系統(tǒng)的刷卡記錄、監(jiān)控拍下的讀者行為視頻及讀者通過圖書館微信公眾平臺產(chǎn)生的互動交流信息等,都將成為圖書館大數(shù)據(jù)的重要來源。圖書館應(yīng)充分利用這些數(shù)據(jù)獲取讀者的實際需求,進(jìn)而提升服務(wù)效率和服務(wù)質(zhì)量。目前,圖書館應(yīng)積極收集這些用戶行為數(shù)據(jù),并對它們進(jìn)行有效組織、存儲和管理。同時,圖書館還應(yīng)嘗試?yán)么髷?shù)據(jù)技術(shù)創(chuàng)造新的信息價值,以擴(kuò)大信息服務(wù)的范圍,提高自身的核心競爭實力。
3?圖書館在大數(shù)據(jù)時代的角色定位
大數(shù)據(jù)時代,圖書館作為公共文化服務(wù)部門,不僅擁有大量的館藏數(shù)據(jù)資源,還積累了豐富的數(shù)據(jù)管理經(jīng)驗,先進(jìn)的數(shù)據(jù)發(fā)現(xiàn)、檢索工具及編目技能都是圖書館為用戶提供大數(shù)據(jù)服務(wù)的保障。圖書館新的數(shù)據(jù)服務(wù)項目必將催生出新的社會服務(wù)角色,就目前圖書館具備的優(yōu)勢和擁有的資源而言,圖書館在大數(shù)據(jù)環(huán)境下主要承擔(dān)數(shù)據(jù)開放和數(shù)據(jù)管理的職責(zé)。
3.1?數(shù)據(jù)開放——網(wǎng)絡(luò)大數(shù)據(jù)提供中心
大數(shù)據(jù)環(huán)境下,數(shù)據(jù)開放獲取對于社會的創(chuàng)新發(fā)展具有至關(guān)重要的作用。近年來,各國政府陸續(xù)出臺了數(shù)據(jù)開放共享政策,如:美國國家科學(xué)基金會于2012年公布了“開放政府計劃”的綱領(lǐng),美國白宮于2014年頒布了“開放數(shù)據(jù)行動計劃”的命令,日本、法國、德國、加拿大、意大利等國也都公布了有關(guān)數(shù)據(jù)開放共享的政策,政府政策的出臺將引領(lǐng)越來越多的社會服務(wù)部門向公眾開放數(shù)據(jù)。圖書館是開放獲取運(yùn)動的倡導(dǎo)者和支持者,將館藏數(shù)據(jù)公開,并發(fā)布在互聯(lián)網(wǎng)上,使數(shù)據(jù)得到高效使用,進(jìn)而推動人類文化知識的傳承和科學(xué)研究的創(chuàng)新發(fā)展。
目前,圖書館應(yīng)將書目數(shù)據(jù)整合到互聯(lián)網(wǎng)上,使其能夠被重復(fù)下載、存儲及利用。長期以來,很多圖書館都是以《英美編目規(guī)則》(第二版)(AACR2)為標(biāo)準(zhǔn),并以機(jī)讀目錄MARC格式描述館藏信息資源,形成的書目數(shù)據(jù)雖然能在圖書館系統(tǒng)之間移動、使用和共享,但是這些數(shù)據(jù)不適用于目前的語義網(wǎng),很難被重組和調(diào)用。為了適應(yīng)數(shù)字環(huán)境的發(fā)展,國際圖聯(lián)提出了建立在關(guān)聯(lián)概念模型上的資源描述和檢索(RDA)編目規(guī)則,這就使圖書館的書目數(shù)據(jù)具備了關(guān)聯(lián)數(shù)據(jù)的特質(zhì)。關(guān)聯(lián)數(shù)據(jù)采用RDF數(shù)據(jù)模型,利用URI(統(tǒng)一資源標(biāo)識符)命名數(shù)據(jù)實體,能發(fā)布和部署實例數(shù)據(jù)和類數(shù)據(jù),從而可以通過HTTP協(xié)議揭示并獲取這些數(shù)據(jù),同時強(qiáng)調(diào)數(shù)據(jù)的相互關(guān)聯(lián)、相互聯(lián)系及有益于人機(jī)理解的語境信息。因此,關(guān)聯(lián)數(shù)據(jù)能夠?qū)D書館的書目數(shù)據(jù)進(jìn)行語義描述和知識組織,解決書目數(shù)據(jù)缺乏語義的難題。圖書館將書目數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)化,不僅能為讀者提供數(shù)據(jù)服務(wù),還能夠融合其他數(shù)據(jù),聚合更多的數(shù)據(jù)源,使數(shù)據(jù)資源得以共享。
世界各國圖書館都在嘗試將書目數(shù)據(jù)發(fā)布成關(guān)聯(lián)數(shù)據(jù)。2011年,英國國家圖書館發(fā)布了館藏書目關(guān)聯(lián)數(shù)據(jù),目前已經(jīng)發(fā)布了280萬條,這些數(shù)據(jù)支持多種訪問方式。2010年,德國國家圖書館將其規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),2012年開始將館藏書目數(shù)據(jù)與關(guān)聯(lián)數(shù)據(jù)信息描述有關(guān)的特定元素進(jìn)行轉(zhuǎn)換,開放的數(shù)據(jù)支持圖書館專用協(xié)議訪問和公開訪問。2012年,聯(lián)機(jī)計算機(jī)圖書館中心(OCLC)在WorldCat書目數(shù)據(jù)庫中添加了描述性標(biāo)識,實現(xiàn)了與其他關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián),且每個條目都被嵌入RDFa和Microdata,開放的數(shù)據(jù)資源都可被網(wǎng)頁爬蟲訪問。2012年,美國國會圖書館提出了將MARC21書目格式轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù)模式的倡議,發(fā)布書目框架的關(guān)聯(lián)數(shù)據(jù)模型草案,推出書目框架格式,引起各國圖書館界的廣泛關(guān)注和討論。綜上所述,圖書館發(fā)布關(guān)聯(lián)數(shù)據(jù)是大勢所趨,符合大數(shù)據(jù)尋求數(shù)據(jù)間關(guān)聯(lián)關(guān)系的核心思想。因此,圖書館要不斷探索研究關(guān)聯(lián)數(shù)據(jù),以實現(xiàn)用關(guān)聯(lián)的方式組織信息并發(fā)布網(wǎng)絡(luò)關(guān)聯(lián)數(shù)據(jù)。
3.2?數(shù)據(jù)管理
大數(shù)據(jù)環(huán)境下,圖書館具備元數(shù)據(jù)規(guī)范和開發(fā)及對用戶進(jìn)行教育和需求分析等專業(yè)知識,有能力對數(shù)據(jù)進(jìn)行有效管理,以實現(xiàn)數(shù)據(jù)的共享、傳播。因此,圖書館在數(shù)據(jù)管理方面承擔(dān)著數(shù)據(jù)資源組織和數(shù)據(jù)素養(yǎng)教育的職責(zé)。
3.2.1?數(shù)據(jù)資源組織。相關(guān)的調(diào)查研究報告顯示,企業(yè)收集、組織數(shù)據(jù)的能力較差,致使他們的員工很難從數(shù)據(jù)庫中獲取有用的數(shù)據(jù)?!豆鹕虡I(yè)評論》(HBR)也提出,由于很多機(jī)構(gòu)的數(shù)據(jù)缺乏一致性,人們很難獲取需要的資源。圖書館擁有對信息進(jìn)行有序化組織的實踐經(jīng)驗,從最初的賬本式目錄到卡片式目錄再到聯(lián)機(jī)檢索目錄,不斷的發(fā)展變革都是為了更好地滿足用戶發(fā)現(xiàn)和獲取信息的需求。大數(shù)據(jù)時代,圖書館有能力和信心幫助企業(yè)、個人和其他組織制訂完善的數(shù)據(jù)組織和存儲方案,確保數(shù)據(jù)能夠被有效訪問和重復(fù)使用。圖書館的書目數(shù)據(jù)采用國際化通用標(biāo)準(zhǔn)進(jìn)行著錄,MARC的著錄字段豐富,主題分類標(biāo)引規(guī)范,能夠詳細(xì)展現(xiàn)資源的形態(tài)特征和內(nèi)容特征。網(wǎng)絡(luò)數(shù)字環(huán)境下,圖書館運(yùn)用新的技術(shù)實現(xiàn)了書目數(shù)據(jù)在互聯(lián)網(wǎng)上相互連通。如:圖書館采取為書目數(shù)據(jù)增添語義標(biāo)識的方法,運(yùn)用關(guān)聯(lián)技術(shù)成功地將書目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。因此,圖書館擁有對書目數(shù)據(jù)進(jìn)行組織的理論基礎(chǔ)和實踐經(jīng)驗,能夠幫助個人或組織對數(shù)據(jù)資源進(jìn)行有效組織,滿足他們的實際需求。
3.2.2?數(shù)據(jù)素養(yǎng)教育。信息素養(yǎng)教育一直是圖書館的職責(zé),圖書館也在信息素養(yǎng)教育方面取得了良好成效。大數(shù)據(jù)時代,數(shù)據(jù)成為一種重要的信息資源,其具備的創(chuàng)新價值更是日益凸顯,無論是個人生活還是科學(xué)研究甚至是社會管理都需要利用數(shù)據(jù)驅(qū)動決策,因此數(shù)據(jù)素養(yǎng)對于人們理解、使用和管理數(shù)據(jù)具有重要的現(xiàn)實意義。數(shù)據(jù)素養(yǎng)是指人們在使用和處理數(shù)據(jù)時所具備的基本素養(yǎng),是信息素養(yǎng)的組成部分。圖書館在擴(kuò)大信息素養(yǎng)教育范圍的同時,有能力和責(zé)任開展數(shù)據(jù)素養(yǎng)教育創(chuàng)新服務(wù)工作。圖書館數(shù)據(jù)素養(yǎng)教育主要包括以下三個方面的內(nèi)容:①數(shù)據(jù)意識教育。數(shù)據(jù)意識教育是教導(dǎo)民眾要有意識地利用數(shù)據(jù),即培養(yǎng)公眾對數(shù)據(jù)信息的敏銳性和對數(shù)據(jù)價值的認(rèn)可。需要強(qiáng)調(diào)的是,數(shù)據(jù)意識教育要加強(qiáng)培養(yǎng)用戶對第三方數(shù)據(jù)使用的認(rèn)知,這些外部數(shù)據(jù)可以與內(nèi)部數(shù)據(jù)進(jìn)行關(guān)聯(lián),以獲取數(shù)據(jù)的附加價值和創(chuàng)造新的見解,但實際情況卻是只有小部分企業(yè)正在利用這些外部數(shù)據(jù)。②數(shù)據(jù)能力教育。數(shù)據(jù)能力包括數(shù)據(jù)處理能力和應(yīng)用能力,數(shù)據(jù)能力教育是數(shù)據(jù)素養(yǎng)教育的核心,是幫助個人、企業(yè)和組織實現(xiàn)數(shù)據(jù)價值的關(guān)鍵。數(shù)據(jù)處理能力涵蓋數(shù)據(jù)獲取與數(shù)據(jù)管理兩種技能,數(shù)據(jù)獲取是通過選取適合的檢索途徑、發(fā)現(xiàn)工具和應(yīng)用方法等對不同類型和格式的數(shù)據(jù)進(jìn)行采集,數(shù)據(jù)管理是對數(shù)據(jù)信息進(jìn)行適當(dāng)?shù)谋硎觥?biāo)識和存儲。數(shù)據(jù)應(yīng)用是獲取數(shù)據(jù)的最終目的,即借助一些數(shù)據(jù)統(tǒng)計分析軟件,如SPSS、JMP、Stata和SAS等,深入挖掘數(shù)據(jù)價值、總結(jié)模式和尋求規(guī)律,進(jìn)而依據(jù)數(shù)據(jù)實施科學(xué)決策。③數(shù)據(jù)倫理教育。數(shù)據(jù)倫理教育主要是指人們在搜集和分析數(shù)據(jù)的過程中要遵守相關(guān)的法律法規(guī)和道德規(guī)范。大數(shù)據(jù)時代,數(shù)據(jù)的使用安全尤為重要,特別是涉及用戶隱私的數(shù)據(jù)應(yīng)給予保護(hù),人們要從規(guī)范的渠道獲取數(shù)據(jù),客觀道德地分析利用數(shù)據(jù),同時遵守知識產(chǎn)權(quán)及版權(quán)的有關(guān)規(guī)定。
4?結(jié)語
大數(shù)據(jù)時代,社會公眾對數(shù)據(jù)服務(wù)的需求愈來愈強(qiáng)烈,這將促使圖書館從信息服務(wù)角色向數(shù)據(jù)服務(wù)角色轉(zhuǎn)變。圖書館需要具備一定數(shù)據(jù)科學(xué)知識的數(shù)據(jù)館員為用戶提供數(shù)據(jù)服務(wù),擁有專業(yè)技能和實踐經(jīng)驗的館員可以充當(dāng)數(shù)據(jù)館員的角色,他們掌握的數(shù)據(jù)共享標(biāo)準(zhǔn)、信息科學(xué)和語義網(wǎng)等綜合知識能確保圖書館數(shù)據(jù)被有效組織、訪問、檢索和交付,并最終把圖書館變成一個優(yōu)質(zhì)的數(shù)據(jù)提供中心和消費(fèi)中心。
參考文獻(xiàn):
[1] 夏遠(yuǎn)望.大數(shù)據(jù)時代要有大數(shù)據(jù)思維[EB/OL].[2018-11-20].http://www.thebigdata.cn/html/c3/14416.html.
[2]大數(shù)據(jù)給零售行業(yè)帶來的商業(yè)價值[EB/OL].[2018-11-22].http://www.linkshop.com.cn/(2b3ngf55mbkywy45d25oafzp)/web/Article_News.aspx?ArticleId=244841.
[3] 陳如明.大數(shù)據(jù)時代的挑戰(zhàn)、價值與應(yīng)對策略[J].移動通信,2012(17):14-15.
[4] 美國聯(lián)邦政府啟動“大數(shù)據(jù)研究與開發(fā)計劃”[EB/OL].[2018-11-22].http://www.36dsj.com/archives/3654.
[5] 杜妍潔,顧立平.國外開放政府?dāng)?shù)據(jù)政策以及圖書館作用的綜述[J].圖書情報工作,2015(17):141-148.
[6] 黃金輝.基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館書目數(shù)據(jù)關(guān)聯(lián)化研究[D].武漢:華中師范大學(xué),2014.
[7] 圖書館書目數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化的疑惑[EB/OL].[2018-11-26].http://blog.sina.com.cn/s/blog_4c725fcc0100vz53.html.
[8] 開放關(guān)聯(lián)的書目數(shù)據(jù):為圖書館打開數(shù)據(jù)網(wǎng)絡(luò)的大門[EB/OL].[2018-11-28].http://www.thebigdata.cn/JieJueFangAn/13555.html.
[9] 李恬.大數(shù)據(jù)理念與圖書館大數(shù)據(jù)[J].新世紀(jì)圖書館,2014(6):24-27.
[10] 加州數(shù)字圖書館數(shù)據(jù)管理計劃工具研究及思考[EB/OL].[2018-11-10].http://www.fqcu.com/xueshulunwen/111663.html.
[11] 何麗.基于大數(shù)據(jù)視域下的圖書館員數(shù)據(jù)素養(yǎng)之探討[J].圖書情報論壇,2016(6):54-58.
[12] 高賢康.大數(shù)據(jù)環(huán)境下高校圖書館的數(shù)據(jù)素養(yǎng)教育[J].電子技術(shù)與軟件工程,2017(1):185.