崔小宜
(西北政法大學(xué)行政法學(xué)院 陜西 西安 710012)
暗數(shù)據(jù)對(duì)圖書館應(yīng)用大數(shù)據(jù)的影響分析
崔小宜
(西北政法大學(xué)行政法學(xué)院 陜西 西安 710012)
數(shù)據(jù)挖掘、數(shù)據(jù)分析等大數(shù)據(jù)應(yīng)用是大數(shù)據(jù)時(shí)代圖書館拓展和升級(jí)服務(wù)的必然選擇,但大數(shù)據(jù)中不容忽視的暗數(shù)據(jù)會(huì)對(duì)其應(yīng)用造成影響,圖書館必須認(rèn)識(shí)到其存在和影響,并采取一定的措施來提高數(shù)據(jù)應(yīng)用效率。
暗數(shù)據(jù);大數(shù)據(jù);數(shù)據(jù)服務(wù);圖書館
毋庸置疑,大數(shù)據(jù)是當(dāng)下社會(huì)最熱的詞匯,其不僅被學(xué)術(shù)界所研究,也被政府所重視,更被商界所追捧,全社會(huì)已然進(jìn)入到了一個(gè)開口必言“大數(shù)據(jù)”的時(shí)代,數(shù)據(jù)也似乎成了可以推動(dòng)社會(huì)發(fā)展的最強(qiáng)驅(qū)動(dòng)力,但實(shí)際是否如此?所有的大數(shù)據(jù)都真如一些研究所言可以分析與利用,是“金礦”、是推動(dòng)社會(huì)發(fā)展的新動(dòng)力嗎?帶著這些問題,筆者通過引進(jìn)、介紹了占大數(shù)據(jù)比例較高、價(jià)值巨大但難以收集、分析和應(yīng)用的暗數(shù)據(jù),重點(diǎn)分析了暗數(shù)據(jù)對(duì)應(yīng)用大數(shù)據(jù)的影響和圖書館應(yīng)用暗數(shù)據(jù)的方式與途徑。
目前,業(yè)界對(duì)“暗數(shù)據(jù)”的定義還不豐富和完善,相關(guān)討論也都主要引用國際著名咨詢公司Gartner公司對(duì)“暗數(shù)據(jù)”的定義:“企業(yè)在開展正常業(yè)務(wù)活動(dòng)期間采集、處理和存儲(chǔ),但通常無法用于其它目的(如分析、商業(yè)關(guān)系和直接獲利)的信息”。大數(shù)據(jù)智庫則將其定義為:“暗數(shù)據(jù)”是深藏于海量數(shù)據(jù)之中、在商業(yè)應(yīng)用上可能發(fā)揮重大作用的關(guān)鍵隱含數(shù)據(jù)。結(jié)合上述兩種定義,我們可以理解為,“暗數(shù)據(jù)”是人類沒有掌握和收集但已產(chǎn)生影響的數(shù)據(jù)+人類沒有開發(fā)挖掘的大數(shù)據(jù),具有不易收集與分析、隱匿性較高等特征。
相較于大數(shù)據(jù),暗數(shù)據(jù)的社會(huì)關(guān)注度就遜色不少。筆者以主題為“暗數(shù)據(jù)”檢索了國內(nèi)收錄研究文獻(xiàn)最為齊全的中國知網(wǎng)(檢索日期:2015年3月30日),結(jié)果顯示只有2015年初蔣報(bào)永發(fā)表在2015年1月12日《中國計(jì)算機(jī)報(bào)》上的“點(diǎn)亮‘暗數(shù)據(jù)’的五種方式”一文,可見國內(nèi)學(xué)者對(duì)其的研究之匱乏接近于空白。但需值得注意的是,有一篇網(wǎng)絡(luò)博文則受到了業(yè)界極大的關(guān)注,那就是上海圖書館館長吳建中先生2015年2月22日發(fā)表于其博客“建中讀書”的“暗數(shù)據(jù)”一文,該博文不但對(duì)暗數(shù)據(jù)的GARNER定義、國內(nèi)外圖情界對(duì)其的關(guān)注與實(shí)踐進(jìn)行了介紹,也介紹了博主對(duì)暗數(shù)據(jù)的理解與發(fā)展展望。
根據(jù)上述兩篇僅有的中文文獻(xiàn)資料,我們知道:國際知名的開放出版機(jī)構(gòu)生物醫(yī)學(xué)中心(BioMed Central,簡(jiǎn)稱BMC)與全球最大搜索引擎谷歌Google,分別于2008年及其后,各自致力于藥物開發(fā)或科技領(lǐng)域的暗數(shù)據(jù)研究;從2012年開始,美國眾多企業(yè)都在信息發(fā)布或微信等媒體上透露將關(guān)注暗數(shù)據(jù)信息;惠普、美國慷孚系統(tǒng)公司(CommVault System,Inc)等IT公司正致力于研究和推廣點(diǎn)亮“暗數(shù)據(jù)”的信息治理策略研究和智能歸檔解決方案。此外,F(xiàn)acebook面對(duì)數(shù)量龐大的互聯(lián)網(wǎng)社群,為了使生成的內(nèi)容既吸引一批忠實(shí)的品牌倡導(dǎo)者,也可以喚醒那些“潛水粉”,于是通過在社交虛擬社區(qū)測(cè)定“潛水粉”的點(diǎn)擊率、變動(dòng)率和一段時(shí)間內(nèi)的參與度,以此來“激活”“潛水粉”,將品牌的著力點(diǎn)放在他們“正在不做什么”之上,進(jìn)而影響和促動(dòng)營銷者們挖掘品牌內(nèi)在的價(jià)值。
2.1 圖書館暗數(shù)據(jù)的分類與原因
盡管大數(shù)據(jù)價(jià)值巨大,但其價(jià)值的實(shí)現(xiàn)必須依賴于深度的數(shù)據(jù)挖掘和分析,以此來發(fā)現(xiàn)隱藏在事物發(fā)展表明的本質(zhì)和規(guī)律,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)信息的增值與開發(fā)。反之,數(shù)據(jù)則會(huì)處于黑暗的非揭示狀態(tài)。而從上述暗數(shù)據(jù)的定義、特征等可以看出,處于黑暗非揭示狀態(tài)的數(shù)據(jù)可能是人們未能存儲(chǔ)掌握或真實(shí)存在而又人們未能知道的數(shù)據(jù),也可能是已經(jīng)存儲(chǔ)但沒有挖掘開發(fā)的數(shù)據(jù),這兩類不同的數(shù)據(jù)對(duì)大數(shù)據(jù)分析和應(yīng)用的影響也存在差異。
圖書館是社會(huì)知識(shí)存儲(chǔ)、加工與組織的公益性機(jī)構(gòu),也是社會(huì)文明發(fā)展歷程的見證者和成果繼承者,跨入大數(shù)據(jù)時(shí)代以來,圖書館界敏銳的觀察到了大數(shù)據(jù)社會(huì)民眾的信息需求變化特征,并開始了對(duì)大數(shù)據(jù)時(shí)代圖書館轉(zhuǎn)型變革的研究與實(shí)踐。其中,掌握和分析用戶的圖書館利用等信息行為等數(shù)據(jù),以為用戶的個(gè)性化、專業(yè)化信息服務(wù)開展、推送與實(shí)現(xiàn)提供決策參考,是圖書館在大數(shù)據(jù)時(shí)代的大數(shù)據(jù)應(yīng)用主要內(nèi)容。暗數(shù)據(jù)的存在和對(duì)其他數(shù)據(jù)的影響也會(huì)影響到圖書館對(duì)大數(shù)據(jù)的應(yīng)用效率、價(jià)值和意愿,而分析這些影響的大小與可能性,則需從圖書館所需大數(shù)據(jù)中所含暗數(shù)據(jù)的來源入手,以進(jìn)一步通過分析這些來源數(shù)據(jù)可能產(chǎn)生的影響。筆者認(rèn)為通常來說,圖書館所需大數(shù)據(jù)一方面來自于用戶享受圖書館服務(wù)時(shí)產(chǎn)生的借閱習(xí)慣、借閱歷史等存儲(chǔ)于計(jì)算機(jī)的結(jié)構(gòu)化數(shù)據(jù),和產(chǎn)生于用戶在科學(xué)研究、社交網(wǎng)絡(luò)等情景時(shí)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)(第一類數(shù)據(jù)),另一方面則來自于互聯(lián)網(wǎng)、商場(chǎng)等物理空間、虛擬空間中個(gè)體的信息行為數(shù)據(jù)(第二類數(shù)據(jù))。
從產(chǎn)生上述兩類暗數(shù)據(jù)的原因來看,既有主觀原因,也有客觀原因,如數(shù)據(jù)收集、分析和挖掘等處理設(shè)備、技術(shù)等都可能造成數(shù)據(jù)無法準(zhǔn)確掌握的原因,對(duì)數(shù)據(jù)分析深度的欠缺、基于經(jīng)驗(yàn)的人為主觀判斷等也可能造成暗數(shù)據(jù)價(jià)值的淺層挖掘,隱私、商業(yè)信息的保護(hù)和獲取之間矛盾,大數(shù)據(jù)時(shí)代信息倫理規(guī)約和傳統(tǒng)信息道德的博弈,等等。這些問題的解決既需要相關(guān)技術(shù)的發(fā)展為支撐,也需要數(shù)據(jù)挖掘等相關(guān)工作的開展積累,更需要相關(guān)法律、法規(guī)和制度的完善與保障等多方發(fā)展推動(dòng)因素。
2.2 暗數(shù)據(jù)對(duì)圖書館應(yīng)用大數(shù)據(jù)的影響
從對(duì)圖書館應(yīng)用大數(shù)據(jù)的影響來看,第一類數(shù)據(jù)主要會(huì)影響到圖書館對(duì)用戶個(gè)體需求特征的精準(zhǔn)判斷和服務(wù),如對(duì)用戶所需學(xué)科領(lǐng)域、服務(wù)途徑等的模糊掌握,會(huì)影響到用戶對(duì)圖書館服務(wù)的體驗(yàn)與評(píng)價(jià),甚至當(dāng)圖書館在大數(shù)據(jù)時(shí)代信息中心的地位被邊緣化、以服務(wù)來體現(xiàn)價(jià)值的情況發(fā)展逐步顯現(xiàn)時(shí),用戶可能會(huì)選擇其它信息咨詢、數(shù)據(jù)分析等盈利性機(jī)構(gòu),最終降低圖書館的存在價(jià)值;第二類數(shù)據(jù)主要會(huì)影響到圖書館對(duì)非圖書館服務(wù)利用者和發(fā)展生態(tài)環(huán)境的需求與態(tài)勢(shì)判斷,如對(duì)非圖書館用戶來說,其對(duì)圖書館服務(wù)的服務(wù)體驗(yàn)可能處于空白,圖書館不能依賴第一類數(shù)據(jù)的分析來斷定所有社會(huì)民眾的圖書館服務(wù)體驗(yàn)意愿,而是需掌握這類潛在的圖書館用戶利用圖書館服務(wù)的可能性和有區(qū)別于圖書館用戶的服務(wù)需求,這就需通過分析這類信息行為主體在互聯(lián)網(wǎng)、社交空間、移動(dòng)終端使用等方面的社會(huì)數(shù)據(jù)。同時(shí),圖書館不能對(duì)數(shù)據(jù)的分析局限在固定用戶和潛在用戶的信息行為等范圍,大數(shù)據(jù)的價(jià)值巨大就是因?yàn)槠鋵?shí)現(xiàn)了多領(lǐng)域、多途徑數(shù)據(jù)的關(guān)聯(lián),通過潛在的關(guān)聯(lián)去分析和發(fā)現(xiàn)事物之間可能產(chǎn)生的關(guān)聯(lián)關(guān)系,如經(jīng)典的“啤酒+尿布”就是看起來毫不相干的兩件事,最后卻關(guān)聯(lián)在一起并鑄造了一個(gè)傳奇營銷案例。因此,圖書館也需對(duì)產(chǎn)生于商場(chǎng)、博物館等物理空間和網(wǎng)絡(luò)、設(shè)計(jì)空間等虛擬空間的數(shù)據(jù)進(jìn)行掌握與分析,以尋求圖書館的服務(wù)改進(jìn)與事業(yè)發(fā)展途徑。如果對(duì)所分析的數(shù)據(jù)在數(shù)量、來源分布等方面存在較大的暗數(shù)據(jù),其分析的結(jié)果可能不能達(dá)到預(yù)期的效果或產(chǎn)生一定的結(jié)果偏移,影響到圖書館決策者在事業(yè)發(fā)展、服務(wù)改進(jìn)等方面的正確決策和創(chuàng)新。
3.1 圖書館應(yīng)用暗數(shù)據(jù):價(jià)值與風(fēng)險(xiǎn)并存
大數(shù)據(jù)價(jià)值的產(chǎn)生緣于其廣泛的來源和龐大的數(shù)量以及復(fù)雜的組成結(jié)構(gòu),那么,在大數(shù)據(jù)中,暗數(shù)據(jù)所占的比例有多高呢?全球性的組織CGOC(Compliance,Governance and Oversight Counsel,合規(guī)管理監(jiān)督委員會(huì))在2013年進(jìn)行的一項(xiàng)調(diào)查研究結(jié)果顯示:“在企業(yè)存儲(chǔ)的數(shù)據(jù)中,69%的數(shù)據(jù)對(duì)企業(yè)毫無價(jià)值”。也有科學(xué)研究表明“宇宙中有90%是由人們看不見的暗物質(zhì)組成的”、“存在于地處暗黑之海里面(DarkWeb)一些孤島的數(shù)據(jù)占數(shù)據(jù)總量的85%以上”,等等。這些都表明暗數(shù)據(jù)不但存在于大數(shù)據(jù)之中,且所占比例和數(shù)量巨大。圖書館利用這些存在形態(tài)多樣、收集與存儲(chǔ)難度較高、數(shù)量巨大、結(jié)構(gòu)復(fù)雜的暗數(shù)據(jù),其帶來的價(jià)值必將巨大嗎,但也將面臨著上述的技術(shù)、信息倫理等制約與風(fēng)險(xiǎn),2013年央視3· 15晚會(huì)曝光的網(wǎng)易等公司追蹤用戶cookie、分析郵件內(nèi)容就是一件典型的案例,而其實(shí)從大數(shù)據(jù)的角度來看待的話,其只是客戶信息行為數(shù)據(jù)的一個(gè)收集過程,但其與當(dāng)前的用戶隱私等法律法規(guī)相沖突,面臨法律訴訟等風(fēng)險(xiǎn)?!袄忡R門”事件也是此類事件的典型代表。
與風(fēng)險(xiǎn)對(duì)應(yīng)的則是價(jià)值,暗數(shù)據(jù)好比所占宇宙物質(zhì)高達(dá)90%的暗物質(zhì)一樣,其主導(dǎo)著大數(shù)據(jù)的形態(tài)分布、結(jié)構(gòu)組成與價(jià)值大小等屬性,其實(shí)這也就決定了對(duì)大數(shù)據(jù)的分析與挖掘其實(shí)就是對(duì)暗數(shù)據(jù)的價(jià)值挖掘與分析,圖書館掌握和提高了對(duì)暗數(shù)據(jù)的應(yīng)用,也就是提高了對(duì)大數(shù)據(jù)的應(yīng)用。
3.2 圖書館應(yīng)用暗數(shù)據(jù):方式與途徑
“點(diǎn)亮‘暗數(shù)據(jù)’的五種方式”一文對(duì)于企業(yè)如何點(diǎn)亮“暗數(shù)據(jù)”,釋放更大商業(yè)價(jià)值有了初步研究成果,認(rèn)為企業(yè)可通過利用CommVaultSimpana10更好地搜索、了解和管理企業(yè)存儲(chǔ)的海量非結(jié)構(gòu)化數(shù)據(jù)(如電子郵件等),智能地利用已存儲(chǔ)內(nèi)容,在數(shù)據(jù)的生命周期內(nèi)對(duì)其進(jìn)行管理,就可告別“暗數(shù)據(jù)”時(shí)代。筆者借鑒企業(yè)的五種方式,認(rèn)為對(duì)圖書館來說,應(yīng)用暗數(shù)據(jù)的方式與途徑第一步是控制圖書館“暗數(shù)據(jù)”的龐大數(shù)據(jù)量。即拋棄傳統(tǒng)的數(shù)據(jù)保護(hù)方法,通過借鑒Simpana軟件基于內(nèi)容的保留策略,僅保留那些對(duì)于圖書館有重要價(jià)值的數(shù)據(jù),如用戶的上網(wǎng)記錄、借閱歷史等數(shù)據(jù),減少數(shù)據(jù)存儲(chǔ)成本。第二步是建立一個(gè)全面的歸檔策略。即一方面從所有生成數(shù)據(jù)的地方采集數(shù)據(jù),另一方面能夠使用一個(gè)單一、不可復(fù)制的索引去管理所有數(shù)據(jù)。第三步是讓用戶和圖書館能自助搜索和訪問所需數(shù)據(jù)。即讓用戶能夠快速地發(fā)現(xiàn)、訪問、分析和提取所需信息。第四步是自動(dòng)管理數(shù)據(jù)生命周期。即讓對(duì)數(shù)據(jù)從生成到處理的整個(gè)生命周期進(jìn)行評(píng)估,制定內(nèi)容刪除的治理策略。第五步是確保合規(guī)和發(fā)現(xiàn)。即對(duì)數(shù)據(jù)的獲取與利用是否與現(xiàn)行的法律法規(guī)等有沖突,進(jìn)行策略改進(jìn)。同時(shí),還要確保其它未收集數(shù)據(jù)的及時(shí)發(fā)現(xiàn)與已收集數(shù)據(jù)的價(jià)值發(fā)現(xiàn),讓更多的暗數(shù)據(jù)走向可視化(收集的可視化與價(jià)值的可視化)。
《駕馭大數(shù)據(jù)》一書曾寫到,數(shù)據(jù)的核心是發(fā)現(xiàn)價(jià)值,而駕馭數(shù)據(jù)的核心是分析。暗數(shù)據(jù)在大數(shù)據(jù)中所占的比例和價(jià)值決定了其大數(shù)據(jù)分析和應(yīng)用的核心,但目前的科學(xué)發(fā)展、技術(shù)水平、法律法規(guī)、倫理道德等制約和影響著對(duì)暗數(shù)據(jù)的研究與應(yīng)用,業(yè)界對(duì)暗數(shù)據(jù)的研究和關(guān)注說明人們對(duì)更深挖掘大數(shù)據(jù)價(jià)值的期待,也說明對(duì)于解決應(yīng)用暗數(shù)據(jù)存在的障礙充滿期待。圖書館一直以來是社會(huì)知識(shí)存儲(chǔ)、數(shù)據(jù)加工與分析的中心與主要陣地,盡管在當(dāng)前發(fā)展時(shí)期,暗數(shù)據(jù)的存在可能會(huì)影響到圖書館用戶個(gè)性化、學(xué)科化等服務(wù)實(shí)施的精準(zhǔn)性和未來圖書館事業(yè)發(fā)展的態(tài)勢(shì)判斷,同時(shí)還需處理好風(fēng)險(xiǎn)與價(jià)值共存的關(guān)系,但借鑒企業(yè)實(shí)施點(diǎn)亮“暗數(shù)據(jù)”五步途徑,也能在一定程度上降低暗數(shù)據(jù)對(duì)圖書館應(yīng)用大數(shù)據(jù)的影響。
[1]Gartner IT Glossary.Dark Data[EB/OL].[2015-03-16]. http://www.gartner.com/it-glossary/dark-data.
[2]暗數(shù)據(jù)(Dark Data)[EB/OL].[2015-03-16].http://mp.weixin. qq.com/s?__biz=MzA5NzY5NDQxNg=&mid=201848593 &idx=4&sn=fc7c68a27c19f52aad571078fb01219e.
[3]蔣報(bào)永.點(diǎn)亮“暗數(shù)據(jù)”的五種方式[N].中國計(jì)算機(jī)報(bào),2015-01-12.
[4]吳建中.暗數(shù)據(jù)[EB/OL].[2015-03-16].http://blog.sina. com.cn/s/blog_53586b810102vgky.html.
[5]DarkDataandMeasuringInvisibleImpactinYour Facebook Community[EB/OL].[2015-03-16].http://www.socialme diatoday.com/content/dark-data-and-measuring-invisible -impact-your-facebook-community.
[6]東南大學(xué)借“大數(shù)據(jù)”研究暗物質(zhì)數(shù)據(jù)總量等于30個(gè)國家圖書館[EB/OL].[2015-03-16].http://news.jschina. com.cn/system/2014/09/21/021926615.shtml.
[7]大數(shù)據(jù)的暗黑之海和外部效應(yīng)[EB/OL].[2015-03-16]. http://www.cio.com.cn/eyan/391997.html.
[8]3.15晚會(huì)曝光易傳媒等破解cookie竊取用戶隱私[EB/ OL].[2015-03-16].http://www.sootoo.com/content/404144. shtml.
[9](美)Bill Franks.黃海譯.駕馭大數(shù)據(jù)[M]北京:人民郵電出版社,2013.
Analysis of the Influence of Dark Data on Library’s Utilization of Big Data
It is necessary for library to apply big data to increase and widen its service,but dark data in big data will certainly influence the application.It is important for us to recognize the existence of these data and their influence and then try to exclude them so as to increase efficency.
big data;dark data;data service
D035
A
10.11968/tsygb.1003-6938.2015040
崔小宜(1980-),女,西北政法大學(xué)行政法學(xué)院講師。
2015-04-06;責(zé)任編輯:魏志鵬