杜 璟
(華東師范大學(xué)圖書(shū)館,上海 200241)
大數(shù)據(jù)目前尚無(wú)統(tǒng)一定義,通常被認(rèn)為是一種數(shù)據(jù)量很大、數(shù)據(jù)形式多樣的非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)種類(lèi)繁多,數(shù)據(jù)量龐大,含有大量半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),對(duì)這些數(shù)據(jù)的深度挖掘成為時(shí)下研究的熱點(diǎn)。在大數(shù)據(jù)時(shí)代,作為圖書(shū)館服務(wù)功能之一的文獻(xiàn)傳遞服務(wù),如何應(yīng)對(duì)復(fù)雜數(shù)據(jù)的產(chǎn)生,并保存、分析這些數(shù)據(jù)從而挖掘出更有價(jià)值的信息,成為新環(huán)境下圖書(shū)館員面臨的一大挑戰(zhàn)。
1980年,著名的未來(lái)學(xué)家阿爾文·托夫勒在《第三次浪潮》一書(shū)中,熱情地將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂(lè)章”;1998年《科學(xué)》雜志上一篇介紹軟件HiQ的文章《大數(shù)據(jù)的管理者》(A Handler for Big Data)也應(yīng)用了這一說(shuō)法;大數(shù)據(jù)概念的首次提出,是在2001年5月全球知名咨詢(xún)公司麥肯錫發(fā)布的報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》中[1],但大約從2009年開(kāi)始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯,尤其是2012年3月,奧巴馬政府宣布推出“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”,投資兩億美元拉動(dòng)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,推進(jìn)和改善聯(lián)邦政府部門(mén)的數(shù)據(jù)收集、組織和分析工具及技術(shù),將“大數(shù)據(jù)戰(zhàn)略”上升為國(guó)家戰(zhàn)略[2]。大數(shù)據(jù)被稱(chēng)為“未來(lái)的新石油”[3],成為2012年最熱門(mén)的詞匯之一。
在大數(shù)據(jù)時(shí)代,信息技術(shù)飛速發(fā)展,數(shù)據(jù)成本下降促使數(shù)據(jù)呈數(shù)量級(jí)增長(zhǎng),尤其是非結(jié)構(gòu)化數(shù)據(jù)。根據(jù)IDC監(jiān)測(cè),大數(shù)據(jù)量大約每?jī)赡攴环?,預(yù)計(jì)到2020年,全球?qū)碛?5ZB的數(shù)據(jù)量,將比2010年增長(zhǎng)近30倍[4]。非結(jié)構(gòu)化數(shù)據(jù)的增加增大了數(shù)據(jù)的復(fù)雜性,提高了數(shù)據(jù)分析及挖掘的難度。IBM概括大數(shù)據(jù)有3個(gè)特性:多樣化(Variety)、速度快(Velocity)、容量大(Volume),而以IDC為代表的業(yè)界將價(jià)值高(Value)也列入大數(shù)據(jù)的特性,即“4V”[5]。從大數(shù)據(jù)目前的應(yīng)用實(shí)例中不難發(fā)現(xiàn),對(duì)大數(shù)據(jù)的分析具有重要的研究?jī)r(jià)值和商業(yè)價(jià)值,這有助于推動(dòng)以大數(shù)據(jù)為基礎(chǔ)的科學(xué)研究。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)像企業(yè)的固定資產(chǎn)和人力資源一樣,成為企業(yè)的生產(chǎn)力,這是大數(shù)據(jù)時(shí)代的獨(dú)特現(xiàn)象[6]。數(shù)據(jù)容易共享,對(duì)數(shù)據(jù)不同方向、深度的分析,會(huì)產(chǎn)生新的知識(shí)和信息,且隨著使用次數(shù)的增加,數(shù)據(jù)反而會(huì)增值。IBM的研究部門(mén)正在研發(fā)針對(duì)醫(yī)療文獻(xiàn)的分析工具,對(duì)此類(lèi)極具行業(yè)屬性的非結(jié)構(gòu)化數(shù)據(jù)展開(kāi)研究,希望能夠幫助醫(yī)生解決復(fù)雜的醫(yī)療問(wèn)題。通過(guò)對(duì)大規(guī)模數(shù)據(jù)的查詢(xún),提升機(jī)器學(xué)習(xí)的能力,最終達(dá)到提高分析決策水平的目的。IBM同時(shí)在探索將并行化處理技術(shù)擴(kuò)展到統(tǒng)計(jì)方法中,從而更加有效地處理大量數(shù)據(jù)[7]。大數(shù)據(jù)價(jià)值目前主要體現(xiàn)在商業(yè)界,根據(jù)IDC和麥肯錫的研究結(jié)果,其價(jià)值主要體現(xiàn)在以下4個(gè)方面:細(xì)分客戶(hù)群體,有針對(duì)性地采取獨(dú)特行動(dòng);運(yùn)用大數(shù)據(jù)模擬現(xiàn)實(shí),發(fā)掘新需求,提高投入回報(bào);提高大數(shù)據(jù)成果的分享程度,從而提高產(chǎn)業(yè)鏈的投入回報(bào)率;最后是進(jìn)行商業(yè)模式、產(chǎn)品和服務(wù)的創(chuàng)新[6]。市場(chǎng)研究機(jī)構(gòu)Gartner發(fā)布的《2013年10大科技戰(zhàn)略趨勢(shì)(Top 10 Strategic Technology Trends for 2013)中,明確將大數(shù)據(jù)戰(zhàn)略列為最新科技潮流,《紐約時(shí)報(bào)》也有報(bào)道稱(chēng)“大數(shù)據(jù)時(shí)代”已經(jīng)來(lái)臨,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,數(shù)據(jù)和分析將取代經(jīng)驗(yàn)和直覺(jué),成為決策的重要依據(jù)。
文獻(xiàn)傳遞服務(wù)是館際互借服務(wù)的延伸物,是指供應(yīng)者以計(jì)算機(jī)、網(wǎng)絡(luò)等技術(shù),運(yùn)用現(xiàn)代化的設(shè)備,將已確知的出版或未出版文獻(xiàn)傳遞給使用者的一種服務(wù),文獻(xiàn)傳遞通常是非返還式的,傳遞內(nèi)容包括期刊論文、會(huì)議論文、學(xué)位論文、報(bào)紙、標(biāo)準(zhǔn)、專(zhuān)利和報(bào)告等[8]。早期的文獻(xiàn)傳遞服務(wù)主要是圖書(shū)館間的館際合作,最先由科學(xué)技術(shù)發(fā)達(dá)的英美兩國(guó)提出[9]。20世紀(jì)90年代,隨著網(wǎng)絡(luò)技術(shù)、遠(yuǎn)程通信技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展,電子出版物、數(shù)字圖書(shū)館和網(wǎng)絡(luò)數(shù)據(jù)庫(kù)成為文獻(xiàn)資源的重要載體,電子文獻(xiàn)傳遞服務(wù)也隨之進(jìn)入繁榮的發(fā)展時(shí)期[10]。進(jìn)入21世紀(jì),信息技術(shù)的大量介入使文獻(xiàn)傳遞服務(wù)進(jìn)入新的發(fā)展階段,國(guó)內(nèi)主流的5大文獻(xiàn)傳遞系統(tǒng)CASHL、CALIS、NSTL、LCAS、中國(guó)國(guó)家圖書(shū)館[11],基本滿(mǎn)足國(guó)內(nèi)各高校圖書(shū)館、上海圖書(shū)館、國(guó)家圖書(shū)館及中科院系統(tǒng)的資源共享,同時(shí)也能實(shí)現(xiàn)向國(guó)外部分機(jī)構(gòu)傳遞文獻(xiàn)的服務(wù)。
在大數(shù)據(jù)時(shí)代的背景下,呈數(shù)量級(jí)增長(zhǎng)的數(shù)據(jù)給信息技術(shù)帶來(lái)新的挑戰(zhàn)和機(jī)遇。圖書(shū)館作為知識(shí)信息服務(wù)的社會(huì)中心,為讀者提供潛在的知識(shí)挖掘、知識(shí)評(píng)價(jià)、數(shù)據(jù)分析等增值服務(wù)成為新的趨勢(shì)。目前,大量的研究報(bào)告對(duì)文獻(xiàn)傳遞服務(wù)進(jìn)行了充分而全面的探討,主要從傳遞系統(tǒng)管理體制、服務(wù)模式、收費(fèi)方式、資源整合等方面進(jìn)行論述。大部分學(xué)者認(rèn)為,面向最終用戶(hù)的無(wú)中介文獻(xiàn)傳遞服務(wù)是文獻(xiàn)傳遞的發(fā)展方向,這種服務(wù)模式有利于節(jié)約人力,并減少讀者使用費(fèi)用,提高傳遞效率;在高質(zhì)量、高準(zhǔn)確率的目次數(shù)據(jù)庫(kù)基礎(chǔ)上,這樣的服務(wù)模式更受讀者歡迎。文獻(xiàn)傳遞服務(wù)是圖書(shū)館知識(shí)服務(wù)的重要組成部分,但依托中介的文獻(xiàn)傳遞服務(wù)中,圖書(shū)館員扮演的角色是比較機(jī)械而單一的,在相對(duì)穩(wěn)定的文獻(xiàn)系統(tǒng)中,圖書(shū)館員有限的拓展空間僅限于提高檢索數(shù)據(jù)的速度和準(zhǔn)確性,縮短索取文獻(xiàn)的時(shí)間等。從長(zhǎng)遠(yuǎn)看來(lái),這并不能為文獻(xiàn)傳遞服務(wù)帶來(lái)新的生機(jī),在大數(shù)據(jù)時(shí)代,從新的角度思考文獻(xiàn)傳遞的發(fā)展方向顯得尤為必要。
隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展,文獻(xiàn)傳遞服務(wù)不僅限于主流的各大文獻(xiàn)傳遞系統(tǒng),讀者需要的資源也不再只是傳統(tǒng)的期刊文獻(xiàn)、報(bào)紙、專(zhuān)利、報(bào)告等,文獻(xiàn)傳遞服務(wù)中產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)如文字、圖片等,傳統(tǒng)的數(shù)據(jù)庫(kù)無(wú)法做到系統(tǒng)的、長(zhǎng)時(shí)間的保存。雖然云計(jì)算解決了海量數(shù)據(jù)的存儲(chǔ),但其自身仍存在一定的安全問(wèn)題。在大數(shù)據(jù)時(shí)代,圖書(shū)館員只有掌握了讀者用戶(hù)的信息,包括個(gè)人身份、借閱記錄等結(jié)構(gòu)化數(shù)據(jù),以及大量的存儲(chǔ)信息行為、搜索方式等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),才能通過(guò)對(duì)海量的多類(lèi)型數(shù)據(jù)進(jìn)行分析而得到更有價(jià)值的信息。
目前國(guó)內(nèi)對(duì)文獻(xiàn)傳遞服務(wù)的研究討論方法,主要是利用簡(jiǎn)單的Excel等工具對(duì)大量結(jié)構(gòu)化數(shù)據(jù)進(jìn)行淺層次分析。因此,文獻(xiàn)傳遞中用戶(hù)行為、文獻(xiàn)需求等的挖掘分析,對(duì)主動(dòng)掌握用戶(hù)需求,改善文獻(xiàn)傳遞服務(wù)將極具價(jià)值。在大數(shù)據(jù)時(shí)代的背景下,挖掘大數(shù)據(jù)的價(jià)值,分析其深層的意義,簡(jiǎn)單的定性定量分析已經(jīng)不夠,技術(shù)工具的作用將得到進(jìn)一步發(fā)揮。聚類(lèi)分析、數(shù)據(jù)挖掘、網(wǎng)絡(luò)分析、可視化分析、數(shù)據(jù)融合與數(shù)據(jù)集成等,尤其是聚類(lèi)分析、可視化分析和數(shù)據(jù)挖掘技術(shù),對(duì)于深層挖掘用戶(hù)數(shù)據(jù)、主動(dòng)掌握讀者文獻(xiàn)信息需求變化具有重要作用。
傳統(tǒng)的文獻(xiàn)傳遞服務(wù)中,圖書(shū)館員扮演的僅僅是中介的角色。而實(shí)際上,不需中介參與的文獻(xiàn)傳遞系統(tǒng)更受到讀者的歡迎。無(wú)中介的傳遞模式下,無(wú)需圖書(shū)館員代為發(fā)出申請(qǐng),再將收到的文獻(xiàn)轉(zhuǎn)發(fā)給讀者,這樣的模式有效提高了文獻(xiàn)獲取效率,節(jié)省了人力物力,降低了資源利用成本。作為國(guó)內(nèi)主要的文獻(xiàn)傳遞系統(tǒng),CASHL和NSTL是我國(guó)人文社科領(lǐng)域和自然科學(xué)領(lǐng)域最具代表性的集中式的無(wú)中介文獻(xiàn)傳遞服務(wù)體系,有效地利用成員單位的原有館藏和人力基礎(chǔ),節(jié)省經(jīng)費(fèi),操作方便,能準(zhǔn)確定位資源,受到讀者的歡迎。建立有效的資源整合機(jī)制,構(gòu)建知識(shí)資源導(dǎo)航體系,提供一站式、智能化的服務(wù)是文獻(xiàn)傳遞服務(wù)新的發(fā)展方向。
隨著學(xué)術(shù)研究環(huán)境的發(fā)展和研究形態(tài)的變化,科學(xué)研究所需要的資源已遠(yuǎn)遠(yuǎn)超出傳統(tǒng)圖書(shū)館收藏的文獻(xiàn)范圍。在21世紀(jì),用戶(hù)的個(gè)性化服務(wù)成為企業(yè)研究的重點(diǎn),對(duì)文獻(xiàn)傳遞服務(wù)也不例外。讀者對(duì)信息服務(wù)的要求越來(lái)越高,提供“交互、即時(shí)、精準(zhǔn)、個(gè)性化”的文獻(xiàn)傳遞服務(wù)成為圖書(shū)館員的內(nèi)在責(zé)任[12]。張曉林在第11屆International Conference on Interlending and Document Supply會(huì)議所作的主旨報(bào)告中提到,在新的科學(xué)研究形態(tài)和信息開(kāi)放的環(huán)境下,文獻(xiàn)傳遞應(yīng)不再限于傳遞系統(tǒng)及其流程建設(shè),應(yīng)該將關(guān)注重點(diǎn)放在發(fā)現(xiàn)、篩選、獲取所需信息對(duì)象以及有序可靠流暢經(jīng)濟(jì)地組織相關(guān)供應(yīng)鏈[13]。大數(shù)據(jù)時(shí)代下,如何快捷經(jīng)濟(jì)地向用戶(hù)提供所需要的信息而不僅僅是簡(jiǎn)單的傳遞文獻(xiàn)本身,已成為圖書(shū)館員的內(nèi)在責(zé)任。
[1] McKinsey&Company.Big data:The next frontier for innovation,competition,and productivity[EB/OL].[2011-05-02].http://www.mckinsey.com/Insights/MGI/Research/Tech nology_and_Innovation/Big_data_The_next_frontier_for_innovation.
[2] Tom Kalil.Big Data is a Big Deal[EB/OL].[2012-03-29].http://www.whitehouse.gov/blog/2012/03/29/big-data-bigdeal).
[3] 賽迪智庫(kù)軟件與信息服務(wù)研究所.美國(guó)將發(fā)展大數(shù)據(jù)提升到戰(zhàn)略層面[J].中國(guó)電子,2012-07-17(003).
[4] 光大證券.數(shù)據(jù)或成重要投資主線(xiàn)[EB/OL].[2012-11-19].http://www.cs.com.cn/gppd/hyyj/201201/t20120106_319768 3.html.
[5] 韓翠峰.大數(shù)據(jù)帶給圖書(shū)館的影響與挑戰(zhàn)[J].圖書(shū)與情報(bào),2012(5):37-40.
[6] 陳憲宇.大數(shù)據(jù)的商業(yè)價(jià)值[J].企業(yè)管理,2013(3):108-110.
[7] 于翔.大數(shù)據(jù)價(jià)值實(shí)現(xiàn)任重道遠(yuǎn)[N].2012-07-16(40).
[8] 范秀鳳.館際互借文獻(xiàn)傳遞服務(wù)中的原文獲取[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2008(4):103-106.
[9] 胡俊榮,鄭永進(jìn).國(guó)際文獻(xiàn)傳遞服務(wù)研究發(fā)展態(tài)勢(shì)[J].圖書(shū)館理論與實(shí)踐,2007(4):62-64.
[10]KleinerJP,HamakerCA,張沙麗.2000年的圖書(shū)館:采用文獻(xiàn)傳遞服務(wù)需求評(píng)估和網(wǎng)絡(luò)化資源的轉(zhuǎn)型中的圖書(shū)館[J].大學(xué)圖書(shū)館學(xué)報(bào),1998(2):1-11.
[11] 蔡文彬.國(guó)內(nèi)五大文獻(xiàn)傳遞中心服務(wù)狀況的比較研究[J].現(xiàn)代情報(bào),2005(12):123-126.
[12] 胡磊.基于用戶(hù)需求的文獻(xiàn)傳遞服務(wù)流程再造[J].圖書(shū)館理論與實(shí)踐,2013(2):12-13.
[13] 張曉林.從文獻(xiàn)傳遞到知識(shí)傳遞:面向未來(lái)的模式轉(zhuǎn)變[J].圖書(shū)館雜志,2010(2):2-5.