裴 雷 孫建軍 肖 璐(南京大學(xué)信息管理學(xué)院江蘇南京210023)
·前沿與熱點(diǎn)·
大數(shù)據(jù)時(shí)代科技情報(bào)服務(wù)的挑戰(zhàn)與思考*
裴雷孫建軍肖璐
(南京大學(xué)信息管理學(xué)院江蘇南京210023)
數(shù)據(jù)處理是科技情報(bào)機(jī)構(gòu)服務(wù)創(chuàng)新的動(dòng)力。大數(shù)據(jù)的離散分布和開放可得、用戶信息需求向深度廣度發(fā)展以及資源服務(wù)一體化,弱化了科技情報(bào)機(jī)構(gòu)的資源優(yōu)勢(shì),提高了信息分析的難度,給科技情報(bào)機(jī)構(gòu)的服務(wù)能力提出了挑戰(zhàn)。同時(shí),也為大規(guī)模資源保障體系和信息服務(wù)模式的創(chuàng)新提供了可能。文章從大數(shù)據(jù)科技環(huán)境的時(shí)代特征著手,分析了大數(shù)據(jù)環(huán)境對(duì)科技情報(bào)工作的主要挑戰(zhàn),并結(jié)合當(dāng)前實(shí)踐提出了相應(yīng)的對(duì)策建議。
大數(shù)據(jù);科技情報(bào)工作;挑戰(zhàn);對(duì)策建議
科技情報(bào)服務(wù)領(lǐng)域普遍將當(dāng)前面臨的海量數(shù)據(jù)處理和服務(wù)能力的矛盾,視為泛在信息環(huán)境所涌現(xiàn)出的、特有的“大數(shù)據(jù)”問題,并產(chǎn)生了隱隱的“大數(shù)據(jù)憂慮”。隨著國(guó)家大數(shù)據(jù)戰(zhàn)略的提出,各界對(duì)數(shù)據(jù)問題的關(guān)注和對(duì)數(shù)據(jù)服務(wù)的需求激增,學(xué)術(shù)界和科技情報(bào)服務(wù)實(shí)踐中對(duì)“大數(shù)據(jù)”應(yīng)用也呈現(xiàn)出多樣化的解讀,比如王飛躍提出的“基于ACP方法的開源情報(bào)解析理論框架”和“四熵服務(wù)”理念,李廣建等提出的情報(bào)研究五個(gè)轉(zhuǎn)變,賀德方、喬曉東、曾建勛等提出的“事實(shí)型數(shù)據(jù)+專用工具+專家智慧”的FAST4Wisdom服務(wù)理念和情報(bào)學(xué)四維度拓展變革,以及楊善林等提出的情報(bào)內(nèi)涵轉(zhuǎn)變等。因此,消解科技情報(bào)機(jī)構(gòu)的大數(shù)據(jù)憂慮,洞察科技情報(bào)大數(shù)據(jù)發(fā)展特征與發(fā)展趨勢(shì),是當(dāng)前科技情報(bào)實(shí)踐領(lǐng)域的當(dāng)務(wù)之急。
科技情報(bào)服務(wù)領(lǐng)域大數(shù)據(jù)問題,實(shí)質(zhì)是全球數(shù)據(jù)自發(fā)式、爆發(fā)式增長(zhǎng)以及數(shù)據(jù)處理高效率要求的不對(duì)稱體現(xiàn)。而科技情報(bào)工作很早就關(guān)注到知識(shí)增長(zhǎng)趨勢(shì)及其在管理和服務(wù)領(lǐng)域帶來的信息爆炸與信息過載問題??萍记閳?bào)工作從誕生之初起就一直面臨數(shù)據(jù)或信息資源的加工處理和分析利用的挑戰(zhàn),并在不同發(fā)展階段呈現(xiàn)出不同的問題表征。在某種意義上,科技情報(bào)機(jī)構(gòu)就是為解決“大數(shù)據(jù)”問題而誕生的專門機(jī)構(gòu),而數(shù)據(jù)挑戰(zhàn)也成為科技情報(bào)服務(wù)創(chuàng)新的內(nèi)在動(dòng)力。
1.1科技情報(bào)初創(chuàng)時(shí)期的數(shù)據(jù)挑戰(zhàn)與服務(wù)創(chuàng)新
1944年,美國(guó)圖書館學(xué)家F.Rider關(guān)注到圖書館館藏大約每16年增長(zhǎng)1倍,并以此估計(jì)耶魯大學(xué)圖書館將在2040年擁有超過2億冊(cè)圖書,大約2PB的信息存儲(chǔ),而這些圖書將占據(jù)6000英里長(zhǎng)的書架,至少需要6000名圖書館員完成編目和維護(hù)工作。以當(dāng)時(shí)的數(shù)據(jù)處理?xiàng)l件而言,2億冊(cè)圖書的存儲(chǔ)空間和集中管理維護(hù)就是可能的“大數(shù)據(jù)”問題。與之類似,戰(zhàn)后美國(guó)政府收繳的40噸德國(guó)和日本技術(shù)資料的處理,也超出了當(dāng)時(shí)的文獻(xiàn)處理能力??萍记閳?bào)界提出了“信息爆炸”的理念,并主張信息分析和處理工作的專門化和體系化,也視之為科技情報(bào)工作的開端。依托業(yè)務(wù)部門進(jìn)行體系化的樹狀業(yè)務(wù)分解和專門信息的保存、交流和利用,構(gòu)建跨部門協(xié)作保障體系,極大紓解了信息總量增長(zhǎng)困難,并通過在1950年代引入縮微技術(shù)和數(shù)字存儲(chǔ)技術(shù)進(jìn)一步緩解了信息存儲(chǔ)空間問題。
1.2數(shù)字資源建設(shè)時(shí)期的數(shù)據(jù)挑戰(zhàn)與服務(wù)創(chuàng)新
20世紀(jì)60年代數(shù)據(jù)存儲(chǔ)技術(shù)的引入有效緩解了數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)集中管理問題,但對(duì)原始數(shù)據(jù)的加工處理和分析技術(shù)短板卻再次成為“大數(shù)據(jù)”問題。例如20世紀(jì)50年代美國(guó)國(guó)家安全局雇傭了超過12000名安全技術(shù)人員來處理每年偵聽或加密的17000卷磁帶;1965年,美國(guó)國(guó)家數(shù)據(jù)中心的600個(gè)數(shù)據(jù)集存儲(chǔ)了1億張打孔卡片和3萬份存儲(chǔ)磁帶,但對(duì)其擁有的1.75億枚指紋記錄、每年7.42億份納稅記錄的分析束手無策。因此,1965年Dunn報(bào)告認(rèn)為,“面臨的最大問題就是不知如何發(fā)現(xiàn)不同機(jī)構(gòu)、不同數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)”,即數(shù)據(jù)分析的“大數(shù)據(jù)問題”。Kaysen委員會(huì)提出的集中存儲(chǔ)和數(shù)據(jù)共享方案,推動(dòng)數(shù)據(jù)庫技術(shù)、信息檢索技術(shù)和數(shù)據(jù)科學(xué)的產(chǎn)生。這一時(shí)期,科技情報(bào)服務(wù)機(jī)構(gòu)也引入了數(shù)字存儲(chǔ)和數(shù)據(jù)庫管理體系,并引入了信息檢索技術(shù),比如1966年《化學(xué)文摘(CA)》引入的自動(dòng)處理系統(tǒng)和計(jì)算機(jī)可讀數(shù)據(jù)庫、1967年Roger Summit主持開發(fā)的Dialog在線數(shù)據(jù)訪問。科技情報(bào)領(lǐng)域產(chǎn)生了以數(shù)據(jù)加工和信息系統(tǒng)管理為特征的海量科技情報(bào)服務(wù),出現(xiàn)了從文獻(xiàn)保障服務(wù)向以數(shù)據(jù)庫、信息檢索為代表的技術(shù)服務(wù)的融合,提升了科技情報(bào)處理的數(shù)據(jù)數(shù)量和處理速度。
1.3數(shù)據(jù)分析和處理時(shí)期的數(shù)據(jù)挑戰(zhàn)與服務(wù)創(chuàng)新
1.4開放網(wǎng)絡(luò)和自動(dòng)加工處理時(shí)期的數(shù)據(jù)挑戰(zhàn)與服務(wù)創(chuàng)新
20世紀(jì)90年代以來網(wǎng)絡(luò)技術(shù)、個(gè)人數(shù)據(jù)終端普遍采納,數(shù)據(jù)存儲(chǔ)成本快速下降,科技信息資源的分布發(fā)生了巨大變化。首先,以互聯(lián)網(wǎng)企業(yè)和技術(shù)服務(wù)企業(yè)為代表的新生業(yè)態(tài)迅速崛起,以圖書檔案和科技情報(bào)機(jī)構(gòu)為中心的科技信息服務(wù)體系受到挑戰(zhàn)或顛覆;其次,數(shù)據(jù)可得性大大增加,數(shù)據(jù)規(guī)模和數(shù)據(jù)多樣性大大增加,以搜索引擎為代表的數(shù)據(jù)自動(dòng)抓取、分析和推送技術(shù)極大增強(qiáng)了數(shù)據(jù)分析和處理能力,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)得到廣泛推廣應(yīng)用;再次,信息服務(wù)提供商更加積極地關(guān)注用戶個(gè)性需求和反饋,對(duì)用戶交互、行為數(shù)據(jù)和個(gè)性化推薦更加關(guān)注。這一時(shí)期,“總量巨大(Volume)”、“類型多樣(Variety)”的兩個(gè)“V”的問題已經(jīng)凸顯,“大數(shù)據(jù)”問題初現(xiàn)端倪。相對(duì)于互聯(lián)網(wǎng)企業(yè)而言,傳統(tǒng)科技情報(bào)服務(wù)機(jī)構(gòu)逐步通過兼并聯(lián)合、擴(kuò)展數(shù)據(jù)來源,提升數(shù)據(jù)應(yīng)用能力予以應(yīng)對(duì)。這一時(shí)期,面向網(wǎng)絡(luò)的數(shù)據(jù)開放服務(wù)、數(shù)據(jù)集成與融合技術(shù)、數(shù)據(jù)應(yīng)用分析工具與“數(shù)據(jù)+應(yīng)用”的深度服務(wù)模式快速發(fā)展。比如SciFinder、SciVal、Scopus等數(shù)據(jù)分析工具的開發(fā)和WorldCat全球協(xié)作機(jī)制和協(xié)同服務(wù)模式的發(fā)展。
大數(shù)據(jù)的4V特征,即超大規(guī)模和快速增長(zhǎng)的數(shù)據(jù)體量(Volume)、異構(gòu)和多樣性的數(shù)據(jù)結(jié)構(gòu)(Vari ety)、大量不相關(guān)信息的低價(jià)值密度(Value)和大量實(shí)時(shí)分析應(yīng)用工具的使用(Velocity),是數(shù)據(jù)分析和利用的主要障礙,在科技情報(bào)領(lǐng)域也同樣如此。此外,從整個(gè)社會(huì)和用戶需求角度看,科技情報(bào)機(jī)構(gòu)的資源角色和地位進(jìn)一步弱化,用戶需求向更深更廣信息分析領(lǐng)域拓展,情報(bào)服務(wù)與創(chuàng)新服務(wù)的融合以及資源-服務(wù)的一體化對(duì)科技情報(bào)機(jī)構(gòu)的服務(wù)能力也提出了更高挑戰(zhàn)。
2.1科技情報(bào)服務(wù)機(jī)構(gòu)的資源優(yōu)勢(shì)弱化
在數(shù)據(jù)開放趨勢(shì)下,可得可用的信息資源更加豐富,科技情報(bào)服務(wù)機(jī)構(gòu)資源獨(dú)占優(yōu)勢(shì)不復(fù)存在。以往科技情報(bào)服務(wù)過于依賴其資源優(yōu)勢(shì),而對(duì)信息加工、信息分析的優(yōu)勢(shì)沒用充分重視,存在短期的“轉(zhuǎn)型瓶頸”。而政府?dāng)?shù)據(jù)公開、研究機(jī)構(gòu)數(shù)據(jù)公開獲取以及數(shù)據(jù)集市商務(wù)模式(GitHub)的出現(xiàn),加劇了科技情報(bào)機(jī)構(gòu)作為數(shù)據(jù)樞紐角色的弱化。以政府?dāng)?shù)據(jù)公開為例,美國(guó)政府目前可提供192440個(gè)數(shù)據(jù)集,英國(guó)政府可提供1353個(gè)部門和機(jī)構(gòu)開放的20688個(gè)數(shù)據(jù)集、386個(gè)APP應(yīng)用。數(shù)據(jù)開放可得,意味著業(yè)務(wù)機(jī)構(gòu)可直接跳過科技情報(bào)服務(wù)中介而直接存取和利用信息,對(duì)科技情報(bào)機(jī)構(gòu)的資源業(yè)務(wù)服務(wù)帶來了挑戰(zhàn)。如美國(guó)NTIS提供的科技報(bào)告服務(wù),因政府部門科技報(bào)告的免費(fèi)公開,在1999年以后連續(xù)多年虧損。因而,單純提供內(nèi)容獲取或計(jì)量的服務(wù)模式并不能完全支持業(yè)務(wù)決策的需要。
2.2科技情報(bào)服務(wù)的用戶需求轉(zhuǎn)變
大數(shù)據(jù)環(huán)境下,用戶不再滿足于信息資源的整序獲取,不再滿足于以文獻(xiàn)單元為主要特征的加工整理和存取分析,而是對(duì)信息分析深度和廣度提出了更高要求:在深度上突出碎片化信息加工和計(jì)算化服務(wù),包括數(shù)據(jù)資源快速評(píng)價(jià)推薦、知識(shí)單元的抽取和分析、多維數(shù)據(jù)融合、細(xì)粒度數(shù)據(jù)分析以及可視化、計(jì)算化的數(shù)據(jù)呈現(xiàn)與分析,力爭(zhēng)將大數(shù)據(jù)去冗分類、去粗存精、去偽存真;在廣度上以全局性和宏觀戰(zhàn)略性情報(bào)服務(wù)為特征,包括動(dòng)態(tài)監(jiān)測(cè)服務(wù)、態(tài)勢(shì)分析研究服務(wù)和前瞻預(yù)測(cè)研究服務(wù)三種類型,需要對(duì)多源數(shù)據(jù)、異構(gòu)數(shù)據(jù)、隨機(jī)動(dòng)態(tài)數(shù)據(jù)進(jìn)行收割、融合、跟蹤和監(jiān)控。同時(shí),用戶數(shù)據(jù)或信息資源利用也不同于以往數(shù)據(jù)閱讀、數(shù)據(jù)參考和數(shù)據(jù)統(tǒng)計(jì)等淺層利用,而是在決策分析和學(xué)術(shù)研究中尋求高階數(shù)據(jù)分析、尋求多維數(shù)據(jù)的降維理解、尋求專家智慧的介入矯正、尋求從數(shù)據(jù)分析向情報(bào)解析的升級(jí)。因此,科技情報(bào)服務(wù)不可避免地將由傳統(tǒng)的依托資源數(shù)據(jù)的數(shù)據(jù)分析服務(wù)向多源多方協(xié)作的情報(bào)解析和計(jì)算分析服務(wù)轉(zhuǎn)變,是對(duì)現(xiàn)有科技情報(bào)機(jī)構(gòu)的分析技術(shù)能力的挑戰(zhàn)。
2.3資源服務(wù)一體化下的服務(wù)能力不足
科技情報(bào)機(jī)構(gòu)過去一直強(qiáng)調(diào)資源保障能力,服務(wù)協(xié)作能力并未上升到戰(zhàn)略地位。當(dāng)大數(shù)據(jù)開放環(huán)境使資源獲取相對(duì)容易時(shí),反而發(fā)現(xiàn)“要讀的太多,要挖掘、發(fā)現(xiàn)和分析的隱性交織的內(nèi)容太多太復(fù)雜,要掌握的方法、技術(shù)與工具太多太復(fù)雜,有效分析和利用信息成為一個(gè)日益復(fù)雜、負(fù)擔(dān)沉重的問題”。對(duì)科技情報(bào)機(jī)構(gòu)而言,提出了兩個(gè)要求:第一,要求全面介入,無處不在,并注重分析方法和分析技術(shù)的全面協(xié)助;第二,要求在科技情報(bào)服務(wù)流程中更早更深地介入用戶服務(wù),提供更加精細(xì)化的服務(wù)內(nèi)容,并提供更好的內(nèi)容質(zhì)量控制水平。
相比于傳統(tǒng)的委托服務(wù)模式,新的科技情報(bào)服務(wù)團(tuán)隊(duì)將由行業(yè)專家、數(shù)據(jù)分析員、情報(bào)分析員3個(gè)角色構(gòu)成,并在選題階段更早介入服務(wù)流程,同時(shí)融合數(shù)據(jù)服務(wù)、信息服務(wù)和知識(shí)服務(wù),提供資源與服務(wù)一體化的服務(wù)體系(見圖1)。依托大數(shù)據(jù)的科技情報(bào)服務(wù)要求與創(chuàng)新主體高度融合,以用戶解決問題為中心,融入解決問題的過程,支持對(duì)問題解決方案的探索、構(gòu)建和測(cè)試等服務(wù)機(jī)制,從選題確立到任務(wù)分解、任務(wù)實(shí)施、數(shù)據(jù)解析,均需雙方和行業(yè)專家頻繁交互與協(xié)作,以應(yīng)對(duì)分析需求的易變性和不可預(yù)見性。在服務(wù)過程中,大數(shù)據(jù)分析和可視化技術(shù)提升了用戶對(duì)數(shù)據(jù)的認(rèn)知和理解,也可能將“情報(bào)服務(wù)”提升到知識(shí)協(xié)作、協(xié)同創(chuàng)新的高度,這也意味著科技情報(bào)服務(wù)人員的能力要求更高,可能需身兼行業(yè)專家、數(shù)據(jù)分析員、情報(bào)分析員中的多種角色。
圖1 資源服務(wù)一體化的科技情報(bào)服務(wù)流程[18]
資源保障是信息服務(wù)的基礎(chǔ),建立全面、高質(zhì)、開放的可得資源體系仍是科技情報(bào)工作的首要任務(wù)。
3.1建立信息資源保障的大數(shù)據(jù)理念
大數(shù)據(jù)環(huán)境下,信息資源保障的內(nèi)涵有所不同:第一,信息資源利用形式更開放快捷,大量信息資源來不及建立知識(shí)產(chǎn)權(quán)屏障就已過時(shí),使得信息資源的價(jià)值實(shí)現(xiàn)更依賴資源利用和分析的溢出效應(yīng),而非知識(shí)產(chǎn)權(quán)變現(xiàn);第二,信息資源的邊界越來越模糊,以往受限于機(jī)構(gòu)邊界和知識(shí)產(chǎn)權(quán)保護(hù)而構(gòu)建的信息資源保障“優(yōu)選精選”理念,正面臨低廉存儲(chǔ)、海量來源的資源體系沖擊;第三,信息資源的表現(xiàn)形式更多樣,質(zhì)量參差不齊,直接利用困難,資源保障體系的重心逐漸由收藏保障向利用保障轉(zhuǎn)移;第四,隨著獨(dú)有信息資源優(yōu)勢(shì)的弱化,信息資源保障的開放性和協(xié)作利用將更為突出。
3.2擴(kuò)展多元數(shù)據(jù)來源和新型數(shù)據(jù)存儲(chǔ)
科技信息機(jī)構(gòu)應(yīng)擴(kuò)展資源的廣度,關(guān)注片段信息或社會(huì)網(wǎng)絡(luò)數(shù)據(jù)等低價(jià)值密度信息資源或新型信息資源的采集和保存。在具體的采集和開發(fā)過程中,有兩種典型做法:一種主張搶救性保存,因擔(dān)心數(shù)字信息資源的易逝性,如不加以保存以后將無法利用,因而突出優(yōu)先存儲(chǔ),逐步利用的原則,并不一定要優(yōu)先設(shè)定明確和具體的應(yīng)用目標(biāo)。典型的是美國(guó)國(guó)會(huì)圖書館啟動(dòng)的網(wǎng)絡(luò)存檔項(xiàng)目,其已采集網(wǎng)絡(luò)數(shù)據(jù)500TB以上,尤其是2010年啟動(dòng)的Twitter存檔的特種館藏項(xiàng)目已存儲(chǔ)2006~2010年的1700億條133.2TB的Twitter記錄,并以每天5億條的規(guī)??焖僭鲩L(zhǎng)。目前雖然尚未完全開放服務(wù)并且也面臨數(shù)據(jù)解析整理的技術(shù)困難,但歷史學(xué)和人文學(xué)者均期待其資源的開放利用。一種主張縱向驅(qū)動(dòng)和片段利用驅(qū)動(dòng),突出以若干利用和主題推動(dòng)項(xiàng)目的存儲(chǔ),最終實(shí)現(xiàn)數(shù)據(jù)匯集和大數(shù)據(jù)。如聯(lián)合國(guó)在雅加達(dá)設(shè)立全球脈動(dòng)(Globle Pulse)大數(shù)據(jù)利用和大多數(shù)的政府開放數(shù)據(jù)集建設(shè)都采用縱向驅(qū)動(dòng)方式。
3.3推動(dòng)深層數(shù)據(jù)存儲(chǔ)和核心資源質(zhì)量
相對(duì)于文獻(xiàn)資源、規(guī)范元數(shù)據(jù)等資源形式,推動(dòng)深層數(shù)據(jù)類型的采集和保存將有效提升科技情報(bào)機(jī)構(gòu)的信息分析能力。以往科技情報(bào)機(jī)構(gòu)的資源主體是文獻(xiàn)信息、描述信息、事實(shí)信息以及部分淺層知識(shí)資源,現(xiàn)在需要進(jìn)一步加強(qiáng)內(nèi)容實(shí)體信息、科學(xué)數(shù)據(jù)、深層知識(shí)資源以及用戶行為信息的保存,繼續(xù)發(fā)展和完善知識(shí)庫、本體庫、情景庫、資料庫、實(shí)體庫等新型數(shù)據(jù)庫類型。比如中信所在專利分析中對(duì)人名、機(jī)構(gòu)名和技術(shù)術(shù)語、領(lǐng)域深層主題及其相互關(guān)系的構(gòu)建,中科院科學(xué)數(shù)據(jù)中心對(duì)科學(xué)數(shù)據(jù)與科技文獻(xiàn)集成服務(wù)關(guān)鍵技術(shù)研究與應(yīng)用等。
3.4科學(xué)規(guī)劃參考資源架構(gòu)體系
大數(shù)據(jù)環(huán)境下,大多數(shù)科技情報(bào)機(jī)構(gòu)都需要考慮自建數(shù)據(jù)源、開放數(shù)據(jù)源與商業(yè)數(shù)據(jù)源的混搭利用。美國(guó)中央情報(bào)局的首席技術(shù)官Gus Hunter在推進(jìn)OpenStack項(xiàng)目時(shí),提出了參考資源架構(gòu)(Reference Architecture)的規(guī)劃理念。相對(duì)于規(guī)范的學(xué)術(shù)資源和科技信息,大數(shù)據(jù)更零散、更原始、更復(fù)雜,巨量、快速和多樣的數(shù)據(jù)存在明顯的碎片化特征,并不能直接利用。因而,科技情報(bào)機(jī)構(gòu)需要建立更加具有層次性、協(xié)調(diào)性的數(shù)據(jù)來源和數(shù)據(jù)參考規(guī)劃,突出海量數(shù)據(jù)支撐與核心資源質(zhì)量控制相結(jié)合的資源保障策略。一方面需要加強(qiáng)對(duì)科技信息獲取渠道及其內(nèi)容的質(zhì)量評(píng)價(jià),構(gòu)建多維度科技信息質(zhì)量評(píng)價(jià)指標(biāo)體系和綜合運(yùn)用多種質(zhì)量控制策略;一方面需要加強(qiáng)對(duì)信息資源的深度加工與科學(xué)解析,提升數(shù)據(jù)的可理解性和可用性。
3.5加強(qiáng)多源科技情報(bào)資源的集成與聚合
大數(shù)據(jù)環(huán)境下,科技信息服務(wù)需要面對(duì)方法、工具、數(shù)據(jù)的離散化分布,需要融合多種來源結(jié)構(gòu)異質(zhì)的數(shù)據(jù),集成多種數(shù)據(jù)分析方法,并且通過融合多源數(shù)據(jù)發(fā)現(xiàn)資源之間潛在關(guān)聯(lián)。關(guān)聯(lián)性或弱信息的挖掘,被認(rèn)為是大數(shù)據(jù)服務(wù)區(qū)別以往科技情報(bào)服務(wù)的典型差異。而通過把不同渠道、利用多種采集方式獲取的具有不同數(shù)據(jù)結(jié)構(gòu)的信息匯聚到一起,形成具有統(tǒng)一格式、面向多種應(yīng)用的數(shù)據(jù)集合,這一過程稱為多源數(shù)據(jù)融合。相對(duì)于以往圖書情報(bào)機(jī)構(gòu)基于目錄的OPAC、基于元數(shù)據(jù)收割協(xié)議的數(shù)字館藏、基于協(xié)議標(biāo)準(zhǔn)的跨庫檢索等聚合方法,當(dāng)前的數(shù)字資源聚合更注重內(nèi)容層面的知識(shí)發(fā)現(xiàn),尤其是數(shù)據(jù)驅(qū)動(dòng)的弱信息關(guān)注以及注重內(nèi)容片斷進(jìn)行搜索、過濾、瀏覽、鏈接、注釋和分析的戰(zhàn)略性閱讀。
資源融合過程也是數(shù)據(jù)處理和分析技術(shù)的應(yīng)用過程。李廣建等統(tǒng)計(jì)了國(guó)際上143個(gè)數(shù)字資源整合項(xiàng)目,歸納出數(shù)據(jù)倉庫、Mediator/Wrapper(中介器或封裝器)、Agent和P2P等四種整合機(jī)制,而且約占85%的項(xiàng)目或系統(tǒng)采用前兩種方法,其中涉及海量存儲(chǔ)技術(shù)、ETL技術(shù)、信息源監(jiān)控與更新技術(shù)、信息源選擇技術(shù)、信息抽取技術(shù)、查詢處理技術(shù)、結(jié)果整合技術(shù)、語義整合技術(shù)等。尤其針對(duì)云計(jì)算環(huán)境下多源、異構(gòu)、大規(guī)模、動(dòng)態(tài)信息資源特征和人們?nèi)找姘l(fā)展的個(gè)性化信息服務(wù)需求,基于語義的本體資源聚合、分布式協(xié)作資源聚合成為當(dāng)前關(guān)注的焦點(diǎn)。
3.6積極推動(dòng)資源開放獲取與協(xié)作
大數(shù)據(jù)環(huán)境下,科技情報(bào)機(jī)構(gòu)還應(yīng)充分利用開放數(shù)據(jù),加強(qiáng)機(jī)構(gòu)間的協(xié)作共享。具體需要從業(yè)務(wù)模式和技術(shù)手段層面加以規(guī)劃,改變傳統(tǒng)科技情報(bào)獲取方法,降低用戶情報(bào)獲取難度,促進(jìn)資源有效利用。從業(yè)務(wù)模式上看,要加大政府開放信息源的有效利用和商業(yè)機(jī)構(gòu)的技術(shù)力量協(xié)作,以提高數(shù)據(jù)使用的內(nèi)在效率為原則,盈利動(dòng)機(jī)為補(bǔ)充,引入社會(huì)力量參與。以英國(guó)政府開放數(shù)據(jù)為例,目前已有多家數(shù)據(jù)創(chuàng)業(yè)公司與data.gov.uk合作,如Open Corporates的全球企業(yè)信息查詢、Placr的整合位置與數(shù)據(jù)查詢、Locatable的綜合稅率和交通情況的居住地與購房決策查詢等。從技術(shù)手段看,則需增加數(shù)據(jù)的可得性。通常采用關(guān)聯(lián)數(shù)據(jù)集(Linked Data Set)技術(shù)支持開放共享,以RDF(資源描述框架)構(gòu)建數(shù)據(jù)模型,利用URI(統(tǒng)一資源標(biāo)示符)定義數(shù)據(jù)實(shí)體,通過HTTP協(xié)議瀏覽并獲取數(shù)據(jù)。
資源、技術(shù)與服務(wù)是科技情報(bào)工作的核心要素,資源的改變、技術(shù)的提升必然需要匹配服務(wù)的創(chuàng)新與升級(jí)。大數(shù)據(jù)環(huán)境下,科技情報(bào)服務(wù)模式的創(chuàng)新強(qiáng)調(diào)以用戶需求為中心,注重運(yùn)用大數(shù)據(jù)技術(shù)分析方法,并建立拓展的資源保障體系與用戶需求之間的關(guān)聯(lián)。結(jié)合大數(shù)據(jù)本身特征,科技情報(bào)服務(wù)將進(jìn)一步突出輕量化服務(wù)、細(xì)粒度服務(wù)、技術(shù)服務(wù)和一體化服務(wù)的趨勢(shì)。
4.1輕量數(shù)據(jù)分析服務(wù)
輕量數(shù)據(jù)分析的服務(wù)設(shè)計(jì)主要基于動(dòng)態(tài)數(shù)據(jù)和片段數(shù)據(jù)的快速增長(zhǎng),較小地犧牲信息分析準(zhǔn)確性而開展的快速信息分析方式,即“短、平、快”的服務(wù)模式。動(dòng)態(tài)數(shù)據(jù)的迅速更新與快速增長(zhǎng)導(dǎo)致全量數(shù)據(jù)分析的難度與時(shí)間復(fù)雜度增加,大而全的分析模式反而會(huì)降低情報(bào)分析結(jié)果的時(shí)效性,降低情報(bào)價(jià)值。因而,輕量化科技情報(bào)服務(wù)模式要突出三個(gè)要點(diǎn):一是強(qiáng)調(diào)數(shù)據(jù)的快速解析與知識(shí)發(fā)現(xiàn),一般采用即時(shí)跟蹤和動(dòng)態(tài)監(jiān)控的服務(wù)方式;二是突出最大可能降低信息分析的效度損耗,建立高效的數(shù)據(jù)篩選機(jī)制,從大量信息中準(zhǔn)確選擇目標(biāo)數(shù)據(jù),盡可能通過較小數(shù)據(jù)吞吐發(fā)現(xiàn)問題;三是突出用戶價(jià)值,通過用戶定制、用戶交互實(shí)時(shí)獲取用戶需求,滿足用戶多變需求。
4.2細(xì)粒度情報(bào)解析服務(wù)
細(xì)粒度情報(bào)解析主要面向用戶的深層信息需求以及對(duì)海量數(shù)據(jù)信息的降維與濃縮需求。細(xì)粒度情報(bào)解析服務(wù)的實(shí)現(xiàn)方式主要有:第一,對(duì)文獻(xiàn)實(shí)體知識(shí)單元的提取和分析,對(duì)文獻(xiàn)主題、章節(jié)結(jié)構(gòu)、文獻(xiàn)元素(如圖表、數(shù)據(jù)、化學(xué)式、專利號(hào))等進(jìn)行有效提取和聚合分析,典型如學(xué)術(shù)本體、知識(shí)地圖、知識(shí)擴(kuò)散與突變等偵測(cè);第二,對(duì)文獻(xiàn)資源之間的弱關(guān)聯(lián)關(guān)系的發(fā)現(xiàn),尤其是數(shù)據(jù)背后關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn),發(fā)現(xiàn)數(shù)據(jù)或知識(shí)之間的相關(guān)關(guān)系;第三,對(duì)內(nèi)容片斷進(jìn)行搜索、過濾、瀏覽、鏈接、注釋和分析的戰(zhàn)略性解析。
從服務(wù)表現(xiàn)形式上,細(xì)粒度情報(bào)服務(wù)導(dǎo)致從單一渠道獲取數(shù)據(jù)的數(shù)量與質(zhì)量下降,為了保證情報(bào)分析的有效性需要擴(kuò)大數(shù)據(jù)來源,提高多源數(shù)據(jù)分析能力。一方面,針對(duì)不同渠道采集的異構(gòu)數(shù)據(jù)進(jìn)行有效解析和聚合;另一方面要關(guān)注泛在網(wǎng)絡(luò)知識(shí)的利用,以及將開放數(shù)據(jù)內(nèi)在的交互性、開放性轉(zhuǎn)化為可以利用資源,并利用海量數(shù)據(jù)的可知識(shí)對(duì)象化、可計(jì)算化開展服務(wù)。
4.3技術(shù)應(yīng)用即服務(wù)方式
技術(shù)應(yīng)用即服務(wù)方式是對(duì)資源保障分析的延伸,將信息分析過程技術(shù)化、工具化,并以服務(wù)的形式提供給用戶。典型的應(yīng)用如萬方創(chuàng)新助手、百度數(shù)據(jù)開放平臺(tái)、百度開題助手、騰訊云分析等平臺(tái),在數(shù)據(jù)服務(wù)基礎(chǔ)上,將數(shù)據(jù)解析和處理工具也提供給用戶,用戶不僅利用數(shù)據(jù),而且也能享受服務(wù)方提供的高度定制化的技術(shù)工具。相對(duì)一般的SaaS服務(wù),科技情報(bào)機(jī)構(gòu)的技術(shù)應(yīng)用服務(wù)本身不存在數(shù)據(jù)委托存儲(chǔ)的數(shù)據(jù)安全問題,同時(shí)更能體現(xiàn)科技情報(bào)機(jī)構(gòu)資源與分析技術(shù)的協(xié)同效應(yīng)。同時(shí),技術(shù)服務(wù)也為科技情報(bào)機(jī)構(gòu)之間提供了資源和服務(wù)合作的橋梁。歐美學(xué)術(shù)圖書館就建議情報(bào)服務(wù)機(jī)構(gòu)提供從資源到資源管理的完整服務(wù)體系。
4.4全流程一體化服務(wù)
全流程一體化服務(wù)強(qiáng)調(diào)科技情報(bào)服務(wù)對(duì)業(yè)務(wù)過程的全程參與與支持,滿足用戶的多元需求。大數(shù)據(jù)時(shí)代數(shù)據(jù)準(zhǔn)確采集與精確加工難度增加,業(yè)務(wù)部門或用戶對(duì)情報(bào)機(jī)構(gòu)的依賴性將愈發(fā)明顯,科技情報(bào)可將服務(wù)鏈擴(kuò)展到情報(bào)采集、加工、服務(wù)、服務(wù)反饋及延伸應(yīng)用的全生命周期鏈。典型應(yīng)用是OCLC提出的學(xué)術(shù)圖書館研究支撐服務(wù)。OCLC發(fā)現(xiàn)研究者對(duì)情報(bào)機(jī)構(gòu)的需求不僅僅是文獻(xiàn)提供與保障,還有研究機(jī)會(huì)發(fā)現(xiàn)(研究項(xiàng)目趨勢(shì))、研究者的知識(shí)產(chǎn)權(quán)管理與商業(yè)價(jià)值實(shí)現(xiàn)、研究合作者發(fā)現(xiàn)、管理和存儲(chǔ)文本與數(shù)據(jù)集、大量文本或數(shù)據(jù)分析、改進(jìn)信息檢索或管理能力、引文管理、尋找論文發(fā)表機(jī)會(huì)、職位晉升或工作機(jī)會(huì)發(fā)現(xiàn)、學(xué)術(shù)聲譽(yù)管理、出版前出版中和出版后的文獻(xiàn)管理等。
在文獻(xiàn)服務(wù)、技術(shù)服務(wù)、應(yīng)用服務(wù)和決策服務(wù)的演進(jìn)過程中,不僅科技情報(bào)工作的服務(wù)對(duì)象逐漸從文獻(xiàn)資料、系統(tǒng)信息過渡到覆蓋全生命周期數(shù)據(jù)、文獻(xiàn)知識(shí)單元、分析與應(yīng)用工具以及決策與咨詢建議的立體服務(wù)結(jié)構(gòu),而且用戶需求和受眾的情報(bào)利用方式也發(fā)生了變化。以學(xué)術(shù)領(lǐng)域的情報(bào)工作服務(wù)為例,知識(shí)大數(shù)據(jù)的興起不僅推動(dòng)了學(xué)術(shù)知識(shí)工程和數(shù)據(jù)存儲(chǔ)服務(wù)在科技領(lǐng)域的深度應(yīng)用,科學(xué)家和人文學(xué)者對(duì)知識(shí)數(shù)據(jù)的利用方式改變也催生了知識(shí)大數(shù)據(jù)服務(wù)的誕生。在商業(yè)領(lǐng)域,Chen和Chiang通過梳理情報(bào)分析技術(shù)進(jìn)展,發(fā)現(xiàn)情報(bào)分析從面向數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)分析向面向網(wǎng)絡(luò)的非結(jié)構(gòu)化數(shù)據(jù)分析、移動(dòng)網(wǎng)絡(luò)和感知數(shù)據(jù)分析的BI&A3.0快速轉(zhuǎn)變。雖然科技情報(bào)機(jī)構(gòu)面臨著大數(shù)據(jù)在資源保障和信息分析技術(shù)上的挑戰(zhàn),但另一方面科技情報(bào)的應(yīng)用領(lǐng)域越來越廣泛、用戶對(duì)科技情報(bào)機(jī)構(gòu)分析能力的依賴將越來越強(qiáng),面臨巨大的發(fā)展機(jī)遇。
[1]王飛躍.知識(shí)產(chǎn)生方式和科技決策支撐的重大變革——面向大數(shù)據(jù)和開源信息的科技態(tài)勢(shì)解析與決策服務(wù)[J].中國(guó)科學(xué)院院刊,2012,27(5):527-537.
[2]李廣建,楊林.大數(shù)據(jù)視角下的情報(bào)研究與情報(bào)研究技術(shù)[J].圖書與情報(bào),2012(6):1-8.
[3]賀德方.基于大數(shù)據(jù)、云服務(wù)的科技情報(bào)工作思考[J].數(shù)字圖書館論壇,2013(6):2-9.
[4]喬曉東,朱禮軍,李穎,等.大數(shù)據(jù)時(shí)代的技術(shù)情報(bào)工程[J].情報(bào)學(xué)報(bào),2014,33(12):1255-1263.
[5]曾建勛,魏來.大數(shù)據(jù)時(shí)代的情報(bào)學(xué)變革[J].情報(bào)學(xué)報(bào),2015,34(1):37-44.
[6]王曉佳,楊善林,陳志強(qiáng).大數(shù)據(jù)時(shí)代下的情報(bào)分析與挖掘技術(shù)研究[J].情報(bào)學(xué)報(bào),2013,32(6):564-574.
[7]張斌,馬費(fèi)成.大數(shù)據(jù)環(huán)境下數(shù)字信息資源服務(wù)創(chuàng)新[J].情報(bào)理論與實(shí)踐,2014(6):28-33.
[8]Santovena A Z.Big data:evolution,components,challenges and opportunities[D].Massachusetts Institute of Technology,2013.
[9]Rider,F(xiàn).The scholar and the future of the research library:A problem and its solution[M].New York city:Hadham Press,1944.
[10]Kraus R.Statistical déjà vu:The National Data Center Proposal of 1965 and its descendants[J].Journal of Privacy and Confidentiality,2013,5(1):1
[11]U.S.Bureau of the Budget,Office of Statistical Standards,Review of Proposal for a National Data Center,Statistical Evaluation Report No.6,December 1965,reprinted in Edgar S.Dunn,Jr.,Social Information Processing and Statistical Systems-Change and Reform[M].New York:John Wiley&Sons,1974:204.
[12]The Home of the U.S.Government's Open Data[EB/OL].[2015-10-10].https://www.data.gov/.
[13]Openning Up Government UK[EB/OL].[2015-10-10].https://data.gov.uk/data/search.
[14]李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,2012,27(6):647-657.
[15]鄔賀銓.大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J].求是,2013(4):47-49.
[16]趙凡,冷伏海.科技情報(bào)研究與服務(wù)的發(fā)展現(xiàn)狀與趨勢(shì)[J].數(shù)字圖書館論壇,2006(10):52-60.
[17]張曉林.研究圖書館2020:嵌入式協(xié)作化知識(shí)實(shí)驗(yàn)室?[J].中國(guó)圖書館學(xué)報(bào),2012(1):11-20.
[18]劉如,吳晨生,李夢(mèng)輝.大數(shù)據(jù)時(shí)代科技情報(bào)工作的機(jī)遇與變革[J].情報(bào)理論與實(shí)踐,2015,38(6):35-39.
[19]張曉林.走向知識(shí)服務(wù):尋找新世紀(jì)圖書情報(bào)工作的生長(zhǎng)點(diǎn)[J].中國(guó)圖書館學(xué)報(bào),2000,26(5):32-37.
[20]錢力,張曉林,李春旺,等.利用OSGi的科技情報(bào)分析集成服務(wù)架構(gòu)研究與應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2014(12): 62-70.
[21]毛曉燕.大數(shù)據(jù)環(huán)境下圖書館信息服務(wù)走向分析[J].圖書館工作與研究,2014(3):72-75.
[22]Library of Congress,“Update on the Twitter Archive At the Library of Congress”(January)[EB/OL].[2015-11-15].http:// www.loc.gov/today/pr/2013/files/twitter_report_2013jan.pdf.
[23]Zimmer M.The Twitter Archive at the Library of Congress:Challenges for information practice and information policy[J]. First Monday,2015,20(7).
[24]Pulse U N G.Big data for development:Challenges&opportunities[M].NacionesUnidas,Nueva York,mayo,2012.
[25]中科院數(shù)據(jù)云.科學(xué)數(shù)據(jù)與科技文獻(xiàn)集成服務(wù)關(guān)鍵技術(shù)研究與應(yīng)用[EB/OL].[2015-11-10].http://www.csdb.cn/ linkdata/597.jhtml.
[26]裴雷,孫建軍.中國(guó)科技報(bào)告質(zhì)量評(píng)價(jià)體系與推進(jìn)策略[J].情報(bào)學(xué)報(bào),2014(8):813-823.
[27]楊善林,羅賀,丁帥.基于云計(jì)算的多源信息服務(wù)系統(tǒng)研究綜述[J].管理科學(xué)學(xué)報(bào),2012,15(5):83-96.
[28]官思發(fā),朝樂門.大數(shù)據(jù)時(shí)代信息分析的關(guān)鍵問題、挑戰(zhàn)與對(duì)策[J].圖書情報(bào)工作,2015,59(3):12-18,34.
[29]李廣建,化柏林.大數(shù)據(jù)分析與情報(bào)分析關(guān)系辨析[J].中國(guó)圖書館學(xué)報(bào),2014(5):14-22.
[30]Palmer C L.Weak information work and“doable”problems in interdisciplinary science[J].Proceedings of the American Society for Information Science and Technology,2006,43(1):1-16.
[31]Renear A H,Palmer C L.Strategic reading,ontologies,and the future of scientific publishing[J].Science,2009,325(5942):828-832.
[32]李廣建,汪語宇,張麗.數(shù)字資源整合的實(shí)現(xiàn)機(jī)制及關(guān)鍵技術(shù)——對(duì)國(guó)外數(shù)字資源整合系統(tǒng)的實(shí)證研究[J].中國(guó)圖書館學(xué)報(bào),2007,33(2):75-80.
[33]劉向,王偉軍,李延暉.云計(jì)算環(huán)境下信息資源集成與服務(wù)系統(tǒng)的體系架構(gòu)[J].情報(bào)科學(xué),2014,32(6):128-133.
[34]王晴.論科學(xué)數(shù)據(jù)開放共享的運(yùn)行模式,保障機(jī)制及優(yōu)化策略[J].國(guó)家圖書館學(xué)刊,2014,23(1):3-9.
[35]李志芳,鄧仲華.國(guó)內(nèi)開放科學(xué)數(shù)據(jù)的分布及其特點(diǎn)分析[J].情報(bào)科學(xué),2015(3):9.
[36]繆其浩.當(dāng)情報(bào)遇到大數(shù)據(jù)——大數(shù)據(jù)熱點(diǎn)情報(bào)跟蹤的回顧與感悟[J].情報(bào)探索,2013(5):1-3.
[37]Palmer C L,Cragin M H,Hogan T P.Weak information work in scientific discovery[J].Information processing&manage ment,2007,43(3):808-820.
[38]Malpas,Constance.Cloud-sourcing Research Collections:Managing Print in the Mass-digitized Library Environment[R/ OL].[2015-11-15].http://www.oclc.org/research/publications/library/2011/2011-01.pdf.
[39]Susan Kroll and Rick Forsman.A Slice of Research Life:Information Support for Research in the United States[R/OL].[2015-11-15].http://www.oclc.org/research/publications/library/2010/2010-15.pdf.
[40]Lyon Liz.The Informatics Transform:Re-Engineering Libraries for the Data Decade[J].The International Journal of Digital Curation,2012,7(1):126-138.
[41]孫建軍.大數(shù)據(jù)時(shí)代人文社會(huì)科學(xué)如何發(fā)展[N].光明日?qǐng)?bào),2014-07-07(11).
[42]Chen Hsinchun,Chiang Roger-H.-L.,Storey Veda-C..BUSINESS INTELLIGENCE AND ANALYTICS:FROM BIG DATA TO BIG IMPACT[J].MIS Quarterly,2012,36(4):1165-1188.
Challenges and Rethinking of S&T Information Service in Big Data Era
Data processing improvement is one of the main driven forces of S&T information service innovation.It becomes more and more difficult for S&T information institutes to face the challenges of scattered data resources,deepened and widened users'demands,and the complexity of big data analysis technologies.Meanwhile,these challenges make it possible for the innovation and sharp turn to new information service models.This paper analyzed the technical environment of big data,deconstructed the main challenges of intelligence work,and gave several suggestions as countermeasures.
big data;S&T information service;challenges;suggestions
G250.2
ADOI:10.11968/tsyqb.1003-6938.2015123
*本文系國(guó)家社科重大基金項(xiàng)目“面向?qū)W科領(lǐng)域的網(wǎng)絡(luò)資源深度聚合與服務(wù)研究”(編號(hào):12&ZD221)研究成果之一。
2015-12-20;責(zé)任編輯:魏志鵬
裴雷,男,南京大學(xué)信息管理學(xué)院副教授,研究方向:信息政策分析與信息資源管理;孫建軍,男,南京大學(xué)信息管理學(xué)院教授,研究方向:網(wǎng)絡(luò)信息計(jì)量與網(wǎng)絡(luò)信息資源管理;肖璐,女,南京大學(xué)信息管理學(xué)院博士后,研究方向:數(shù)據(jù)挖掘與情報(bào)分析。