王 艷
(天津商業(yè)大學 圖書館,天津 300134)
移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算以及人工智能的快速發(fā)展,致使遍布的智能終端等,不時地記錄著人們產(chǎn)生的“數(shù)據(jù)足跡”,大數(shù)據(jù)已經(jīng)滲透到各行各業(yè),世界正在深刻地發(fā)生著變化。大數(shù)據(jù)作為一種新的戰(zhàn)略資源,對社會經(jīng)濟發(fā)展的貢獻度在不斷提升,已是同人力資源、自然資源等一起構(gòu)成促進國家競爭力的重要資源和手段。在科學研究領(lǐng)域,基于密集數(shù)據(jù)分析已經(jīng)成為繼實驗科學、理論科學和計算科學之后的第四種科學探索方式[1]??蒲袛?shù)據(jù)聯(lián)盟(The Research Data Alliance)成立于2013年,其宗旨是加快國際范圍的數(shù)據(jù)共享和數(shù)據(jù)驅(qū)動研究[2]。截止到2020年,成員多達145個國家的10 000多名。大數(shù)據(jù)環(huán)境下,科學研究的新的知識源是以數(shù)據(jù)驅(qū)動為主的,它為科研工作帶來更多的收益和更大的價值,科研工作者比以往更加依賴信息數(shù)據(jù)的交流、處理和使用。但是科研數(shù)據(jù)呈指數(shù)式發(fā)展和增長,數(shù)據(jù)來源多元化和數(shù)據(jù)格式的多樣化為科研數(shù)據(jù)管理帶來極大挑戰(zhàn)??萍紕?chuàng)新發(fā)展的一個相當重要的手段就是需要探索以大數(shù)據(jù)處理為基礎(chǔ)的動態(tài)情報解決方案,而科技情報服務(wù)工作的重點就是要通過對海量數(shù)據(jù)資源進行數(shù)據(jù)采集、挖掘與分析處理而實現(xiàn)面向用戶的智慧化的服務(wù)。
大數(shù)據(jù)是一個比較籠統(tǒng)又抽象的概念,至今也沒有一個很統(tǒng)一、確切的定義,不同的個人或機構(gòu)會給出不同的定義。國際數(shù)據(jù)公司(IDC)則對大數(shù)據(jù)的定義為:大數(shù)據(jù)一般要涉及兩種或兩種以上的數(shù)據(jù)形式,通過快速抓取、分析和處理技術(shù),從中獲取價值。北京理工大學副教授張華平指出:大數(shù)據(jù)是從變化、多源、大規(guī)模微觀數(shù)據(jù)中,利用信息智能技術(shù)挖掘知識后轉(zhuǎn)化為智慧的一種方法學。不論哪種定義,對于大數(shù)據(jù)的本質(zhì)認識都需要一個不斷深化的過程,但這并不妨礙大數(shù)據(jù)科學的應(yīng)用與發(fā)展。
而科技信息大數(shù)據(jù)是科技活動要素及要素之間相關(guān)關(guān)系組成的多源異構(gòu)大規(guī)模數(shù)據(jù),這些要素包括科技投入、科技主體、科技平臺條件、科技過程、科技交流、科技產(chǎn)出以及科技規(guī)劃與管理,這些要素所反映出的數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系所形成的整個科技活動生態(tài)的相關(guān)數(shù)據(jù)構(gòu)成了科技信息大數(shù)據(jù)的內(nèi)容[2]。北京大學化柏林將科技信息大數(shù)據(jù)主要分為三類,分別是:科技信息的支撐數(shù)據(jù),主要是在數(shù)據(jù)的處理過程中使用到的數(shù)據(jù)資源;科技信息的核心數(shù)據(jù),指主要的科技活動形成的成果數(shù)據(jù);科技信息的外圍數(shù)據(jù),比如科學家的微信、微博以及科研機構(gòu)的微信公眾號、官方微博等多媒體數(shù)據(jù)[3]。
大數(shù)據(jù)的特征主要包括4個層面:數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)種類繁多(Variety)、數(shù)據(jù)價值密度低(Value)、數(shù)據(jù)處理速度快(Velocity),即4“V”特征??萍夹畔⒋髷?shù)據(jù)也同時滿足上述大數(shù)據(jù)特征,此外,也有其自身一些較為突出的特點:比如很強的即時性,在做情報分析時,需要對研究領(lǐng)域最新信息進行跟蹤,并結(jié)合已有信息做深度分析與挖掘;還具有突出的國際性,科學研究以及科學技術(shù)的國內(nèi)外交流、對比分析與比較也已成為科技信息大數(shù)據(jù)的明顯特征;數(shù)據(jù)的保密性與敏感性,科研數(shù)據(jù)包括部分涉密、涉密和不涉密等類型,這也決定了數(shù)據(jù)管理安全的等級。
1.2.1 在數(shù)據(jù)資源以及數(shù)據(jù)處理方面的挑戰(zhàn)。首先,大數(shù)據(jù)背景下,隨著互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、科學研究等不斷產(chǎn)生的數(shù)據(jù)使得數(shù)據(jù)規(guī)模迅猛增長,盡管為科技情報服務(wù)工作提供了海量的數(shù)據(jù)基礎(chǔ),能夠被利用的信息資源比以往更加豐富,但同時也使科技情報服務(wù)機構(gòu)曾經(jīng)的資源獨占優(yōu)勢弱化了。政府數(shù)據(jù)公開、研究機構(gòu)數(shù)據(jù)公開獲取以及數(shù)據(jù)集市商務(wù)模式等的出現(xiàn),加劇了科技情報機構(gòu)作為數(shù)據(jù)樞紐角色的弱化[4]。這也就意味著用戶獲取科技情報的渠道相比以往更多了,對科技情報機構(gòu)信息資源服務(wù)帶來了一定的挑戰(zhàn)。
另外,對于大數(shù)據(jù)時代各種類型數(shù)據(jù)的爆炸式增長,一方面需要更加有效的海量數(shù)據(jù)存儲能力,以應(yīng)對科技情報研究中信息資源的資源存儲和存儲體系的綜合性應(yīng)用;另一方面,就是要對這些“繁星如海”的數(shù)字資源進行快速高效地分析和處理,深入挖掘蘊藏于其中的隱性知識,真正發(fā)現(xiàn)其潛在的有價值的情報。因此,“大數(shù)據(jù)”對科技情報機構(gòu)的物理存儲空間和軟件設(shè)施提出更高的要求,以往的數(shù)據(jù)大多以結(jié)構(gòu)化數(shù)據(jù)為主,一般運用關(guān)系型數(shù)據(jù)庫作為工具,通過計算機設(shè)備和軟件較易進行處理。但是數(shù)據(jù)世界發(fā)展到目前,產(chǎn)生了具有大小、格式、內(nèi)容等結(jié)構(gòu)不同并且不能用一定結(jié)構(gòu)來進行框架等特點的海量非結(jié)構(gòu)化數(shù)據(jù),這就為人們?nèi)绾畏奖?、迅速地處理?shù)據(jù)帶來很大的挑戰(zhàn)。
1.2.2 在用戶需求方面的挑戰(zhàn)。大數(shù)據(jù)時代下,知識的產(chǎn)生、運用與存儲均發(fā)生了非常大的變化,科學研究的學科跨度越來越大,越來越多的知識以數(shù)字形式存在。用戶信息行為與科學研究環(huán)境也出現(xiàn)很多新的變化,傳統(tǒng)的科技情報服務(wù)內(nèi)容與模式已經(jīng)不能夠滿足用戶多元化的需求,用戶獲取科技情報的渠道和方式越來越多樣化。百度搜索、Google搜索等各種各樣信息獲取途徑涌現(xiàn)在互聯(lián)網(wǎng)上,并且可以對信息進行分析、組織、重組和推送,科技情報機構(gòu)已不再是用戶取得情報的主要途徑。用戶不再滿足于以往經(jīng)過簡單加工、處理過的以文獻資源為依托的信息服務(wù),而是轉(zhuǎn)向?qū)τ谛畔?shù)據(jù)的深入分析。這主要包括數(shù)據(jù)資源快速評價推薦、知識單元的抽取和分析、細粒度數(shù)據(jù)分析以及可視化、計算化的數(shù)據(jù)呈現(xiàn)與分析等[4]。還包括情景服務(wù)和創(chuàng)新服務(wù)以及其他數(shù)據(jù)融合服務(wù),用戶需求是朝著信息多領(lǐng)域發(fā)展的,這就需要科技情報服務(wù)做出巨大改變,并迎接新的挑戰(zhàn)。
在大數(shù)據(jù)時代,科學數(shù)據(jù)尤其具有明顯的潛在價值和可開發(fā)價值,并在廣泛應(yīng)用過程中增值,是信息時代影響面廣、傳播速度快、開發(fā)利用潛力巨大的科技資源,是支撐科技創(chuàng)新的重要基石,是提升科技水平和綜合國力的重要戰(zhàn)略資源和保障。因此,數(shù)據(jù)資源建設(shè),是新形勢下科技情報服務(wù)工作發(fā)展不可或缺的重要部分。
一方面擴展多源科技情報資源的采集與聚合。大數(shù)據(jù)背景下的數(shù)據(jù)的重要特征之一,是數(shù)據(jù)來源的種類繁雜即4V中的“Variety”,當然,科技信息大數(shù)據(jù)也不例外。某些科學數(shù)據(jù)涉及上百個參數(shù),其復(fù)雜性不僅體現(xiàn)在數(shù)據(jù)樣本本身,更體現(xiàn)在多源異構(gòu)、多實體和多空間之間的交互動態(tài)性。因此,多種來源結(jié)構(gòu)異質(zhì)的數(shù)據(jù)需要被融合,并集成多種數(shù)據(jù)分析方法,經(jīng)由融合多源數(shù)據(jù)挖掘資源之間隱性關(guān)聯(lián)[5]。而通過把不同渠道、利用多種采集方式獲取的具有不同數(shù)據(jù)結(jié)構(gòu)的信息匯聚到一起,形成具有統(tǒng)一格式、面向多種應(yīng)用的數(shù)據(jù)集合,這一過程稱為多源數(shù)據(jù)融合[6]。同時需注意的重要問題是,所收集的數(shù)據(jù)應(yīng)是從分析目標出發(fā),正確地采集高質(zhì)量且服務(wù)于既定分析目標的數(shù)據(jù),經(jīng)過進一步的數(shù)據(jù)處理與加工以滿足用戶日益增長的個性化需求。另一方面,加強科學數(shù)據(jù)的共享服務(wù)。新技術(shù)的快速發(fā)展驅(qū)使科學數(shù)據(jù)急劇增加,未來的科研活動將是以科學數(shù)據(jù)驅(qū)動的科研活動。而科學數(shù)據(jù)的收集與整合需要耗費大量的人力、物力和時間才能完成,因此,科學數(shù)據(jù)的共享服務(wù)對研究人員、研究機構(gòu)都具有重要意義??茖W數(shù)據(jù)的共享服務(wù)可以最大化利用現(xiàn)有科學數(shù)據(jù),也即使科技信息資源的使用率提高,實現(xiàn)知識快速增長,從而有利于科學研究的成果產(chǎn)出。
互聯(lián)網(wǎng)時代,用戶對信息處理的時效性要求越來越高。隨著科學技術(shù)的發(fā)展,大量產(chǎn)生的各類型的數(shù)據(jù)呈指數(shù)增長,逐漸超出了傳統(tǒng)關(guān)系型數(shù)據(jù)庫處理的能力,數(shù)據(jù)中存在的關(guān)系和規(guī)則難以被發(fā)現(xiàn)。面對多樣的、龐雜的數(shù)據(jù)源和數(shù)據(jù)量以及大量冗余無關(guān)的數(shù)據(jù),需要搭建通用的大數(shù)據(jù)實時處理技術(shù)平臺,建立數(shù)據(jù)篩選機制,選擇適當?shù)臄?shù)據(jù)工具過濾掉大量無用數(shù)據(jù),完成有效數(shù)據(jù)的篩選,并根據(jù)情報問題的特性,選擇適合的大數(shù)據(jù)實時分析處理模式,從而得到有效而準確的數(shù)據(jù)。
在大數(shù)據(jù)環(huán)境下,隨著信息技術(shù)的迅猛發(fā)展,使得各類科研要素,日益走向信息化和數(shù)字化,同時也使得用戶獲取知識與數(shù)據(jù)的方式也發(fā)生了巨大變化。從科技情報服務(wù)的角度而言,只有通過對用戶需求的深入了解和把握,才能滿足其需求,才能真正體現(xiàn)情報服務(wù)的價值和作用??萍记閳蠓?wù)工作應(yīng)重視這一方面,把用戶需求作為科技情報服務(wù)和產(chǎn)品的核心關(guān)注點,明確用戶使用情報產(chǎn)品和服務(wù)的各類場景,準確、及時地分析把握用戶需求,才能在最大限度上發(fā)揮科技情報的價值并獲得用戶信賴[7]。科技情報服務(wù)內(nèi)容要從傳統(tǒng)的文獻信息服務(wù)轉(zhuǎn)向數(shù)字知識服務(wù),提供更多的情報分析與知識發(fā)現(xiàn),服務(wù)程度不斷增強,重視個性化服務(wù)和基于科學研究的深層次服務(wù)。
未來的科研活動是以科學數(shù)據(jù)驅(qū)動為主的科研活動,新技術(shù)的迅速發(fā)展驅(qū)使科學數(shù)據(jù)激增??萍记閳蠓?wù)需要利用網(wǎng)絡(luò)信息技術(shù)、智能運算等技術(shù)將科學數(shù)據(jù)資源和用戶緊密聯(lián)系起來,為用戶提供一種集成互動性、多元性的科學數(shù)據(jù)服務(wù)窗口??梢允窃诰€數(shù)據(jù)服務(wù),基于各領(lǐng)域科學數(shù)據(jù)平臺門戶網(wǎng)站,提供科學書籍資源在線瀏覽、檢索和下載等一站式服務(wù)。也可以為用戶提供專題數(shù)據(jù)服務(wù),為了滿足用戶日益增長的個性化需求,在專題細分用戶需求分析的基礎(chǔ)上,根據(jù)具體的應(yīng)用領(lǐng)域,有針對性地建立專題數(shù)據(jù)庫或數(shù)據(jù)集,為細分用戶提供個性化的專題數(shù)據(jù)服務(wù)。此外,還可以為用戶提供科學數(shù)據(jù)的定制服務(wù),用戶可以通過電子郵件、電話、表單提交或?qū)嵉氐皆L等方式向情報機構(gòu)定制數(shù)據(jù)的技術(shù)指標及數(shù)據(jù)類別。這一服務(wù)可以根據(jù)用戶需求靈活地配置科學數(shù)據(jù),更加有針對性和匹配性,使科學數(shù)據(jù)的使用率得到進一步提高。
面對信息技術(shù)的迅速發(fā)展,科技情報服務(wù)工作需更進一步地發(fā)展與創(chuàng)新。它不僅需要有效組織數(shù)字資源環(huán)境、靈活組織各類信息資源體系,進行知識挖掘、計算、試驗與評估,而且需要情報人員對信息資源結(jié)構(gòu)與規(guī)律的深度理解,熟練應(yīng)用數(shù)據(jù)挖掘與分析工具,構(gòu)建用戶畫像,形成數(shù)據(jù)驅(qū)動下,以用戶需求為主導(dǎo)的智慧化科技情報服務(wù)模式。真正智慧情報是智能化技術(shù)與情報專家的智慧的結(jié)合。智慧化科技情報服務(wù)強調(diào)以人為本,強調(diào)從科研用戶的需求出發(fā),進行服務(wù)內(nèi)容與服務(wù)方式的規(guī)劃調(diào)整以及設(shè)計,借助資源、工具、方法、專業(yè)知識等軟硬件設(shè)施,提供高質(zhì)量的科技情報服務(wù)。智慧化科技情報服務(wù)具有知識共享化、需求個性化、服務(wù)精準化等特征。在基于本體數(shù)據(jù)的科技情報用戶行為模型構(gòu)建(行為本體數(shù)據(jù)庫構(gòu)建)基礎(chǔ)上,數(shù)據(jù)驅(qū)動科技情報智慧服務(wù)整體方案需要進一步從本體數(shù)據(jù)庫構(gòu)建、用戶偏好與需求挖掘以及基于本體的科技情報智慧服務(wù)推送三方面實現(xiàn)[8]。
綜合應(yīng)用大數(shù)據(jù)和云計算技術(shù),堅持關(guān)聯(lián)性、連續(xù)性和完備性等原則,構(gòu)建全方位、立體化的服務(wù)系統(tǒng),在更大的數(shù)據(jù)環(huán)境中兼容更廣泛的異構(gòu)數(shù)據(jù)來源,在技術(shù)上實現(xiàn)用戶需求即時動態(tài)和全程服務(wù),及時收集完整數(shù)據(jù)信息,進行數(shù)據(jù)不間斷的連續(xù)收集,解決用戶實際問題[9]。加強移動終端的多接入方式建設(shè),如利用微信公眾號開發(fā)微信服務(wù)、移動App新平臺等,以方便用戶能隨時隨地獲取其所需情報服務(wù)。
在大數(shù)據(jù)時代大潮下,隨著互聯(lián)網(wǎng)、云計算、智能計算等技術(shù)的快速發(fā)展,給科技情報服務(wù)工作的服務(wù)內(nèi)容、服務(wù)模式、發(fā)展方式帶來了前所未有的挑戰(zhàn),同時,科研數(shù)據(jù)的變化引發(fā)科研環(huán)境的變化,使得用戶對科技情報服務(wù)的需求變得專業(yè)化、個性化和多元化。為此,科技情報服務(wù)工作應(yīng)在傳統(tǒng)服務(wù)基礎(chǔ)之上另辟新徑,抓住大數(shù)據(jù)時代的機遇和挑戰(zhàn),在服務(wù)空間、服務(wù)手段、服務(wù)方式與內(nèi)容、服務(wù)效果、用戶服務(wù)等方面采取有效措施,突破傳統(tǒng),與時俱進,更進一步、深層次地推進科技情報服務(wù)工作有效發(fā)展。