• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)時代科技情報服務(wù)的挑戰(zhàn)與思考

      2015-05-30 10:48:04裴雷孫建軍肖璐
      圖書與情報 2015年6期
      關(guān)鍵詞:對策建議挑戰(zhàn)大數(shù)據(jù)

      裴雷 孫建軍 肖璐

      摘 要:數(shù)據(jù)處理是科技情報機構(gòu)服務(wù)創(chuàng)新的動力。大數(shù)據(jù)的離散分布和開放可得、用戶信息需求向深度廣度發(fā)展以及資源服務(wù)一體化,弱化了科技情報機構(gòu)的資源優(yōu)勢,提高了信息分析的難度,給科技情報機構(gòu)的服務(wù)能力提出了挑戰(zhàn)。同時,也為大規(guī)模資源保障體系和信息服務(wù)模式的創(chuàng)新提供了可能。文章從大數(shù)據(jù)科技環(huán)境的時代特征著手,分析了大數(shù)據(jù)環(huán)境對科技情報工作的主要挑戰(zhàn),并結(jié)合當(dāng)前實踐提出了相應(yīng)的對策建議。

      關(guān)鍵詞:大數(shù)據(jù);科技情報工作;挑戰(zhàn);對策建議

      中圖分類號: G250.2 ?文獻標識碼: A ? DOI: 10.11968/tsyqb.1003-6938.2015123

      Challenges and Rethinking of S&T Information Service in Big Data Era

      Abstract Data processing improvement is one of the main driven forces of S&T information service innovation. It becomes more and more difficult for S&T information institutes to face the challenges of scattered data resources, deepened and widened users' demands, and the complexity of big data analysis technologies. Meanwhile, these challenges make it possible for the innovation and sharp turn to new information service models. This paper analyzed the technical environment of big data, deconstructed the main challenges of intelligence work, and gave several suggestions as countermeasures.

      Key words big data; S&T information service; challenges; suggestions

      科技情報服務(wù)領(lǐng)域普遍將當(dāng)前面臨的海量數(shù)據(jù)處理和服務(wù)能力的矛盾,視為泛在信息環(huán)境所涌現(xiàn)出的、特有的“大數(shù)據(jù)”問題,并產(chǎn)生了隱隱的“大數(shù)據(jù)憂慮”。隨著國家大數(shù)據(jù)戰(zhàn)略的提出,各界對數(shù)據(jù)問題的關(guān)注和對數(shù)據(jù)服務(wù)的需求激增,學(xué)術(shù)界和科技情報服務(wù)實踐中對“大數(shù)據(jù)”應(yīng)用也呈現(xiàn)出多樣化的解讀,比如王飛躍提出的“基于ACP方法的開源情報解析理論框架”和“四熵服務(wù)”理念[1],李廣建等提出的情報研究五個轉(zhuǎn)變[2],賀德方、喬曉東、曾建勛等提出的“事實型數(shù)據(jù)+專用工具+專家智慧”的FAST4Wisdom服務(wù)理念[3-4]和情報學(xué)四維度拓展變革[5],以及楊善林等提出的情報內(nèi)涵轉(zhuǎn)變[6]等。因此,消解科技情報機構(gòu)的大數(shù)據(jù)憂慮,洞察科技情報大數(shù)據(jù)發(fā)展特征與發(fā)展趨勢,是當(dāng)前科技情報實踐領(lǐng)域的當(dāng)務(wù)之急。

      1 科技數(shù)據(jù)挑戰(zhàn)與科技情報服務(wù)的發(fā)展

      科技情報服務(wù)領(lǐng)域大數(shù)據(jù)問題,實質(zhì)是全球數(shù)據(jù)自發(fā)式、爆發(fā)式增長以及數(shù)據(jù)處理高效率要求的不對稱體現(xiàn)[7]。而科技情報工作很早就關(guān)注到知識增長趨勢及其在管理和服務(wù)領(lǐng)域帶來的信息爆炸與信息過載問題[8]??萍记閳蠊ぷ鲝恼Q生之初起就一直面臨數(shù)據(jù)或信息資源的加工處理和分析利用的挑戰(zhàn),并在不同發(fā)展階段呈現(xiàn)出不同的問題表征。在某種意義上,科技情報機構(gòu)就是為解決“大數(shù)據(jù)”問題而誕生的專門機構(gòu),而數(shù)據(jù)挑戰(zhàn)也成為科技情報服務(wù)創(chuàng)新的內(nèi)在動力。

      1.1 科技情報初創(chuàng)時期的數(shù)據(jù)挑戰(zhàn)與服務(wù)創(chuàng)新

      1944年,美國圖書館學(xué)家F.Rider關(guān)注到圖書館館藏大約每16年增長1倍,并以此估計耶魯大學(xué)圖書館將在2040年擁有超過2億冊圖書,大約2PB的信息存儲,而這些圖書將占據(jù)6000英里長的書架,至少需要6000名圖書館員完成編目和維護工作[9]。以當(dāng)時的數(shù)據(jù)處理條件而言,2億冊圖書的存儲空間和集中管理維護就是可能的“大數(shù)據(jù)”問題。與之類似,戰(zhàn)后美國政府收繳的40噸德國和日本技術(shù)資料的處理,也超出了當(dāng)時的文獻處理能力??萍记閳蠼缣岢隽恕靶畔⒈ā钡睦砟?,并主張信息分析和處理工作的專門化和體系化,也視之為科技情報工作的開端。依托業(yè)務(wù)部門進行體系化的樹狀業(yè)務(wù)分解和專門信息的保存、交流和利用,構(gòu)建跨部門協(xié)作保障體系,極大紓解了信息總量增長困難,并通過在1950年代引入縮微技術(shù)和數(shù)字存儲技術(shù)進一步緩解了信息存儲空間問題。

      1.2 數(shù)字資源建設(shè)時期的數(shù)據(jù)挑戰(zhàn)與服務(wù)創(chuàng)新

      20世紀60年代數(shù)據(jù)存儲技術(shù)的引入有效緩解了數(shù)據(jù)存儲和數(shù)據(jù)集中管理問題,但對原始數(shù)據(jù)的加工處理和分析技術(shù)短板卻再次成為“大數(shù)據(jù)”問題。例如20世紀50年代美國國家安全局雇傭了超過12000名安全技術(shù)人員來處理每年偵聽或加密的17000卷磁帶[10];1965年,美國國家數(shù)據(jù)中心的600個數(shù)據(jù)集存儲了1億張打孔卡片和3萬份存儲磁帶,但對其擁有的1.75億枚指紋記錄、每年7.42億份納稅記錄的分析束手無策[11]。因此,1965年Dunn報告認為,“面臨的最大問題就是不知如何發(fā)現(xiàn)不同機構(gòu)、不同數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)”[11],即數(shù)據(jù)分析的“大數(shù)據(jù)問題”。Kaysen委員會提出的集中存儲和數(shù)據(jù)共享方案,推動數(shù)據(jù)庫技術(shù)、信息檢索技術(shù)和數(shù)據(jù)科學(xué)的產(chǎn)生。這一時期,科技情報服務(wù)機構(gòu)也引入了數(shù)字存儲和數(shù)據(jù)庫管理體系,并引入了信息檢索技術(shù),比如1966年《化學(xué)文摘(CA)》引入的自動處理系統(tǒng)和計算機可讀數(shù)據(jù)庫、1967年Roger Summit 主持開發(fā)的Dialog在線數(shù)據(jù)訪問??萍记閳箢I(lǐng)域產(chǎn)生了以數(shù)據(jù)加工和信息系統(tǒng)管理為特征的海量科技情報服務(wù),出現(xiàn)了從文獻保障服務(wù)向以數(shù)據(jù)庫、信息檢索為代表的技術(shù)服務(wù)的融合,提升了科技情報處理的數(shù)據(jù)數(shù)量和處理速度。

      1.3 數(shù)據(jù)分析和處理時期的數(shù)據(jù)挑戰(zhàn)與服務(wù)創(chuàng)新

      20世紀80年代數(shù)據(jù)庫技術(shù)日益成熟,以數(shù)據(jù)挖掘和高階數(shù)據(jù)分析為代表的數(shù)據(jù)分析和處理技術(shù)得到廣泛應(yīng)用,數(shù)據(jù)分析進入智能化階段。但這一時期的數(shù)據(jù)分析主要局限于封閉計算環(huán)境的中央數(shù)據(jù)存儲、局限于結(jié)構(gòu)化數(shù)據(jù)的分析和處理。因而,在20世紀80年代面臨的新的“大數(shù)據(jù)”問題是海量外部數(shù)據(jù)的采集、加工和分析,以及如何降低數(shù)據(jù)分析成本和重復(fù)建設(shè)的“數(shù)據(jù)黑洞”,因而以競爭情報、趨勢跟蹤等定向或定題的專項信息分析為代表的創(chuàng)新服務(wù)得以引入。科技情報服務(wù)機構(gòu)完成了從信息數(shù)據(jù)產(chǎn)品向情報產(chǎn)品的升級,具備了情報監(jiān)測和智能分析功能,光盤數(shù)據(jù)庫和應(yīng)用軟件產(chǎn)品得到推廣,使得信息分析和預(yù)測水平有了大幅提升,比如1987年發(fā)行的Medline光盤產(chǎn)品、1988年的科技信息網(wǎng)絡(luò)STN Express■軟件以及90年代初期的大量面向個人計算機的數(shù)據(jù)應(yīng)用軟件。

      1.4 開放網(wǎng)絡(luò)和自動加工處理時期的數(shù)據(jù)挑戰(zhàn)與服務(wù)創(chuàng)新

      20世紀90年代以來網(wǎng)絡(luò)技術(shù)、個人數(shù)據(jù)終端普遍采納,數(shù)據(jù)存儲成本快速下降,科技信息資源的分布發(fā)生了巨大變化。首先,以互聯(lián)網(wǎng)企業(yè)和技術(shù)服務(wù)企業(yè)為代表的新生業(yè)態(tài)迅速崛起,以圖書檔案和科技情報機構(gòu)為中心的科技信息服務(wù)體系受到挑戰(zhàn)或顛覆;其次,數(shù)據(jù)可得性大大增加,數(shù)據(jù)規(guī)模和數(shù)據(jù)多樣性大大增加,以搜索引擎為代表的數(shù)據(jù)自動抓取、分析和推送技術(shù)極大增強了數(shù)據(jù)分析和處理能力,數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù)得到廣泛推廣應(yīng)用;再次,信息服務(wù)提供商更加積極地關(guān)注用戶個性需求和反饋,對用戶交互、行為數(shù)據(jù)和個性化推薦更加關(guān)注。這一時期,“總量巨大(Volume)”、“類型多樣(Variety)”的兩個“V”的問題已經(jīng)凸顯,“大數(shù)據(jù)”問題初現(xiàn)端倪。相對于互聯(lián)網(wǎng)企業(yè)而言,傳統(tǒng)科技情報服務(wù)機構(gòu)逐步通過兼并聯(lián)合、擴展數(shù)據(jù)來源,提升數(shù)據(jù)應(yīng)用能力予以應(yīng)對。這一時期,面向網(wǎng)絡(luò)的數(shù)據(jù)開放服務(wù)、數(shù)據(jù)集成與融合技術(shù)、數(shù)據(jù)應(yīng)用分析工具與“數(shù)據(jù)+應(yīng)用”的深度服務(wù)模式快速發(fā)展。比如SciFinder、SciVal、Scopus等數(shù)據(jù)分析工具的開發(fā)和 WorldCat全球協(xié)作機制和協(xié)同服務(wù)模式的發(fā)展。

      2 大數(shù)據(jù)時代科技情報工作面臨的主要挑戰(zhàn)

      大數(shù)據(jù)的4V特征,即超大規(guī)模和快速增長的數(shù)據(jù)體量(Volume)、異構(gòu)和多樣性的數(shù)據(jù)結(jié)構(gòu)(Variety)、大量不相關(guān)信息的低價值密度(Value)和大量實時分析應(yīng)用工具的使用(Velocity),是數(shù)據(jù)分析和利用的主要障礙,在科技情報領(lǐng)域也同樣如此。此外,從整個社會和用戶需求角度看,科技情報機構(gòu)的資源角色和地位進一步弱化,用戶需求向更深更廣信息分析領(lǐng)域拓展,情報服務(wù)與創(chuàng)新服務(wù)的融合以及資源-服務(wù)的一體化對科技情報機構(gòu)的服務(wù)能力也提出了更高挑戰(zhàn)。

      2.1 科技情報服務(wù)機構(gòu)的資源優(yōu)勢弱化

      在數(shù)據(jù)開放趨勢下,可得可用的信息資源更加豐富,科技情報服務(wù)機構(gòu)資源獨占優(yōu)勢不復(fù)存在。以往科技情報服務(wù)過于依賴其資源優(yōu)勢,而對信息加工、信息分析的優(yōu)勢沒用充分重視,存在短期的“轉(zhuǎn)型瓶頸”。而政府?dāng)?shù)據(jù)公開、研究機構(gòu)數(shù)據(jù)公開獲取以及數(shù)據(jù)集市商務(wù)模式(GitHub)的出現(xiàn),加劇了科技情報機構(gòu)作為數(shù)據(jù)樞紐角色的弱化。以政府?dāng)?shù)據(jù)公開為例,美國政府目前可提供192440個數(shù)據(jù)集[12],英國政府可提供1353個部門和機構(gòu)開放的20688個數(shù)據(jù)集、386個APP應(yīng)用[13]。數(shù)據(jù)開放可得,意味著業(yè)務(wù)機構(gòu)可直接跳過科技情報服務(wù)中介而直接存取和利用信息,對科技情報機構(gòu)的資源業(yè)務(wù)服務(wù)帶來了挑戰(zhàn)。如美國NTIS提供的科技報告服務(wù),因政府部門科技報告的免費公開,在1999年以后連續(xù)多年虧損。因而,單純提供內(nèi)容獲取或計量的服務(wù)模式并不能完全支持業(yè)務(wù)決策的需要。

      2.2 科技情報服務(wù)的用戶需求轉(zhuǎn)變

      大數(shù)據(jù)環(huán)境下,用戶不再滿足于信息資源的整序獲取,不再滿足于以文獻單元為主要特征的加工整理和存取分析,而是對信息分析深度和廣度提出了更高要求:在深度上突出碎片化信息加工和計算化服務(wù)[14-15],包括數(shù)據(jù)資源快速評價推薦、知識單元的抽取和分析、多維數(shù)據(jù)融合、細粒度數(shù)據(jù)分析以及可視化、計算化的數(shù)據(jù)呈現(xiàn)與分析,力爭將大數(shù)據(jù)去冗分類、去粗存精、去偽存真;在廣度上以全局性和宏觀戰(zhàn)略性情報服務(wù)為特征[16],包括動態(tài)監(jiān)測服務(wù)、態(tài)勢分析研究服務(wù)和前瞻預(yù)測研究服務(wù)三種類型,需要對多源數(shù)據(jù)、異構(gòu)數(shù)據(jù)、隨機動態(tài)數(shù)據(jù)進行收割、融合、跟蹤和監(jiān)控。同時,用戶數(shù)據(jù)或信息資源利用也不同于以往數(shù)據(jù)閱讀、數(shù)據(jù)參考和數(shù)據(jù)統(tǒng)計等淺層利用,而是在決策分析和學(xué)術(shù)研究中尋求高階數(shù)據(jù)分析、尋求多維數(shù)據(jù)的降維理解、尋求專家智慧的介入矯正、尋求從數(shù)據(jù)分析向情報解析的升級。因此,科技情報服務(wù)不可避免地將由傳統(tǒng)的依托資源數(shù)據(jù)的數(shù)據(jù)分析服務(wù)向多源多方協(xié)作的情報解析和計算分析服務(wù)轉(zhuǎn)變,是對現(xiàn)有科技情報機構(gòu)的分析技術(shù)能力的挑戰(zhàn)。

      2.3 資源服務(wù)一體化下的服務(wù)能力不足

      科技情報機構(gòu)過去一直強調(diào)資源保障能力,服務(wù)協(xié)作能力并未上升到戰(zhàn)略地位。當(dāng)大數(shù)據(jù)開放環(huán)境使資源獲取相對容易時,反而發(fā)現(xiàn)“要讀的太多,要挖掘、發(fā)現(xiàn)和分析的隱性交織的內(nèi)容太多太復(fù)雜,要掌握的方法、技術(shù)與工具太多太復(fù)雜,有效分析和利用信息成為一個日益復(fù)雜、負擔(dān)沉重的問題”[17]。對科技情報機構(gòu)而言,提出了兩個要求:第一,要求全面介入,無處不在,并注重分析方法和分析技術(shù)的全面協(xié)助;第二,要求在科技情報服務(wù)流程中更早更深地介入用戶服務(wù),提供更加精細化的服務(wù)內(nèi)容,并提供更好的內(nèi)容質(zhì)量控制水平。

      相比于傳統(tǒng)的委托服務(wù)模式,新的科技情報服務(wù)團隊將由行業(yè)專家、數(shù)據(jù)分析員、情報分析員 3 個角色構(gòu)成[18],并在選題階段更早介入服務(wù)流程,同時融合數(shù)據(jù)服務(wù)、信息服務(wù)和知識服務(wù),提供資源與服務(wù)一體化的服務(wù)體系(見圖1)。依托大數(shù)據(jù)的科技情報服務(wù)要求與創(chuàng)新主體高度融合,以用戶解決問題為中心,融入解決問題的過程,支持對問題解決方案的探索、構(gòu)建和測試等服務(wù)機制[19],從選題確立到任務(wù)分解、任務(wù)實施、數(shù)據(jù)解析,均需雙方和行業(yè)專家頻繁交互與協(xié)作,以應(yīng)對分析需求的易變性和不可預(yù)見性[20-21]。在服務(wù)過程中,大數(shù)據(jù)分析和可視化技術(shù)提升了用戶對數(shù)據(jù)的認知和理解,也可能將“情報服務(wù)”提升到知識協(xié)作、協(xié)同創(chuàng)新的高度,這也意味著科技情報服務(wù)人員的能力要求更高,可能需身兼行業(yè)專家、數(shù)據(jù)分析員、情報分析員中的多種角色。

      3 大數(shù)據(jù)時代科技情報工作的資源保障體系建設(shè)

      資源保障是信息服務(wù)的基礎(chǔ),建立全面、高質(zhì)、開放的可得資源體系仍是科技情報工作的首要任務(wù)。

      3.1 建立信息資源保障的大數(shù)據(jù)理念

      大數(shù)據(jù)環(huán)境下,信息資源保障的內(nèi)涵有所不同:第一,信息資源利用形式更開放快捷,大量信息資源來不及建立知識產(chǎn)權(quán)屏障就已過時,使得信息資源的價值實現(xiàn)更依賴資源利用和分析的溢出效應(yīng),而非知識產(chǎn)權(quán)變現(xiàn);第二,信息資源的邊界越來越模糊,以往受限于機構(gòu)邊界和知識產(chǎn)權(quán)保護而構(gòu)建的信息資源保障“優(yōu)選精選”理念,正面臨低廉存儲、海量來源的資源體系沖擊;第三,信息資源的表現(xiàn)形式更多樣,質(zhì)量參差不齊,直接利用困難,資源保障體系的重心逐漸由收藏保障向利用保障轉(zhuǎn)移;第四,隨著獨有信息資源優(yōu)勢的弱化,信息資源保障的開放性和協(xié)作利用將更為突出。

      3.2 擴展多元數(shù)據(jù)來源和新型數(shù)據(jù)存儲

      科技信息機構(gòu)應(yīng)擴展資源的廣度,關(guān)注片段信息或社會網(wǎng)絡(luò)數(shù)據(jù)等低價值密度信息資源或新型信息資源的采集和保存[2]。在具體的采集和開發(fā)過程中,有兩種典型做法:一種主張搶救性保存,因擔(dān)心數(shù)字信息資源的易逝性,如不加以保存以后將無法利用,因而突出優(yōu)先存儲,逐步利用的原則,并不一定要優(yōu)先設(shè)定明確和具體的應(yīng)用目標。典型的是美國國會圖書館啟動的網(wǎng)絡(luò)存檔項目,其已采集網(wǎng)絡(luò)數(shù)據(jù)500TB以上,尤其是2010年啟動的Twitter存檔的特種館藏項目已存儲2006~2010年的1700億條133.2TB的Twitter記錄[22],并以每天5億條的規(guī)??焖僭鲩L。目前雖然尚未完全開放服務(wù)并且也面臨數(shù)據(jù)解析整理的技術(shù)困難,但歷史學(xué)和人文學(xué)者均期待其資源的開放利用[23]。一種主張縱向驅(qū)動和片段利用驅(qū)動,突出以若干利用和主題推動項目的存儲,最終實現(xiàn)數(shù)據(jù)匯集和大數(shù)據(jù)。如聯(lián)合國在雅加達設(shè)立全球脈動(Globle Pulse)大數(shù)據(jù)利用[24]和大多數(shù)的政府開放數(shù)據(jù)集建設(shè)都采用縱向驅(qū)動方式。

      3.3 推動深層數(shù)據(jù)存儲和核心資源質(zhì)量

      相對于文獻資源、規(guī)范元數(shù)據(jù)等資源形式,推動深層數(shù)據(jù)類型的采集和保存將有效提升科技情報機構(gòu)的信息分析能力。以往科技情報機構(gòu)的資源主體是文獻信息、描述信息、事實信息以及部分淺層知識資源,現(xiàn)在需要進一步加強內(nèi)容實體信息、科學(xué)數(shù)據(jù)、深層知識資源以及用戶行為信息的保存,繼續(xù)發(fā)展和完善知識庫、本體庫、情景庫、資料庫、實體庫等新型數(shù)據(jù)庫類型[16]。比如中信所在專利分析中對人名、機構(gòu)名和技術(shù)術(shù)語、領(lǐng)域深層主題及其相互關(guān)系的構(gòu)建[3],中科院科學(xué)數(shù)據(jù)中心對科學(xué)數(shù)據(jù)與科技文獻集成服務(wù)關(guān)鍵技術(shù)研究與應(yīng)用[25]等。

      3.4 科學(xué)規(guī)劃參考資源架構(gòu)體系

      大數(shù)據(jù)環(huán)境下,大多數(shù)科技情報機構(gòu)都需要考慮自建數(shù)據(jù)源、開放數(shù)據(jù)源與商業(yè)數(shù)據(jù)源的混搭利用。美國中央情報局的首席技術(shù)官 Gus Hunter在推進OpenStack項目時,提出了參考資源架構(gòu)(Reference Architecture)的規(guī)劃理念。相對于規(guī)范的學(xué)術(shù)資源和科技信息,大數(shù)據(jù)更零散、更原始、更復(fù)雜,巨量、快速和多樣的數(shù)據(jù)存在明顯的碎片化特征,并不能直接利用[2]。因而,科技情報機構(gòu)需要建立更加具有層次性、協(xié)調(diào)性的數(shù)據(jù)來源和數(shù)據(jù)參考規(guī)劃,突出海量數(shù)據(jù)支撐與核心資源質(zhì)量控制相結(jié)合的資源保障策略。一方面需要加強對科技信息獲取渠道及其內(nèi)容的質(zhì)量評價,構(gòu)建多維度科技信息質(zhì)量評價指標體系和綜合運用多種質(zhì)量控制策略[26];一方面需要加強對信息資源的深度加工與科學(xué)解析,提升數(shù)據(jù)的可理解性和可用性。

      3.5 加強多源科技情報資源的集成與聚合

      大數(shù)據(jù)環(huán)境下,科技信息服務(wù)需要面對方法、工具、數(shù)據(jù)的離散化分布[3],需要融合多種來源結(jié)構(gòu)異質(zhì)的數(shù)據(jù),集成多種數(shù)據(jù)分析方法,并且通過融合多源數(shù)據(jù)發(fā)現(xiàn)資源之間潛在關(guān)聯(lián)[27]。關(guān)聯(lián)性或弱信息的挖掘,被認為是大數(shù)據(jù)服務(wù)區(qū)別以往科技情報服務(wù)的典型差異[28-29]。而通過把不同渠道、利用多種采集方式獲取的具有不同數(shù)據(jù)結(jié)構(gòu)的信息匯聚到一起,形成具有統(tǒng)一格式、面向多種應(yīng)用的數(shù)據(jù)集合,這一過程稱為多源數(shù)據(jù)融合[2]。相對于以往圖書情報機構(gòu)基于目錄的OPAC、基于元數(shù)據(jù)收割協(xié)議的數(shù)字館藏、基于協(xié)議標準的跨庫檢索等聚合方法,當(dāng)前的數(shù)字資源聚合更注重內(nèi)容層面的知識發(fā)現(xiàn),尤其是數(shù)據(jù)驅(qū)動的弱信息關(guān)注[30]以及注重內(nèi)容片斷進行搜索、過濾、瀏覽、鏈接、注釋和分析的戰(zhàn)略性閱讀[31]。

      資源融合過程也是數(shù)據(jù)處理和分析技術(shù)的應(yīng)用過程。李廣建等統(tǒng)計了國際上143個數(shù)字資源整合項目[32],歸納出數(shù)據(jù)倉庫、Mediator/ Wrapper(中介器或封裝器)、Agent和P2P等四種整合機制,而且約占85%的項目或系統(tǒng)采用前兩種方法,其中涉及海量存儲技術(shù)、ETL技術(shù)、信息源監(jiān)控與更新技術(shù)、信息源選擇技術(shù)、信息抽取技術(shù)、查詢處理技術(shù)、結(jié)果整合技術(shù)、語義整合技術(shù)等。尤其針對云計算環(huán)境下多源、異構(gòu)、大規(guī)模、動態(tài)信息資源特征和人們?nèi)找姘l(fā)展的個性化信息服務(wù)需求,基于語義的本體資源聚合、分布式協(xié)作資源聚合成為當(dāng)前關(guān)注的焦點[33]。

      3.6 積極推動資源開放獲取與協(xié)作

      大數(shù)據(jù)環(huán)境下,科技情報機構(gòu)還應(yīng)充分利用開放數(shù)據(jù),加強機構(gòu)間的協(xié)作共享。具體需要從業(yè)務(wù)模式和技術(shù)手段層面加以規(guī)劃,改變傳統(tǒng)科技情報獲取方法,降低用戶情報獲取難度,促進資源有效利用。從業(yè)務(wù)模式上看,要加大政府開放信息源的有效利用和商業(yè)機構(gòu)的技術(shù)力量協(xié)作,以提高數(shù)據(jù)使用的內(nèi)在效率為原則,盈利動機為補充,引入社會力量參與[34]。以英國政府開放數(shù)據(jù)為例,目前已有多家數(shù)據(jù)創(chuàng)業(yè)公司與data.gov.uk合作,如Open Corporates的全球企業(yè)信息查詢、Placr的整合位置與數(shù)據(jù)查詢、Locatable的綜合稅率和交通情況的居住地與購房決策查詢等。從技術(shù)手段看,則需增加數(shù)據(jù)的可得性。通常采用關(guān)聯(lián)數(shù)據(jù)集(Linked Data Set)技術(shù)支持開放共享,以RDF(資源描述框架)構(gòu)建數(shù)據(jù)模型,利用URI(統(tǒng)一資源標示符)定義數(shù)據(jù)實體,通過HTTP協(xié)議瀏覽并獲取數(shù)據(jù)[35]。

      4 大數(shù)據(jù)時代科技情報工作的服務(wù)模式創(chuàng)新

      資源、技術(shù)與服務(wù)是科技情報工作的核心要素,資源的改變、技術(shù)的提升必然需要匹配服務(wù)的創(chuàng)新與升級。大數(shù)據(jù)環(huán)境下,科技情報服務(wù)模式的創(chuàng)新強調(diào)以用戶需求為中心,注重運用大數(shù)據(jù)技術(shù)分析方法,并建立拓展的資源保障體系與用戶需求之間的關(guān)聯(lián)[29]。結(jié)合大數(shù)據(jù)本身特征,科技情報服務(wù)將進一步突出輕量化服務(wù)、細粒度服務(wù)、技術(shù)服務(wù)和一體化服務(wù)的趨勢。

      4.1 輕量數(shù)據(jù)分析服務(wù)

      輕量數(shù)據(jù)分析的服務(wù)設(shè)計主要基于動態(tài)數(shù)據(jù)和片段數(shù)據(jù)的快速增長,較小地犧牲信息分析準確性而開展的快速信息分析方式,即“短、平、快”的服務(wù)模式。動態(tài)數(shù)據(jù)的迅速更新與快速增長導(dǎo)致全量數(shù)據(jù)分析的難度與時間復(fù)雜度增加,大而全的分析模式反而會降低情報分析結(jié)果的時效性,降低情報價值。因而,輕量化科技情報服務(wù)模式要突出三個要點:一是強調(diào)數(shù)據(jù)的快速解析與知識發(fā)現(xiàn),一般采用即時跟蹤和動態(tài)監(jiān)控的服務(wù)方式[36];二是突出最大可能降低信息分析的效度損耗,建立高效的數(shù)據(jù)篩選機制,從大量信息中準確選擇目標數(shù)據(jù),盡可能通過較小數(shù)據(jù)吞吐發(fā)現(xiàn)問題;三是突出用戶價值,通過用戶定制、用戶交互實時獲取用戶需求,滿足用戶多變需求。

      4.2 細粒度情報解析服務(wù)

      細粒度情報解析主要面向用戶的深層信息需求以及對海量數(shù)據(jù)信息的降維與濃縮需求。細粒度情報解析服務(wù)的實現(xiàn)方式主要有:第一,對文獻實體知識單元的提取和分析,對文獻主題、章節(jié)結(jié)構(gòu)、文獻元素(如圖表、數(shù)據(jù)、化學(xué)式、專利號)等進行有效提取和聚合分析,典型如學(xué)術(shù)本體、知識地圖、知識擴散與突變等偵測;第二,對文獻資源之間的弱關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)[37],尤其是數(shù)據(jù)背后關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn),發(fā)現(xiàn)數(shù)據(jù)或知識之間的相關(guān)關(guān)系;第三,對內(nèi)容片斷進行搜索、過濾、瀏覽、鏈接、注釋和分析的戰(zhàn)略性解析。

      從服務(wù)表現(xiàn)形式上,細粒度情報服務(wù)導(dǎo)致從單一渠道獲取數(shù)據(jù)的數(shù)量與質(zhì)量下降,為了保證情報分析的有效性需要擴大數(shù)據(jù)來源,提高多源數(shù)據(jù)分析能力。一方面,針對不同渠道采集的異構(gòu)數(shù)據(jù)進行有效解析和聚合;另一方面要關(guān)注泛在網(wǎng)絡(luò)知識的利用,以及將開放數(shù)據(jù)內(nèi)在的交互性、開放性轉(zhuǎn)化為可以利用資源,并利用海量數(shù)據(jù)的可知識對象化、可計算化開展服務(wù)。

      4.3 技術(shù)應(yīng)用即服務(wù)方式

      技術(shù)應(yīng)用即服務(wù)方式是對資源保障分析的延伸,將信息分析過程技術(shù)化、工具化,并以服務(wù)的形式提供給用戶。典型的應(yīng)用如萬方創(chuàng)新助手、百度數(shù)據(jù)開放平臺、百度開題助手、騰訊云分析等平臺,在數(shù)據(jù)服務(wù)基礎(chǔ)上,將數(shù)據(jù)解析和處理工具也提供給用戶,用戶不僅利用數(shù)據(jù),而且也能享受服務(wù)方提供的高度定制化的技術(shù)工具。相對一般的SaaS服務(wù),科技情報機構(gòu)的技術(shù)應(yīng)用服務(wù)本身不存在數(shù)據(jù)委托存儲的數(shù)據(jù)安全問題,同時更能體現(xiàn)科技情報機構(gòu)資源與分析技術(shù)的協(xié)同效應(yīng)。同時,技術(shù)服務(wù)也為科技情報機構(gòu)之間提供了資源和服務(wù)合作的橋梁。歐美學(xué)術(shù)圖書館就建議情報服務(wù)機構(gòu)提供從資源到資源管理的完整服務(wù)體系[38]。

      4.4 全流程一體化服務(wù)

      全流程一體化服務(wù)強調(diào)科技情報服務(wù)對業(yè)務(wù)過程的全程參與與支持,滿足用戶的多元需求。大數(shù)據(jù)時代數(shù)據(jù)準確采集與精確加工難度增加,業(yè)務(wù)部門或用戶對情報機構(gòu)的依賴性將愈發(fā)明顯,科技情報可將服務(wù)鏈擴展到情報采集、加工、服務(wù)、服務(wù)反饋及延伸應(yīng)用的全生命周期鏈。典型應(yīng)用是OCLC提出的學(xué)術(shù)圖書館研究支撐服務(wù)[39]。OCLC發(fā)現(xiàn)研究者對情報機構(gòu)的需求不僅僅是文獻提供與保障,還有研究機會發(fā)現(xiàn)(研究項目趨勢)、研究者的知識產(chǎn)權(quán)管理與商業(yè)價值實現(xiàn)、研究合作者發(fā)現(xiàn)、管理和存儲文本與數(shù)據(jù)集、大量文本或數(shù)據(jù)分析、改進信息檢索或管理能力、引文管理、尋找論文發(fā)表機會、職位晉升或工作機會發(fā)現(xiàn)、學(xué)術(shù)聲譽管理、出版前出版中和出版后的文獻管理等。

      5 結(jié)語

      在文獻服務(wù)、技術(shù)服務(wù)、應(yīng)用服務(wù)和決策服務(wù)的演進過程中,不僅科技情報工作的服務(wù)對象逐漸從文獻資料、系統(tǒng)信息過渡到覆蓋全生命周期數(shù)據(jù)、文獻知識單元、分析與應(yīng)用工具以及決策與咨詢建議的立體服務(wù)結(jié)構(gòu),而且用戶需求和受眾的情報利用方式也發(fā)生了變化。以學(xué)術(shù)領(lǐng)域的情報工作服務(wù)為例,知識大數(shù)據(jù)的興起不僅推動了學(xué)術(shù)知識工程和數(shù)據(jù)存儲服務(wù)在科技領(lǐng)域的深度應(yīng)用[40],科學(xué)家和人文學(xué)者對知識數(shù)據(jù)的利用方式改變也催生了知識大數(shù)據(jù)服務(wù)的誕生[41]。在商業(yè)領(lǐng)域,Chen和Chiang通過梳理情報分析技術(shù)進展,發(fā)現(xiàn)情報分析從面向數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)分析向面向網(wǎng)絡(luò)的非結(jié)構(gòu)化數(shù)據(jù)分析、移動網(wǎng)絡(luò)和感知數(shù)據(jù)分析的BI&A3.0快速轉(zhuǎn)變[42]。雖然科技情報機構(gòu)面臨著大數(shù)據(jù)在資源保障和信息分析技術(shù)上的挑戰(zhàn),但另一方面科技情報的應(yīng)用領(lǐng)域越來越廣泛、用戶對科技情報機構(gòu)分析能力的依賴將越來越強,面臨巨大的發(fā)展機遇。

      參考文獻:

      [1] 王飛躍. 知識產(chǎn)生方式和科技決策支撐的重大變革——面向大數(shù)據(jù)和開源信息的科技態(tài)勢解析與決策服務(wù)[J].中國科學(xué)院院刊, 2012, 27(5): 527-537.

      [2] 李廣建,楊林.大數(shù)據(jù)視角下的情報研究與情報研究技術(shù)[J].圖書與情報,2012(6):1-8.

      [3] 賀德方. 基于大數(shù)據(jù)、云服務(wù)的科技情報工作思考[J]. 數(shù)字圖書館論壇, 2013 (6): 2-9.

      [4] 喬曉東,朱禮軍,李穎,等. 大數(shù)據(jù)時代的技術(shù)情報工程[J]. 情報學(xué)報, 2014, 33(12): 1255-1263.

      [5] 曾建勛,魏來. 大數(shù)據(jù)時代的情報學(xué)變革[J]. 情報學(xué)報, 2015, 34(1): 37-44.

      [6] 王曉佳,楊善林,陳志強. 大數(shù)據(jù)時代下的情報分析與挖掘技術(shù)研究[J]. 情報學(xué)報, 2013, 32(6): 564-574.

      [7] 張斌, 馬費成. 大數(shù)據(jù)環(huán)境下數(shù)字信息資源服務(wù)創(chuàng)新[J]. 情報理論與實踐, 2014(6):28-33.

      [8] Santovena A Z. Big data: evolution, components, challenges and opportunities[D]. Massachusetts Institute of Technology, 2013.

      [9] Rider,F(xiàn).The scholar and the future of the research library: A problem and its solution[M].New York city: Hadham Press,1944.

      [10] Kraus R. Statistical déjà vu: The National Data Center Proposal of 1965 and its descendants[J]. Journal of Privacy and Confidentiality, 2013, 5(1): 1

      [11] U.S.Bureau of the Budget,Office of Statistical Standards,Review of Proposal for a National Data Center,Statistical Evaluation Report No. 6, December 1965, reprinted in Edgar S. Dunn, Jr., Social Information Processing and Statistical Systems-Change and Reform[M].New York: John Wiley & Sons, 1974:204.

      [12] The Home of the U.S. Government's Open Data[EB/OL].[2015-10-10].https://www.data.gov/.

      [13] Openning Up Government UK[EB/OL].[2015-10-10].https://data.gov.uk/data/search.

      [14] 李國杰, 程學(xué)旗. 大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J]. 中國科學(xué)院院刊, 2012, 27(6):647-657.

      [15] 鄔賀銓.大數(shù)據(jù)時代的機遇與挑戰(zhàn)[J].求是,2013(4):47-49.

      [16] 趙凡, 冷伏海. 科技情報研究與服務(wù)的發(fā)展現(xiàn)狀與趨勢[J]. 數(shù)字圖書館論壇, 2006(10):52-60.

      [17] 張曉林. 研究圖書館2020:嵌入式協(xié)作化知識實驗室?[J]. 中國圖書館學(xué)報, 2012(1):11-20.

      [18] 劉如,吳晨生,李夢輝. 大數(shù)據(jù)時代科技情報工作的機遇與變革[J]. 情報理論與實踐, 2015, 38(6): 35-39.

      [19] 張曉林. 走向知識服務(wù):尋找新世紀圖書情報工作的生長點[J]. 中國圖書館學(xué)報, 2000, 26(5):32-37.

      [20] 錢力, 張曉林, 李春旺,等. 利用OSGi的科技情報分析集成服務(wù)架構(gòu)研究與應(yīng)用[J]. 現(xiàn)代圖書情報技術(shù), 2014(12):62-70.

      [21] 毛曉燕. 大數(shù)據(jù)環(huán)境下圖書館信息服務(wù)走向分析[J]. 圖書館工作與研究, 2014(3):72-75.

      [22] Library of Congress, “Update on the Twitter Archive At the Library of Congress”(January)[EB/OL].[2015-11-15].http://www.loc.gov/today/pr/2013/files/twitter_report_2013jan.pdf.

      [23] Zimmer M. The Twitter Archive at the Library of Congress: Challenges for information practice and information policy[J]. First Monday, 2015, 20(7).

      [24] Pulse U N G. Big data for development: Challenges &opportunities[M]. NacionesUnidas, Nueva York, mayo, 2012.

      [25] 中科院數(shù)據(jù)云.科學(xué)數(shù)據(jù)與科技文獻集成服務(wù)關(guān)鍵技術(shù)研究與應(yīng)用[EB/OL].[2015-11-10].http://www.csdb.cn/linkdata/597.jhtml.

      [26] 裴雷, 孫建軍. 中國科技報告質(zhì)量評價體系與推進策略[J]. 情報學(xué)報, 2014(8):813-823.

      [27] 楊善林, 羅賀, 丁帥. 基于云計算的多源信息服務(wù)系統(tǒng)研究綜述[J]. 管理科學(xué)學(xué)報, 2012, 15(5):83-96.

      [28] 官思發(fā),朝樂門.大數(shù)據(jù)時代信息分析的關(guān)鍵問題、挑戰(zhàn)與對策[J].圖書情報工作,2015,59(3):12-18,34.

      [29] 李廣建,化柏林.大數(shù)據(jù)分析與情報分析關(guān)系辨析[J].中國圖書館學(xué)報,2014(5):14-22.

      [30] Palmer C L. Weak information work and “doable” problems in interdisciplinary science[J]. Proceedings of the American Society for Information Science and Technology, 2006, 43(1): 1-16.

      [31] Renear A H, Palmer C L. Strategic reading, ontologies, and the future of scientific publishing[J]. Science, 2009, 325(5942): 828-832.

      [32] 李廣建, 汪語宇, 張麗. 數(shù)字資源整合的實現(xiàn)機制及關(guān)鍵技術(shù)——對國外數(shù)字資源整合系統(tǒng)的實證研究[J]. 中國圖書館學(xué)報, 2007, 33(2): 75-80.

      [33] 劉向, 王偉軍, 李延暉. 云計算環(huán)境下信息資源集成與服務(wù)系統(tǒng)的體系架構(gòu)[J]. 情報科學(xué), 2014, 32(6): 128-133.

      [34] 王晴. 論科學(xué)數(shù)據(jù)開放共享的運行模式, 保障機制及優(yōu)化策略[J]. 國家圖書館學(xué)刊, 2014, 23(1): 3-9.

      [35] 李志芳, 鄧仲華. 國內(nèi)開放科學(xué)數(shù)據(jù)的分布及其特點分析[J]. 情報科學(xué), 2015(3): 9.

      [36] 繆其浩. 當(dāng)情報遇到大數(shù)據(jù)——大數(shù)據(jù)熱點情報跟蹤的回顧與感悟[J]. 情報探索, 2013(5):1-3.

      [37] Palmer C L, Cragin M H, Hogan T P. Weak information work in scientific discovery[J].Information processing & manage

      ment, 2007, 43(3): 808-820.

      [38] Malpas,Constance.Cloud-sourcing Research Collections:Managing Print in the Mass-digitized Library Environment[R/OL].[2015-11-15].http://www.oclc.org/research/publications/library/2011/2011-01.pdf.

      [39] Susan Kroll and Rick Forsman. A Slice of Research Life: Information Support ?for Research in the United States[R/OL]. [2015-11-15].http://www.oclc.org/research/publications/library/2010/2010-15.pdf.

      [40] Lyon Liz. The Informatics Transform: Re-Engineering Libraries for the Data Decade[J].The International Journal of Digital Curation, 2012, 7(1): 126-138.

      [41] 孫建軍.大數(shù)據(jù)時代人文社會科學(xué)如何發(fā)展[N].光明日報,2014-07-07(11).

      [42] Chen Hsinchun,Chiang Roger-H.-L.,Storey Veda-C.. BUSINESS INTELLIGENCE AND ANALYTICS:FROM BIG DATA TO BIG IMPACT[J]. MIS Quarterly , 2012, 36(4): 1165-1188.

      猜你喜歡
      對策建議挑戰(zhàn)大數(shù)據(jù)
      嘰咕樂挑戰(zhàn)
      嘰咕樂挑戰(zhàn)
      基本公共服務(wù)均等化的理論探討
      天津市和平區(qū)民營科技企業(yè)人才隊伍現(xiàn)狀分析及對策研究
      我國融資租賃業(yè)發(fā)展現(xiàn)狀存在的問題及對策分析
      中國市場(2016年33期)2016-10-18 12:41:40
      關(guān)于惠城區(qū)發(fā)展農(nóng)業(yè)的調(diào)研報告
      商(2016年27期)2016-10-17 07:08:24
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      嘰咕樂挑戰(zhàn)
      第52Q 邁向新挑戰(zhàn)
      师宗县| 灵璧县| 沙河市| 永城市| 土默特左旗| 收藏| 疏勒县| 宜川县| 武川县| 富源县| 六安市| 乌审旗| 潮安县| 青阳县| 敦煌市| 博客| 武宣县| 于田县| 涪陵区| 榆树市| 香港 | 泸州市| 武夷山市| 津市市| 鄢陵县| 莒南县| 扎鲁特旗| 长泰县| 怀宁县| 临安市| 婺源县| 盐源县| 子长县| 雅江县| 河北省| 嘉黎县| 竹山县| 旬阳县| 天台县| 乳山市| 噶尔县|