張晉輝 崔秋文
(中國地震臺網中心,北京100045)
?
大數據環(huán)境下對地震科技情報服務工作的思考*
張晉輝※崔秋文
(中國地震臺網中心,北京100045)
摘要大數據時代的到來給地震科技情報服務工作帶來了機遇和挑戰(zhàn)。從大數據的概念和特點入手,分析了這些機遇和挑戰(zhàn),并結合地震科技情報服務工作的現狀,從理念、方法、技術、隊伍建設等4個角度提出了地震科技情報服務行業(yè)的應對措施。
關鍵詞地震科技情報; 大數據; 思考
引言
隨著人類社會從信息時代、知識時代向智能時代的邁進,尤其是互聯網和數字化技術的飛速發(fā)展,大數據強勢來到我們身邊,大數據正在改變著政府、企業(yè)和社會生活的各個方面[1]。在大數據時代,數據的作用將會前所未有地得到凸顯,數據將成為國家競爭、科學研究和行業(yè)創(chuàng)新的基礎,大數據及大數據技術的發(fā)展將對人類生活和生產方式的變革產生深遠影響。
與其他行業(yè)一樣,地震科技情報服務行業(yè)也要面臨大數據時代帶來的機遇和挑戰(zhàn)。因為地震資料的內涵是數據,通過數據反映地質結構、地層變化,所以大數據的發(fā)展對于地震行業(yè)還具有特殊意義。那么大數據有哪些特征,還有哪些技術難點? 如何抓住機遇和迎接挑戰(zhàn),駕馭和利用大數據創(chuàng)造更多價值,將成為我們每個地震科技工作者的重要任務和使命。
1大數據的概念和特點
目前,學界對大數據的定義尚未統一,不同學科和研究領域對大數據定義的角度不同。亞馬遜大數據科學家John Rauser將大數據定義為: 大數據就是任何超過了1臺計算機處理能力的龐大數據量; 維基百科定義為: 大數據是指無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合[2]。但是,普遍的認同是,大數據指所涉及的數據量規(guī)模巨大,無法通過人工或主流軟件工具在合理時間內達到收集、管理、處理和整理,使其成為人們所能解讀的信息[3]。
大數據同過去的海量數據又有所區(qū)別,其基本特征可以用4個V來總結(Volume、Variety、Value和Velocity),即體量大、多樣性、價值密度低、速度快[4-5]。
(1) 數據量巨大。從TB級別,躍升到PB級別。
(2) 數據類型繁多,除了傳統的文本格式,還包括網絡日志、視頻、音頻、圖片和地理位置信息等各種結構的數據。
(3) 價值密度低。如在1小時的視頻監(jiān)控數據中,有用的數據可能僅僅只有1~2 s。
(4) 處理速度快。數據處理遵循 “1秒定律” ,可從各種類型的數據中快速獲得高價值的信息[6]。
2大數據對地震科技情報服務的影響
2.1地震科技情報服務工作現狀
我國的地震信息化從20世紀60年代開始,包括物理參數、數據傳輸的效果和數據的分析等,都圍繞著數據進行。我國地震監(jiān)測工作,從單一的觀測發(fā)展到由測震、電磁、形變和地下流體等多學科、多測項類別的綜合觀測體系; 觀測技術逐步實現了從模擬觀測向數字化、智能化、網絡化等方式的轉變; 逐步建立了基本覆蓋全國及重點區(qū)域的地震監(jiān)測臺網[7]。這些監(jiān)測臺站和監(jiān)測設備每天為我們記錄了海量的數據信息,這些數據都匯總到中國地震臺網中心,用于進行地震預測和科學研究。
在地震信息化建設的基礎上,地震科技情報服務工作近幾年取得了豐碩的成果。目前,中國地震臺網中心(以下簡稱“臺網中心”)已初步建立了地震科研的文獻保障服務體系,成為防震減災基礎性工作的重要支撐部分。數字圖書館已擁有40余種外文原版期刊的全文電子版; 480余種中文地學類期刊的全文檢索服務及8萬多種中文圖書; 5萬多篇天文學、地球科學類的博碩論文; 維普、超星、萬方等中文電子資源數據庫鏡像站點[8]?!暗卣鹂萍紮n案資料查詢系統” 通過地震系統各單位的共建共享,目前已擁有25個單位的35000卷科技檔案信息,以及14個單位的47000份資料信息,全面記錄和反映了地震監(jiān)測預報、震害防御以及應急救援工作的成果和進展。
利用這些文獻資源,臺網中心開展了與地震預測預報工作密切相關的咨詢和服務。經中國地震局批準(中震科[1999]109號),自1999年起成立了中國地震局地震科技信息查新咨詢站。10多年來,該站為地震科研人員開展了卓有成效的服務。情報研究工作不斷向深層次、綜合性方向發(fā)展,先后實施了 “地震科技快訊” 、“國別政策研究” 、“大震應急和快速信息服務” 、“國際地震科技動態(tài)跟蹤調研” 、“國外主要災害應急救援機構和管理體系調研” 、“國際應急管理動態(tài)” 、“防震減災十二五規(guī)劃編制預研究” 、“地震巨災應對機制研究” 等項目,追蹤報道了上百次國內外發(fā)生的破壞性地震的應急調研資料,有關情報研究的專輯、報告和綜述對中國地震局有關規(guī)劃的制定和 “三大工作體系” 建設,具有很好的參考和借鑒價值。
2.2大數據為地震科技情報服務行業(yè)帶來的機遇
大數據技術已被應用于地震速報、地震應急等防震減災事業(yè),并已取得了一些實效。如自2013年4月起,臺網中心利用手機APP、微博、微信、網站等實現了自動地震速報,并于2015年3月份與大數據服務商 “今日頭條” 完成了技術對接,地震臺網一旦監(jiān)測到地震,自動觸發(fā)和實時處理系統就會自動分析并生成地震速報參數,并利用 “今日頭條” 的精準推送引擎在第一時間推送給受地震災害影響的民眾。同樣,大數據也為地震科技情報服務行業(yè)提供了發(fā)展和提升的機遇。
首先,大數據時代,科技相關資源逐漸向數字化轉變,為科技情報檢索提供了基礎。隨著數字圖書館和機構知識庫的發(fā)展,圖書和期刊等科技文獻資源逐漸被數字化并被保存到各種數據庫中,這些資源的數字化使原始文獻中的字、詞、段落、作者信息、關鍵詞和其他相關信息都能夠被精準識別,為搜索引擎的檢索提供了便利條件,并可提高檢索的效率和準確性。信息只有被數字化,才能釋放出其潛在的巨大情報價值。
其次,大數據的用戶行為分析能力為我們科技情報服務機構了解和把握用戶信息行為提供了可能。如今人們已離不開網絡和智能手機、ipad、筆記本電腦等移動終端設備,用戶的信息行為產生了大量的數據,通過對這些數據的挖掘和分析可以預判用戶的信息行為,為科技情報事業(yè)提供了精準把握科研人員及科研機構等科技主體信息行為的潛在機會,這有助于我們根據用戶需求提供行業(yè)領域科技動態(tài)情報服務,而且可以根據信息用戶的興趣愛好傾向,探索個性化、智能化和精確化的情報推送服務模式。
再次,大數據具有強大的預測能力,有利于開展更加精準的科技情報服務。高價值的精準情報服務需要大數據和大數據相關技術的支撐。在大數據環(huán)境下,我們可以分析與具體現象相關的更為全面的數據,而不僅僅依賴傳統的文獻數據,這將大大提高情報分析的準確性,尤其是在預測行業(yè)動態(tài)方面。
2.3大數據為地震科技情報服務行業(yè)帶來的挑戰(zhàn)
首先,在數據采集方面。大數據是包羅萬象的數據,其類型繁多,既包括科技文獻、科學實驗和日常工作數據,又包括網頁、圖片、視頻、圖像與位置信息等半結構化和非結構化數據信息。數據源的多樣性增加了我們數據采集工作的難度[9]。
其次,在數據的組織和存儲方面。海量數據給軟硬件處理能力帶來巨大壓力。海量地震數據的組織、管理和多維度檢索愈發(fā)困難,同時老機器無法滿足海量數據的處理要求,存儲設備投資巨大,更重要的是,在大數據的應用中會遇到存儲問題和數據安全問題。
再次,在數據的加工分析方面。以往的科技情報工作在做定量分析時,最常用的是基于結構化數據庫的文獻計量學方法,而在大數據環(huán)境下,還需對各種半結構化和非結構化數據進行挖掘和分析。如何對巨量異構數據進行處理并從中獲取有價值的情報,是傳統地震科技情報行業(yè)的軟肋。這就要求我們跨越傳統思維,將目光從傳統的科技文獻、監(jiān)測數據的加工處理轉移到云計算等先進的數據處理技術上。
3大數據環(huán)境下地震科技情報服務工作的應對措施
3.1變革理念,突破被動的科技情報服務理念
傳統的地震科技情報服務工作大都是上級下達或用戶發(fā)起的情報服務任務,往往是為了滿足領導或用戶的情報需求。這種服務理念是被動的,已不能滿足大數據時代的情報服務需求。大數據環(huán)境下,我們必須變被動為主動,鼓勵創(chuàng)新與發(fā)展,增強自己的信息服務意識,探索主動式情報服務模式,具體到地震科技情報服務領域,就是要求我們必須嵌入到科研人員的科研工作當中,向科研人員提供主動推送式信息服務,以提高用戶滿意度和科研效率。情報服務工作不能滿足于僅為科研人員、各級領導和職能部門提供科技文獻服務和防震減災信息,同時還應拓展為全社會服務的渠道。
3.2創(chuàng)新方法,建立基于大數據的情報服務方法
以往的地震科技情報研究工作主要采用基于文獻和外文資料的編譯和整理以及提供科技查新等簡單的情報服務模式,在大數據時代,我們需要在應用中不斷優(yōu)化和改進現有情報方法; 由于半結構化和非結構化數據開始進入科技情報研究領域,所以我們必須嘗試突破和超越文獻,探索基于大數據的支撐地震科學研究的新的情報服務模式。例如,機構知識庫融合了機構或組織各種類型的知識資源和智力成果,并提供數據分析和統計功能,我們可以建設機構知識庫并基于機構知識庫的大數據向科研人員及管理部門提供更高層次的情報分析產品; 同時,可以基于大數據中的用戶興趣模型,掌握用戶的信息行為偏好和取向,向用戶提供定制化的精準科技情報服務。
3.3發(fā)展技術,鼓勵大數據技術的發(fā)展和應用
大數據要求海量的數據存儲與智能的加工處理,對現有的信息存儲和處理技術提出了更高的要求,這就要求我們廣泛應用先進的技術工具和手段。大數據技術是從大量、多樣、分散和異構的數據集中提取有用信息的核心技術,包括實時流數據處理及智能分析技術等。美國麥肯錫全球研究所在 “大數據: 創(chuàng)新、競爭和生產力的下一個前沿領域” 的研究報告中討論了26項適用于眾多行業(yè)的大數據分析技術[10],北京大學李廣建教授將這些技術劃分為可視化分析、數據挖掘和語義處理3大類[11]。我們應該根據地震行業(yè)自身的特點,引入大數據技術中的適用技術,如可視化技術和云計算等??梢暬夹g是對非空間的、非數值型的和高維信息進行視覺表現的理論、方法和技術,已被廣泛應用于各種學科領域的情報研究工作中[12]。此外,數字圖書館應廣泛利用云計算技術,整合豐富的海量信息資源,為用戶提供優(yōu)質而全面的云服務。
3.4加強培訓,建設地震科技情報服務隊伍
面對大數據時代帶來的復雜的數據環(huán)境和情報需求,我們必須建立一支具有大數據分析能力的復合型人才隊伍。目前,地震科技情報服務人員多來自圖書情報學、外語和計算機科學背景,少量來自地球物理和地質學科,而大數據環(huán)境要求我們科技情報服務行業(yè)引進具有多學科、多專業(yè)知識背景的復合型人才,尤其是計算機和網絡技術方面的人才; 同時,應積極為現有地震科技情報服務人員提供特定技術培訓機會,完善和豐富他們的知識結構,鼓勵他們學習信息檢索、數據挖掘及大數據分析技術,加強統計學方面的培訓,掌握在大數據平臺上進行情報分析的方法和工具。鼓勵他們參加課題實踐,逐步使他們成為地震科技情報服務領域的咨詢專家,使其具備完成大數據時代地震科技情報服務任務的各項能力。
參 考 文 獻
[1] 楊鴻智. 數據的征服: 讀《大數據時代》. (2013-07-13)[2015-07-12] http:∥blog.sina.com.cn/s/blog_43b0f4b301019p5p.html
[2] 董曉婷. 大數據的定義特征及其應用分析. 硅谷, 2013(11): 120
[3] 王麗梅. 大數據時代下高校圖書館信息咨詢服務的探討. 農業(yè)網絡信息, 2013(12): 85-87
[4] 楊紅平. 基于大數據的公安情報研究. 湖北警官學院學報, 2014(2): 6-9
[5] 晉照麗. 大數據技術在高校圖書館服務中的應用. 農業(yè)圖書情報學刊, 2014,26(11): 149-151
[6] 彭默馨, 張璐. 大數據時代要有大方略. 學習時報, 2012-07-09
[7] 全國地震監(jiān)測臺站. [2015-08-21]. http:∥www.csi.ac.cn/publish/main/631/1118/index.html
[8] 張晉輝. 中國地震臺網中心機構知識庫構建方案初探. 國際地震動態(tài), 2013(12): 29-36
[9] 劉如, 吳晨生, 李夢輝. 大數據時代科技情報工作的機遇與變革. 情報理論與實踐, 2015(6): 35-39
[10] Manyika J,Chui M,Brown B. Big data: The next frontier for innovation, competition, and productivity. Analytics, 2011
[11] 李廣建, 楊林. 大數據視角下的情報研究與情報研究技術. 圖書與情報, 2012(6): 1-8
[12] 彭愿. 地震數據的可視化技術. 武漢: 中國地震局地震研究所, 2013
Thinking about earthquake science and technical information service under the background of big data
Zhang Jinhui, Cui Qiuwen
(China Earthquake Networks Center,Beijing 100045,China)
AbstractThe arrival of the era of big data has brought opportunities and challenges to the earthquake science and technology information service. In this paper,we discussed the concepts and features of big data,analyzed the opportunities and challenges,and proposed the measures for earthquake science and technology information service based on four perspectives,including ideas,methods,techniques and team building.
Keywordsearthquake science and technology information service; big data; thinking
中圖分類號:P315;
文獻標識碼:A;
doi:10.3969/j.issn.0235-4975.2016.01.006
通訊作者:※張晉輝,e-mail: zhangjh@seis.ac.cn。
* 收稿日期:2015-10-12; 采用日期: 2015-12-23。