李文靜
(中國(guó)地震局地殼應(yīng)力研究所,北京100085)
(作者電子信箱,李文靜:wenjing410@126.com)
“大數(shù)據(jù)”這個(gè)術(shù)語最早期的引用可追溯到Apache.org的開源項(xiàng)目Nutch。當(dāng)時(shí),大數(shù)據(jù)用來描述為更新網(wǎng)絡(luò)搜索索引需要同時(shí)進(jìn)行批量處理或分析的大量數(shù)據(jù)集。隨著谷歌Map Reduce和Google File System(GFS)的發(fā)布,大數(shù)據(jù)不再僅用來描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度[1]。早在1980年,著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯[2]。
大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。大數(shù)據(jù)的4V 特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)[3-4]。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”[5]。從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式計(jì)算架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)的挖掘,但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)和虛擬化技術(shù)。大數(shù)據(jù)需要特殊的技術(shù),以便在允許的時(shí)間內(nèi)有效地處理大量的數(shù)據(jù)[6-7]。
從字面上看,某個(gè)單一的地震觀測(cè)臺(tái)站和大數(shù)據(jù)是沒有關(guān)系的,而實(shí)際上,臺(tái)站不僅需要大數(shù)據(jù)工程,而且是迫切需要大數(shù)據(jù)工程。
目前的野外觀測(cè)臺(tái)站向上級(jí)部門提供的就是儀器觀測(cè)的時(shí)間序列數(shù)據(jù),有些臺(tái)站提供部分輔助的觀測(cè)數(shù)據(jù),如地震前兆觀測(cè)臺(tái)站還提供相應(yīng)的氣象要素觀測(cè)結(jié)果等。然而這遠(yuǎn)遠(yuǎn)不夠,完整的臺(tái)站數(shù)據(jù),即這里所說的大數(shù)據(jù)計(jì)劃,應(yīng)該包括如下內(nèi)容:
(1)臺(tái)站歷史資料。包括選擇在該臺(tái)站設(shè)立相關(guān)觀測(cè)項(xiàng)目的初衷,建臺(tái)以來臺(tái)站觀測(cè)設(shè)備的更換,觀測(cè)手段的增減。如果是人工讀數(shù)觀測(cè),還應(yīng)該提供相應(yīng)讀數(shù)人員的變化情況。
(2)臺(tái)站場(chǎng)地環(huán)境資料。包括臺(tái)站所處位置一定范圍內(nèi)的地貌情況,地下結(jié)構(gòu)情況,周邊環(huán)境變化,比如在可能影響數(shù)據(jù)變化的距離內(nèi)修建水庫(kù)、興建大型建筑等。
(3)臺(tái)站觀測(cè)數(shù)據(jù)資料。除了目前常規(guī)的觀測(cè)數(shù)據(jù)時(shí)間序列外,還應(yīng)包括一個(gè)通用的數(shù)據(jù)說明,在其中標(biāo)明數(shù)據(jù)文件格式、數(shù)據(jù)是什么(何種)設(shè)備產(chǎn)出的,中間經(jīng)過了怎樣的數(shù)據(jù)處理過程等。
(4)臺(tái)站臨時(shí)試驗(yàn)資料。為了項(xiàng)目研究或者其他工作的需要,對(duì)臺(tái)站正在進(jìn)行的觀測(cè)項(xiàng)目開展的臨時(shí)試驗(yàn),例如改變觀測(cè)井水溫的探頭深度或場(chǎng)地注水試驗(yàn)等,就需要將該段時(shí)間的數(shù)據(jù)進(jìn)行特別標(biāo)注;有些研究項(xiàng)目在臺(tái)站臨時(shí)架設(shè)觀測(cè)設(shè)備的數(shù)據(jù),臺(tái)站需要保留下來,以便后續(xù)可能的應(yīng)用分析;有些工程項(xiàng)目在臺(tái)站所轄的一定范圍內(nèi)開挖探槽、打樁、放炮等,需要給臺(tái)站備份該項(xiàng)目所獲得的數(shù)據(jù)和分析結(jié)果。
(5)臺(tái)站常規(guī)及常用的分析工具。主要是臺(tái)站使用的數(shù)據(jù)處理軟件、源程序等,包括臺(tái)站人員自己研發(fā)的實(shí)用程序,以及應(yīng)用臺(tái)站數(shù)據(jù)開展分析工作的研究程序等。
(6)臺(tái)站觀測(cè)數(shù)據(jù)行業(yè)應(yīng)用。臺(tái)站不僅僅是產(chǎn)出數(shù)據(jù)的地方,還是最先處理數(shù)據(jù)并開展行業(yè)應(yīng)用的地方。臺(tái)站可以利用自己?jiǎn)我坏呐_(tái)站或者綜合臨近數(shù)個(gè)臺(tái)站的相關(guān)資料開展分析,并將結(jié)果匯總至上級(jí)部門。
(7)臺(tái)站觀測(cè)數(shù)據(jù)的應(yīng)用效益。觀測(cè)數(shù)據(jù)是用來被分析的,因此需要統(tǒng)計(jì)臺(tái)站資料的應(yīng)用情況,比如每年有多少篇文章、多少份報(bào)告中用到了臺(tái)站數(shù)據(jù),是用什么樣的方法分析的臺(tái)站數(shù)據(jù),對(duì)數(shù)據(jù)觀測(cè)提出了什么樣的建議等。
臺(tái)站大數(shù)據(jù)計(jì)劃涵蓋的內(nèi)容很多,其意義和必要性主要體現(xiàn)在:
(1)從數(shù)據(jù)處理的工作量來看,采用并行計(jì)算的思想,將原來集中在一個(gè)國(guó)家數(shù)據(jù)中心或省數(shù)據(jù)中心,由數(shù)名人員分析全國(guó)或全省的數(shù)據(jù),改變?yōu)橛扇珖?guó)各個(gè)臺(tái)站人員獨(dú)立分析數(shù)據(jù),將結(jié)果反饋到數(shù)據(jù)中心進(jìn)行二次加工,從而大大減輕數(shù)據(jù)中心或分析預(yù)報(bào)中心的壓力,提高工作效率。臺(tái)站進(jìn)行常規(guī)數(shù)據(jù)分析時(shí),可以采用統(tǒng)一的軟件和算法標(biāo)準(zhǔn),或者根據(jù)已有經(jīng)驗(yàn)確定固定的算法標(biāo)準(zhǔn)。同時(shí),臺(tái)站人員是對(duì)觀測(cè)數(shù)據(jù)最熟悉,對(duì)當(dāng)時(shí)一些可能的影響因素最了解,由他們開展數(shù)據(jù)分析工作,可以大大提高結(jié)論的可靠性。
(2)從數(shù)據(jù)的完備性來看,觀測(cè)資料僅僅是一部分,觀測(cè)資料的變化與觀測(cè)設(shè)備的更新?lián)Q代、觀測(cè)場(chǎng)地環(huán)境的改造以及數(shù)據(jù)預(yù)處理方法的差異等都密切相關(guān)。數(shù)據(jù)分析結(jié)論的可靠性取決于數(shù)據(jù)的完備程度,如果僅僅從數(shù)據(jù)時(shí)間序列出發(fā),分析得到的結(jié)論是不可靠的,甚至是錯(cuò)誤的。而從臺(tái)站長(zhǎng)期的人員更換來看,一套完備的數(shù)據(jù),可以讓剛從事該項(xiàng)工作的人員更快地掌握工作技能,從而降低由于人員變更帶來的數(shù)據(jù)變化風(fēng)險(xiǎn)。
(3)從臺(tái)站管理的角度來看,完備的數(shù)據(jù)有益于上級(jí)部門對(duì)臺(tái)站建設(shè)和運(yùn)行維護(hù)做出正確的決策。比如,臺(tái)站觀測(cè)的數(shù)據(jù)是否達(dá)到了架設(shè)臺(tái)站測(cè)項(xiàng)時(shí)的預(yù)期目標(biāo)?臺(tái)站數(shù)據(jù)是否有其存在的意義,是否存在一些臺(tái)站數(shù)據(jù)長(zhǎng)期沒有被使用?通過對(duì)類似相關(guān)內(nèi)容的分析,可以對(duì)當(dāng)前臺(tái)站布局、臺(tái)站測(cè)項(xiàng)搭配、后續(xù)臺(tái)站布局等提出合理的意見和建議,并做出適當(dāng)調(diào)整。
(4)從人才培養(yǎng)和科學(xué)進(jìn)步的角度看,由臺(tái)站來建立一套完備的大數(shù)據(jù),將改變觀測(cè)、分析、研究相互脫節(jié)的現(xiàn)狀。盡管現(xiàn)在有很多科研項(xiàng)目也開展野外觀測(cè),但這些觀測(cè)的短處是顯而易見的,比如是遠(yuǎn)程訪問或定期下載觀測(cè)數(shù)據(jù),而不是現(xiàn)場(chǎng)觀測(cè)等。同時(shí),大數(shù)據(jù)計(jì)劃也將會(huì)激勵(lì)更多的高學(xué)歷人才從事一線工作,有助于改善臺(tái)站知識(shí)層次以及改變社會(huì)就業(yè)理念等,最終推動(dòng)行業(yè)研究工作乃至科學(xué)研究的進(jìn)步。
1983年,太陽電腦(Sun Microsystems)提出“網(wǎng)絡(luò)是電腦”(“The Network is the Computer”),2006年3月,亞馬遜(Amazon)推出彈性計(jì)算云(Elastic Compute Cloud,EC2)服務(wù)。2006年8 月9 日,Google首席執(zhí)行官埃里克·施密特(Eric Schmidt)在搜索引擎大會(huì)(SES San Jose 2006)首次提出“云計(jì)算”(cloud computing)的概念。對(duì)云計(jì)算的定義有多種說法,目前廣為接受的是中國(guó)云計(jì)算專家咨詢委員會(huì)副主任、秘書長(zhǎng)劉鵬教授和著云臺(tái)團(tuán)隊(duì)給出的定義:“云計(jì)算是通過網(wǎng)絡(luò)提供可伸縮的廉價(jià)的分布式計(jì)算能力”。云計(jì)算代表了以虛擬化技術(shù)為核心,以低成本為目標(biāo)的動(dòng)態(tài)可擴(kuò)展網(wǎng)絡(luò)應(yīng)用基礎(chǔ)設(shè)施,是近年來最有代表性的網(wǎng)絡(luò)計(jì)算技術(shù)與模式。一般意義上的云計(jì)算提供基礎(chǔ)設(shè)施即服 務(wù)(Infrastructure-as-a-Service,IaaS),平臺(tái)即服務(wù)(Platform-as-a-Service,PaaS)和軟件即服務(wù)(Software-as-a-Service,SaaS)這3個(gè)層次的服務(wù)功能。
臺(tái)站的云計(jì)算計(jì)劃和管理臺(tái)站的上級(jí)部門或數(shù)據(jù)中心密切相關(guān)。因?yàn)樗枰獢?shù)據(jù)中心提供計(jì)算數(shù)據(jù)和計(jì)算軟件,這正是臺(tái)站的上級(jí)部門或數(shù)據(jù)中心所應(yīng)該提供的云計(jì)算服務(wù)功能。臺(tái)站不需要龐大的計(jì)算集群和高性能計(jì)算設(shè)備,只需根據(jù)自己的需要,從數(shù)據(jù)中心選擇數(shù)據(jù),并在計(jì)算平臺(tái)上利用相應(yīng)的計(jì)算軟件或程序開展數(shù)據(jù)分析和研究。而這些研究成果將成為上級(jí)部門進(jìn)一步分析時(shí)的重要參考。而上級(jí)部門或數(shù)據(jù)中心也將根據(jù)大部分臺(tái)站的需求,提供相應(yīng)的軟件和算法,以進(jìn)一步提高臺(tái)站數(shù)據(jù)分析能力和可靠性。
臺(tái)站大數(shù)據(jù)和云計(jì)算計(jì)劃看起來是個(gè)非常龐大的課題,似乎難度很大,但仔細(xì)分析并非如此。因?yàn)樗皇巧婕肮ぷ鞯恼{(diào)整,特別是很多數(shù)據(jù)中心的工作被分流到一個(gè)個(gè)臺(tái)站來完成。對(duì)數(shù)據(jù)中心而言,一般都有遠(yuǎn)程數(shù)據(jù)服務(wù)功能,現(xiàn)在只是把更多關(guān)于一個(gè)個(gè)臺(tái)站的信息增加了進(jìn)來,這需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行擴(kuò)展改造。對(duì)上級(jí)部門的數(shù)據(jù)分析專家而言,他們的工作中心應(yīng)該是對(duì)數(shù)據(jù)的二次加工,以及在此基礎(chǔ)上為臺(tái)站提供更為成熟的或必要的計(jì)算軟件。對(duì)臺(tái)站而言,增加了很多原來沒有的工作,但是保留了一套完整的臺(tái)志,為后人留下可用的資料,提高了臺(tái)站數(shù)據(jù)的應(yīng)用效益,提高了臺(tái)站人員的地位。對(duì)行業(yè)科學(xué)進(jìn)步而言,它將會(huì)推進(jìn)行業(yè)研究水平的提高。因此,這是一個(gè)可行的計(jì)劃。
當(dāng)然,在具體操作過程中,還是存在一些問題,特別是數(shù)據(jù)分析任務(wù)分流到臺(tái)站,需要結(jié)合臺(tái)站的具體情況,采取合適的步驟進(jìn)行,否則分析中心可能得不到正確的結(jié)論。
[1]撫蘇.眾望所歸,大數(shù)據(jù)時(shí)代來臨.電腦報(bào),2013-06-24(14):1-3
[2]任姝瑋.大數(shù)據(jù)時(shí)代:新機(jī)會(huì) 新模式.浦東開發(fā),2013(3):22-23
[3]趙三明.汽車后市場(chǎng)大數(shù)據(jù)時(shí)代已來臨.中國(guó)工業(yè)報(bào),(2014-02-14)[2014-04-15].http:∥www.cinn.cn/qc/309938.shtml
[4]維克托·邁爾-舍爾維恩,肯尼斯·庫(kù)克耶.大數(shù)據(jù)時(shí)代.杭州:浙江人民出版社,2013
[5]邱雪濤,趙金濤.基于實(shí)時(shí)大數(shù)據(jù)處理的交易欺詐偵測(cè)的研究.軟件產(chǎn)業(yè)與工程,2013,22(4):36-40
[6]王太師.大風(fēng)起兮“云”飛揚(yáng).貴州日?qǐng)?bào),(2014-02-28)[2014-04-15].http:∥58.42.249.98/epaper/gzrb/Content/20140228/Articel01007WD.htm
[7]《財(cái)務(wù)與會(huì)計(jì)》編輯部.詞條:大數(shù)據(jù).財(cái)務(wù)與會(huì)計(jì):理財(cái)版.2013(7):23