(《中國電子科學(xué)研究院學(xué)報》編輯部,北京 100846)
“大數(shù)據(jù)”在2011 年一路走紅,在2012 年更加閃耀,成為業(yè)界當(dāng)之無愧的焦點(diǎn)。尤其是隨著新型SNS 網(wǎng)絡(luò)的發(fā)展、視頻流量的猛增及圖片分享需求的涌現(xiàn),大數(shù)據(jù)在肥沃的土壤中更加迅速的成長。Forrester Research 分析師表示,大數(shù)據(jù)意味著規(guī)模極大的分析量,意味著高速處理批比特(千萬億字節(jié))的結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的能力。對于企業(yè)機(jī)構(gòu)來講,大數(shù)據(jù)是一把雙刃劍。一方面,機(jī)構(gòu)能夠從更多的渠道獲得更加豐富的關(guān)于用戶的信息;另一方面,當(dāng)前的數(shù)據(jù)分析能力卻對大規(guī)模的非結(jié)構(gòu)性數(shù)據(jù)國不從心。從理論上而言,如果能夠從冗雜的大數(shù)據(jù)中剝絲抽繭,識別出最有價值的信息并進(jìn)行分析處理,那么將會更精準(zhǔn)準(zhǔn)備地把握市場趨勢。
“大數(shù)據(jù)”是一個術(shù)語,是一個帶有文化基因和營銷理念的詞匯,但同時也反映了科技領(lǐng)域中正在發(fā)展中的趨勢,這種趨勢為理解這個世界和作出決策的新方法開啟了一扇大門。“大數(shù)據(jù)”的出現(xiàn)不是一個偶然的事情,它是在信息化、網(wǎng)絡(luò)化高度發(fā)達(dá)的今天,在這個數(shù)據(jù)整天飛的時代所必須要經(jīng)歷的過程。這個現(xiàn)象的出現(xiàn)同時又給網(wǎng)絡(luò)安全及維護(hù),信息攻擊及防御帶來了新的問題和挑戰(zhàn)。
那么到底什么是“大數(shù)據(jù)”呢?
維基百科上說:大數(shù)據(jù)指的是“網(wǎng)絡(luò)公司日常運(yùn)營所生成和積累用戶網(wǎng)絡(luò)行為”,數(shù)據(jù)增長如此之快,以至于難以使用現(xiàn)有的數(shù)據(jù)庫管理工具來駕馭,困難存在于數(shù)據(jù)的獲取、存儲、探索、共享、分析和可視化等方面。數(shù)據(jù)量的增長到現(xiàn)在,已經(jīng)不是以我們所熟知的多少G 和多少T 來描述了,而是以P(1 千T),E(1 百萬T)或Z(10 億T)為計(jì)量單位。百度對此給予了更形象的描述。光是其新首頁導(dǎo)航每天就要從超過1.5PB 的數(shù)據(jù)中進(jìn)行挖掘,這些數(shù)據(jù)如果打印出來將超過5 千億張A4 紙,摞起來會超過4 萬公里高,接近地球同步衛(wèi)星軌道長度,平鋪可以鋪滿海南島。而2020 年新增的數(shù)字信息成長幅度將是2009 年的近45 倍。如今,只需要兩天就能創(chuàng)造出自文明誕生以來到2003 年所產(chǎn)生的數(shù)據(jù)總量。
這些數(shù)據(jù)的規(guī)模、形式超出了傳統(tǒng)數(shù)據(jù)處理方法所能捕獲、管理和處理的能力。人類的這種能力是不斷進(jìn)步的,所以,大數(shù)據(jù)的數(shù)據(jù)量是一個不斷變化的目標(biāo)。美國地理空間情報基金會(USGIF)關(guān)于的一個大數(shù)據(jù)的情況討論會中提到人類現(xiàn)在處理數(shù)據(jù)能力的增長速度如今跟不上數(shù)據(jù)量的增長速度,所以,在數(shù)據(jù)面前,處理能力總是有很大的空缺。過去做信息處理的方法應(yīng)該要盡快做出調(diào)整,掌握大數(shù)據(jù)的處理能力,會使得在之后的信息處理各個領(lǐng)域掌握主動權(quán)。
另外,大數(shù)據(jù),不僅僅是指大量的數(shù)據(jù),也不是僅僅指數(shù)據(jù)的指數(shù)增長速度,它是對需要對當(dāng)前架構(gòu)需要做出調(diào)整的數(shù)據(jù)進(jìn)行在理解上的新的方式和理念。對數(shù)據(jù)整合算法,數(shù)據(jù)結(jié)構(gòu)理解使用上的新的方法的研究勢在必行。
CIO 時代網(wǎng)(www.ciotimes.com)總結(jié)出,“大數(shù)據(jù)”不僅有“大”這個特點(diǎn),還有很多其他的特色??傮w而言,可以用“4V+1C”來概括。
(1)Variety(多樣化)
大數(shù)據(jù)一般包括以事務(wù)為代表的結(jié)構(gòu)化數(shù)據(jù)、以網(wǎng)頁為代表的半結(jié)構(gòu)化數(shù)據(jù)和以視頻和語音信息為代表的非結(jié)構(gòu)化等多類數(shù)據(jù),并且它們的處理和分析方式區(qū)別很大。
(2)Volume(海量)
通過各種智能設(shè)備產(chǎn)生了大量的數(shù)據(jù),PB 級別可謂是常態(tài),筆者接觸的一些客戶每天處理的數(shù)據(jù)量都在幾十GB、幾百GB 左右,估計(jì)國內(nèi)大型互聯(lián)網(wǎng)企業(yè)每天的數(shù)據(jù)量已經(jīng)接近TB 級別。
(3)Velocity(快速)
大數(shù)據(jù)要求快速處理,因?yàn)橛行?shù)據(jù)存在時效性。比如電商的數(shù)據(jù),假如今天數(shù)據(jù)的分析結(jié)果要等到明天才能得到,那么將會使電商很難做類似補(bǔ)貨這樣的決策,從而導(dǎo)致這些數(shù)據(jù)失去了分析的意義。
(4)Vitality(靈活)
在互聯(lián)網(wǎng)時代,和以往相比,企業(yè)的業(yè)務(wù)需求更新的頻率加快了很多,那么相關(guān)大數(shù)據(jù)的分析和處理模型必須快速地適應(yīng)新的業(yè)務(wù)需求。
(5)Complexity(復(fù)雜)
雖然傳統(tǒng)的商務(wù)智能(BI)已經(jīng)很復(fù)雜了,但是由于前面4 個V 的存在,使得針對大數(shù)據(jù)的處理和分析更艱巨,并且過去那套基于關(guān)系型數(shù)據(jù)庫的BI開始有點(diǎn)不合時宜了,同時也需要根據(jù)不同的業(yè)務(wù)場景,采取不同的處理方式和工具。
以上新時代下“大數(shù)據(jù)”的特點(diǎn)決定它肯定會對當(dāng)今信息時代的數(shù)據(jù)處理產(chǎn)生很大的影響。
隨著數(shù)據(jù)生成和采集的指數(shù)增長,不管是由于下一代望遠(yuǎn)鏡,高通道的科學(xué)試驗(yàn),還是千萬億次的科學(xué)計(jì)算,高分辨率的傳感器,以及更加錯綜復(fù)雜的網(wǎng)絡(luò)環(huán)境,大數(shù)據(jù)的出現(xiàn)在科學(xué)道路上是一個讓人興奮的時代。由于這些高科技的出現(xiàn),它將在未來十年內(nèi)對通信、醫(yī)藥、天文學(xué)、宇宙學(xué)、材料科學(xué)和氣象學(xué)等領(lǐng)域造成更加顯著的影響。同時,將會發(fā)現(xiàn),在以前處理低數(shù)據(jù)量的時候所用的方法和技術(shù)可能在當(dāng)前大數(shù)據(jù)的條件下,不會再起到應(yīng)該有的效果。在高通量的數(shù)據(jù)傳遞速率的條件下,需要更高更先進(jìn)的技術(shù)去對數(shù)據(jù)進(jìn)行采樣描述分析,這對新技術(shù)、新設(shè)備的研究開發(fā)提出了更高的要求。
大數(shù)據(jù)的存儲問題。隨著越來越多的視頻、影像、出版、分析和虛擬化等內(nèi)容的文件越來越多,單個文件的大小和容量日益增加,在這樣的情況下,如何對這些“大”數(shù)據(jù)文件進(jìn)行更加有效合理的管理成為企業(yè)用戶面臨的一個問題。與管理傳統(tǒng)的非“大”數(shù)據(jù)文件不同,管理這些“大”數(shù)據(jù)文件面臨以下幾個問題:首先是高性能共享的問題,由于數(shù)據(jù)容量大,這就對數(shù)據(jù)共享的性能提出了挑戰(zhàn),傳統(tǒng)的“小”數(shù)據(jù)的存儲解決方案顯然不會得到好的性能。其次是文件管理和保護(hù)的問題,由于文件個頭變大,對它進(jìn)行分級、歸檔、備份和保護(hù)等都將對整個數(shù)據(jù)傳輸網(wǎng)絡(luò)的性能提出嚴(yán)峻的挑戰(zhàn)。最后,是重復(fù)數(shù)據(jù)的問題,大量重復(fù)的“大”數(shù)據(jù)文件肯定會占用更多的存儲資源。
大數(shù)據(jù)的處理問題。過去的科學(xué)研究第三范式就已經(jīng)需要用計(jì)算機(jī)來處理大型的數(shù)據(jù)運(yùn)算和模擬。而如今,這些研究正在被大量的數(shù)據(jù)淹沒。數(shù)字信息從各種各樣的傳感器、工具和模擬實(shí)驗(yàn)?zāi)抢镌丛床粩嗟赜縼恚罱M織能力、分析能力和儲存信息的能力捉襟見肘??茖W(xué)家將會在天文觀測、氣象監(jiān)測、生物基因、物理仿真等數(shù)據(jù)密集型科學(xué)研究中遭遇大數(shù)據(jù)這一問題。
在管理與政策上,大數(shù)據(jù)時代下面臨的問題包括企業(yè)或政府機(jī)構(gòu)跨部門的信息是否能融合,而且更為重要的是個人隱私等信息安全問題能否得到解決。其中最為迫切需要解決的就是安全問題。這里所說的安全不同于以往的信息安全問題,而是一種新的安全觀。這種新安全觀需要在大數(shù)據(jù)的利用時找到開放和保護(hù)的平衡。例如涉及個人隱私的數(shù)據(jù),既要能夠深入挖掘其中給人類帶來利益的智慧部分,又要充分保護(hù)隱私數(shù)據(jù)不被濫用,損害到個體的利益。
另一個挑戰(zhàn)則是大數(shù)據(jù)人才的培養(yǎng)。僅美國就面臨14 萬至19 萬分析和管理人才缺口,以及150萬具備理解和基于大數(shù)據(jù)研究做出決策的經(jīng)理和分析師人才缺口。因而,能讓大數(shù)據(jù)對商業(yè)更有利和更有價值的分析和管理人才還比較有限。
在新形勢下,世界各地出現(xiàn)的數(shù)據(jù)危機(jī)逐漸顯現(xiàn)出來,據(jù)國外媒體報道,美國聯(lián)邦執(zhí)法部門和情報機(jī)構(gòu)在網(wǎng)上發(fā)布的信息征集啟事顯示,美國政府正在尋找一款能夠分析社交媒體海量數(shù)據(jù),并預(yù)測未來恐怖主義襲擊和國外暴亂等重大事件的軟件。FBI 透露它希望借助數(shù)據(jù)工具來掃描和分析整個社交媒體中的龐大數(shù)據(jù)。美國國防部和情報局總監(jiān)辦公室(Office of the Director of National Intelligence)也已向私有企業(yè)求謀良策,希望利用社交媒體上人們每日共享的數(shù)十億條帖子來識別可能會發(fā)生的突發(fā)事件,例如恐怖主義威脅和騷亂活動。
在情報界,分析公眾信息并不是什么新鮮事。例如,在冷戰(zhàn)時期,美國中央情報局(CIA)的特工人員就經(jīng)常閱讀俄羅斯新聞報紙,攔截他們的電視和廣播節(jié)目,企圖推斷蘇聯(lián)領(lǐng)導(dǎo)人正在想什么。在過去幾年中,社交媒體的崛起極大地改變了公眾信息的數(shù)量和類別。Twitter CEO 迪克-科斯特羅(Dick Costolo)在最近一次會議中聲稱,該微博網(wǎng)站的用戶平均每三天發(fā)布10 億條消息。CIA 前分析師羅斯-斯塔普勒頓- 格雷(Ross Stapleton-Gray)說,“現(xiàn)在是收集情報的黃金時代,因?yàn)樗腥硕荚谧杂X自愿地表達(dá)他們是誰”。在20 世紀(jì)90 年代初,格雷供職于CIA 總監(jiān)辦公室。他現(xiàn)在是一名技術(shù)顧問,為公司提供安全、監(jiān)控和隱私等方面的建議。格雷聲稱,美國情報機(jī)構(gòu)早期收集互聯(lián)網(wǎng)信息的努力,遭到了一些元老級人物的阻擾,他們堅(jiān)信機(jī)密信息比任何人均能夠獲取的互聯(lián)網(wǎng)信息更有價值。但是,這些機(jī)構(gòu)尋找最佳社交媒體分析工具的做法表明,這種阻力已經(jīng)大大減弱了。
美國情報局總監(jiān)辦公室下屬的研究部門致力尋找的軟件系統(tǒng),將會融合網(wǎng)絡(luò)研究到維基百科編輯到流量監(jiān)控等各種功能,而且將能夠預(yù)測未來可能發(fā)生的重大事件,包括從經(jīng)濟(jì)混亂到瘟疫爆發(fā)。美國國防部尋找的工具將跟蹤社交媒體,監(jiān)測那些可能影響作戰(zhàn)士兵情緒的信息的傳播,并讓軍方在社交網(wǎng)絡(luò)上執(zhí)行“有效的網(wǎng)絡(luò)作戰(zhàn)方案”,打擊各種敵對活動。美國情報局總監(jiān)辦公室和國防部聲稱,他們不會在美聯(lián)社要求的期限內(nèi)回答有關(guān)這項(xiàng)提議的具體問題。
針對這些暴露出來的新型問題,必須要采取相應(yīng)的應(yīng)對措施來維持一個良好的社會秩序、科研環(huán)境、網(wǎng)絡(luò)環(huán)境。
“昆北”上聲字“剪”的唱調(diào)(《牡丹亭·冥判》【油葫蘆】“花衣勝剪裁”,763)。對照上聲字的調(diào)值和字腔的音勢,音調(diào)與此音勢完全吻合,(其中的音,宜作裝飾音解),故該音調(diào)即為“剪”的字腔。末個音即字腔的結(jié)點(diǎn),此后的兩音,即為該字的過腔。
如果問計(jì)算科學(xué)的專家,在今天什么將會使他們在自己領(lǐng)域有更大的進(jìn)步,大多數(shù)的人都會說是更大的磁盤空間和更快的CPU 速度。但是如今,新興的petabytes 級別的數(shù)據(jù)量從根本上改面了他們的認(rèn)識,新的工具(電腦硬件和軟件),新興技術(shù)(算法和統(tǒng)計(jì)規(guī)律)和科學(xué)計(jì)算周期本身都會同時加快進(jìn)步的速度。
(1)加強(qiáng)領(lǐng)域合作。在科學(xué)研究上,在高通量的數(shù)據(jù)流不斷涌出,多種數(shù)據(jù)形式并存的情況下,要分清數(shù)據(jù)是結(jié)構(gòu)化的還是非結(jié)構(gòu)化的,從而進(jìn)行針對性分析。同時,要實(shí)時的決定哪些數(shù)據(jù)應(yīng)當(dāng)被保留,而哪些數(shù)據(jù)是要被舍棄的。我們必須要確定訪問的目標(biāo)資源和資源的組織方式的最佳組合。這種數(shù)據(jù)處理方式的產(chǎn)生和對整體的數(shù)據(jù)問題的分析,需要計(jì)算機(jī)科學(xué)技術(shù)科學(xué)家和目標(biāo)專家的密切的合作。
(2)開發(fā)數(shù)據(jù)密集型計(jì)算方法。在信息量呈指數(shù)級增長之時,必須重新考慮數(shù)據(jù)密集型科學(xué)的一整套方法。圖靈獎得主、已故科學(xué)家吉姆·格雷(Jim Gray)針對這種情況提出了“第四范式”(the fourth paradigm)。吉姆認(rèn)為:人類需要用強(qiáng)大的新工具去分析、呈現(xiàn)、挖掘和處理科學(xué)數(shù)據(jù)。要解決我們面臨的某些最棘手的全球性挑戰(zhàn),它們可能是唯一具有系統(tǒng)性的方法。另一方面,科學(xué)研究的第四范式發(fā)展了一種“眾包”研究模式,例如海洋研究項(xiàng)目來說,如今對海洋的觀測會產(chǎn)生海量的信息,這些信息如果得不到合理的組織和存儲,后續(xù)研究就無法開展。因此,為了確保任何一個研究機(jī)構(gòu)不會因此不堪重負(fù),他們讓世界各地的科學(xué)家、學(xué)生和感興趣的民眾都可以訪問這些數(shù)據(jù)。此外,谷歌也在運(yùn)用數(shù)據(jù)處理技術(shù)解決科學(xué)和社會問題。如由其發(fā)起的地球引擎(Earth Engine)項(xiàng)目:使用衛(wèi)星圖像和衛(wèi)星分析技術(shù),對全球森林沙漠化進(jìn)行跟蹤;登革熱和流感趨勢(Dengue & Flu Trends)項(xiàng)目:通過匯總Google 搜索數(shù)據(jù),用以估計(jì)近乎實(shí)時的疾病活動;危機(jī)響應(yīng)(Crisis Response)項(xiàng)目:提供重要信息和開發(fā)工具,用于支持抗災(zāi)救危;REC 項(xiàng)目:致力于開發(fā)尋找比煤廉價且能達(dá)到公用事業(yè)規(guī)模的可再生能源的工具。谷歌公司的這一系列項(xiàng)目將大數(shù)據(jù)的分析淋漓精致地用到了科學(xué)研究中,為科學(xué)創(chuàng)新提供了源動力。
美國能源部已經(jīng)是而且將繼續(xù)會是在高性能數(shù)據(jù)計(jì)算方面的先導(dǎo)者之一。要在一些代表性的模擬試驗(yàn)中獲取最好的結(jié)果,他們需要具備產(chǎn)生和管理大宗數(shù)據(jù)的能力,此外,還需要相關(guān)的工具來從數(shù)據(jù)中提取有用的信息進(jìn)行分析。在能源部的數(shù)據(jù)密集型科學(xué)中,面對案例研究和未來挑戰(zhàn),James P. Ahrens 和他的合作者梳理出一套在處理這些數(shù)據(jù)時會遇到的一些共同的挑戰(zhàn)。這些挑戰(zhàn)包括網(wǎng)絡(luò)和分析的基礎(chǔ)設(shè)施,從大規(guī)模氣象學(xué)及宇宙學(xué)模擬得到的數(shù)據(jù),X-射線觀測站的數(shù)據(jù),和從能源部用戶設(shè)施的中子散射數(shù)據(jù),這些用戶設(shè)施包括阿貢國家實(shí)驗(yàn)室的高級光子源和美國國家散裂中子源。
Randal E.Bryant 在他的一篇文章“可擴(kuò)展的數(shù)據(jù)密集型科學(xué)計(jì)算應(yīng)用”中指出了在數(shù)據(jù)密集型的科學(xué)計(jì)算中可擴(kuò)展性的重要性。不管是在管理數(shù)據(jù)還是執(zhí)行大量的數(shù)據(jù)計(jì)算的時候都應(yīng)如此。Bryant提出將來的數(shù)據(jù)密集型的科學(xué)計(jì)算系統(tǒng)將會明顯不同于較為傳統(tǒng)的HPC 系統(tǒng)。HPC 系統(tǒng)是在當(dāng)前多數(shù)設(shè)備還在使用的計(jì)算裝置。在“數(shù)據(jù)密集型科學(xué)計(jì)算“中,Alexander S.Szalay 關(guān)注到了天文學(xué)界(不止此領(lǐng)域)會面臨的挑戰(zhàn),在天文學(xué)界,即將上線的新型望遠(yuǎn)鏡每天將會產(chǎn)生Peta bytes 級的數(shù)據(jù),要處理這么大數(shù)量的數(shù)據(jù),需要新型的基礎(chǔ)設(shè)施和先進(jìn)的科學(xué)計(jì)算方法,而且要保證高效性和高速性。Szalay 通過阿姆達(dá)爾定律論述了平衡的觀點(diǎn)。
(3)從多個方面進(jìn)行突破。要樹立和推廣一種普遍的方法來應(yīng)對數(shù)據(jù)密集型科學(xué)計(jì)算的挑戰(zhàn)。除了需要在計(jì)算硬件方面的投資,還需要在計(jì)算分析方法上進(jìn)行投資研究。例如,數(shù)據(jù)收集方法分析結(jié)果常常不能夠符合先前的假設(shè),這些數(shù)據(jù)可能不是獨(dú)立同分布的。這些現(xiàn)象對于收集來自于實(shí)驗(yàn)和物理系統(tǒng)觀測站的數(shù)據(jù)來說是正常的。還有一個更為迫切的需求就是去開發(fā)確定性的,可擴(kuò)展的分析算法,以及對幾乎所有的硬件都支持的隨機(jī)算法。一些情況下,數(shù)據(jù)量已經(jīng)足夠了,但有時科學(xué)家會面臨一些語義方面的障礙,比方說在分析視頻流信號的時候。
(4)在過程中不斷做出調(diào)整。還有一些情況就是,對于某些問題可能不能搜集到足夠的數(shù)據(jù),從而不能得到任何能站得住腳的結(jié)論。所以,要不斷開發(fā)能夠從有限的數(shù)據(jù)中提取信息的工具。隨著可以分析使用的數(shù)據(jù)的增多,分析出來的結(jié)果可能也會各有不同,所以我們應(yīng)該更加要在研究過程中的所有的階段堅(jiān)持科學(xué)的研究方法。獲取更多更好的高質(zhì)量數(shù)據(jù)肯定是必不可少的,但是數(shù)據(jù)本身是永遠(yuǎn)不能夠代替繁重的分析工作的。
在信息的安全方面,國外的做法通常是設(shè)置安全機(jī)制,采用第三方信息安全審計(jì),并對數(shù)據(jù)的使用作一些明確的規(guī)定,加大對信息竊取及修改的懲罰力度。
對企業(yè)組織者來說,首先需要盤點(diǎn)與己相關(guān)的數(shù)據(jù)資產(chǎn),弄清楚哪些是自身擁有的數(shù)據(jù),哪些是公共共享的數(shù)據(jù),哪些是需要向第三方購買的數(shù)據(jù),然后明確利用這些數(shù)據(jù)創(chuàng)造潛在價值,抓住其帶來的機(jī)遇與挑戰(zhàn),同時從機(jī)構(gòu)內(nèi)部構(gòu)造一個數(shù)據(jù)驅(qū)動型組織,制定相應(yīng)的企業(yè)信息戰(zhàn)略,最后再解決隱私和安全性方面的數(shù)據(jù)政策問題。對政策制定者來說,需要建立大數(shù)據(jù)有關(guān)的人力資源儲備,通過激勵機(jī)制促進(jìn)數(shù)據(jù)共享,通過制定有關(guān)政策維持?jǐn)?shù)據(jù)獲利公司和其他利益單位之間的利益平衡,注重個人隱私,建立有效的知識產(chǎn)權(quán)保護(hù)體系,解決技術(shù)壁壘,確保對于基本信息和通信技術(shù)基礎(chǔ)設(shè)施建設(shè)方面的投入。
新形勢下的賽博安全,大數(shù)據(jù)處理系統(tǒng)的建立是必不可少的。在2012 年2、3 月份在美國舊金山召開的RSA 安全會議上提出,大數(shù)據(jù)事件就是在網(wǎng)絡(luò)安全行業(yè)中,推出新產(chǎn)品或者開創(chuàng)性的理論闡述的一個完美的舞臺。RSA 主席Art Coviello 已經(jīng)講明,會增強(qiáng)自己在大數(shù)據(jù)的分析能力和組織武裝自己的能力,來對抗日益增強(qiáng)的賽博威脅的沖擊波。在當(dāng)前,許多組織會搜集到大量安全方面的數(shù)據(jù),但是,很多情況下,這些數(shù)據(jù)在安全層面上都是沒用的,即使在有的時候是有用的,有些機(jī)構(gòu)也會分析出錯誤的結(jié)論。目前大多數(shù)的系統(tǒng)仍然受限于控制誤區(qū)和費(fèi)時的更新中。安全措施基本上都是圍繞常規(guī)審計(jì)和規(guī)范報告的,威脅識別幾乎完全依賴于簽名的惡意檢測軟件,這種單一的安全檢測方式在日益增多的數(shù)據(jù)類型和數(shù)據(jù)形式的條件是遠(yuǎn)遠(yuǎn)不夠的。在大數(shù)據(jù)時代下,這種狀況必須要做出改變,使網(wǎng)絡(luò)安全變得高效,機(jī)構(gòu)單位需要在快如閃電的實(shí)時信息中篩選出威脅的存在。作為第一步,管理者需要監(jiān)測網(wǎng)絡(luò)中的每一部分,然后從所有可能的源頭去搜集不同類型、不同格式的數(shù)據(jù),從而來對攻擊他們網(wǎng)絡(luò)的所有的威脅有一個總體的概括性的了解。當(dāng)前的趨勢是限制從安全控制中來搜集數(shù)據(jù),大數(shù)據(jù)使機(jī)構(gòu)能夠檢測不同新產(chǎn)品的動作方式之間的差異。已經(jīng)搜集完數(shù)據(jù)之后,下一步是用高速分析的方式去關(guān)聯(lián)這些搜集到的數(shù)據(jù),產(chǎn)生一些操作性的信息,判別這些操作性信息的危險程度,以最快的速度作出反應(yīng),保護(hù)自己的網(wǎng)絡(luò)數(shù)據(jù)不被侵犯,維持網(wǎng)絡(luò)的正常運(yùn)行。
“大數(shù)據(jù)”帶來的網(wǎng)絡(luò)安全問題,以及在宏觀意義上的國家安全,不得不引起人們的重視。在今年3 月份,奧巴馬宣布“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”,通過提高從大型復(fù)雜的數(shù)字?jǐn)?shù)據(jù)集中提取知識和觀點(diǎn)的能力,幫助加快在科學(xué)與工程中的步伐,加強(qiáng)國家安全,改變教學(xué)研究。美國國防部先進(jìn)研究項(xiàng)目局(DARPA)為應(yīng)對大數(shù)據(jù)時代的到來,宣布建立多個針對網(wǎng)絡(luò)信息安全的研究項(xiàng)目。比較有代表性的有以下幾個。
(1)多尺度異常檢測(ADAMS)項(xiàng)目,該項(xiàng)目解決大規(guī)模數(shù)據(jù)集的異常檢測和特征化。項(xiàng)目中對異常數(shù)據(jù)的檢測指對現(xiàn)實(shí)世界環(huán)境中各種可操作的信息數(shù)據(jù)及線索的收集。最初的ADAMS 應(yīng)用程序只進(jìn)行內(nèi)部威脅檢測,在日常網(wǎng)絡(luò)活動環(huán)境中,檢測單獨(dú)的異常行動。
(2)網(wǎng)絡(luò)內(nèi)部威脅(CINDER)計(jì)劃,旨在開發(fā)新的方法來檢測軍事計(jì)算機(jī)網(wǎng)絡(luò)與網(wǎng)絡(luò)間諜活動。作為一種揭露隱藏操作的手段,CINDER 將適用于將對不同類型對手的活動統(tǒng)一成“規(guī)范”的內(nèi)部網(wǎng)絡(luò)活動,并旨在提高對網(wǎng)絡(luò)威脅檢測的準(zhǔn)確性和速度。
(3)Insight 計(jì)劃,該計(jì)劃主要解決目前情報、監(jiān)視和偵察系統(tǒng)的不足,進(jìn)行自動化和人機(jī)集成推理,使得能夠提前對時間敏感的更大潛在威脅進(jìn)行分析。該計(jì)劃將會開發(fā)出資源管理系統(tǒng),通過分析圖像和非圖像的傳感器信息和其他來源的信息,進(jìn)行網(wǎng)絡(luò)威脅的自動識別和非常規(guī)的戰(zhàn)爭行為。
(4)加密數(shù)據(jù)的編程計(jì)算(PROCEED),該研究工作旨在開發(fā)實(shí)用的方法,開發(fā)現(xiàn)代化計(jì)算編程語言,使數(shù)據(jù)加密時仍然能使用云計(jì)算環(huán)境,以克服信息安全的重大挑戰(zhàn)。使用戶能夠不需要首次解密的情況下能夠操縱加密的數(shù)據(jù),它將使得對手?jǐn)r截信息更加困難。
(5)在視頻和圖像的檢索和分析工具(VIRAT)計(jì)劃旨在開發(fā)一個系統(tǒng)能夠利用軍事圖像分析員收集的數(shù)據(jù)進(jìn)行大規(guī)模的軍事圖像分析。VIRAT 如果成功,將使分析師能夠在相關(guān)活動發(fā)生時建立警報。VIRAT 還計(jì)劃開發(fā)工具,能夠以更高的準(zhǔn)確率和召回率來從大量視頻庫里進(jìn)行視頻內(nèi)容的檢索。
(6)任務(wù)導(dǎo)向的彈性云計(jì)劃(Mission -oriented Resilient Clouds)用來應(yīng)對云計(jì)算固有的安全挑戰(zhàn),該項(xiàng)目要開發(fā)新的技術(shù)來檢測攻擊,并對攻擊作出回應(yīng),高效地為云端建立起一個“區(qū)域健康體系”。項(xiàng)目的另一個目標(biāo)是開發(fā)新技術(shù)使云端程序和設(shè)施能夠在遭受賽博攻擊的時候也能夠完成相應(yīng)的功能。在保證整個系統(tǒng)無大礙的情況下,個別主機(jī)或任務(wù)的損壞是可以容許的;
(7)XDATA 項(xiàng)目計(jì)劃,旨在開發(fā)用于分析大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的計(jì)算技術(shù)和軟件工具。最核心的挑戰(zhàn)是,可伸縮的算法在分布式數(shù)據(jù)存儲應(yīng)用、如何使人機(jī)交互工具能夠有效的迅速定制不同的任務(wù),以方便對不同數(shù)據(jù)進(jìn)行視覺化處理。對開源軟件工具包的靈活使用,使得能夠處理大量國防應(yīng)用中的數(shù)據(jù)。
“大數(shù)據(jù)”時代的到來,充滿了機(jī)遇與挑戰(zhàn),誰能夠最快地習(xí)慣這種新形式下的數(shù)據(jù)模式,熟悉和掌握處理這種數(shù)據(jù)處理方法,誰就會在之后的信息戰(zhàn)中占得先機(jī),取得主動權(quán)。
本文在編寫過程中,得到了信息產(chǎn)業(yè)部電子科技情報研究所喬榕高級工程師等專家的幫助,在此,表示感謝。