孫雪萍, 崔久強(qiáng)
(1上海市人力資源和社會(huì)保障信息中合,上海,200051;2上海市數(shù)字證書認(rèn)證中合有限公司,上海,200080)
大數(shù)據(jù)助力信息安全研究*
孫雪萍1, 崔久強(qiáng)2
(1上海市人力資源和社會(huì)保障信息中合,上海,200051;2上海市數(shù)字證書認(rèn)證中合有限公司,上海,200080)
習(xí)近平指出:沒有網(wǎng)絡(luò)安全就沒有國家安全。 深度打擊網(wǎng)絡(luò)攻擊,保障信息安全迫在眉睫。 大數(shù)據(jù)時(shí)代的到來,給網(wǎng)絡(luò)與信息安全帶來了理念革新、技術(shù)革新和模式革新的機(jī)遇。本文根據(jù)國內(nèi)外大數(shù)據(jù)及其在信息安全領(lǐng)域的應(yīng)用現(xiàn)狀和發(fā)展趨勢(shì),提出了面向信息安全領(lǐng)域的大數(shù)據(jù)分析模型,對(duì)其中的大數(shù)據(jù)分布式計(jì)算技術(shù)進(jìn)行了深入研究,并對(duì)大數(shù)據(jù)挖掘分析應(yīng)用模式進(jìn)行了設(shè)計(jì),為應(yīng)對(duì)信息安全挑戰(zhàn)提供可行解決方案。
大數(shù)據(jù);信息安全;數(shù)據(jù)挖掘
國家互聯(lián)網(wǎng)應(yīng)急中心最新發(fā)布的互聯(lián)網(wǎng)安全威脅報(bào)告顯示,2014年9月,我國境內(nèi)被篡改網(wǎng)站數(shù)量為11152個(gè),其中被篡改政府網(wǎng)站數(shù)量為 430 個(gè)。 深度打擊網(wǎng)絡(luò)攻擊,保障信息安全迫在眉睫。大數(shù)據(jù)作為一個(gè)重要的生產(chǎn)要素已迅速發(fā)展成為工業(yè)界、學(xué)術(shù)界甚至世界各國政府高度關(guān)注的熱點(diǎn),對(duì)科學(xué)研究、經(jīng)濟(jì)建設(shè)、社會(huì)發(fā)展和文化生活等各個(gè)領(lǐng)域正在產(chǎn)生革命性的影響。 來自知道創(chuàng)宇科技的高級(jí)安全研究員林峰表示大數(shù)據(jù)將安全帶入了一個(gè)全新、復(fù)雜和綜合的時(shí)代,不安全的那些蛛絲馬跡在浩瀚數(shù)據(jù)的掩護(hù)下,正在精準(zhǔn)地發(fā)起一次又一次的攻擊。 但是,大數(shù)據(jù)帶來不安全性的同時(shí),也是保障信息安全的利器。 云計(jì)算時(shí)代,大數(shù)據(jù)分析全覆蓋已經(jīng)成為必然趨勢(shì),而信息安全更是需要大數(shù)據(jù)的保駕護(hù)航。
網(wǎng)絡(luò)攻擊行為隱藏在海量數(shù)據(jù)中,在信息安全領(lǐng)域,利用大數(shù)據(jù)技術(shù)整合、計(jì)算、分析不同來源的海量數(shù)據(jù)信息,有助于將網(wǎng)絡(luò)異常行為數(shù)字化,從而有針對(duì)性地應(yīng)對(duì)信息安全威脅,找出數(shù)據(jù)中的風(fēng)險(xiǎn)點(diǎn),定位攻擊源頭,查處網(wǎng)絡(luò)攻擊,甚至發(fā)現(xiàn)未知特征的網(wǎng)絡(luò)攻擊。 RSA 執(zhí)行主席亞瑟.科維洛指出,大數(shù)據(jù)分析將助力信息安全重獲警惕性與時(shí)間的優(yōu)勢(shì),大數(shù)據(jù)是應(yīng)對(duì)信息安全挑戰(zhàn)的革命性解決方案。
1.1 大數(shù)據(jù)上展現(xiàn)狀
近年來,伴隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)成為促進(jìn)現(xiàn)代經(jīng)濟(jì)社會(huì)發(fā)展的關(guān)鍵因素,大數(shù)據(jù)高度重視,為搶占大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的制高點(diǎn),歐美等發(fā)達(dá)國家紛紛將大數(shù)據(jù)納入國家發(fā)展戰(zhàn)略,并在資金和政策上予以支持。美國政府發(fā)布了《大數(shù)據(jù)研究和發(fā)
展計(jì)劃》,斥資 2 億美元用于大數(shù)據(jù)研究;英國政府積極推進(jìn)數(shù)據(jù)開放計(jì)劃,將在大數(shù)據(jù)和節(jié)能計(jì)算研究上投資 1.89 億英磅;法國政府發(fā)布了《數(shù)字化路線圖》,宣布投入1 150萬歐元研發(fā) 7 個(gè)大數(shù)據(jù)市場(chǎng)項(xiàng)目。 中國也正在積極實(shí)施大數(shù)據(jù)發(fā)展戰(zhàn)略,“十八大”報(bào)告中明確提出網(wǎng)絡(luò)空間與深海、深空是我們國家核心利益的關(guān)鍵領(lǐng)域。在大數(shù)據(jù)領(lǐng)域的落后,意味著產(chǎn)業(yè)戰(zhàn)略制高點(diǎn)失守,更意味著國家安全將在數(shù)據(jù)空間出現(xiàn)漏洞。 隨著互聯(lián)網(wǎng)各類網(wǎng)絡(luò)應(yīng)用的不斷深入,中國的大數(shù)據(jù)技術(shù)與應(yīng)用的快速發(fā)展已成為不容忽視的事實(shí)。
目 前 國 內(nèi) 各 ICT(Information Communication Technology) 企業(yè),特別是大型互聯(lián)網(wǎng)企業(yè),都開始對(duì)大數(shù)據(jù)的存儲(chǔ)、處理和應(yīng)用進(jìn)行戰(zhàn)略布局。 2011年8月,百度作為中國最大的搜索引擎宣布將用三年的時(shí)間建立一個(gè)全國最大的數(shù)據(jù)中心。 2012年,騰訊提出了“大數(shù)據(jù)營銷”的概念,表示“將從這些海量數(shù)據(jù)中挖掘、分辨出用戶的行為模式、興趣偏好等,打造專屬于每個(gè)人的智慧門戶?!痹凇按髷?shù)據(jù)提高用戶購物體驗(yàn)”的旗號(hào)下,淘寶根據(jù)長(zhǎng)尾原理充分利用大數(shù)據(jù)挖掘技術(shù),建設(shè)開放平臺(tái),提供各種增值服務(wù)。 20l2年8月盛大網(wǎng)絡(luò)調(diào)整了旗下盛大創(chuàng)新院的組織架構(gòu),將研究焦點(diǎn)放到了海量數(shù)據(jù)挖掘與智能推薦技術(shù),發(fā)展大數(shù)據(jù)作為盛大向視頻和移動(dòng)領(lǐng)域進(jìn)軍的機(jī)遇,將其作為未來 10年賴以生存的核心競(jìng)爭(zhēng)力予以高度重視。
1.2 信息安全領(lǐng)域的大數(shù)據(jù)應(yīng)用現(xiàn)狀
利用大數(shù)據(jù)技術(shù)助力信息安全已成為國際趨勢(shì),我國應(yīng)更多利用大數(shù)據(jù)迅速發(fā)展的趨勢(shì)和不斷完善的技術(shù),讓其在助力信息安全中發(fā)揮更大作用。 IBM、RSA 以及惠普等紛紛透露自己的大數(shù)據(jù)安 戰(zhàn)略,都要求使用 SIEM(Security Information and Event Management)工具作為大數(shù)據(jù)安全的基礎(chǔ)。 大數(shù)據(jù)安全的概念是指除了用 SIEM 搜集來的傳統(tǒng)的安全事件信息之外,還要加上對(duì)海量數(shù)據(jù)內(nèi)容的巧妙分析,通過自動(dòng)化分析處理與深度挖掘?qū)⑿畔踩录氖轮?、事后處理,轉(zhuǎn)向事前自動(dòng)評(píng)估預(yù)測(cè)、應(yīng)急處理,讓安全防護(hù)主動(dòng)起起來,如此才能夠找到迅速查明安全問題的更好方法。
構(gòu)建面向信息安全領(lǐng)域的大數(shù)據(jù)平臺(tái),自動(dòng)、智能、快速地對(duì)復(fù)雜來源的海量數(shù)據(jù)進(jìn)行采集,并針對(duì)大數(shù)據(jù)分布式計(jì)算特性和算法特性對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一預(yù)處理,形成統(tǒng)一的分布式存儲(chǔ)管理系統(tǒng)。 利用分布式計(jì)算架構(gòu)對(duì)數(shù)據(jù)進(jìn)行快速計(jì)算和挖掘分析,針對(duì)不同的行業(yè)應(yīng)用特點(diǎn),以采集的大數(shù)據(jù)為基礎(chǔ),構(gòu)建相應(yīng)的業(yè)務(wù)模型和可視化分析,從而發(fā)現(xiàn)和揭示隱含的要素和關(guān)聯(lián)。 設(shè)計(jì)面向信息安全領(lǐng)域的大數(shù)據(jù)平臺(tái)的結(jié)構(gòu)如圖1所示:
圖1 平臺(tái)結(jié)構(gòu)圖
2.1 數(shù)據(jù)源采集
信息安全領(lǐng)域的數(shù)據(jù)源根據(jù)數(shù)據(jù)類型的不同包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),主要通過智能網(wǎng)絡(luò)爬蟲技術(shù)、數(shù)據(jù)庫讀取、數(shù)據(jù)庫導(dǎo)入等方式采集來源于網(wǎng)絡(luò)信息、應(yīng)用系統(tǒng)的數(shù)據(jù)庫信息以及平面文件信息等。
2.2 大數(shù)據(jù)預(yù)處理
原始數(shù)據(jù)中存在著大量雜亂的、重復(fù)的、不完整的數(shù)據(jù),嚴(yán)重影響到數(shù)據(jù)挖掘算法的執(zhí)行效率,甚至可能導(dǎo)致挖掘結(jié)果的偏差[3]。 因此,在數(shù)據(jù)挖掘算法執(zhí)行之前,必須對(duì)收集到的原始數(shù)據(jù)進(jìn)行預(yù)處理,從而改進(jìn)數(shù)據(jù)的質(zhì)量,提高數(shù)據(jù)挖掘過程的效率、精度和性能。
圖2 大數(shù)據(jù)預(yù)處理示意圖
大數(shù)據(jù)預(yù)處理利用數(shù)據(jù)切片、數(shù)據(jù)分類、數(shù)據(jù)聚合、數(shù)據(jù)索引標(biāo)記等技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行層級(jí)化的聚合、重組、清洗、提取、轉(zhuǎn)換、管理、切分等預(yù)處理操作,統(tǒng)一標(biāo)準(zhǔn)接口,統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),并通過分布式存儲(chǔ)管理技術(shù),在滿足一致性要求的基礎(chǔ)上,實(shí)現(xiàn)安全、可靠、快速、有效地對(duì)多類型、多格式、多特性數(shù)據(jù)的統(tǒng)一存儲(chǔ)管理。
2.3 大數(shù)據(jù)分布式計(jì)算
大數(shù)據(jù)分布式計(jì)算通過兩個(gè)或多個(gè)計(jì)算機(jī)互相共享信息,將需要進(jìn)行大量計(jì)算的數(shù)據(jù)分割成小塊,由多臺(tái)計(jì)算機(jī)分別計(jì)算,再對(duì)運(yùn)算結(jié)果進(jìn)行統(tǒng)一合并。采用分布式任務(wù)調(diào)度機(jī)制動(dòng)態(tài)靈活的將計(jì)算資源進(jìn)行分配和調(diào)度,從而達(dá)到資源利用最大化,計(jì)算節(jié)點(diǎn)不會(huì)出現(xiàn)閑置和過載的情況并支持資源配額管理[4]。 采用分布式實(shí)時(shí)計(jì)算框架和分布式離線計(jì)算框架相結(jié)合的分布式計(jì)算框架和模塊化設(shè)計(jì),構(gòu)建一個(gè)支持多種分布式計(jì)算模型的統(tǒng)一資源動(dòng)態(tài)調(diào)度、管理和計(jì)算的大數(shù)據(jù)分布式計(jì)算平臺(tái),有效支撐大數(shù)據(jù)挖掘分析。[5]
圖3 大數(shù)據(jù)分布式計(jì)算示意圖
2.4 大數(shù)據(jù)挖掘分析
通過上述數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分布式計(jì)算等業(yè)務(wù)過程,大數(shù)據(jù)已納入分布式數(shù)據(jù)存儲(chǔ)管理中,這些數(shù)據(jù)信息已可以用于傳統(tǒng)的查詢、統(tǒng)計(jì)和分析,得到大量對(duì)業(yè)務(wù)有用的信息。 然而,隱藏或淹沒在這些大數(shù)據(jù)之中的更重要的信息,如數(shù)據(jù)整體特征描述、發(fā)展趨勢(shì)預(yù)測(cè)、關(guān)聯(lián)性分析、精細(xì)化分類、模式識(shí)別等,是無法用傳統(tǒng)查詢統(tǒng)計(jì)方法來獲取的。為了得到這些有用的信息,需要采用數(shù)據(jù)挖掘分析技術(shù),自動(dòng)智能地對(duì)大數(shù)據(jù)分析、探索和挖掘,探尋數(shù)據(jù)的模式及特征,尋找數(shù)據(jù)背后的信息變化和價(jià)值,從而最終使用蘊(yùn)藏在數(shù)據(jù)中的信息和知識(shí)。
圖4 大數(shù)據(jù)挖掘分析示意圖
數(shù)學(xué)模型庫是針對(duì)所有算法的特征,構(gòu)建的一個(gè)通用庫,實(shí)現(xiàn)了大數(shù)據(jù)格式的“數(shù)據(jù)結(jié)構(gòu)定義”。 對(duì)算法參數(shù)、數(shù)學(xué)模型庫、模型評(píng)估體系和挖掘分析的結(jié)果等進(jìn)行統(tǒng)一管理,提供了數(shù)據(jù)挖掘分析的入口。 根據(jù)輸入的算法參數(shù),自動(dòng)調(diào)用挖掘分析所用的算法及其相應(yīng)的模型等[6]。
數(shù)據(jù)挖掘算法工具庫針對(duì)大數(shù)據(jù)分布式存儲(chǔ)管理、分布式計(jì)算的特性,統(tǒng)一匹配各種數(shù)據(jù)挖掘算法。 根據(jù)不同行業(yè)的業(yè)務(wù)需求,工具庫可配置不同的算法進(jìn)行挖掘分析,具備靈活的動(dòng)態(tài)擴(kuò)展和分布式任務(wù)調(diào)度機(jī)制。工具庫中的算法包括但不限于分類算法引擎、關(guān)系網(wǎng)絡(luò)分析算法引擎和圖形算法引擎,算法引擎之間可根據(jù)實(shí)際的業(yè)務(wù)數(shù)據(jù)分析需求交叉使用。
數(shù)據(jù)挖掘接口封裝是屏蔽底層算法的細(xì)節(jié)差異,統(tǒng)一向上層提供數(shù)據(jù)挖掘的處理接口。接口封裝在保證了系統(tǒng)功能獨(dú)立的同時(shí)增加了系統(tǒng)的可擴(kuò)展性和靈活性,當(dāng)與之互聯(lián)的外圍系統(tǒng)發(fā)生變化時(shí),只需修改相應(yīng)接口程序即可。
數(shù)據(jù)挖掘引擎[7]是在總結(jié)、抽象數(shù)據(jù)挖掘行業(yè)類型的基礎(chǔ)上,提供預(yù)警型、評(píng)估型、跟蹤型等多種類型的數(shù)據(jù)挖掘引擎。
數(shù)據(jù)挖掘應(yīng)用調(diào)度根據(jù)電子政務(wù)、電子商務(wù)的具體業(yè)務(wù)需求,設(shè)計(jì)相應(yīng)的業(yè)務(wù)模型,具備動(dòng)較強(qiáng)的態(tài)擴(kuò)展能力。
2.5 信息安全大數(shù)據(jù)應(yīng)用
隨著大數(shù)據(jù)技術(shù)的不斷創(chuàng)新和廣泛應(yīng)用,信息安全領(lǐng)域越來越迫切需要依托大數(shù)據(jù)處理技術(shù)來實(shí)現(xiàn)網(wǎng)絡(luò)攻擊的“事前預(yù)防”、“主動(dòng)發(fā)現(xiàn)”。 面向信息安全領(lǐng)域的大數(shù)據(jù)分析平臺(tái)在大數(shù)據(jù)采集、預(yù)處理、分布計(jì)算和挖掘分析的基礎(chǔ)上,面向電子政務(wù)、電子商務(wù)等不同的行業(yè)需求提供信息安全保障服務(wù)。
電子政務(wù)、電子商務(wù)等關(guān)鍵信息基礎(chǔ)設(shè)施和重要信息系統(tǒng)正面臨著各種網(wǎng)絡(luò)黑客行為的深攻擊威脅,沒有網(wǎng)絡(luò)安全就沒有國家安全,信息安全領(lǐng)域打擊網(wǎng)絡(luò)攻擊是當(dāng)前保障國家安全的重要舉措。搭建以網(wǎng)絡(luò)攻擊信息多方式收集與分析為基礎(chǔ)的面向信息安全領(lǐng)域的大數(shù)據(jù)分析平臺(tái),主動(dòng)提供釣魚攻擊、詐騙和阻止黑客入侵、數(shù)據(jù)泄露等信息,促使信息安全保障工作從“被動(dòng)開展”到“主動(dòng)發(fā)現(xiàn)”。 全面推動(dòng)大數(shù)據(jù)處理技術(shù)的應(yīng)用,促進(jìn)信息安全保障理念革新。
[1]林峰.大數(shù)據(jù)讓網(wǎng)絡(luò)攻擊無所遁形[EB/OL].北京:賽迪網(wǎng),2013(2013-09-26) [2014-10-30].http: //news.ccidnet. com/art/1032/20130926/5200391-1.html
[2]官建文,劉振興,劉揚(yáng).國內(nèi)外主要互聯(lián)網(wǎng)公司大數(shù)據(jù)布局與應(yīng)用比較研究[J].中國傳媒科技,2012(17):45-49.
[3]元昌安.數(shù)據(jù)挖掘原理與 SPSS Clementine 應(yīng)用寶典[M] .電子工業(yè)出版社,2009.
[4]劉培松.云計(jì)算環(huán)境下任務(wù)調(diào)度和資源分配策略的研究[D].上海:華東師范大學(xué),2013.
[5]王佳雋.基于云計(jì)算環(huán)境的虛擬化資源管理研究[D].上海:復(fù)旦大學(xué),2011.
[6]Anand Rajaraman, Jeffrey David Ullman.大數(shù)據(jù)·互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M],人民郵電出版社,2012.
[7]余永紅,向曉軍,高陽等.面向服務(wù)的云數(shù)據(jù)挖掘引擎的研究[J],計(jì)算機(jī)科學(xué)與探索,2012,6(1):46-57.
Big Data's Asistance to Information Security Research
SUN Xue-ping1, CUI Jiu-qiang2
(1Shanghai Municipal Human Resources and Social Security Information Center, Shanghai 200051, China;2Shanghai Electronic Certificate Authority Center Co., Ltd., Shanghai 20000, China)
XI Jin-ping points out: where there is no network security, there is no state security.To implement in-depthIt blow on network attack and guarantee information security becomes an urgent task.The advent of big data era brings an opportunity of coneptual technological and pattern innovation to network and information security.According to big data at home and abroad and its application status and development trend in the field of information security, this paper proposes a big data analysis model oriented to information security.Meanwhile the in-depth study on distributed computing technology of big data is done, and the big-data mining analysis application pattern also designed,thus to provide a feasible solution to the challenge of information security.
big data;information security;data mining
TP391.1
A
1009-8054(2015)03-0089-03
孫雪萍(1964—),女,工程師,主要研究方向?yàn)樾畔踩?、電子政?wù)和電子商務(wù)等;
2014-11-13
上海市科研計(jì)劃項(xiàng)目(No.14DZ2281100),上海市信息化上展專項(xiàng)(No.201401040)
崔久強(qiáng)(1973—),男,工程師,主要研究方向?yàn)殡娮诱J(rèn)證、信息安全、電子政務(wù)、電子商務(wù)和數(shù)字證書等。 ■