彭亞非
摘 要:隨著大數(shù)據(jù)技術在各領域中的應用,大大地減少網(wǎng)絡安全事情的發(fā)生率。本文將詳細闡述基于網(wǎng)絡流量元數(shù)據(jù)的安全大數(shù)據(jù)分析。
關鍵詞:網(wǎng)絡流量;元數(shù)據(jù);大數(shù)據(jù)分析
近年來,網(wǎng)絡攻擊事件頻繁發(fā)生,傳統(tǒng)的安全防御體系難以滿足網(wǎng)絡需要。大數(shù)據(jù)技術具有用戶追蹤和情報收集的功能,可以通過實時監(jiān)控網(wǎng)絡的數(shù)據(jù)歷史,以提高網(wǎng)絡安全,大大地避免網(wǎng)絡攻擊事件的發(fā)生,對網(wǎng)絡信息安全領域有著重要的意義。
1 網(wǎng)絡流量分離平臺
現(xiàn)階段大數(shù)據(jù)分析技術已收到界內(nèi)所有人的關注,但很多人對于大數(shù)據(jù)分析的理解始終停留在表面,關于大數(shù)據(jù)的生成方式一無所知。大數(shù)據(jù)分析需要大量的數(shù)據(jù)集作為基礎條件,過小的數(shù)據(jù)集無法支持大數(shù)據(jù)分析,對于真實情況不能很好的進行反饋,而這也將失去繼續(xù)改進的機會。目前大多數(shù)的企業(yè)的IT服務對于信息安全方面的要求較高,而本文將提到的網(wǎng)絡流量分流平臺是在網(wǎng)絡交換路由設備的各特性基礎上建立起來的多性能平臺,完全可以滿足當前企業(yè)網(wǎng)絡的流量分析,而且由于其實分布式的部署方式,可以使流量線性分流,從而大幅度擴大流量規(guī)模,實現(xiàn)信息的實時分離和匯聚,從而提高海量元數(shù)據(jù)分析的穩(wěn)定性。
2 元數(shù)據(jù)的定義、采集和存儲
在傳統(tǒng)主干網(wǎng)中,主要通過實時分析各主干節(jié)點路由器傳輸?shù)男畔?,并挖掘與其相關的歷史信息,迅速發(fā)現(xiàn)導致網(wǎng)絡流量連接異常的安全事件,已達到安全監(jiān)測的目的。例如通過獲取flow信息來源,進行預警,從而借助特定端口的網(wǎng)絡掃描能力,迅速查找流量放大攻擊事件。但隨著網(wǎng)絡攻防和安全防御方法逐漸被人了解,緊靠flow信息的收集已經(jīng)逐漸不能滿足網(wǎng)絡的安全監(jiān)測需要。無論是企業(yè)網(wǎng)還是校園網(wǎng),其入侵監(jiān)測系統(tǒng)主要是根據(jù)網(wǎng)絡流量進行信息報警的系統(tǒng),報警過程產(chǎn)生的大量數(shù)據(jù)為元數(shù)據(jù)類型中的一種。但入侵檢測的效果與特征規(guī)則庫的更新及質(zhì)量有直接關系,檢測功能很難作用在未知和新型的安全威脅,而且它具有很強的實效性,一旦沒有捕捉到安全事件,則不會再次檢測。對于商業(yè)入侵檢測系統(tǒng)的研究,由于詳細程度較低,且輸出類型較少,所以無法支持研究,對此,通過開源的Snort,以分布式部署的方式,同時運行多個檢測引擎,從而形成大規(guī)模的檢測系統(tǒng),不僅性能較高,且能夠快速進行更新,可控性也有極大的提高[1]。
從網(wǎng)絡流量中可以獲取到非常豐富的各種類型元數(shù)據(jù)的信息量,而且在很多單位和企業(yè)中,就算將所有的數(shù)據(jù)進行存儲也不會付出超過自身無法承受的代價。通過Web訪問的元數(shù)據(jù)可以直接檢測不加密的HTTP請求和響應報文;通過FTP訪問的元數(shù)據(jù)可以直接檢測FTP請求和響應報文;通過域名請求和響應的元數(shù)據(jù)可以直接檢測DNS協(xié)議的Response和Query信息;通過五元組和flow元數(shù)據(jù)可以直接進行應用層協(xié)議分析。當前大多數(shù)商業(yè)流量控制產(chǎn)品或在審計用戶行為過程中產(chǎn)生的各種類型和格式的元數(shù)據(jù)都是由Socket或Syslog進行輸出而成的,但考慮到實際的性能,很多時候都是在開源庫和開源軟件的基礎上以滿足10G流量處理的需要而提取的元數(shù)據(jù)。如今10G流量可以使用分布式部署方式實現(xiàn)大規(guī)模流量分析,及本地文件儲存各類元數(shù)據(jù)的功能[2]。
3 大數(shù)據(jù)分析平臺
由于大數(shù)據(jù)分析是對不同的目標和對象進行分析,因而需要使用的分析平臺也就有針對性。使用Hadoop平臺的HDFS文件系統(tǒng)存儲從網(wǎng)絡流量生成的大量元數(shù)據(jù),通過HIVE進行對安全關聯(lián)數(shù)據(jù)的挖掘,可以大幅度減少不必要的數(shù)據(jù)集。當前傳統(tǒng)關系型數(shù)據(jù)庫包括MySQL、PostgreSQL等,能存儲不同類型的安全事件和相關聯(lián)的信息。傳統(tǒng)關系型數(shù)據(jù)庫具有高實時性查詢功能,能滿足常規(guī)數(shù)據(jù)的實時查詢,Hadoop具有低實時性的查詢功能,可以用于查詢海量數(shù)據(jù),兩者有各自的優(yōu)勢,也有一定的缺點,只有進行互補提高自身的效率,以開通更優(yōu)質(zhì)的業(yè)務服務。此外,處理數(shù)據(jù)過程中,對Linux Shell命令組和Python腳本進行合理的運用,也可以促進系統(tǒng)運行效率的提高。
使用大數(shù)據(jù)分析實驗平臺Hadoop,主要因為其具有24臺物理機節(jié)點,可以極大地滿足安全分析的需求。其中存儲計算節(jié)點有21個,管理節(jié)點有2個,作業(yè)提交節(jié)點有1個,所有的節(jié)點都有配置合適的CPU、內(nèi)存、SSD硬盤、SATA硬盤,并利用以太網(wǎng)的萬兆流量,將所有節(jié)點的網(wǎng)絡進行連接,最后形成大容量的HDFS[3]。
Hadoop在部署軟件過程中使用Cloudera Standard4.8.0版本進行的,且采用CDH4.6.0+IMPALA 1.3.2+SOLR 1.2.0作為系統(tǒng)的組件。MapReduce統(tǒng)計是當前查詢中最常用的軟件,其中應用程序包括SQL語句和HIVE。投入使用后,通過瀏覽器的GUI查詢可以發(fā)現(xiàn)其使用效果還存在不穩(wěn)定的因素,而且為實現(xiàn)自動化的目標,最后還是在命令行界面進行實際的查詢?,F(xiàn)階段Hadoop平臺無論是響應應用需求時間還是全部硬件性能都還可以接受,因而索引還沒有通過分區(qū)列和壓縮進行優(yōu)化。當然,目前對Hadoop平臺性能的優(yōu)化研究并沒有停止,直至查詢效率實現(xiàn)最優(yōu)化為止。
4 基于挖掘和關聯(lián)的大數(shù)據(jù)分析
前期進行的統(tǒng)計分析是為后續(xù)安全分析提供數(shù)據(jù),而前期的數(shù)據(jù)屬于混雜的大數(shù)據(jù),不利于后期的分析,因此在前期時需要將大數(shù)據(jù)轉(zhuǎn)換成小數(shù)據(jù)。在這個過程中,首要目標是先要在IP的基礎上建立和形成一系列黑白名單。白名單制能夠自動對前期的網(wǎng)絡流量進行調(diào)整,為確保安全分析的效率,它可以提前處理掉許多無用的數(shù)據(jù),以便后期的處理分析和存儲。黑名單制能夠根據(jù)數(shù)據(jù)所處的區(qū)域,進行鎖定操作,從而對數(shù)據(jù)的發(fā)展和變化趨勢進行跟蹤,從而有效地提高安全監(jiān)測效率。
部分安全漏洞對網(wǎng)絡的損害極為嚴重,但其發(fā)生較為突然,而使用大數(shù)據(jù)分析后,可以對這種安全事件及時反映,并迅速對安全等級進行測定。多種WebShell和通過網(wǎng)站傳播的木馬在攻擊網(wǎng)絡時都可以從元數(shù)據(jù)中提取出明顯的特征,利用各種挖掘算法并關聯(lián)分析,就能了解投放的人、時間、地點等。網(wǎng)絡攻擊者在制造網(wǎng)絡安全事件后,都會在入侵完主機后消除各種痕跡,但這些痕跡卻早已經(jīng)被基于網(wǎng)絡流量的元數(shù)據(jù)記錄下來。不管是哪種攻擊方式,只要入侵過主機,都會有痕跡存在,而元數(shù)據(jù)則可以將這些痕跡進行還原,了解攻擊方式、地點及時間,從而第一時間追蹤到攻擊者的IP地址。當然并非所有的攻擊都能夠進行實時阻斷,其中必然會有一些忽略,但事后會自動開啟安全應急響應措施進行補救,實用性還是比較高的,而這都是基于元數(shù)據(jù)的積累上,元數(shù)據(jù)太少,就可能無法發(fā)現(xiàn)攻擊,安全事件就會頻繁發(fā)生。隨著網(wǎng)絡安全監(jiān)測被人熟知,攻擊渠道可能已經(jīng)不再局限于HTTP協(xié)議,還可以用過SSL加密或其它渠道發(fā)起高持續(xù)性威脅攻擊?,F(xiàn)階段的高校還無法完全防御這種攻擊方式,但提取應用層協(xié)議存儲和IP流量中的元數(shù)據(jù),可以直接分析攻擊方式,就可以實現(xiàn)在攻擊時第一時間發(fā)現(xiàn),并根據(jù)痕跡及時進行跟蹤,從而降低或避免損失[4]。
5 結(jié)語
網(wǎng)絡安全問題一直是全球都關注的話題,隨著信息技術的發(fā)展,網(wǎng)絡攻擊方式越來越多,而傳統(tǒng)安全防御體系也存在防御乏力的現(xiàn)象。大數(shù)據(jù)技術是基于這種背景下研究出來的新型防御技術,它的主要價值在于分析和跟蹤,通過分析大量的數(shù)據(jù),還原安全事件的形成過程,并進行實時跟蹤,對網(wǎng)絡安全領域有著重要的意義。
參考文獻
[1]姜開達,李霄,孫強. 基于網(wǎng)絡流量元數(shù)據(jù)的安全大數(shù)據(jù)分析[J]. 信息網(wǎng)絡安全,2014,05:37-40.
[2]付鈺,李洪成,吳曉平,王甲生. 基于大數(shù)據(jù)分析的APT攻擊檢測研究綜述[J]. 通信學報,2015,11:1-14.
[3]蔡宗慧,郝帥. 基于信息保障技術框架網(wǎng)絡安全技術整合及應用研究[J]. 電腦編程技巧與維護,2016,13:89-90.
[4]莊懷東,杜慶偉. 一種基于SDN的數(shù)據(jù)中心網(wǎng)絡動態(tài)流量調(diào)度方法[J]. 計算機與現(xiàn)代化,2016,07:80-86.