姜莉
(國網(wǎng)河南省電力公司羅山縣供電公司,河南 羅山 464200)
數(shù)據(jù)采集是大數(shù)據(jù)技術的基本功能之一,通過對海量數(shù)據(jù)信息的搜集、篩選、整合,結合用戶的需求指令,形成特定的信息報告,再以合理的方式進行數(shù)據(jù)呈現(xiàn),完成所有信息處理程序后,將所采集的數(shù)據(jù)信息輸送至接收方。在實際工作中,利用Kafka分布式可對信息流進行二次加工,將流動數(shù)據(jù)轉變?yōu)樘囟ǖ木鶆蚍植紶顟B(tài),便于數(shù)據(jù)需求方對信息的提取和更新。
與一般的網(wǎng)絡技術相比,大數(shù)據(jù)技術具有容量大、計算速度快、精確查找的優(yōu)勢,能夠在短時間內完成歷史數(shù)據(jù)的保存,利用Hshoop分布式進行節(jié)點計算和腳本分析,建立龐大的數(shù)據(jù)庫系統(tǒng),完成數(shù)據(jù)存儲的過程,為各項工作的開展提供數(shù)據(jù)支撐。在數(shù)據(jù)計算存儲的同時,安全系統(tǒng)可以自動為信息流進行安全分析,如不符合要求,將會出現(xiàn)安全預警提示,增強信息存儲的安全性。
利用大數(shù)據(jù)技術,能夠根據(jù)用戶的實際需求對信息進行查詢、檢索和分析,通過MapReduce對選定范圍內的信息進行重新計算,第一時間捕獲系統(tǒng)中的異常信息,并加以分析處理,檢測出具有安全隱患的信息模塊,及時從源頭排除故障,從根本上提高系統(tǒng)的安全性,以確保網(wǎng)絡安全。
在網(wǎng)絡技術的推動下,信息更新?lián)Q代的速度越來越快,結構日益復雜化,各項信息之間的內部關聯(lián)性日益緊密化,由單一的信息單元轉變?yōu)槎嚯A的信息網(wǎng)絡,增加了信息分析的難度。利用大數(shù)據(jù)分析技術能夠有效解決該問題,通過對多源異構信息的安全分析,結合DNS訪問和流量變化狀況,對數(shù)據(jù)源進行追溯,發(fā)現(xiàn)安全攻擊痕跡及漏洞,提高系統(tǒng)安全保護等級。
一般來說,搭建安全系統(tǒng)的首要環(huán)節(jié)是設計和建立基本框架,信息采集層是最為基礎的層級。在實際應用中,往往利用Storm或Kafka分布式計算來實現(xiàn)此層級功能,用于采集系統(tǒng)參與方的相關信息和訪問記錄,并對數(shù)據(jù)進行安全整合,根據(jù)數(shù)據(jù)定制命令,進行數(shù)據(jù)的發(fā)送和傳遞。利用大數(shù)據(jù)技術進行安全信息采集,保證了信息來源的可靠性,為信息分析提供了有效的可用數(shù)據(jù)。
通過大數(shù)據(jù)技術,采集信息后,需要實現(xiàn)信息的長期性保存,選擇適用的緩存格式,保證云端接入數(shù)據(jù)的有效性和安全性。具體來說,通過HDFS命令對數(shù)據(jù)進行讀取和記憶,以實現(xiàn)安全系統(tǒng)的信息存儲功能,與一般的存儲文件相比,HDFS具有吞吐量大、容錯性高的獨特優(yōu)勢,能夠最大限度地保持信息的完整性,建立安全的信息存儲數(shù)據(jù)庫。HDFS節(jié)點設置完畢后,運行HBase列式存儲命令,能夠容納大量的數(shù)據(jù)信息,并對其進行存儲管理,與數(shù)據(jù)分析結果一一映射,形成關系型存儲模式,通過Sqoop命令實現(xiàn)與非關系型存儲模型的關聯(lián),完成二者之間相互的數(shù)據(jù)輸入和數(shù)據(jù)輸出過程,最大限度地保持安全信息存儲的無損性,避免出現(xiàn)信息失真的情況。
本層級的主要功能:根據(jù)用戶對信息提取的實際要求,以適當?shù)男问秸故拘畔?shù)據(jù),實現(xiàn)多維度的信息結果呈現(xiàn)。由于信息的種類繁多,不同用戶之間對信息呈現(xiàn)的要求各不相同,利用大數(shù)據(jù)檢索技術,能夠根據(jù)用戶的檢索記錄、指令和日志資料等,自動配對相應的信息報表,快速響應用戶的信息需求,將數(shù)據(jù)分析的結果進行格式整理,向用戶呈現(xiàn)出完整的安全信息報告,體現(xiàn)大數(shù)據(jù)技術的用戶導向性。
在大數(shù)據(jù)技術的實際應用過程中,一般利用Hive運算模型完成多元化、復雜化、多階級數(shù)據(jù)的檢索、計算和判斷,實現(xiàn)數(shù)據(jù)的異常檢索和聯(lián)動分析,及時檢測系統(tǒng)的異常情況,并做出安全預警提示。在布局結構上,該計算節(jié)點往往和HDFS節(jié)點并排設立,當接收到數(shù)據(jù)分析的指令時,系統(tǒng)自動完成查詢和計算任務的分配,各自完成本節(jié)點的指令任務,HDFS主要負責信息的快速檢索和查詢,Hive節(jié)點則負責完成各項信息的統(tǒng)計分析。為對流動數(shù)據(jù)進行準確判斷,還可將在安全系統(tǒng)中融入CPE技術,基于多維度分析,形成多項事件間的關系網(wǎng),通過對其進行聚合、篩選分析,在龐大的數(shù)據(jù)流中發(fā)掘異常行為和安全事件,達到安全信息分析的目的。
綜上所述,大數(shù)據(jù)技術對現(xiàn)代信息安全維護具有重要的現(xiàn)實意義,在網(wǎng)絡安全分析中發(fā)揮了中堅技術力量,為信息采集、傳輸、存儲、分析和呈現(xiàn)全過程提供安全保障。在實際應用過程中,大數(shù)據(jù)技術依托強大的信息處理能力,對多元安全信息進行整合和計算,識別和預警安全隱患,實現(xiàn)網(wǎng)絡安全分析的及時性、有效性。