◆唐培全 戴小佳
(1.華能山東發(fā)電有限公司 山東 250014;2.華能山東發(fā)電有限公司八角電廠 山東 264006)
目前的大數(shù)據(jù)技術(shù)包含了基于數(shù)據(jù)收集、數(shù)據(jù)儲存、數(shù)據(jù)清潔、數(shù)據(jù)挖掘和基于數(shù)據(jù)模型等。其中,數(shù)據(jù)收集主要應(yīng)該包括兩個部分。一方面,使用網(wǎng)絡(luò)爬蟲這一手段把出現(xiàn)在網(wǎng)絡(luò)和移動設(shè)備上的各類信息都收集了起來,并且有效地對這些信息加以了管理。另一方面,使用不同類型的傳感器,收集各種行業(yè)的數(shù)據(jù)。數(shù)據(jù)存儲就是按照系統(tǒng)規(guī)定的形態(tài)來收集所需要的數(shù)據(jù),例如物理和實測信息。
顯而易見,互聯(lián)網(wǎng)技術(shù)取得了很大的進(jìn)步并且仍在進(jìn)步當(dāng)中,這就導(dǎo)致了在世界范圍內(nèi)的數(shù)據(jù)量已經(jīng)增加到很龐大的地步,我們的生活的變化可以用天翻地覆來形容。目前大數(shù)據(jù)處理方法常用的大數(shù)據(jù)技術(shù)有Spark、Hadoop 以及MapReduce。大數(shù)據(jù)技術(shù)在分析數(shù)據(jù)集背后隱藏的信息時,通過機器學(xué)習(xí)等方式帶來了很大的商業(yè)價值。
大數(shù)據(jù)技術(shù)有很大的作用,目前的大數(shù)據(jù)技術(shù)包含了基于數(shù)據(jù)收集、數(shù)據(jù)儲存、數(shù)據(jù)清潔、數(shù)據(jù)挖掘和基于數(shù)據(jù)模型等。其中,數(shù)據(jù)收集主要應(yīng)該包括兩個部分。一方面,使用網(wǎng)絡(luò)爬蟲這一手段把出現(xiàn)在網(wǎng)絡(luò)和移動設(shè)備上的各類信息都收集了起來,并且有效地對這些信息加以了管理。另一方面,傳感器的使用,尤其是在各種傳感器類型的發(fā)展下,對不同行業(yè)內(nèi)數(shù)據(jù)的收集起到了正向的促進(jìn)作用。在對數(shù)據(jù)存儲工作時,大數(shù)據(jù)的發(fā)展可以在龐大的數(shù)據(jù)內(nèi)按照系統(tǒng)所規(guī)定的方式收集需要的大量數(shù)據(jù),比如對物理和實測信息的收集。數(shù)據(jù)清洗所指的是對收集到的缺陷數(shù)據(jù)進(jìn)行篩選及相應(yīng)處理工作的過程,通過這點來保證結(jié)構(gòu)的完整性。數(shù)據(jù)挖掘工作是以機器學(xué)習(xí)的方式,智能化挖掘數(shù)據(jù)中能分析得來的隱藏信息。而對于數(shù)據(jù)模型使用工作則是根據(jù)收集到的數(shù)據(jù)建立起智能模型并進(jìn)行各種各樣的預(yù)測。隨著大數(shù)據(jù)技術(shù)的發(fā)展和進(jìn)步,其在各行業(yè)的應(yīng)用也愈發(fā)廣泛。例如,根據(jù)大數(shù)據(jù)技術(shù)對信息進(jìn)行采集和分析而建立起的銀行信用卡詐騙檢測模型來預(yù)防詐騙犯罪行為,同時大數(shù)據(jù)技術(shù)在財務(wù)風(fēng)險評估和基因信息分析等方面也有重要的應(yīng)用。
網(wǎng)絡(luò)安全分析收集、存儲和分析網(wǎng)絡(luò)安全日志、流量、用戶方向、業(yè)務(wù)行為等信息,分析網(wǎng)絡(luò)中存在的漏洞、潛在的網(wǎng)絡(luò)攻擊、和可能發(fā)生的網(wǎng)絡(luò)信息盜竊威脅,諸如此類的安全威脅都能通過大數(shù)據(jù)在網(wǎng)絡(luò)安全中的應(yīng)用進(jìn)行預(yù)防,大數(shù)據(jù)帶來的網(wǎng)絡(luò)安全分析的結(jié)果,能夠幫助計算機在運行過程當(dāng)中進(jìn)行安全維護(hù)和保證計算機的穩(wěn)定運行。所以大數(shù)據(jù)技術(shù)的應(yīng)用可以說是網(wǎng)絡(luò)安全維護(hù)工作和計算機網(wǎng)絡(luò)穩(wěn)定運行的基礎(chǔ),網(wǎng)絡(luò)安全分析是網(wǎng)絡(luò)安全正常運行的重要步驟之一。
目前,網(wǎng)絡(luò)安全數(shù)據(jù)分析是一種基于網(wǎng)絡(luò)全流量的分析技術(shù),網(wǎng)絡(luò)攻擊給用戶留下了一個可以直接用于網(wǎng)絡(luò)跟蹤的印記,網(wǎng)絡(luò)攻擊時所生成的各種網(wǎng)絡(luò)數(shù)據(jù)不同于普通流量的網(wǎng)站所需要生成的各種數(shù)據(jù),因此,通過對網(wǎng)絡(luò)跟蹤的分析,可以準(zhǔn)確地認(rèn)識和了解到網(wǎng)絡(luò)的威脅,迅速應(yīng)對各種網(wǎng)絡(luò)攻擊,最終根據(jù)這些網(wǎng)絡(luò)攻擊的取證結(jié)果做出判斷。但是,隨著現(xiàn)代互聯(lián)網(wǎng)技術(shù)的更新和發(fā)展,會使用戶在網(wǎng)上遭受各種形式的攻擊。只依靠網(wǎng)絡(luò)安全流程分析的技術(shù),是無法滿足各種互聯(lián)網(wǎng)企業(yè)在保護(hù)和維持網(wǎng)絡(luò)安全方面需求。因此,自動識別各類網(wǎng)絡(luò)襲擊、具有自適應(yīng)保護(hù)功能的創(chuàng)新型智能化網(wǎng)絡(luò)安全分析技術(shù)已成為當(dāng)務(wù)之急。
隨著互聯(lián)網(wǎng)的普及和用戶的不斷增多,帶來了數(shù)據(jù)量的激增,同時也給網(wǎng)絡(luò)安全分析也提出了更高的要求,網(wǎng)絡(luò)安全分析中要處理的數(shù)據(jù)量單位從TB 階段正發(fā)展到PB 階段,在分析的過程中,所面對的內(nèi)容比原來詳細(xì)更多,分析時進(jìn)行的維度也變得愈發(fā)多樣,信息數(shù)據(jù)傳輸率逐漸增加,并且0day 等漏洞也在增加,同時有組織性的APT式攻擊發(fā)生的頻率也較以往更高。這就導(dǎo)致數(shù)據(jù)在長期保存的過程中丟失的可能性更大,難以跟蹤源頭。特別是在難以降低大量干擾的數(shù)據(jù)中,對數(shù)據(jù)的分析效率也很難滿足需求,分析出的結(jié)果精度也不夠高。而大數(shù)據(jù)技術(shù)的合理應(yīng)用讓處理的效率和精度都有所提高,同時降低了處理成本和安全風(fēng)險,加快了對安全問題的發(fā)現(xiàn)速度。與此同時,在網(wǎng)絡(luò)安全中應(yīng)用大數(shù)據(jù)技術(shù)對挖掘的準(zhǔn)確性有實質(zhì)性的提高,二者的集成在未來有巨大的前景。
在計算機安全問題的案例中,實際上,各種病毒的攻擊的對象往往是計算機的主機,所以說對主機做好保護(hù),就能大大提高對攻擊防范的有效性。在采用大數(shù)據(jù)對用戶的主機的保護(hù)機制進(jìn)行增強的前提下,用戶可以做到只通過相應(yīng)的功能按鈕進(jìn)行重置,而無須重新啟動計算機,這一改進(jìn)可以有效保護(hù)系統(tǒng)的主機,進(jìn)而維護(hù)網(wǎng)絡(luò)安全。加強主機保護(hù)是保護(hù)計算機系統(tǒng)安全的有效手段因此必須有效地應(yīng)用這一措施
在大數(shù)據(jù)時代,存儲在網(wǎng)絡(luò)終端上的數(shù)據(jù)量也在增加。持續(xù)加強終端的安全性能可以有效地提高網(wǎng)絡(luò)信息的安全性能,保證有效地執(zhí)行網(wǎng)絡(luò)管理規(guī)則,是保護(hù)計算機網(wǎng)絡(luò)信息安全的有效對策。為了加強網(wǎng)絡(luò)終端的安全,不僅要及時修復(fù)網(wǎng)絡(luò)漏洞,還必須選擇有效的防范病毒入侵、使用新技術(shù)有效抵御黑客攻擊的有效對策。此外,還必須實施有效的安全保護(hù),加強數(shù)據(jù)安全技術(shù)的研究開發(fā),不斷更新云計算模式。應(yīng)用新技術(shù)可以徹底消除攻擊力強的病毒,消除惡意代碼等相關(guān)風(fēng)險因素,從而有效地運行網(wǎng)絡(luò)終端設(shè)備,保證網(wǎng)絡(luò)信息安全。
在大數(shù)據(jù)時代持續(xù)發(fā)展的情況下,存在著越來越多種類的計算機病毒,病毒數(shù)量也在增加,對計算機病毒的應(yīng)對變得困難。在計算機網(wǎng)絡(luò)的實際運行過程中,想要實現(xiàn)對信息安全的有效維護(hù),病毒處理能力的加強也是重要的途徑之一,可以選擇合理的對策進(jìn)行計算機網(wǎng)絡(luò)病毒的防范工作。同時計算機用戶在使用計算機網(wǎng)絡(luò)的過程中,應(yīng)當(dāng)形成定期的殺毒習(xí)慣,重視網(wǎng)絡(luò)安全,在網(wǎng)絡(luò)技術(shù)應(yīng)用的過程中遵循規(guī)則,規(guī)范自身的行為,對計算機網(wǎng)絡(luò)信息安全進(jìn)行維護(hù)。
對于互聯(lián)網(wǎng)公司而言,在為客戶提供服務(wù)的過程當(dāng)中,要面對大量的數(shù)據(jù)信息,為了對這些信息進(jìn)行合理妥當(dāng)?shù)奶幚砗头治觯梢允褂脤lume 和Scribe 采集系統(tǒng),有效地采集數(shù)據(jù)。
傳統(tǒng)的網(wǎng)絡(luò)數(shù)據(jù)很大,通常存儲在硬盤上。雖然磁盤容量在穩(wěn)步增長,但磁盤的讀取速度并未跟上時代的發(fā)展。而Hadoop 大數(shù)據(jù)技術(shù)和YARN 分布式文件系統(tǒng)中使用HDFS 存儲數(shù)據(jù)后,無論是數(shù)據(jù)的讀取速度還是精確度都有了很大的提升,能夠滿足實際的要求。
所需要的各式信息隱藏業(yè)務(wù)行為以及互聯(lián)網(wǎng)上生成的其他各種信息的背后,大數(shù)據(jù)的應(yīng)用在保證數(shù)據(jù)安全的同時,實現(xiàn)了對數(shù)據(jù)的高效分析。例如MapReduce 框架的合理使用可以避免數(shù)據(jù)集質(zhì)量問題導(dǎo)致的錯誤和不良分析結(jié)果,如數(shù)據(jù)過濾、刪除不完整的數(shù)據(jù)和改進(jìn)數(shù)據(jù)集。同時,還可以使用MapReduce 分析經(jīng)過機器學(xué)習(xí)預(yù)處理的數(shù)據(jù)集,挖掘數(shù)據(jù)背后的價值建立預(yù)測模型,準(zhǔn)確分析網(wǎng)絡(luò)安全性。機器學(xué)習(xí)具有良好的一般化性能,可以應(yīng)對各種網(wǎng)絡(luò)攻擊。
由于大數(shù)據(jù)技術(shù)優(yōu)于分析、存儲和檢索的傳統(tǒng)方法,因此可以有效提高數(shù)據(jù)分析的效率,具有從海量信息數(shù)據(jù)中消除安全問題和隱患的能力。以嵌入大數(shù)據(jù)技術(shù)和計算機網(wǎng)絡(luò)安全技術(shù)的分析平臺為例,可以更清楚地了解大數(shù)據(jù)技術(shù)的好處。
基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)安全分析平臺從上到下構(gòu)成了數(shù)據(jù)獲取層、數(shù)據(jù)存儲層、數(shù)據(jù)挖掘?qū)雍蛿?shù)據(jù)顯示層。從數(shù)據(jù)類型的觀點來看,平臺在計算機網(wǎng)絡(luò)的運用中生成,如DNS 流量信息數(shù)據(jù)、Netflow流量信息數(shù)據(jù)、用戶行為信息、網(wǎng)絡(luò)結(jié)構(gòu)信息、Web 應(yīng)用信息等。數(shù)據(jù)存儲層可以通過分布式存儲實現(xiàn)各種非結(jié)構(gòu)化數(shù)據(jù)的長期存儲。在分析平臺上,數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)挖掘分析和數(shù)據(jù)顯示可以形成整體。
數(shù)據(jù)挖掘技術(shù):主要實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的在線分析和日志信息與交通信息的離線統(tǒng)計,信息數(shù)據(jù)的統(tǒng)計主要通過Hive 實現(xiàn)。為了集成在線信息收集和離線信息收集,該平臺集成了Strom 和Kafka 計算體系結(jié)構(gòu)。在線信息數(shù)據(jù)和離線信息數(shù)據(jù)整合可以實現(xiàn)分布式、非結(jié)構(gòu)化、可靠、高效的海量信息收集和收集,并在整合后將數(shù)據(jù)發(fā)送到相應(yīng)的分布式存儲點。與常見的數(shù)據(jù)挖掘方法不同,平臺可以使用Kafka來保證流數(shù)據(jù)的有效處理,Strom 可以傳送各種實時消息,因此計算機網(wǎng)絡(luò)在運行中可以連續(xù)讀取、發(fā)送數(shù)據(jù)。
數(shù)據(jù)存儲技術(shù):所挖掘的網(wǎng)絡(luò)信息數(shù)據(jù)主要存儲在目前成熟的分布式文件存儲技術(shù)HDFS 中,可以在不同的數(shù)據(jù)節(jié)點中存儲不同類型的非結(jié)構(gòu)化數(shù)據(jù)。對于大量的信息數(shù)據(jù),HDFS 還支持?jǐn)?shù)據(jù)的相互導(dǎo)入。
數(shù)據(jù)分析技術(shù):平臺數(shù)據(jù)分析由成熟的編程模型MapReduce 實現(xiàn),主要用于超過1TB 的數(shù)據(jù)集的并行操作,可以實現(xiàn)數(shù)據(jù)分布式存儲海量數(shù)據(jù)。此外,平臺還使用Hive 生成數(shù)據(jù)統(tǒng)計信息,并使用HDFS 快速發(fā)現(xiàn)和查詢非結(jié)構(gòu)化數(shù)據(jù)。
信息安全在大數(shù)據(jù)時代變成了數(shù)據(jù)分析的重要問題,目前網(wǎng)絡(luò)信息數(shù)據(jù)規(guī)模不斷擴大,數(shù)據(jù)種類不斷增加,現(xiàn)有的網(wǎng)絡(luò)安全技術(shù)難以實現(xiàn)準(zhǔn)確有效的分析。大數(shù)據(jù)技術(shù)的特性能夠滿足目前計算機網(wǎng)絡(luò)的安全要求。