趙志杰
(金鄉(xiāng)縣大數(shù)據(jù)中心 山東 濟(jì)寧 272200)
在信息技術(shù)的不斷發(fā)展中,互聯(lián)網(wǎng)技術(shù)已經(jīng)進(jìn)入生產(chǎn)和生活,并且出現(xiàn)了大量的企事業(yè)、政府部門、個(gè)人等用戶。隨著用戶數(shù)量的增加,用戶存儲在其設(shè)備上的數(shù)據(jù)和信息量也隨之增加,并且該信息成為黑客和木馬病毒竊取的目標(biāo)。目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)取得了長足的發(fā)展,并且變得越來越適用。數(shù)據(jù)挖掘不僅會幫助各類用戶進(jìn)行分析和集成所需的信息資源,而且還會挖掘并警告一些危險(xiǎn)數(shù)據(jù),對網(wǎng)絡(luò)的正常運(yùn)行提供了數(shù)據(jù)支持。
在提高了信息數(shù)據(jù)傳輸?shù)男释瑫r(shí),也對信息數(shù)據(jù)獲取的安全性提出了更高的要求。多年來,傳統(tǒng)技術(shù)模型經(jīng)常影響結(jié)構(gòu)化數(shù)據(jù)庫用于存儲信息的使用[2]。此過程不僅成本高昂,而且還會導(dǎo)致少量數(shù)據(jù)丟失。通過使用大數(shù)據(jù)挖掘技術(shù),可以降低丟失數(shù)據(jù)信息的風(fēng)險(xiǎn),提高工作效率,保證了網(wǎng)絡(luò)的正常運(yùn)行。另外,大數(shù)據(jù)挖掘技術(shù)的深度發(fā)展可以有效地加強(qiáng)網(wǎng)絡(luò)安全防御體系。因此,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用和研究在網(wǎng)絡(luò)安全中起著非常重要的作用。
數(shù)據(jù)挖掘技術(shù)的原理應(yīng)分為幾個(gè)模塊:①數(shù)據(jù)源模塊:該模塊的主要功能是將數(shù)據(jù)集成到網(wǎng)絡(luò)中,并將集成的數(shù)據(jù)源發(fā)送到終端主機(jī)。此階段不需要處理過多,僅需要簡單的預(yù)處理,最重要的是了解某些數(shù)據(jù)的關(guān)聯(lián)結(jié)構(gòu);②預(yù)處理模塊:預(yù)處理模塊的主要任務(wù)是對數(shù)據(jù)進(jìn)行分類,統(tǒng)一規(guī)劃數(shù)據(jù)格式并將其轉(zhuǎn)換為主機(jī)可以識別的格式。數(shù)據(jù)分類主要基于源IP和數(shù)據(jù)的端口位置,使用預(yù)處理技術(shù)可減少數(shù)據(jù)冗余,提高數(shù)據(jù)識別能力;③數(shù)據(jù)挖掘模塊:此模塊可以通過此步驟,更精確地識別數(shù)據(jù)之間的潛在關(guān)系,并為以后的進(jìn)一步?jīng)Q策準(zhǔn)備數(shù)據(jù)分析基礎(chǔ);④規(guī)則數(shù)據(jù)庫模塊:規(guī)則數(shù)據(jù)庫模塊包括對以前病毒類型的存儲和新病毒類型的更新,存儲有關(guān)先前清除的病毒的特征并分析當(dāng)前的挖掘結(jié)果。當(dāng)出現(xiàn)新病毒時(shí),它將被添加到存儲庫中;⑤決策模塊:是整個(gè)系統(tǒng)此時(shí)的最后一個(gè)模塊,決策模塊是挖掘結(jié)果的最終決策。如果病毒與庫中出現(xiàn)大面積吻合,則可以將其視為應(yīng)直接防御,若匹配程度不高,但是挖掘結(jié)果表明風(fēng)險(xiǎn)很高時(shí),做出進(jìn)一步?jīng)Q策,如果確認(rèn),則將其收集在庫中[3]。
防御系統(tǒng)的構(gòu)建包括以下步驟:①關(guān)聯(lián)原則:數(shù)據(jù)挖掘技術(shù)是關(guān)聯(lián)原則的的基礎(chǔ),數(shù)據(jù)挖掘決策主要基于因果關(guān)系,時(shí)間序列以及簡單數(shù)據(jù)之間的三種類型的關(guān)聯(lián)關(guān)系;②聚類分析:在聚類分析中,必須首先將具有相同特征的數(shù)據(jù)分為幾類,以便不同的組具有不同的特征。在挖掘中,可以挖掘組之間的關(guān)系以實(shí)現(xiàn)疏密識別,對于總體控制非常有用;③分類分析:統(tǒng)計(jì)方法主要用于分類分析。通過按類別輸入預(yù)定義的分類個(gè)體,我們充分利用機(jī)器學(xué)習(xí)方法來創(chuàng)建模型并達(dá)到數(shù)據(jù)分析的目的;④異類分析:異類分析的本質(zhì)是找到與其他數(shù)據(jù)無法分組的或有顯著差異的數(shù)據(jù)。此類數(shù)據(jù)通常是數(shù)據(jù)挖掘中的一項(xiàng)突破口,可以在其中獲得所需的結(jié)果[4]。
隨著大數(shù)據(jù)時(shí)代的到來,分類算法和聚類算法等數(shù)據(jù)挖掘技術(shù)已成為一項(xiàng)重要技術(shù),并已發(fā)展成為一種使用可視化和遺傳算法等研究方法處理大量數(shù)據(jù)的強(qiáng)大方法。
傳統(tǒng)網(wǎng)絡(luò)入侵檢測方法的缺點(diǎn)也使犯罪分子可以容易利用,異常入侵檢測和誤用入侵檢測是網(wǎng)絡(luò)入侵檢測的兩種方法:①誤用入侵檢測方法:可以檢測到相關(guān)的歷史記錄,但是它無法檢測到一些新的入侵行為和警告。該檢測結(jié)果的實(shí)際影響很小,以至于在當(dāng)前檢測到網(wǎng)絡(luò)入侵時(shí)逐漸淘汰了這一方法②異常入侵檢測方法:這種檢測方法比誤用入侵檢測方法先進(jìn)得多,可用于有效執(zhí)行入侵篩選的一些小型網(wǎng)站,它非常高效且方便。但是,如果入侵網(wǎng)絡(luò)的方法比較聰明且偽裝的好,或者如果識別出大型網(wǎng)站,則此方法似乎無能為力。隨著網(wǎng)絡(luò)的不斷發(fā)展,該技術(shù)的適應(yīng)性越來越差。迫切需要開發(fā)專注于數(shù)據(jù)挖掘的網(wǎng)絡(luò)保護(hù)技術(shù)[5]。
數(shù)據(jù)挖掘是一項(xiàng)系統(tǒng)性任務(wù),可以分為四個(gè)步驟:數(shù)據(jù)提取,預(yù)處理,挖掘和樣本評估。首先分析原始數(shù)據(jù);然后處理數(shù)據(jù)以使其適合挖掘;然后使用適當(dāng)?shù)乃惴ㄌ崛?yīng)的信息;最后,以標(biāo)準(zhǔn)化方式評估和顯示生成的知識模式。大數(shù)據(jù)背景下的入侵檢測技術(shù)是網(wǎng)絡(luò)安全技術(shù)的重要研究課題之一。該技術(shù)是指在用戶網(wǎng)絡(luò)被黑客入侵之前及時(shí)檢測并阻止入侵者,但不會造成嚴(yán)重破壞的技術(shù)。它在檢測多種網(wǎng)絡(luò)攻擊和確保網(wǎng)絡(luò)安全方面起著重要作用。在實(shí)際的應(yīng)用過程中,必須重復(fù)數(shù)據(jù)挖掘任務(wù)的每個(gè)步驟并進(jìn)行深入研究,這就需要數(shù)據(jù)挖掘技術(shù)的不斷改進(jìn)和創(chuàng)新。
總之,數(shù)據(jù)挖掘技術(shù)是當(dāng)前用于網(wǎng)絡(luò)安全重要技術(shù),用戶必須有效落實(shí)這種技術(shù)以防止黑客入侵和病毒,防止信息丟失?;诖?,本文主要對該技術(shù)的主要原理、功能、研究現(xiàn)狀進(jìn)行了相關(guān)分析,希望在網(wǎng)絡(luò)安全中的應(yīng)用進(jìn)行更深層次的的創(chuàng)新,從而保證網(wǎng)絡(luò)環(huán)境的安全性。