徐涌霞 淮北職業(yè)技術(shù)學(xué)院
高校信息化進(jìn)程在快速推進(jìn),各種攻擊事件的發(fā)生,使學(xué)校的信息安全受到極大的威脅,提高校園網(wǎng)的入侵防護(hù)能力就顯得尤為重要。學(xué)校加強(qiáng)校園網(wǎng)的安全預(yù)警及監(jiān)測(cè)能力,具體采用的安全防護(hù)機(jī)制有WAF、防火墻、防病毒軟件等,與國(guó)家信息安全等級(jí)保護(hù)要求相比還差很多。首先,對(duì)日志的采集及存儲(chǔ)能力不足,日志分布在不同的服務(wù)器上,黑客入侵服務(wù)器后很容易造成日志的丟失。其次,沒(méi)有對(duì)龐大的日志信息進(jìn)行挖掘和系統(tǒng)的分析,更沒(méi)有充分發(fā)揮日志的安全價(jià)值。雖然校園網(wǎng)采用了Web入侵檢測(cè)系統(tǒng),各個(gè)網(wǎng)站攻擊事件仍時(shí)有發(fā)生。對(duì)Web日志進(jìn)行系統(tǒng)分析及挖掘可以大大提升校園網(wǎng)的安全防護(hù)功能。
根據(jù)校園網(wǎng)的實(shí)際環(huán)境設(shè)計(jì)出了校園網(wǎng)Web日志安全事件挖掘系統(tǒng);該系統(tǒng)針對(duì)攻擊方式進(jìn)行深入研究后,提出了基于Hadoop集群的三種安全事件挖掘方法,解決無(wú)法采用傳統(tǒng)方式對(duì)龐大日志進(jìn)行挖掘的問(wèn)題。充分展現(xiàn)了日志的安全價(jià)值,為提升校園網(wǎng)安全防護(hù)提供極其重要的參考。系統(tǒng)功能模塊有校園網(wǎng)流量采集模塊、安全事件挖掘模塊、安全事件統(tǒng)計(jì)模塊及可視化模塊。
很多的互聯(lián)網(wǎng)公司都采用分布式Agent技術(shù)來(lái)采集Web日志,由于校園網(wǎng)服務(wù)器眾多,且分布比較分散,采集的日志不完整,Web日志格式不統(tǒng)一等特殊性,對(duì)校園網(wǎng)日志的采集采用Agent技術(shù)并不可行。引入了一種新的流量采集方式,首先從IDC出入口采集用戶訪問(wèn)IDC的流量,然后再通過(guò)對(duì)流量的解析獲取Web日志,它并不從各主機(jī)上獲取Web日志而是從IDC出入口還原出Web日志。這種采集方式從出入口流量中得到入侵者的訪問(wèn)痕跡;且能避免從各臺(tái)服務(wù)器采集數(shù)據(jù),統(tǒng)一獲取到校內(nèi)所有網(wǎng)站的訪問(wèn)日志;在采集過(guò)程中就可以統(tǒng)一格式,省去了各式轉(zhuǎn)換的步驟。
Web日志中包含了豐富的用戶訪問(wèn)信息,很多的互聯(lián)網(wǎng)公司都是通過(guò)Web使用數(shù)據(jù)分析用戶們的愛(ài)好、及各種行為。同時(shí)Web日志也包含著很多的攻擊行為。那么從Web日志中挖掘網(wǎng)站掃描、目錄遍歷攻擊、SQL注入攻擊、掛馬網(wǎng)站及XSS攻擊。然后分析這些攻擊事件的攻擊特點(diǎn),從而提出相應(yīng)的挖掘方法。
校園網(wǎng)WAF會(huì)利用規(guī)則庫(kù)對(duì)SQL注入攻擊、目錄遍歷攻擊以及XSS攻擊等多種攻擊形式進(jìn)行檢測(cè),由于很多高校的WAF,只掃描特定端口的流量,所以無(wú)法覆蓋全部的網(wǎng)站和域名.對(duì)以上攻擊方式的攻擊特征進(jìn)行研究,總結(jié)出XSS攻擊的主要關(guān)鍵字、SQL注入攻擊的關(guān)鍵字及目錄遍歷攻擊的主要關(guān)鍵字。根據(jù)各關(guān)鍵字本文制定了對(duì)于WAF來(lái)說(shuō)較為寬松的正則表達(dá)式,使紀(jì)錄的匹配程度更高,有效防止錯(cuò)過(guò)可疑的攻擊。針對(duì)以上的攻擊方式,具體的挖掘步驟為:首先對(duì)日志進(jìn)行預(yù)處理,從中截取所有HTTP請(qǐng)求的URL字段;然后逐行讀取URL,與庫(kù)中全部正則表達(dá)式進(jìn)行匹配,若匹配成功則記錄下URL與對(duì)應(yīng)的攻擊類(lèi)型。
掛馬網(wǎng)站挖掘的總體思路是特征匹配,通常會(huì)建立特征庫(kù)來(lái)與網(wǎng)頁(yè)木馬的請(qǐng)求進(jìn)行匹配。本文通過(guò)截取訪問(wèn)公網(wǎng)的HTTP日志,從中獲取URL,然后與網(wǎng)頁(yè)木馬特征庫(kù)進(jìn)行匹配,若匹配成功,則記錄該HTTP請(qǐng)求的Referer字段,該字段就記錄了校園網(wǎng)可疑掛馬網(wǎng)站。
目錄掃描工具最大的特點(diǎn)是會(huì)按照特定的URL庫(kù)向服務(wù)器發(fā)出連續(xù)的請(qǐng)求,由于大量請(qǐng)求目標(biāo)網(wǎng)站根本不存在的路徑,服務(wù)器就會(huì)返回很多的404狀態(tài)碼,基于以上特點(diǎn),提出網(wǎng)站掃描的基本挖掘思路及步驟:首先統(tǒng)計(jì)在單位時(shí)間段內(nèi)每一個(gè)IP所產(chǎn)生的404狀態(tài)碼及狀態(tài)碼在該Ip請(qǐng)求總量中所占比例。其次利用聚類(lèi)算法K-Means對(duì)前面處理得到的數(shù)據(jù)進(jìn)行聚類(lèi),由于數(shù)據(jù)之間存在著太大的差異,采用歐式距離是不行的,采用馬氏距離來(lái)完成聚類(lèi)。最后利用聚類(lèi)的結(jié)果,找出404數(shù)量大、比例高的一類(lèi)IP,就是惡意掃描的IP,然后將此類(lèi)IP加入黑名單。
網(wǎng)絡(luò)管理員要了解校園網(wǎng)所遭受攻擊的實(shí)際狀況,需要對(duì)校園網(wǎng)所遭受的攻擊類(lèi)型、攻擊者的地理位置以及攻擊次數(shù)進(jìn)行詳細(xì)統(tǒng)計(jì)。
根據(jù)前面各模塊的挖掘結(jié)果,分別設(shè)置三個(gè)變量代表三種攻擊類(lèi)型的攻擊次數(shù),從挖掘結(jié)果中逐行讀取記錄,分析攻擊類(lèi)型并給對(duì)應(yīng)的變量加一,最終統(tǒng)計(jì)出每一種攻擊類(lèi)型的攻擊次數(shù)。對(duì)網(wǎng)站掃描模塊的挖掘結(jié)果,則會(huì)把黑名單中IP的個(gè)數(shù)設(shè)為攻擊次數(shù),讀取掛馬網(wǎng)站的挖掘結(jié)果,統(tǒng)計(jì)可疑的掛馬網(wǎng)站的數(shù)量。
目前在全球企業(yè)應(yīng)用較為廣泛的MaxMind GerIP2服務(wù)能較為準(zhǔn)確識(shí)別用戶IP的特征及地理位置。所以本系統(tǒng)中就用MaxMind GerIP2所提供的GeoLite2版本,數(shù)據(jù)庫(kù)文件為mmdb格式。
本模塊需要利用Sqoop工具將存放Web安全事件統(tǒng)計(jì)及挖掘結(jié)果的HDFS中的數(shù)據(jù)導(dǎo)入到關(guān)系數(shù)據(jù)庫(kù)Oralce當(dāng)中。然后利用Web頁(yè)面完成以下幾個(gè)模塊的設(shè)計(jì):
本系統(tǒng)通過(guò)JDBC連接Hive,搭建Web頁(yè)面同時(shí)設(shè)置SQL輸入框,當(dāng)有安全事件發(fā)生時(shí),網(wǎng)絡(luò)管理員能快速定位到可疑日志,同時(shí)在Web頁(yè)面上方便地輸入SQL語(yǔ)句來(lái)對(duì)可疑日志進(jìn)行查詢,分析入侵者的具體攻擊過(guò)程,就能對(duì)校園網(wǎng)存在的安全漏洞進(jìn)行修復(fù)。
攻擊挖掘結(jié)果以Web形式展示給網(wǎng)絡(luò)管理員,這樣管理員可直觀從挖掘結(jié)果及時(shí)了解到校園網(wǎng)遭受攻擊的網(wǎng)站,從而對(duì)安全隱患較多的網(wǎng)站進(jìn)行整改。
本系統(tǒng)利用柱狀圖展示各種攻擊對(duì)校園網(wǎng)的攻擊次數(shù),利用餅形圖展示入侵者的地理位置分布,這樣網(wǎng)絡(luò)管理員就可以直觀了解學(xué)校所遭受的攻擊情況,并且可以隨時(shí)通過(guò)該模塊來(lái)驗(yàn)證校園網(wǎng)實(shí)施的新防護(hù)措施的有效性。
深入研究Web日志采集分析的需求,對(duì)校園網(wǎng)的安全建設(shè)進(jìn)行了系統(tǒng)的分析,設(shè)計(jì)出校園網(wǎng)Web日志安全事件挖掘系統(tǒng),該系統(tǒng)包含四個(gè)主要模塊。為了解決校園網(wǎng)日志采集存儲(chǔ)能力不足的問(wèn)題,針對(duì)性地提出了一種全新的流量采集方式,同時(shí)搭建Hadoop集群來(lái)完成日志的存儲(chǔ),為安全事件的分析奠定了良好的基礎(chǔ)。