• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于內(nèi)容分析的高性能反釣魚(yú)識(shí)別引擎

      2015-04-30 06:56:35王惟
      軟件導(dǎo)刊 2015年4期
      關(guān)鍵詞:網(wǎng)絡(luò)安全

      王惟

      摘要摘要:網(wǎng)絡(luò)釣魚(yú)是一種偽裝成一個(gè)可信站點(diǎn),通過(guò)社會(huì)工程學(xué)技術(shù),誘使用戶輸入敏感信息,從而騙取用戶私人信息的攻擊行為,是當(dāng)今互聯(lián)網(wǎng)交易中的重大安全威脅。針對(duì)這類(lèi)安全問(wèn)題,介紹了一種基于內(nèi)容分析的高性能反釣魚(yú)識(shí)別引擎。通過(guò)合理的架構(gòu)與算法設(shè)計(jì),使系統(tǒng)達(dá)到高于93%的準(zhǔn)確度,同時(shí)保證92.4%的召回率及快速處理,有效地阻止了釣魚(yú)攻擊在網(wǎng)絡(luò)上的傳播。

      關(guān)鍵詞關(guān)鍵詞:網(wǎng)絡(luò)釣魚(yú);反釣魚(yú)識(shí)別引擎;網(wǎng)絡(luò)安全

      DOIDOI:10.11907/rjdk.151303

      中圖分類(lèi)號(hào):TP309.5

      文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2015)004013903

      0引言

      網(wǎng)絡(luò)釣魚(yú)攻擊是當(dāng)今互聯(lián)網(wǎng)交易中威脅最大的攻擊形式。釣魚(yú)者常常構(gòu)造一個(gè)釣魚(yú)站點(diǎn),將該站點(diǎn)頁(yè)面?zhèn)卧斐蔀橐粋€(gè)可信站點(diǎn),并通過(guò)社會(huì)工程學(xué)技術(shù),騙取用戶信任,誘惑用戶輸入個(gè)人信息,從而得到用戶的賬號(hào)、密碼等敏感數(shù)據(jù)進(jìn)而盜取用戶的財(cái)產(chǎn)。隨著B(niǎo)2B、B2C等形式的電子商務(wù)日益普及,釣魚(yú)攻擊的危害也與日俱增。根據(jù)著名的反釣魚(yú)組織APWG統(tǒng)計(jì)[1], 2009年下半年,該組織接到了超過(guò)126 697次釣魚(yú)攻擊舉報(bào),是上半年55 698次的兩倍多。此外,釣魚(yú)形式也呈現(xiàn)多樣化趨勢(shì),新型釣魚(yú)方式逐漸成為主流,如短信、飛信或者聊天軟件彈出的中獎(jiǎng)信息,甚至有的釣魚(yú)者利用求職信息進(jìn)行詐騙。因此,如何避免用戶受騙,保護(hù)用戶的交易安全成為當(dāng)前互聯(lián)網(wǎng)安全的首要任務(wù)。

      雖然許多信息安全廠商、研究機(jī)構(gòu)發(fā)布了多種技術(shù)來(lái)防止網(wǎng)絡(luò)釣魚(yú)的發(fā)生,但目前還沒(méi)有能夠完全解決這些問(wèn)題的方案。文獻(xiàn)[2]表明,只有少數(shù)工具能夠保證在一個(gè)較低的誤判率下識(shí)別超過(guò)60%的釣魚(yú)攻擊。

      筆者提出了一種基于內(nèi)容分析的新型反釣魚(yú)識(shí)別引擎。有別于大部分的解決方案,本系統(tǒng)不是一款針對(duì)用戶桌面瀏覽器的插件工具,也不是一款學(xué)術(shù)驗(yàn)證模型,而是可以部署在防火墻或者網(wǎng)關(guān)的阻斷引擎系統(tǒng)。

      該系統(tǒng)捕捉和分析每一個(gè)通過(guò)引擎的數(shù)據(jù)包并提取出網(wǎng)址,隨后對(duì)該URL進(jìn)行分析,當(dāng)識(shí)別為釣魚(yú)攻擊時(shí)即進(jìn)行阻斷。為了提高識(shí)別效率,在該原型系統(tǒng)中,加入了一個(gè)白名單和一個(gè)實(shí)時(shí)維護(hù)的黑名單組件,在降低誤判率的同時(shí),大大縮短了引擎識(shí)別的處理時(shí)間。

      系統(tǒng)功能如下:①實(shí)現(xiàn)了一種可以部署在防火墻或者網(wǎng)關(guān)的高速處理識(shí)別引擎,不僅僅針對(duì)用戶桌面的瀏覽器,能更好地應(yīng)對(duì)新型網(wǎng)絡(luò)釣魚(yú)的攻擊;②實(shí)現(xiàn)了多國(guó)語(yǔ)言識(shí)別,特別是針對(duì)中文進(jìn)行分析。

      1相關(guān)工作

      在現(xiàn)有的反釣魚(yú)機(jī)制中,根據(jù)其實(shí)施策略大致可分為電子郵件級(jí)和用戶桌面級(jí)兩種。

      1.1電子郵件級(jí)

      一般意義上認(rèn)為,傳統(tǒng)的釣魚(yú)攻擊是通過(guò)偽造的電子郵件開(kāi)始的。因此,一些方案試圖通過(guò)識(shí)別并阻止偽造電子郵件進(jìn)行反釣魚(yú)攔截,這些方案往往采用反垃圾郵件的相關(guān)技術(shù),通過(guò)類(lèi)似于過(guò)濾器的方式進(jìn)行識(shí)別[3]。然而,隨著新型網(wǎng)絡(luò)釣魚(yú)的出現(xiàn),特別是傳播途徑的多樣化,越來(lái)越多的引誘信息通過(guò)聊天軟件、聊天室或者手機(jī)短信進(jìn)行傳播,基于郵件的策略逐漸成為了被繞過(guò)的“馬其諾防線”。

      1.2用戶桌面級(jí)

      網(wǎng)絡(luò)瀏覽器作為網(wǎng)站呈現(xiàn)的終端工具,一直扮演者重要的角色,因此,人們研究的視角放在了用戶桌面。這些方案最終通過(guò)瀏覽器插件的形式實(shí)現(xiàn)各種識(shí)別算法,目前主要有兩種方法。

      (1)基于黑名單的過(guò)濾機(jī)制[4,5]。通過(guò)查詢一個(gè)實(shí)時(shí)維護(hù)的黑名單并對(duì)名單上命中的記錄進(jìn)行攔截,從而實(shí)現(xiàn)對(duì)惡意釣魚(yú)站點(diǎn)的阻斷。該方法具有準(zhǔn)確度高、處理速度快的優(yōu)點(diǎn),但是隨著制作釣魚(yú)站點(diǎn)成本的降低,釣魚(yú)站點(diǎn)的平均壽命越來(lái)越短,同時(shí)新出現(xiàn)的速度也越來(lái)越快,而此時(shí)基于黑名單的過(guò)濾機(jī)制,因較差的擴(kuò)展性以及黑名單更新的時(shí)效性,日益跟不上釣魚(yú)網(wǎng)站更新的步伐。新出現(xiàn)的Rock-phish和fast flux釣魚(yú)技術(shù)[1],使黑名單的編譯也變得非常復(fù)雜[4]。

      (2)通過(guò)機(jī)器學(xué)習(xí)算法進(jìn)行啟發(fā)式分類(lèi)識(shí)別。有的方案是通過(guò)對(duì)URL的特點(diǎn)進(jìn)行分析,例如,MA等人提出,網(wǎng)絡(luò)釣魚(yú)的URL存在較明顯的特點(diǎn)[6],而Garera等人則利用回歸模型對(duì)域名、網(wǎng)址、出現(xiàn)文字和網(wǎng)頁(yè)排名等信息進(jìn)行分類(lèi)來(lái)識(shí)別釣魚(yú)[7]。卡內(nèi)基梅隆大學(xué)的一系列研究將分析對(duì)象放在頁(yè)面,通過(guò)對(duì)頁(yè)面特征進(jìn)行提取,并配合搜索引擎對(duì)頁(yè)面進(jìn)行定位,從而識(shí)別目標(biāo)頁(yè)面是否為釣魚(yú)[8]。這些方法雖然準(zhǔn)確度較高,但流程上依賴(lài)于搜索引擎的結(jié)果,查詢極為耗時(shí),因此也僅僅能夠應(yīng)用于對(duì)效率不敏感的桌面瀏覽器,而不適合大數(shù)據(jù)量的情況。

      本文將識(shí)別引擎放在終端用戶以及網(wǎng)絡(luò)服務(wù)器之間的通路上,創(chuàng)立了防火墻側(cè)的解決方案。這樣,識(shí)別引擎可以獲取到終端用戶獲取不到的很多信息,能夠更有效地?cái)r截釣魚(yú)攻擊,減輕對(duì)用戶的危害。

      2系統(tǒng)結(jié)構(gòu)

      作為一個(gè)能夠高速處理大數(shù)據(jù)量的防火墻側(cè)方案,系統(tǒng)部署在用戶瀏覽器與Web服務(wù)器的交互路徑中。為了保證其處理速度,系統(tǒng)可以不依賴(lài)任何搜索引擎的查詢結(jié)果。圖1是該原型系統(tǒng)架構(gòu)。

      (1)預(yù)處理。系統(tǒng)通過(guò)包分析器對(duì)流量進(jìn)行拆分,捕獲每個(gè)Get包中的網(wǎng)址信息,提取出去重后的URL。為了提高處理速度并節(jié)省資源,建立一個(gè)白名單庫(kù)用于排除掉已知的安全站點(diǎn)從而降低誤判;同時(shí)還建立一個(gè)黑名單庫(kù),將已經(jīng)識(shí)別并確定了的URL直接過(guò)濾,避免重復(fù)識(shí)別,從而提高系統(tǒng)的處理性能。

      (2)頁(yè)面分析。經(jīng)過(guò)預(yù)過(guò)濾之后的URL既不是有名的官方網(wǎng)站,也不是之前已經(jīng)判斷過(guò)的釣魚(yú)URL,因此需要對(duì)其進(jìn)行下載并對(duì)頁(yè)面進(jìn)行分析??紤]到釣魚(yú)網(wǎng)頁(yè)的大小平均約為1.5K,為了保證處理速度,對(duì)過(guò)大或者過(guò)小的頁(yè)面下載進(jìn)行了限制。這樣,一方面保證了足夠的帶寬,另一方面保證了處理速度。同時(shí),為了實(shí)現(xiàn)多國(guó)語(yǔ)言特別是對(duì)中文的支持,將下載后的頁(yè)面統(tǒng)一進(jìn)行UTF-8格式的網(wǎng)頁(yè)編碼。編碼轉(zhuǎn)換之后,分析頁(yè)面并提取頁(yè)面的特征值,組成一個(gè)特征向量集合。雖然系統(tǒng)可以將頁(yè)面的所有文字作為特征向量提取出來(lái),但是這將大大增加分類(lèi)的復(fù)雜度,使系統(tǒng)負(fù)載過(guò)高。為了保證引擎的處理速度,使用了TF-IDF算法。TF-IDF算法在文本挖掘和數(shù)據(jù)檢索中應(yīng)用很廣,是一種常用的衡量權(quán)重的方法,具體來(lái)說(shuō),它描述了一個(gè)詞的詞頻與逆向文檔頻率的關(guān)系,即這個(gè)詞對(duì)于區(qū)分該文檔的重要程度。其詞頻定義如下:

      TF(wi,P)=ni∑knk(1)

      在該系統(tǒng)中,將頁(yè)面的停用詞、干擾詞之外的有效詞語(yǔ)進(jìn)行出現(xiàn)次數(shù)的統(tǒng)計(jì),詞的出現(xiàn)次數(shù)作為分子,而分母是所有出現(xiàn)在頁(yè)面的詞的總數(shù)。因此該頁(yè)面的詞頻描述了這個(gè)詞在這個(gè)頁(yè)面中出現(xiàn)的次數(shù),即這個(gè)詞在該頁(yè)面中的重要程度。而逆向文檔頻率則描述的是這個(gè)詞最一般的重要程度。使用本文維護(hù)的一個(gè)因特網(wǎng)詞頻庫(kù)進(jìn)行計(jì)算,定義如下:

      IDF(wi)=log|N|1+|d:wi∈d|(2)

      |N|是所有文檔的數(shù)目,|d:wi∈d|是包含詞wi的文檔數(shù)目,這里為了避免分母為0而沒(méi)有意義,將|d:wi∈d|進(jìn)行了加1處理。因此,每個(gè)單詞的權(quán)重即TF-IDF分?jǐn)?shù)為:

      STF-IDF(wi,P)=TF(wi,P)·IDF(wi)(3)

      在計(jì)算完每個(gè)詞的分?jǐn)?shù)后,按照TF-IDF的權(quán)值進(jìn)行排序,提取最高的100個(gè)詞作為該頁(yè)面的特征,并與庫(kù)中的模板進(jìn)行比對(duì)。

      (3)相似度計(jì)算。首先通過(guò)對(duì)已知的釣魚(yú)站點(diǎn),使用同樣的算法對(duì)頁(yè)面進(jìn)行分析并提取特征后,對(duì)該特征建立起不同的模板文件,隨后將分析頁(yè)面與模板文件進(jìn)行比對(duì),計(jì)算相似度,找出最相似的模板。如果大于某個(gè)閾值,則說(shuō)明該頁(yè)面的URL極為可能是釣魚(yú)站點(diǎn)。計(jì)算兩個(gè)特征向量相似度的算法很多,而余弦定理是比較成熟的一種,因此本文采用余弦定理。待分析頁(yè)面的特征向量p與模板文件的特征向量t的相似度sim(p,t)由下式給出:

      sim(p,t)=cos(p,t)=p·tpt(4)

      其中“·”表示兩個(gè)向量的點(diǎn)積。兩組特征向量之間的角度不會(huì)大于90度,相似度范圍在0~1之間,sim(p,t)=1的時(shí)候說(shuō)明兩組特征向量完全重合。在本系統(tǒng)中,將閾值設(shè)為0.8,相似度大于0.8的URL,識(shí)別引擎判定為釣魚(yú)URL。

      3實(shí)驗(yàn)結(jié)果與分析

      筆者收集了大量的釣魚(yú)站點(diǎn)樣本以及合法站點(diǎn)的樣本作為實(shí)驗(yàn)的數(shù)據(jù)集。其中,英文釣魚(yú)站點(diǎn)樣本來(lái)自于著名的反釣魚(yú)知識(shí)庫(kù)phishtank.com以及APWG,中文樣本由APAC提供。同時(shí),通過(guò)自己的爬蟲(chóng)抓取了互聯(lián)網(wǎng)中涉及金融、教育、社交網(wǎng)絡(luò)、政府等多個(gè)領(lǐng)域的合法網(wǎng)站作為數(shù)據(jù)集中的反向樣本。其中,選取2011年1月1日~31日時(shí)間段內(nèi)的數(shù)據(jù)樣本進(jìn)行測(cè)試。為了保證爬蟲(chóng)采集的合法網(wǎng)站以及由第三方數(shù)據(jù)源收集到的釣魚(yú)站點(diǎn)記錄的準(zhǔn)確性,我們使用人工校驗(yàn),將不符合的URL以及已經(jīng)跳轉(zhuǎn)到正常站點(diǎn)的URL排除,確定最終樣本。其中,釣魚(yú)站點(diǎn)5 910條,合法站點(diǎn)1 000條。將總共6 910條測(cè)試用例隨機(jī)混合,使用引擎進(jìn)行匹配,以檢測(cè)引擎的識(shí)別效率與準(zhǔn)確度。

      下載之前需要先對(duì)URL進(jìn)行DNS解析,將域名解析成IP才能下載,而該識(shí)別引擎在正式運(yùn)行的時(shí)候獲取的是現(xiàn)網(wǎng)中的GET數(shù)據(jù)包,GET包中帶有IP,因此在性能測(cè)試過(guò)程中要忽略DNS的解析時(shí)間。在四核至強(qiáng) E5430,4G內(nèi)存、Linux服務(wù)器運(yùn)行該引擎,大約每秒處理200個(gè)URL,速度性能達(dá)到設(shè)計(jì)要求;正確性試驗(yàn)中,6 910條測(cè)試記錄,命中6 450條,錯(cuò)誤460條。其中,誤判12,漏判448,具體數(shù)據(jù)如表1。

      4結(jié)語(yǔ)

      本文提出并實(shí)現(xiàn)了一種高效的基于頁(yè)面特征的反釣魚(yú)識(shí)別引擎方案,通過(guò)原型系統(tǒng)實(shí)現(xiàn)并驗(yàn)證了匹配算法。實(shí)驗(yàn)表明,該系統(tǒng)具有較高的正確率以及較低的誤判率和漏判率,在追求高精度的同時(shí)保證了運(yùn)行高效率??朔藛渭円揽亢诿麊螜C(jī)制的被動(dòng)識(shí)別,也避免了之前反釣魚(yú)方案僅僅關(guān)注用戶桌面的問(wèn)題,可以有效識(shí)別出大部分釣魚(yú)站點(diǎn),正確率超過(guò)90%,基本達(dá)到了預(yù)期設(shè)計(jì)要求。

      參考文獻(xiàn)參考文獻(xiàn):

      [1]APWG.Phishing activity trends report 4th quarter 2009[EB/OL].http://www.anti-phishing.com/reports/APWG_GlobalPhishingSurvey2H2009.pdf.

      [2]L CRANOR,S EGELMAN,J HONG,et al.Phinding phish: evaluating antiphishing tools[J].Proceedings of The 14th Annual Network and Distributed System Security Symposium (NDSS '07),San Diego,CA,28 February2 March,2007.

      [3]A BERGHOLZ,J H CHANG,G PAA,et al.Improved phishing detection using modelbased features[J].Proceedings of the Conference on Email and AntiSpam (CEAS),Mountain View,CA,USA,2008.

      [4]GOOGLE INC.Google safe browsing for firefox[EB/OL].http://www.google.com/tools/firefox/safebrowsing/2010.

      [5]N CHOU,R LEDESMA,Y TERAGUCHI,et al.Clientside defense against webbased identity theft[J].Proceedings of The 11th Annual Network and Distributed System Security Symposium (NDSS '04),San Diego,CA February,2004.

      [6]J MA,L K SAUL,S SAVAGE,et al.Beyond blacklists: learning to detect malicious web sites from suspicious URLs[J].KDD'09: Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining,JuneJuly 2009:12451254.

      [7]S GARERA,N PROVOS,M CHEW,et al.A framework for detection and measurement of phishing attacks[J].Proceedings of the 2007 ACM Workshop on Recurring Malcode,2007:18.

      [8]G XIANG,J I HONG.A Hybrid phish detection approach by identity discovery and keywords retrieval[J].Proceedings of the 18th international conference on World Wide Web(WWW '09),New York,NY,USA,2009:571580.

      責(zé)任編輯(責(zé)任編輯:杜能鋼)

      猜你喜歡
      網(wǎng)絡(luò)安全
      網(wǎng)絡(luò)安全(上)
      網(wǎng)絡(luò)安全知多少?
      新量子通信線路保障網(wǎng)絡(luò)安全
      網(wǎng)絡(luò)安全
      網(wǎng)絡(luò)安全人才培養(yǎng)應(yīng)“實(shí)戰(zhàn)化”
      上網(wǎng)時(shí)如何注意網(wǎng)絡(luò)安全?
      網(wǎng)絡(luò)安全與執(zhí)法專(zhuān)業(yè)人才培養(yǎng)探索與思考
      設(shè)立網(wǎng)絡(luò)安全專(zhuān)項(xiàng)基金 促進(jìn)人才培養(yǎng)
      網(wǎng)絡(luò)安全監(jiān)測(cè)數(shù)據(jù)分析——2015年12月
      網(wǎng)絡(luò)安全監(jiān)測(cè)數(shù)據(jù)分析——2015年11月
      广丰县| 晴隆县| 抚顺县| 玛多县| 射阳县| 北川| 宾川县| 望都县| 建始县| 奇台县| 本溪| 建瓯市| 铜川市| 吉隆县| 台南市| 图木舒克市| 威远县| 德兴市| 红原县| 正宁县| 铅山县| 聊城市| 郓城县| 太和县| 丹棱县| 邵阳市| 茶陵县| 马鞍山市| 福鼎市| 修水县| 辽源市| 额尔古纳市| 阆中市| 蓝田县| 建水县| 新巴尔虎右旗| 蒲城县| 平定县| 陕西省| 南陵县| 濮阳县|