楊立圣,羅文華
(中國(guó)刑事警察學(xué)院 公安信息技術(shù)與情報(bào)學(xué)院,沈陽(yáng) 110035) E-mail:luowenhua770404@126.com
隨著互聯(lián)網(wǎng)的飛速發(fā)展以及網(wǎng)絡(luò)應(yīng)用的迅速普及,惡意網(wǎng)頁(yè)給人們的隱私和財(cái)產(chǎn)安全帶來(lái)了嚴(yán)重的威脅.如何準(zhǔn)確識(shí)別惡意網(wǎng)頁(yè),有效避免因惡意網(wǎng)頁(yè)引發(fā)的安全威脅,已成為信息安全領(lǐng)域的重要研究?jī)?nèi)容.經(jīng)典的惡意網(wǎng)站識(shí)別方法是采用黑名單技術(shù),但該技術(shù)具有較大的局限性和滯后性[1],只能識(shí)別已知的惡意網(wǎng)頁(yè),容易引起誤判.隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,基于機(jī)器學(xué)習(xí)的惡意網(wǎng)頁(yè)識(shí)別方法[2]進(jìn)一步被提出,該方法具有一定的泛化能力,比傳統(tǒng)的識(shí)別方法更加有效.但對(duì)于機(jī)器學(xué)習(xí)方法,選擇不同的網(wǎng)頁(yè)特征會(huì)對(duì)分類(lèi)結(jié)果造成較大影響[3],在特征工程階段中特征選取的工作量較大,效率較低,傳統(tǒng)機(jī)器學(xué)習(xí)無(wú)法感知惡意網(wǎng)頁(yè)中文本內(nèi)容的上下文關(guān)系,導(dǎo)致部分特征信息缺失.作為完整網(wǎng)頁(yè)的有機(jī)組成部分, HTML標(biāo)簽、URL地址、網(wǎng)頁(yè)文本在各自層面體現(xiàn)出一定的網(wǎng)頁(yè)特征.傳統(tǒng)惡意網(wǎng)頁(yè)識(shí)別缺乏全局性、系統(tǒng)性考量,沒(méi)有將網(wǎng)頁(yè)作為有機(jī)整體,而是獨(dú)立針對(duì)某一層面特征開(kāi)展研究[4],導(dǎo)致識(shí)別效率和準(zhǔn)確率較低.雖然已有學(xué)者意識(shí)到了割裂研究的不足,并提出的融合特征的思想,但依舊使用的是機(jī)器學(xué)習(xí)算法予以實(shí)現(xiàn),忽視了近年來(lái)深度學(xué)習(xí)的飛速發(fā)展及其優(yōu)越性能.在自然語(yǔ)言處理領(lǐng)域,BERT[5]預(yù)訓(xùn)練模型的出現(xiàn)刷新了眾多自然語(yǔ)言處理領(lǐng)域任務(wù)的性能記錄.BERT的自注意力機(jī)制和雙向Transformer結(jié)構(gòu)使得BERT模型具有上下文感知能力,而且BERT模型經(jīng)過(guò)簡(jiǎn)單微調(diào)就可以完成下游的分類(lèi)任務(wù).研究者們也開(kāi)始對(duì)BERT模型用于惡意網(wǎng)頁(yè)識(shí)別任務(wù)進(jìn)行了探索研究.在計(jì)算機(jī)視覺(jué)領(lǐng)域,SENet[6]贏得了最后一屆ImageNET的圖像識(shí)別冠軍.SENet可以學(xué)習(xí)通道之間的相關(guān)性,按照特征通道的重要程度對(duì)同道進(jìn)行加權(quán).同時(shí)SENet模塊易于實(shí)現(xiàn),很容易融合到現(xiàn)有的網(wǎng)絡(luò)模型中.為此,以BERT和SENet為基礎(chǔ),提出一種融合多特征的Tri-BERT-SENet模型,該模型融合URL特征、HTML特征以及網(wǎng)頁(yè)文本特征,結(jié)合BERT模型的上下文感知能力,將3個(gè)BERT模型的輸出作為3個(gè)通道,使用SENet對(duì)特征通道進(jìn)行加權(quán),最后實(shí)現(xiàn)惡意網(wǎng)頁(yè)識(shí)別任務(wù).
本文創(chuàng)新性地將深度學(xué)習(xí)技術(shù)與多特征融合的思路相結(jié)合,利用不同BERT模型分別處理不同維度特征,嘗試將計(jì)算機(jī)視覺(jué)領(lǐng)域的SENet模型與自然語(yǔ)言處理領(lǐng)域的BERT模型相結(jié)合,以完成特征融合,并實(shí)現(xiàn)惡意網(wǎng)頁(yè)識(shí)別.
針對(duì)惡意網(wǎng)頁(yè)識(shí)別問(wèn)題,目前已經(jīng)有研究人員提出了多種惡意網(wǎng)站識(shí)別技術(shù)和方法.Ma J等人以IP信息、WHOIS信息、DNS信息以及URL特征,采用機(jī)器學(xué)習(xí)的方法對(duì)惡意URL進(jìn)行識(shí)別[7].Canali D等人根據(jù)HTML特征、URL和主機(jī)信息等特征,使用樸素貝葉斯、隨機(jī)森林、決策樹(shù)和邏輯回歸分類(lèi)器等機(jī)器學(xué)習(xí)模型進(jìn)行分類(lèi)[8].陳遠(yuǎn)等人采用主成分分析的方法對(duì)惡意網(wǎng)站進(jìn)行多為評(píng)估,并在此基礎(chǔ)上采用隨機(jī)森林對(duì)惡意網(wǎng)站進(jìn)行識(shí)別[9].這些采用傳統(tǒng)機(jī)器學(xué)習(xí)并以URL為主要特征的方法,在特征工程上工作量較大,而且沒(méi)有考慮到URL中的文本上下文關(guān)系,導(dǎo)致URL特征信息丟失.吳海濱使用Word2vec生成詞向量并使用卷積神經(jīng)網(wǎng)絡(luò)抽取特征信息實(shí)現(xiàn)惡意網(wǎng)頁(yè)識(shí)別.該方法考慮到了URL中的詞上下文關(guān)系,并使用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò),提升了根據(jù)URL進(jìn)行惡意網(wǎng)頁(yè)分類(lèi)效果[10],但該方法生成的詞向量是靜態(tài)詞向量,并不能解決一詞多義的問(wèn)題,不能充分地挖掘文本之間的深層次關(guān)系.隨著深度學(xué)習(xí)中自然語(yǔ)言處理技術(shù)的迅速發(fā)展,產(chǎn)生了注意力機(jī)制[11]和BERT預(yù)訓(xùn)練模型,這些新技術(shù)在自然語(yǔ)言處理任務(wù)中的效果相比以往采用Word2Vec靜態(tài)詞向量的模型有所提升.這些模型隨后也應(yīng)用到了以URL為特征的惡意網(wǎng)頁(yè)分類(lèi)任務(wù)中.梁飛提出了一種具有多分組注意力機(jī)制的深度學(xué)習(xí)模型[12],該模型可以更加準(zhǔn)確地表達(dá)URL文本的語(yǔ)義信息,更能準(zhǔn)確完成惡意網(wǎng)頁(yè)的識(shí)別任務(wù),但該方法以URL 作為文本數(shù)據(jù)分類(lèi)的問(wèn)題處理,對(duì)惡意網(wǎng)頁(yè)識(shí)別具有一定的片面性.Devlin J等人于2018年提出了基于大規(guī)模文本的Transformer預(yù)訓(xùn)練模型BERT,BERT模型刷新了11項(xiàng)自然語(yǔ)言任務(wù)的性能記錄.張鳳等人將BERT運(yùn)用在惡意域名檢測(cè)任務(wù)上[13],強(qiáng)化了字符對(duì)于模型的決策能力,提高了模型的檢測(cè)性能,但并未以網(wǎng)頁(yè)文本內(nèi)容為依據(jù)使用BERT模型對(duì)惡意網(wǎng)頁(yè)進(jìn)行識(shí)別.隨著惡意網(wǎng)站的隱蔽性、復(fù)雜性的提升,對(duì)惡意網(wǎng)頁(yè)的識(shí)別僅僅依據(jù)URL及其相關(guān)特征遠(yuǎn)遠(yuǎn)不能滿(mǎn)足現(xiàn)今對(duì)于惡意網(wǎng)頁(yè)識(shí)別的需求[14].魏旭等人提出了融合特征方法[15],但其依舊采用機(jī)器學(xué)習(xí)模型對(duì)惡意網(wǎng)頁(yè)進(jìn)行識(shí)別,難以捕捉特征的深層次信息.馮凱媛等人提出了以傳統(tǒng)網(wǎng)頁(yè)URL、HTML等特征基礎(chǔ)上,融合了網(wǎng)頁(yè)文本特征,以機(jī)器學(xué)習(xí)方法對(duì)惡意網(wǎng)頁(yè)進(jìn)行識(shí)別[16],但傳統(tǒng)機(jī)器學(xué)習(xí)的分類(lèi)方法對(duì)于文本特征方面的向量構(gòu)造,沒(méi)有考慮文本的上下文信息,不能體現(xiàn)出文本中一詞多義的深層次特征,存在一定的信息缺失.
綜合考慮上述問(wèn)題,本文提出了一種基于多特征融合的Tri-BERT-SENet模型對(duì)惡意網(wǎng)頁(yè)進(jìn)行檢測(cè)識(shí)別.
特征提取主要是針對(duì)可以為識(shí)別惡意網(wǎng)頁(yè)提供依據(jù)的網(wǎng)頁(yè)相關(guān)構(gòu)成要素特征進(jìn)行提取的過(guò)程.可以作為識(shí)別惡意網(wǎng)頁(yè)的特征主要有以下幾種:網(wǎng)頁(yè)HTML特征、URL特征以及網(wǎng)頁(yè)文本內(nèi)容特征.
HTML特征是基于原始頁(yè)面內(nèi)容的一種統(tǒng)計(jì)信息和HTML代碼解析后得到的結(jié)構(gòu)信息.網(wǎng)頁(yè)HTML中的眾多特征信息可作為判定惡意網(wǎng)頁(yè)的依據(jù),特征信息包括