基于融合感知哈希算法的代碼特征分類研究

2021-07-19 02:31:40張士董李明東盧彪

錦繡·下旬刊 2021年8期

張士董李明東盧彪

摘要：基于卷積神經(jīng)網(wǎng)絡CNN的惡意代碼檢測技術。利用Cuckoo沙箱系統(tǒng)來模擬運行環(huán)境并提取分析報告;首先，通過感知哈希算法對惡意代碼灰度圖樣本進行檢測，快速劃分出具體惡意代碼家族和不確定家族的樣本，實驗測試得約有67%的惡意代碼能夠通過感知哈希算法檢測出來。然后，對于不確定家族樣本再進一步提取局部特征局部二值模式（LBP）與全局特征Gist，并利用二者融合后的特征通過機器學習算法對惡意代碼樣本進行分類檢測。最后，對25類惡意代碼家族檢測，實驗結果表明，相較于僅用單一特征，在LBP與Gist的融合特征下，檢測準確率更高，并且所提方法與僅采用機器學習的檢測算相比，分類檢測效率更快，檢測速度提高93.5%。

關鍵詞：感知哈希;惡意代碼可視化;機器學習

隨著網(wǎng)上支付和網(wǎng)上銀行的全面普及，計算機已經(jīng)成為人們日常生活的重要部分;同時，由于普遍缺乏有效的安全屏障，物聯(lián)網(wǎng)設備也成為網(wǎng)絡攻擊者覬覦的目標。在特征提取階段，提取的特征主要有靜態(tài)特征和動態(tài)特征，相應的提取手段分別為靜態(tài)特征提取技術和動態(tài)特征提取技術。

1.輸入層詞向量生成

在生成詞向量的過程中，本實驗選擇兩種模型進行比較，一種是Word2vec中的Skip-gram模型，一種是One-Hot編碼。

（1）Skip-gram模型本實驗選用了基于Word2vec提供的Skip-gram語言模型來建模，將文本的各特征之間的聯(lián)系以詞向量形式展現(xiàn)。在實驗中，我們輸入預處理過程中提取出的API序列，通過Skip-gram將其數(shù)值向量化。Skip-gram模型是一種無監(jiān)督訓練算法，用來實現(xiàn)詞向量的分布特征表示，通過映射關系實現(xiàn)詞與詞之間的位置關系來反映他們在語義層面的聯(lián)系。

（2）One-Hot編碼One-Hot編碼使用N位狀態(tài)寄存器來對N個狀態(tài)進行編碼，并且只有一位有效。使用One-Hot編碼，可以將離散特征的取值擴展到了歐式空間，在分類過程中，特征之間距離的計算或相似度的計算通常都是在歐式空間進行。

2.感知哈希算法和特征融合的惡意代碼分類算法。

特征信息庫建立模塊中，將數(shù)據(jù)集中全部惡意代碼灰度圖樣本通過感知哈希算法，計算DHash并存入DHash庫;此外提取惡意代碼樣本的Gist特征與LBP特征，并分別存入Gist庫與LBP庫。樣本信息提取模塊過程中，提取待分類檢測的樣本的DHash、Gist特征和LBP特征。提取樣本的Gist特征與LBP特征，并進行融合通過隨機森林（RandomForest，RF）算法進行檢測分類。

基于感知哈希與特征融合的惡意代碼分類算法步驟如下：

Step1通過感知哈希算法計算待分類惡意代碼灰度圖的DHash;

Step2通過相似性判斷公式篩選與檢測樣本相似的惡意代碼圖像;

Step3若能通過閾值判斷出檢測樣本的家族類別則結束，否則繼續(xù)Step4;

Step4提取惡意代碼圖像Gist特征;

3.感知哈希檢測模塊

通過感知哈希算法將灰度圖轉化成哈希序列，通過將惡意代碼待分類樣本與DHash庫中的25類家族樣本進行圖像的哈希序列對比，并通過設置閾值對待分類樣本進行判斷。感知哈希算法的步驟如下：

Step1縮小圖片。將圖片縮小為9*8的像素。

Step2計算相鄰像素間的差異值。

Step3比較差異值。若前一個像素的顏色強度大于第

二個像素，那么差異值就設置為“True”，即1;如果不大

于第二個像素，就設置“False”，即0。

Step4：構造hash值。生成16位DHash值。

4.特征的提取與處理

在惡意代碼檢測中，樣本的特征提取和處理是后續(xù)建模檢測的關鍵，本文主要將樣本的API調用函數(shù)作為特征提取的對象。API函數(shù)是惡意代碼實現(xiàn)其惡意行為并與系統(tǒng)交互所必須的函數(shù)，雖然API本身是沒有惡意性的，但是惡意代碼通過某些API函數(shù)的組合，可使其所表示的行為構成惡意性，而這些行為在正常文件中是不常見的，如進程的注入操作、關鍵系統(tǒng)文件的更改和刪除等。

5.結語：

為解決傳統(tǒng)惡意代碼灰度圖特征的局限性并為進一步提高檢測效率，本文提出了基于感知哈希算法和特征融合計算機應用7的惡意代碼檢測方法。首先，通過感知哈希檢測模塊判斷惡意代碼樣本的所屬家族，對于無法通過感知哈希模塊判斷的樣本再進一步提取全局特征Gist與局部特征LBP，根據(jù)Gist與不同比例的LBP融合后的特征進行測試，準確率可達98.2%，此外本文提出的方法相較于機器學習檢測，檢測速度提高了93.5%。將本文實驗結果也與其他采用單一特征的文獻進行了對比，實驗結果表明本文所采用的融合特征的準確率更高。在下一步的工作中，將繼續(xù)研究惡意代碼的方法與特征，進一步提高惡意代碼的分類準確率。

參考文獻

[1]張景蓮，彭艷兵.基于特征融合的惡意代碼分類研究[J].計算機工程，2019，45（08）：281-286，295.）

[2]李翼宏，劉方正，杜鎮(zhèn)宇.一種改進主動學習的惡意代碼檢測算法[J].計算機科學，2019，46（05）：92-99.

[3] 傅依嫻，蘆天亮，馬澤良.基于 One-Hot 的 CNN 惡意代碼檢測技術[J].計算機應用與軟件，2020，37（1）：304-308，333.

基金項目：2020年安徽省教育廳關高等學校省級質量工程項目，課程思政項目（編號：2020szsfkc1004）;

2020年校級質量工程線下課程（編號：szxy2020xxkc07）;2020年宿州學院專創(chuàng)融合重點課程建設項目（編號：szxy2020zckc22）.