• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于N-grams和灰度圖特征融合的惡意代碼檢測方法

      2022-05-10 05:25:16楊宇夏孫皓月高燚
      電腦知識與技術(shù) 2022年9期
      關(guān)鍵詞:特征融合機器學(xué)習(xí)

      楊宇夏 孫皓月 高燚

      摘要:把惡意代碼轉(zhuǎn)成灰度圖,再用深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)灰度圖的特征給惡意代碼檢測提供了新的思路,但是惡意代碼圖像化方案就是無差別地把惡意代碼轉(zhuǎn)換后的灰度圖進行識別,該方法存在樣本大小不一且由于采用裁剪而丟失惡意代碼的信息和提取特征單一抗混淆能力不足等缺點,本文采用N-grams和灰度圖特征融合的方法檢測惡意代碼,解決了不同惡意代碼樣本大小不一的問題,而且從文本和灰度圖這兩個不同的維度提取惡意代碼的特征,提高了惡意代碼檢測的抗混淆能力,再使用k最近鄰、隨機森林、樸素貝葉斯和SVM算法檢測該方法,實驗結(jié)果表明融合特征比單特征的準(zhǔn)確率高,且隨機森林的準(zhǔn)確率達到98.71%。

      關(guān)鍵詞:惡意代碼;機器學(xué)習(xí);特征融合;灰度共生矩陣;局部二值化

      中圖分類號:TP399? ? ? ? 文獻標(biāo)識碼:A

      文章編號:1009-3044(2022)09-0080-03

      1? 引言

      1.1背景

      受新型冠狀病毒的影響,原本的生活、生產(chǎn)方法被徹底打亂。為了控制疫情恢復(fù)生產(chǎn),大量的新型互聯(lián)網(wǎng)服務(wù)和高新產(chǎn)品閃亮登場,這進一步推進社會的數(shù)字化轉(zhuǎn)型,但是各類安全事件窮出不盡,境外著名的APT攻擊組織“白象”“海蓮花”“毒云藤”以“新冠病毒”等熱點話題向我國重要的相關(guān)政府部門、高等研究機構(gòu)投放釣魚郵件,誘導(dǎo)相關(guān)人員訪問虛假高仿的網(wǎng)頁網(wǎng)站,從而實現(xiàn)盜取個人賬號和密碼,非法收集個人信息以及竊取國家機關(guān)的機密。Silent Librarian APT黑客組織通過偽裝的COVID-19調(diào)查郵件,對全球范圍內(nèi)的大學(xué)進行釣魚攻擊活動。

      從2020年中國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報告中可了解到,國家信息安全漏洞共享平臺(以下簡稱“CNVD”)全年捕獲惡意程序樣本涉及惡意程序家族近34.8萬個而且數(shù)量超過4,200萬個,482萬余次的日均傳播次數(shù)更是令人驚嘆。

      而在移動互聯(lián)網(wǎng)惡意程序數(shù)量方面,由廠商交換和自主新增捕獲大約302.8萬個,同比增長8.5%,如圖1所示。就惡意程序的惡意行為來統(tǒng)計,可以發(fā)現(xiàn)流氓行為類、資費消耗類和信息竊取類分別為前三名,這三類的行為的惡意代碼總和超過了80%,占所有惡意程序的惡意行為的絕大多數(shù),如圖2所示。

      1.2研究意義

      惡意代碼的數(shù)量和種類每年都在大幅度上漲,而且變種病毒更是五花八門,使個人用戶、企業(yè)防不勝防。破壞程度和影響范圍都越來越大。由于個人用戶在上網(wǎng)時自身的安全意識不足而不可避免會感染惡意病毒,這些病毒會非法收集用戶的個人信息甚至竊取用戶的個人賬號和密碼,使用戶利益受損;惡意代碼會對感染病毒的企業(yè)的重要數(shù)據(jù)庫進行脫庫,盜取企業(yè)數(shù)據(jù)庫中客戶個人信息,會對公司的運營產(chǎn)生重大影響,使客戶對企業(yè)的可信度和滿意度降低;而現(xiàn)代戰(zhàn)爭中,惡意病毒的攻擊首當(dāng)其沖,是戰(zhàn)爭的重要部分,使得網(wǎng)絡(luò)空間安全成為國家戰(zhàn)略地位。因此對惡意代碼檢測技術(shù)的研究已經(jīng)深入的分析惡意代碼的原理已經(jīng)迫在眉睫,刻不容緩。

      2? 研究現(xiàn)狀

      文獻[1]提出了一種新的惡意代碼預(yù)處理方法,利用圖像處理技術(shù)進行惡意代碼可視化,使得基于圖像特征的惡意代碼檢測方法得到進一步發(fā)展,在預(yù)處理階段把惡意代碼可視化為灰度圖,然后用神經(jīng)網(wǎng)絡(luò)進行灰度圖的檢測,從而達到分類的目的。唐永旺等[2]在讀取惡意代碼樣本的二進制數(shù)據(jù)流后,按照每8bit轉(zhuǎn)化為一個無符號的整型數(shù)值,把惡意代碼轉(zhuǎn)換成灰度圖,再用改進的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練轉(zhuǎn)換好的灰度圖,從而達到檢測惡意代碼的目的。蔣晨等[3]把Android和Windows下可執(zhí)行二進制文件生成相應(yīng)的灰度圖像后; 利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法自動學(xué)習(xí)這些灰度圖的特征,該方法在Android和Window平臺下的準(zhǔn)確率為79.6%和97.6%;Zhihua Cui等采用非支配排序遺傳算法II(NSGA-II)處理惡意代碼的圖像的不平衡問題,然后利用卷積神經(jīng)網(wǎng)絡(luò)對惡意代碼灰度圖進行識別和分類。Rajesh Kumar等[4]從視覺實驗室下載的包含25個不同家族的惡意代碼的9458張灰度圖與3000個不同類型的非惡意代碼的灰度圖利用卷積神經(jīng)網(wǎng)絡(luò)進行分類。

      在數(shù)據(jù)預(yù)處理時先把惡意代碼二進制可進行文件轉(zhuǎn)換為灰度圖,再使用神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)這些灰度圖的特征并加以學(xué)習(xí)訓(xùn)練以實現(xiàn)分類。該方法存在兩個缺陷,第一是惡意代碼文件大小不一。由于不同的惡意代碼的功能、破壞力等的不同,導(dǎo)致其編譯成二進制可執(zhí)行文件的大小就不同,而直接把惡意代碼二進制可執(zhí)行文件轉(zhuǎn)成二維的灰度圖,這樣的灰度圖大小不一,不符合神經(jīng)網(wǎng)絡(luò)的輸入條件。必須對大的灰度圖進行采取截斷,使所有樣本大小一致,被丟棄的信息可能是該惡意代碼的關(guān)鍵信息,這樣會造成準(zhǔn)確率不高,模型的泛化能力不足等問題。第二是提取的特征單一,抗混淆能力不足。由于已經(jīng)把惡意代碼轉(zhuǎn)成灰度圖了,其文本特征遭到破壞,因此用卷積神經(jīng)網(wǎng)絡(luò)提取不了惡意代碼的文本特征。而且神經(jīng)網(wǎng)絡(luò)在分類圖片時對噪聲比較敏感,有研究表明,一張加入了人眼辨認(rèn)不出的噪聲圖片就能使神經(jīng)網(wǎng)絡(luò)分類錯誤,故單從惡意代碼灰度圖提取特征不夠安全,容易被黑客繞過。

      3? 相關(guān)理論

      3.1灰度共生矩陣

      灰度共生矩陣被定義為從灰度為i的像素點出發(fā),離開某個固定位置(相隔距離為d,方位為θ)的點上灰度值的概率,即所有估計的值可以表示成一個矩陣的形式,以此被稱為灰度共生矩陣。用符號[5]定義為:對任一二維灰度圖,圖中的任一點灰度值都可以表示為f(x,y),f(x,y)處的灰度共生矩陣為:

      式(1)中x,y為圖像的像元坐標(biāo),Dx,Dy為像素的偏移量,具有方向性;i,j為圖像中任兩像素的灰度,d為灰度共生矩陣的生成步長,θ為灰度共生矩陣的生成方向。由于灰度共生矩陣的數(shù)據(jù)量較大,一般不直接作為區(qū)分紋理的特征,而是基于它構(gòu)建的一些統(tǒng)計量作為紋理分類特征。本文使用的灰度矩陣統(tǒng)計量有能量、熵、對比度、均勻性、相關(guān)性、方差、和平均、和方差、和熵、差方差、差平均、差熵、相關(guān)信息測度以及最大相關(guān)系數(shù)。

      3.2局部二值化理論

      原始的LBP算子定義為在3*3的窗口內(nèi),以窗口中心像素為閾值,將相鄰的8個像素的灰度值與其進行比較,若周圍像素值大于中心像素值,則該像素點的位置被標(biāo)記為1,否則為0。這樣,3*3鄰域內(nèi)的8個點經(jīng)比較可產(chǎn)生8位二進制數(shù)(通常轉(zhuǎn)換為十進制數(shù)即LBP碼,共256種),即得到該窗口中心像素點的LBP值,并用這個值來反映該區(qū)域的紋理信息。公式[6]為:

      3.3 N-grams特征提取

      Jeremy提出的n-gram字節(jié)特征提取方法是將樣本文件看成一個十六進制字符串,對每個連續(xù)的n個字節(jié)(n-gram)計算信息增益,并選擇信息增益最大的N個 n-gram作為特征數(shù)據(jù)[7]。本文的N-grams特征提取方法概括為:把惡意代碼的匯編程序里的操作碼全部取出來,按照操作碼在匯編程序里出現(xiàn)的順序排列,每三個操作碼作為一個子序列,統(tǒng)計這些子序列的個數(shù)作為惡意代碼的特征。

      4? 實驗結(jié)果與分析

      4.1數(shù)據(jù)集

      本文選取的數(shù)據(jù)集是由微軟2015年舉辦惡意軟件分類挑戰(zhàn)賽(BIG 2015)所提供,該數(shù)據(jù)集一共有10868個惡意代碼樣本,在該數(shù)據(jù)集中包含兩類文件,一類是.byte文件,它是沒有PE頭部的惡意代碼的二進制可執(zhí)行文件,另一類是.asm文件,它是惡意代碼二進制可進行文件經(jīng)過反匯編得到的文件。這個數(shù)據(jù)集里的惡意代碼有九類,他們分別為:Ramnit、Lollipop、Kelihos_ver3、Vundo、Simda、Tracur、Kelihos_ver1、Obfuscator.ACY、Gatak。

      4.2實驗流程

      本文先提取惡意代碼反編譯后的n-gran特征和把惡意代碼可執(zhí)行二進制的文件轉(zhuǎn)換為灰度圖后的GLCM特征和LBP特征,在把提取到這三種特征融合,使用k最近鄰、隨機森林、樸素貝葉斯和支持向量機進行分類,實驗流程圖如圖3。

      4.3實驗結(jié)果

      使用k最近鄰、隨機森林、樸素貝葉斯和支持向量機在單特征和三種特征融合上進行分類,實驗結(jié)果表明三種特征融合比單一特征的準(zhǔn)確率更高。

      而且隨機森林的準(zhǔn)確率明顯比其他三種算法的準(zhǔn)確率高,達到98.71%。

      5? 結(jié)束語

      把惡意代碼轉(zhuǎn)成灰度圖,再用深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)灰度圖的特征給惡意代碼檢測提供了新的思路,但是惡意代碼圖像化方案就是無差別地把惡意代碼轉(zhuǎn)換后的灰度圖進行識別,該方法存在樣本大小不一且由于采用裁剪而丟失惡意代碼的信息和提取特征單一抗混淆能力不足等缺點,本文采用N-grams和灰度圖特征融合的方法檢測惡意代碼,解決了不同惡意代碼樣本大小不一的問題,而且從不同的維度提取惡意代碼的特征,提高了抗混淆能力,用k最近鄰、隨機森林、樸素貝葉斯和SVM算法檢測該方法,實驗結(jié)果表明融合特征比單特征的準(zhǔn)確率高,且隨機森林的準(zhǔn)確率達到98.71%,所以有更強的實用性。

      參考文獻:

      [1] Nataraj L,Yegneswaran V,Porras P, et al. A comparative assessment of malware classification using binary texture analysis and dynamic analysis[C]//AISec'11:Proceedings of the 4th ACM workshop on Security and artificial intelligence.2011:21-30.

      [2] 唐永旺,王剛,魏晗.基于改進卷積神經(jīng)網(wǎng)絡(luò)的惡意代碼檢測技術(shù)[J].信息工程大學(xué)學(xué)報,2019,20(2):192-196,209.

      [3] 蔣晨,胡玉鵬,司凱,等.基于圖像紋理和卷積神經(jīng)網(wǎng)絡(luò)的惡意文件檢測方法[J].計算機應(yīng)用,2018,38(10):2929-2933.

      [4] Cui Z H,Du L,Wang P H,et al.Malicious code detection based on CNNs and multi-objective algorithm[J].Journal of Parallel and Distributed Computing,2019,129:50-58.

      [5] 李靜,楊玉倩,沈偉,等.基于灰度共生矩陣的織物紋理研究[J].現(xiàn)代紡織技術(shù),2013,21(3):12-16.

      [6] 陳昱辰,曾令超,張秀妹,等.基于圖像LBP特征與Adaboost分類器的垃圾分揀識別方法[J].南方農(nóng)機,2021,52(21):136-138,144.

      [7] 張福勇.基于n-gram詞頻的惡意代碼特征提取方法[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2015(11):88-89.

      【通聯(lián)編輯:聞翔軍】

      猜你喜歡
      特征融合機器學(xué)習(xí)
      基于多特征融合的圖像匹配算法
      人體行為特征融合與行為識別的分析
      基于移動端的樹木葉片識別方法的研究
      科技資訊(2017年11期)2017-06-09 18:28:13
      基于SIFT特征的港口內(nèi)艦船檢測方法
      融合整體與局部特征的車輛型號識別方法
      基于詞典與機器學(xué)習(xí)的中文微博情感分析
      基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機的金融數(shù)據(jù)分析研究
      特克斯县| 印江| 若尔盖县| 德江县| 吉安县| 庆安县| 芜湖市| 阜阳市| 沅陵县| 赤峰市| 仪陇县| 青海省| 静宁县| 聂拉木县| 乃东县| 武隆县| 望谟县| 陆川县| 乐至县| 宜丰县| 高阳县| 罗田县| 彭州市| 湖州市| 秦皇岛市| 广南县| 遂昌县| 家居| 成都市| 区。| 竹山县| 长泰县| 宁陕县| 安丘市| 葵青区| 东海县| 分宜县| 南郑县| 乌拉特前旗| 兴文县| 秦安县|