基于BHNB的細(xì)粒度的Android惡意應(yīng)用檢測模型

2017-11-01 17:14:42韓靜丹

計算機應(yīng)用與軟件 2017年10期

關(guān)鍵詞：細(xì)粒度樸素貝葉斯

孫磊韓靜丹

(信息工程大學(xué)三院河南鄭州 450000)

基于BHNB的細(xì)粒度的Android惡意應(yīng)用檢測模型

孫磊韓靜丹

(信息工程大學(xué)三院河南鄭州 450000)

為進(jìn)一步提高Android惡意應(yīng)用的檢測效率，提出一種基于BHNB(Bagging Hierarchical Na?ve Bayesian)的細(xì)粒度Android惡意應(yīng)用檢測模型。該模型首先對樣本庫中的應(yīng)用進(jìn)行類別劃分，并分別對其進(jìn)行動態(tài)分析，提取各個應(yīng)用程序的行為信息作為特征；然后，采用層次樸素貝葉斯HNB(Hierarchical Na?ve Bayesian)分類算法對各類應(yīng)用特征集合進(jìn)行分別訓(xùn)練，從而構(gòu)建出多個層次樸素貝葉斯分類器；最后，采用Bagging集成學(xué)習(xí)方法對構(gòu)建出的多個層次樸素貝葉斯分類器進(jìn)行集成學(xué)習(xí)，構(gòu)建出基于層次樸素貝葉斯的Bagging集成學(xué)習(xí)分類器BHNB。實驗結(jié)果表明，該模型能夠有效檢測出Android惡意應(yīng)用，且檢測效率較高。

Android 動態(tài)分析層次樸素貝葉斯集成學(xué)習(xí) 惡意應(yīng)用檢測

0 引言

隨著Android操作系統(tǒng)的普及，使其成為了惡意攻擊者的首要目標(biāo)。據(jù)360互聯(lián)網(wǎng)安全中心統(tǒng)計：平均每天截獲新增手機惡意程序樣本4.5萬個，平均每天惡意程序感染量達(dá)到了100.6萬人次。經(jīng)研究發(fā)現(xiàn)，移動端惡意程序類型中資費消耗、惡意扣費以及隱私竊取所占比率高達(dá)99.2%，手機惡意程序趨利性極為明顯，嚴(yán)重?fù)p害用戶的利益。

近年來，隨著機器學(xué)習(xí)算法的廣泛應(yīng)用，越來越多的學(xué)者使用機器學(xué)習(xí)算法對未知惡意應(yīng)用進(jìn)行分類與檢測，通過機器學(xué)習(xí)算法構(gòu)建分類器來區(qū)分良性應(yīng)用和惡意應(yīng)用。2013年，Yerima[1]通過提取Android應(yīng)用樣本的權(quán)限特征和行為特征，并分別對貝葉斯算法進(jìn)行訓(xùn)練構(gòu)建分類器；2014年，Ham等[2]提出了一種基于支持向量機SVM算法的Android惡意應(yīng)用檢測方法；2014年，Yerima[3]提出了一種基于并行機器學(xué)習(xí)分類器的Android惡意應(yīng)用檢測方法，通過提取的Android應(yīng)用樣本的特征集合，同時對決策樹、樸素貝葉斯、Logistic回歸、PART等機器學(xué)習(xí)算法進(jìn)行訓(xùn)練，構(gòu)建并行機器學(xué)習(xí)分類器，提高分類器精度。但是這些研究都僅關(guān)注分類器的構(gòu)建，并沒有對樣本庫的規(guī)模以及特征集合的維度進(jìn)行研究。然而，作為分類器的輸入，訓(xùn)練集的規(guī)模與質(zhì)量嚴(yán)重影響著分類器的性能和效率。

為提高分類器的檢測效率，有學(xué)者采用多種優(yōu)化算法對特征集合進(jìn)行選擇，從而降低特征集合的維度。2016年，許艷萍等[4]在分類器訓(xùn)練之前采用信息增益算法優(yōu)化選擇分類特征，特征信息增益越大，表示該特征越好。2015年，胡靜等[5]提出一種基于屬性關(guān)系的特征選擇算法，通過分析特征屬性與類別標(biāo)簽之間的相關(guān)性來刪除無關(guān)特征。

但是這些研究都是針對樣本庫的所有樣本和特征集合，因此無論在哪個階段都會造成處理時間較長，從而導(dǎo)致檢測效率較低。此外，針對Android應(yīng)用程序，無論是基于權(quán)限特征還是行為特征檢測時，都會出現(xiàn)這種現(xiàn)象：某種特征在某類應(yīng)用中是正常的，但是在其他應(yīng)用中就有可能是惡意的。因此，會造成較高的誤報率。

基于上述提出的問題，本文提出了一種基于BHNB的細(xì)粒度的Android惡意應(yīng)用檢測模型。該模型首先對樣本庫中的應(yīng)用進(jìn)行類別劃分，然后采用動態(tài)分析技術(shù)分別對各類Android應(yīng)用程序進(jìn)行分析，提取其行為信息作為特征，從而構(gòu)建行為特征集合。由于本文首先將應(yīng)用程序進(jìn)行了類別劃分，因此，在分類器訓(xùn)練階段，采用層次樸素貝葉斯分類算法對各類應(yīng)用特征集合進(jìn)行分別訓(xùn)練，從而構(gòu)建出多個層次樸素貝葉斯分類器。為使得在提高檢測效率的同時，又保證檢測精度不降低，本文最后采用Bagging集成學(xué)習(xí)方法對構(gòu)建出的多個層次樸素貝葉斯分類器進(jìn)行集成學(xué)習(xí)，構(gòu)建出基于層次樸素貝葉斯的Bagging集成學(xué)習(xí)分類器。實驗證明，本文提出的細(xì)粒度的Android惡意應(yīng)用檢測模型在保證檢測精度不降低的同時，能夠有效提高檢測效率。

1 基于層次樸素貝葉斯的Bagging集成學(xué)習(xí)分類器BHNB

本文提出的基于BHNB的細(xì)粒度的Android惡意應(yīng)用檢測模型，首先將待檢測的應(yīng)用進(jìn)行類別的劃分，然后在此基礎(chǔ)上，再判斷其是否為惡意應(yīng)用。因此，本文在對各個類別的特征集合進(jìn)行學(xué)習(xí)訓(xùn)練分類器時，采用層次樸素貝葉斯分類算法HNB(Hierarchical Na?ve Bayesian)[6]。由于層次樸素貝葉斯分類算法在標(biāo)簽節(jié)點(即樹的根節(jié)點)和特征節(jié)點(葉節(jié)點)之間引入潛在節(jié)點，即引入了放松樸素貝葉斯分類算法的某些獨立性陳述，然而，這種方法降低了樸素貝葉斯分類算法的穩(wěn)定性。因此，本文采用Bagging集成學(xué)習(xí)方法對單個HNB分類器進(jìn)行集成學(xué)習(xí)，從而構(gòu)建出分類性能穩(wěn)定的BHNB分類器。

1.1 層次樸素貝葉斯分類算法HNB

樸素貝葉斯算法是以貝葉斯最大后驗準(zhǔn)則和貝葉斯假設(shè)為理論基礎(chǔ)，具有綜合先驗知識以及樣本信息的能力。通過樸素貝葉斯構(gòu)建的分類器，可以表示特征之間相互依賴的關(guān)系，并且在分類時可以對分類模型進(jìn)行動態(tài)調(diào)整。傳統(tǒng)的樸素貝葉斯分類器結(jié)構(gòu)如圖1所示。

圖1 傳統(tǒng)樸素貝葉斯分類器結(jié)構(gòu)

由于本文提出的細(xì)粒度的Android惡意應(yīng)用檢測模型，是將創(chuàng)建的樣本庫進(jìn)行類別劃分，因此，我們采用層次樸素貝葉斯分類器，即在傳統(tǒng)樸素貝葉斯分類器的基礎(chǔ)上引入中間變量Z，其結(jié)構(gòu)如圖2所示。其中，Y代表Android應(yīng)用的標(biāo)簽(惡意性和非惡意性)，Z代表Android應(yīng)用的類別(通信類、音頻類、游戲類等)，X代表Android應(yīng)用的行為特征。

圖2 層次樸素貝葉斯分類器結(jié)構(gòu)

層次樸素貝葉斯分類器學(xué)習(xí)過程包括結(jié)構(gòu)和參數(shù)學(xué)習(xí)兩部分。結(jié)構(gòu)學(xué)習(xí)指的是根據(jù)專家的領(lǐng)域知識確定指標(biāo)之間的層次關(guān)系；參數(shù)學(xué)習(xí)是使用樣本數(shù)據(jù)進(jìn)行邊緣和條件概率估計。其具體描述如下：

假設(shè)輸入空間X∈Rn為n維向量的集合，特征向量x∈X，x是定義在輸入空間X上的隨機變量；輸出空間的標(biāo)簽(惡意性標(biāo)簽或非惡意性標(biāo)簽)集合Y={c1,c2,…,ck}，輸出為標(biāo)簽y∈Y，y是輸出空間Y上的隨機變量；引入空間的類別集合Z={z1,z2，…,zt}。

(1) 一級和二級指標(biāo)邊緣估計

通過采用最大似然方法來估計一級和二級指標(biāo)的邊緣概率。

定義1一級指標(biāo)邊緣概率P(cj|D):在Android應(yīng)用樣本庫D中，樣本的標(biāo)簽為cj的概率。

(1)

其中，N(cj|D)為在Android應(yīng)用樣本庫D中標(biāo)簽為cj(Y=cj)中的應(yīng)用樣本數(shù)量，N(D)為所有應(yīng)用樣本的數(shù)量。

定義2二級指標(biāo)邊緣概率P(zi|D)：在Android應(yīng)用樣本庫D中，應(yīng)用樣本屬于類別zi的概率。

(2)

其中，N(zi|D)為在應(yīng)用樣本庫第zi類(Z=zi)中樣本的數(shù)量。

(2) 二級和三級指標(biāo)條件概率

定義3二級指標(biāo)條件概率P(zi|cj,D)：在Android應(yīng)用樣本庫D中，應(yīng)用樣本的標(biāo)簽是cj的情況下，屬于類別zi的概率。

(3)

其中，N(zi,cj|D)為標(biāo)簽cj(Y=cj)中的第zi類(Z=zi)中樣本的數(shù)量。

定義4三級指標(biāo)的條件概率P(Xm|zi,D)：在Android應(yīng)用樣本庫D中，應(yīng)用樣本屬于類別zi的條件下，特征Xm的概率。

(4)

其中，N(Xm,zi|D)為第zi類(Z=zi)中應(yīng)用樣本的數(shù)量。

(3) 分類器的表示形式與分類過程

基于貝葉斯網(wǎng)絡(luò)理論和貝葉斯公式，以及條件獨立性可得：

αP(cj)P(z1,z2,…,zt|cj,S)=

(5)

其中α是與cj無關(guān)的量。

βP(zi)P(X1,X2,…,Xn|zi,S)=

(6)

其中β是與zi無關(guān)的量。

根據(jù)上述分解式可得到兩個層次的分類器表示形式，分別為：

(7)

(8)

分類過程是：首先由下層分類器確定二級指標(biāo)Z1,Z2,…,Zt的值，然后再由基于上層分類器得到一級指標(biāo)的值，整個分類過程自下而上，對應(yīng)細(xì)粒度的Android惡意應(yīng)用檢測模型的自上而下。

1.2 集成學(xué)習(xí)方法Bagging

集成學(xué)習(xí)[7]通過將多個弱分類器經(jīng)過組合得到一個強分類器，強分類器比弱分類器有更好的預(yù)測能力，并且這種方式實現(xiàn)強分類比直接獲取一個強分類器要簡單的多。所以，本文利用集成學(xué)習(xí)Bagging方法，對多個層次樸素貝葉斯分類器進(jìn)行集成學(xué)習(xí)，從而構(gòu)建出分類性能更好的BHNB強分類器。其基本的集成方案如圖3所示。

圖3 集成學(xué)習(xí)方案

其具體的算法描述如下：

Step1對i=1,2，…,t重復(fù)進(jìn)行如下計算。

從原始訓(xùn)練樣本集中隨機選取選取n個訓(xùn)練樣本，允許重復(fù)，生成若干個與原始原始訓(xùn)練樣本集有些許差異的新樣本集。

使用上述得到的樣本集求得弱分類器φi。

(9)

1.3 BHNB分類算法

BHNB分類算法的具體流程如下：

Step1對原始的Android應(yīng)用樣本集進(jìn)行按應(yīng)用類別進(jìn)行分類，得到t個不同類別的Android應(yīng)用樣本庫Z={z1,z2，…,zt}。

Step2分別提取各類Android應(yīng)用樣本庫中每個樣本的特征(x1,x2,…,xn′)(其中n′表示該Android應(yīng)用樣本中的n′個特征)與該應(yīng)用所屬的標(biāo)簽cj，使其構(gòu)成特征向量Xi′=(x1,x2,…,xn′,cj)(其中i′表示：在該類應(yīng)用中第i′個樣本的特征向量)，該向量代表一個Android應(yīng)用，將所有代表應(yīng)用的特征向量構(gòu)成特征集合。

Step3按照式(7)、式(8)對各個類別的特征集合(X1,…,Xm′)(其中m′表示該類應(yīng)用樣本庫中樣本的數(shù)量)進(jìn)行學(xué)習(xí)，分別構(gòu)造出針對某種類別的層次樸素貝葉斯分類器φi，i=1,2,…,t。

(10)

其中ω1，ω2，…，ωt分別用“0”、“1”表示，當(dāng)待檢測的Android應(yīng)用屬于zi類應(yīng)用時，則由該類應(yīng)用特征集訓(xùn)練的HNB分類器所對應(yīng)的權(quán)重ωi值為1。相應(yīng)的，其他分類器的權(quán)重取值為0；若待檢測的Android應(yīng)用無法明確判定其類別，即包含所有類別的特征，那么所有的HNB分類器的權(quán)重取值均為1。最后利用式(10)判定其是否為惡意應(yīng)用。

2 基于BHNB的細(xì)粒度的Android惡意應(yīng)用檢測模型

本文提出的基于BHNB的細(xì)粒度Android惡意應(yīng)用檢測模型，首先創(chuàng)建非惡意樣本庫和惡意樣本庫，然后對其進(jìn)行類別劃分，并采用動態(tài)分析技術(shù)來提取各個類別中應(yīng)用的行為信息作為特征，構(gòu)建行為特征集合，并對其進(jìn)行格式化處理；其次，采用HNB分類算法對各個類別的行為特征集合進(jìn)行學(xué)習(xí)，從而構(gòu)建出多個HNB分類器，各個HNB分類器的構(gòu)建并行且獨立；最后，采用Bagging集成學(xué)習(xí)方法，對多個HNB分類器進(jìn)行學(xué)習(xí)，從而構(gòu)建出分類性能更好的BHNB強分類器。該檢測模型主要包括預(yù)處理模塊、特征提取模塊、特征集合構(gòu)建模塊、格式化處理模塊以及分類器構(gòu)建模塊如圖4所示。

圖4 基于BHNB的細(xì)粒度的Android惡意應(yīng)用檢測模型

基于BHNB的細(xì)粒度的Android惡意應(yīng)用檢測模型具體的流程如下：

(1) 創(chuàng)建樣本庫

主要包括非惡意樣本庫和惡意樣本庫。非惡意應(yīng)用樣本庫利用爬蟲技術(shù)從Google Play商城批量下載，包含各種類別的應(yīng)用；惡意應(yīng)用樣本庫主要包括49個惡意應(yīng)用家族的所有類別，主要從https://virusshare.com、http://sanddroid.xjtu.edu.cn網(wǎng)站上收集。

(2) 預(yù)處理模塊

該模塊主要通過人工分析，將樣本庫中的應(yīng)用進(jìn)行分類，如游戲類、網(wǎng)上購物類、系統(tǒng)工具類、通信社交類、金融理財類等。

(3) 特征提取及特征集合構(gòu)建模塊

主要利用沙盒技術(shù)對各類應(yīng)用進(jìn)行動態(tài)分析，通過對運行時的應(yīng)用進(jìn)行監(jiān)控，提取各個應(yīng)用程序的行為信息作為特征，構(gòu)建行為特征集合。

(4) 格式化處理模塊

采用CSV(Comma Separated Values)格式，即逗號分隔值格式。對提取的各類應(yīng)用的特征集合統(tǒng)一進(jìn)行格式化處理。其中，每一行為一個應(yīng)用程序的特征集合。

(5) 分類器構(gòu)建模塊

使用各類應(yīng)用的特征集合對HNB分類算法進(jìn)行訓(xùn)練，構(gòu)建單分類器。然后，利用集成學(xué)習(xí)Bagging方法將構(gòu)建好的單分類器集成為分類性能更好的BHNB分類器。

3 實驗結(jié)果與分析

3.1 實驗樣本

實驗樣本主要包括兩部分：(1) 非惡意應(yīng)用樣本1 255個。主要利用爬蟲技術(shù)從廣受信賴的應(yīng)用商城Google Play上批量下載，這些應(yīng)用程序包含了所有的應(yīng)用類別。(2) 惡意應(yīng)用樣本1 200個。主要從https://virusshare.com、http://sanddroid.xjtu.edu.cn網(wǎng)站上收集，覆蓋49個惡意應(yīng)用家族的所有類別。

3.2 樣本分析

對于上述采集到的應(yīng)用樣本，經(jīng)過人工處理，將其分為各個應(yīng)用類別。主要包括游戲類，網(wǎng)上購物類，資訊閱讀類，系統(tǒng)工具類，影音圖像類，通信社交類，生活服務(wù)類，交通工具類，學(xué)習(xí)教育類，商業(yè)辦公類，運動保健類和金融理財類等，其所占比例如圖5所示。

圖5 Android應(yīng)用樣本庫中各類應(yīng)用所占比例

其中游戲類、通信社交類與影音圖像類應(yīng)用所占的比例相對較高，分別為20.4%、15.7%和11.2%；資訊閱讀類應(yīng)用所占比例最少，為3.2%。

3.3 實驗結(jié)果分析

為驗證本文提出的基于層次樸素貝葉斯算法的Android惡意應(yīng)用檢測方法的高效性和準(zhǔn)確性，我們比較了樣本分類之前和樣本分類之后的分類器性能。樣本分類之前是將所有樣本的特征構(gòu)成一個集合，采用NB或DT分類器進(jìn)行分類；樣本劃分之后是將樣本按照類別進(jìn)行劃分，構(gòu)建多個不同類別的特征集合，采用本文提出的BHNB分類器進(jìn)行分類。

(1) 分類器的評價參數(shù)

本文將非惡意應(yīng)用樣本定義為正樣本，惡意應(yīng)用樣本定義為負(fù)樣本。

分類器性能評價標(biāo)準(zhǔn)：

正確接受TP，即實際為真，預(yù)測為真，指分類器將非惡意應(yīng)用正確識別為非惡意應(yīng)用；

正確拒絕TN，即實際為假，預(yù)測為假，指分類器將惡意應(yīng)用正確識別為惡意應(yīng)用；

錯誤接受FP，即實際為假，預(yù)測為真，指分類器將惡意應(yīng)用錯誤識別為非惡意應(yīng)用；

錯誤拒絕FN，即實際為真，預(yù)測為假，指分類器將非惡意應(yīng)用錯誤識別為惡意應(yīng)用；

分類器的分類精度，即正確率Accuracy，

召回率Recall，在所有實際樣本中，被預(yù)測為正樣本的數(shù)量，即

ROC曲線反映分類器的優(yōu)劣，其顯示了給定模型的TP概率與FP概率之間的比較評定。以假正率FPR(false positive rate)為橫軸，真正率TPR(true positive rate)為縱軸，描繪分類器的靈敏度，曲線越接近左上角，說明該分類器性能越好。

ROC曲線下面的面積是模型準(zhǔn)確率的度量AUC。為了評估模型的準(zhǔn)確率，可以測量曲線下方的面積，面積越接近0.5，對應(yīng)模型的準(zhǔn)確率越低，完全準(zhǔn)確的模型的面積為1。AUC值越大，說明分類效果越好。在ROC曲線無法清晰反映分類效果時，比較AUC的值，有助于增強分類器之間的比對。

圖6 樣本劃分之前與樣本劃分之后的ROC曲線和AUC比較

(2) 不同分類器間的比較

在分類器精度測試過程中，采用十折交叉的驗證方法，輪流將各類應(yīng)用樣本集中的90%作為訓(xùn)練集，10%作為測試集，取十次實驗的平均結(jié)果，作為對分類器精度的估計。

本文在使用過程中對DT、NB以及BHNB分類器進(jìn)行了比較，結(jié)果如表1所示。

表1 不同分類器分類結(jié)果

從表1中我們可以看出，DT分類器的分類精度雖然最高，但是其構(gòu)建的時間卻最長，在效率上不如NB分類器。BHNB分類器在構(gòu)建時間上雖然稍微遜色于NB分類器，但是其精度卻比NB分類器要高。因此，BHNB針對Android惡意應(yīng)用檢測具有較高的精度與效率。在本文提出的細(xì)粒度的Android惡意應(yīng)用檢測模型基礎(chǔ)上，構(gòu)建的BHNB分類器可以有效檢測出Android惡意應(yīng)用。

4 結(jié) 語

本文提出的基于BHNB的細(xì)粒度的Android惡意應(yīng)用檢測模型，首先通過人工分析的方法將樣本庫中的應(yīng)用劃分多個類別，然后基于動態(tài)分析技術(shù)提取各個應(yīng)用程序的行為信息作為特征，構(gòu)建行為特征集合。再采用HNB分類算法對各類應(yīng)用的特征集合進(jìn)行訓(xùn)練，構(gòu)建出多個HNB分類器。由于分類器的訓(xùn)練僅針對小規(guī)模的特征集合，且構(gòu)建過程并行而獨立，因此，在一定程度上提高了效率。為了在提高檢測效率的同時，也能夠穩(wěn)定分類器的性能。本文最后采用Bagging集成學(xué)習(xí)方法，對構(gòu)建出的多個HNB分類器進(jìn)行集成學(xué)習(xí)，從而構(gòu)建出分類性能更加穩(wěn)定的BHNB強分類器。實驗結(jié)果證明，本文提出的基于BHNB的細(xì)粒度的Android惡意應(yīng)用檢測模型，能夠有效檢測出Android惡意應(yīng)用，且誤報率低、檢測效率較高。

[1] Yerima S Y, Sezer S, Mcwilliams G. Analysis of Bayesian classification-based approaches for Android malware detection[J]. Information Security Iet, 2013, 8(1):25-36.

[2] Ham H S, Kim H H, Kim M S, et al. Linear SVM-Based Android Malware Detection for Reliable IoT Services[J]. Journal of Applied Mathematics, 2014, 2014:1-10.

[3] Yerima S Y, Sezer S, Muttik I. Android Malware Detection Using Parallel Machine Learning Classifiers[C]// Eighth International Conference on Next Generation Mobile Apps, Services and Technologies. IEEE, 2014:493-494.

[4] 許艷萍, 伍淳華, 侯美佳,等. 基于改進(jìn)樸素貝葉斯的Android惡意應(yīng)用檢測技術(shù)[J]. 北京郵電大學(xué)學(xué)報, 2016, 39(2):43-47.

[5] 胡靜, 華俊, 姜羽,等. 一種基于屬性關(guān)系的特征選擇算法[J]. 控制與決策, 2015(10):1903-1906.

[6] 范敏, 石為人. 層次樸素貝葉斯分類器構(gòu)造算法及應(yīng)用研究[J]. 儀器儀表學(xué)報, 2010, 31(4):776-781.

[7] 杉山將．圖解機器學(xué)習(xí)[M]. 北京:人民郵電出版社,2015.

[8] 哈林頓.機器學(xué)習(xí)實戰(zhàn)[M]. 北京：人民郵電出版社, 2013.

[9] 黃梅根，曾云科.基于權(quán)限組合的Android竊取隱私惡意應(yīng)用檢測方法[J]．計算機應(yīng)用與軟件，2016，33(9)：320-323,333.

[10] 王輝，陳泓予.基于樹加權(quán)樸素貝葉斯算法的入侵檢測技術(shù)研究[J].計算機應(yīng)用與軟件，2016,33(2)：294-298.

[11] 奚琪, 曾勇軍, 王清賢,等. 一種基于模型檢測的惡意行為識別方法[J]. 計算機應(yīng)用與軟件, 2015, 32(7):284-287.

[12] 卿斯?jié)h. Android安全研究進(jìn)展[J]. 軟件學(xué)報, 2016(1):45-71.

[13] 楊歡, 張玉清, 胡予濮,等. 基于多類特征的Android應(yīng)用惡意行為檢測系統(tǒng)[J]. 計算機學(xué)報, 2014, 37(1):15-27.

[14] 楊歡, 張玉清, 胡予濮,等. 基于權(quán)限頻繁模式挖掘算法的Android惡意應(yīng)用檢測方法[J].通信學(xué)報，2013(s1):106-115.

AFINE-GRAINEDANDROIDMALWAREDETECTIONMETHODBASEDONBHNB

Sun Lei Han Jingdan

(CollegeofCryptographyEngineering,InformationEngineeringUniversity,Zhengzhou450000,Henan,China)

In order to further improve the detection efficiency of Android malicious applications, this paper proposes a fine-grained Android malware detection model based on BHNB (Bagging Hierarchical Na?ve Bayesian). First, the model classified the applications in the sample database and dynamically analyzed them respectively, and extracted the behavior information of each application as features. Then, HNB (Hierarchical Na?ve Bayesian) classification algorithm was used to train all kinds of application feature sets respectively, so as to construct several layers of Na?ve Bayesian classifier. Finally, the multi-level Na?ve Bayesian classifier was constructed by using bagging ensemble learning method, building up the Bagging ensemble learning classifier based on Hierarchy Na?ve Bayesian algorithm-BHNB. The experimental results demonstrate that the proposed model can effectively improve the detection efficiency while improving the detection accuracy.

Android Dynamic analysis Hierarchical Na?ve Bayesian Ensemble learning Malware detection

TP301

10.3969/j.issn.1000-386x.2017.10.055

2016-11-23。國家重點研發(fā)計劃項目“協(xié)同精密定位技術(shù)”(2016YFB0501900)；國防預(yù)研基金項目(910A26010106JB5201)。孫磊，研究員，主研領(lǐng)域：云計算基礎(chǔ)設(shè)施可信增強、可信虛擬化技術(shù)。韓靜丹，碩士生。

基于BHNB的細(xì)粒度的Android惡意應(yīng)用檢測模型

0 引 言

1 基于層次樸素貝葉斯的Bagging集成學(xué)習(xí)分類器BHNB

1.1 層次樸素貝葉斯分類算法HNB

1.2 集成學(xué)習(xí)方法Bagging

1.3 BHNB分類算法

2 基于BHNB的細(xì)粒度的Android惡意應(yīng)用檢測模型

3 實驗結(jié)果與分析

3.1 實驗樣本

3.2 樣本分析

3.3 實驗結(jié)果分析

4 結(jié) 語

0 引言