金丹 滕潔琪
摘要:文章以微博用戶為研究對(duì)象,從發(fā)博行為、博文內(nèi)容、用戶關(guān)系和發(fā)博設(shè)備四個(gè)方面建立特征維度,借助機(jī)器學(xué)習(xí)的方法構(gòu)建有效的機(jī)器用戶識(shí)別模型,分別在決策樹(shù)C4.5和隨機(jī)森林算法下驗(yàn)證了該模型的識(shí)別性能,證實(shí)了該方法的可行性和準(zhǔn)確性,對(duì)維護(hù)健康的網(wǎng)絡(luò)環(huán)境有一定的指導(dǎo)意義。
關(guān)鍵詞:微博;機(jī)器用戶;機(jī)器學(xué)習(xí);用戶識(shí)別;決策樹(shù)C4.5;隨機(jī)森林算法 文獻(xiàn)標(biāo)識(shí)碼:A
中圖分類號(hào):TP391 文章編號(hào):1009-2374(2016)30-0004-04 DOI:10.13535/j.cnki.11-4406/n.2016.30.003
1 概述
微博作為一種社會(huì)信息傳播平臺(tái),以其易操作、低門檻、傳播速度快等優(yōu)點(diǎn),受到公眾更多的青睞。然而,隨著微博的普及和互聯(lián)網(wǎng)絡(luò)技術(shù)的升級(jí),一些不良分子借助新興技術(shù)手段,譬如,依靠批量發(fā)布助手、自動(dòng)廣播器等自動(dòng)化軟件來(lái)操控賬戶,由此構(gòu)成了機(jī)器用戶。機(jī)器用戶能夠模仿真實(shí)用戶發(fā)布、轉(zhuǎn)發(fā)、評(píng)論博文,這類用戶不具備感情、邏輯和互動(dòng)性,卻以其良好的偽裝性,大量發(fā)布虛假信息,擴(kuò)散輿論謠言,嚴(yán)重?cái)_亂網(wǎng)絡(luò)的正常秩序,破壞網(wǎng)絡(luò)環(huán)境。機(jī)器用戶造成的危害具體概括為以下四點(diǎn):(1)耗費(fèi)系統(tǒng)資源,降低平臺(tái)效率,影響用戶體驗(yàn);(2)污染社交環(huán)境,降低用戶信任度,造成平臺(tái)虛假繁榮現(xiàn)象;(3)難以辨別信息真實(shí)性,干擾用戶正常判斷力;(4)從數(shù)據(jù)分析角度,這些機(jī)器用戶的存在部分掩蓋了真實(shí)用戶的特征,對(duì)后續(xù)數(shù)據(jù)挖掘、用戶分析等研究造成了干擾。
鑒于此,機(jī)器用戶的識(shí)別是一個(gè)緊迫而困難的工作,構(gòu)建有效的機(jī)器用戶識(shí)別模型,借助相關(guān)算法快速、準(zhǔn)確地識(shí)別微博中的機(jī)器用戶,對(duì)減少網(wǎng)絡(luò)謠言的傳播、凈化網(wǎng)絡(luò)環(huán)境有重要的意義。
2 相關(guān)研究
早期對(duì)社交網(wǎng)站不良用戶的研究主要集中在對(duì)垃圾用戶,例如網(wǎng)絡(luò)水軍、廣告用戶、僵尸粉用戶的識(shí)別研究上,而機(jī)器用戶出現(xiàn)的時(shí)間并不長(zhǎng),對(duì)它的研究還不多,僅有的研究大多數(shù)以Twitter為平臺(tái),其成果無(wú)法直接應(yīng)用于新浪微博等中文微博平臺(tái)。
國(guó)內(nèi)方面,劉勘等向自動(dòng)化軟件公司申請(qǐng)并獲取了機(jī)器用戶樣本,提取了行為模式、微博內(nèi)容、用戶關(guān)系和發(fā)布平臺(tái)四個(gè)維度的八個(gè)特征屬性,基于隨機(jī)森林訓(xùn)練了一個(gè)機(jī)器用戶識(shí)別系統(tǒng),機(jī)器用戶的識(shí)別準(zhǔn)確率達(dá)到了96.7%。中國(guó)的微博起源于Twitter,國(guó)外基于Twitter的機(jī)器用戶研究主要有以下幾人:Chu等從用戶行為、Twitter內(nèi)容和賬戶屬性的角度建立分類系統(tǒng),將Twitter用戶分成機(jī)器用戶、人類用戶和半機(jī)器用戶。Main采用決策樹(shù)C4.5算法訓(xùn)練分類器,從用戶的發(fā)博間隔、垃圾詞語(yǔ)檢測(cè)、重復(fù)博文檢測(cè)、社交分值和發(fā)博設(shè)備五個(gè)方面構(gòu)建模型,對(duì)訓(xùn)練結(jié)果采用了比較分析法,分別選用2個(gè)主要屬性,發(fā)博間隔和垃圾信息檢測(cè),還有完全采用5個(gè)屬性時(shí)分類器的效果差異。結(jié)果表明,發(fā)博間隔是機(jī)器用戶的重要特征,有著更好的區(qū)分度。Zhang等構(gòu)建了一個(gè)基于每條Twitter發(fā)布時(shí)間的檢測(cè)機(jī)器用戶方法,并用此模型得到Twitter中大約有16%的活躍賬戶具有較高自動(dòng)化行為。Wang提取3個(gè)基于圖模型的Twitter用戶特征和3個(gè)基于Twitter內(nèi)容的屬性并設(shè)計(jì)算法,識(shí)別出Twitter中的機(jī)器用戶。
3 基本思路及相關(guān)方法
機(jī)器用戶的識(shí)別問(wèn)題可以看作是一個(gè)將用戶分為機(jī)器用戶和真實(shí)用戶的二分類問(wèn)題:設(shè)用戶的全集是U,類別集合C={,},表示機(jī)器用戶集合,表示真實(shí)用戶集合,機(jī)器用戶的識(shí)別問(wèn)題就是求一個(gè)分類函數(shù)F,將U中的用戶映射到C上。
(1)
上述映射函數(shù)F即代表了一個(gè)分類器,它可由機(jī)器學(xué)習(xí)算法習(xí)得,在本研究中選取決策樹(shù)C4.5和隨機(jī)森林算法。
C4.5算法是目前決策樹(shù)中最常用的算法。它在樹(shù)的構(gòu)造過(guò)程中進(jìn)行剪枝,并且用信息增益率來(lái)選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足。C4.5決策樹(shù)算法不僅能對(duì)離散型數(shù)據(jù)、連續(xù)屬性的離散化進(jìn)行處理,還能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。
隨機(jī)森林算法是Leo Breiman提出的一種利用多個(gè)樹(shù)分類器進(jìn)行分類和預(yù)測(cè)的方法。隨機(jī)森林不僅訓(xùn)練和預(yù)測(cè)速度快而且不容易出現(xiàn)過(guò)度擬合的問(wèn)題。
4 特征研究
通過(guò)深入觀察和分析,發(fā)現(xiàn)機(jī)器用戶在發(fā)博行為、微博內(nèi)容、用戶關(guān)系和發(fā)布平臺(tái)4個(gè)方面存在顯著差異,因此本文對(duì)這4個(gè)維度的特征進(jìn)行深入分析。
4.1 發(fā)博行為特征
發(fā)布博文是用戶在微博上的主要活動(dòng)之一。經(jīng)過(guò)瀏覽機(jī)器用戶的發(fā)博歷史,發(fā)現(xiàn)機(jī)器用戶發(fā)博方式呈現(xiàn)兩種極端:一類機(jī)器用戶依靠不斷轉(zhuǎn)發(fā)某一條博文來(lái)增加人氣;另一類機(jī)器用戶依靠不斷發(fā)布某領(lǐng)域原創(chuàng)博文來(lái)維持粉絲的粘性。因此,我們定義轉(zhuǎn)發(fā)率來(lái)觀察機(jī)器用戶和真實(shí)用戶的異同。轉(zhuǎn)發(fā)率為:
(2)
用戶發(fā)布博文包括原創(chuàng)和轉(zhuǎn)發(fā),表示某用戶發(fā)博總數(shù),表示該用戶轉(zhuǎn)發(fā)博文的數(shù)量,表示用戶轉(zhuǎn)發(fā)博文比率。
CDF累積分布曲線能夠定量地顯示數(shù)據(jù)的分布,每一條CDF曲線代表了一群樣本某一特征的數(shù)據(jù)分布,CDF曲線上的每個(gè)點(diǎn)對(duì)應(yīng)統(tǒng)計(jì)特征的一個(gè)值以及統(tǒng)計(jì)特征小于這個(gè)值的樣本數(shù)量占總樣本數(shù)量的百分比。利用CDF曲線,可以很容易地找到多個(gè)樣本群體對(duì)應(yīng)一個(gè)統(tǒng)計(jì)特征在數(shù)據(jù)分布上差異,而這種差異正是我們尋找的特征的“區(qū)分度”。從圖1是轉(zhuǎn)發(fā)率累積分布圖,真實(shí)用戶轉(zhuǎn)發(fā)率分布較均勻,隨著轉(zhuǎn)發(fā)率的增加,曲線穩(wěn)步上升,而機(jī)器用戶轉(zhuǎn)發(fā)率在0.9之前,曲線平緩,波動(dòng)不大,而在轉(zhuǎn)發(fā)率大于0.9后猛然上升,可見(jiàn)機(jī)器用戶中大部分用戶僅以轉(zhuǎn)發(fā)為主,幾乎不發(fā)表自己的言論。
4.2 博文內(nèi)容特征
從上文轉(zhuǎn)發(fā)率可知,機(jī)器用戶的轉(zhuǎn)發(fā)率非常高,并且轉(zhuǎn)發(fā)的原作者集中且單一,如何通過(guò)轉(zhuǎn)發(fā)來(lái)描述轉(zhuǎn)發(fā)行為的重復(fù)情況,在微博后臺(tái)數(shù)據(jù)集群中,用戶發(fā)博日志存儲(chǔ)的形式有一個(gè)字段為被轉(zhuǎn)發(fā)博文的作者rootuid,據(jù)觀察經(jīng)驗(yàn),機(jī)器用戶總是固定某一個(gè)或某一些用戶的博文,被轉(zhuǎn)發(fā)用戶重復(fù)率非常高,因此,定義重復(fù)率為:
(3)
表示轉(zhuǎn)發(fā)博文的原創(chuàng)用戶相同的博文數(shù),表示所有轉(zhuǎn)發(fā)的博文數(shù),重復(fù)率一定程度上反映了用戶的傾向和意圖,普通用戶轉(zhuǎn)發(fā)的博文多種多樣,機(jī)器用戶目的單一,轉(zhuǎn)發(fā)的原作者的范圍狹窄,因此根據(jù)用戶是否頻繁轉(zhuǎn)發(fā)某一用戶的博文,具有一定的區(qū)分度。
圖2所示為被轉(zhuǎn)發(fā)用戶重復(fù)率的累積分布圖,機(jī)器用戶的轉(zhuǎn)發(fā)用戶重復(fù)率明顯高出真實(shí)用戶,表示機(jī)器用戶總是固定頻繁地轉(zhuǎn)發(fā)某些人的博文,最典型的是機(jī)器用戶中的明星水軍用戶,長(zhǎng)期圈粉某一位公眾明星,批量轉(zhuǎn)發(fā)此人微博,并加入該明星話題詞,從而達(dá)到提高人氣和利用影響力進(jìn)行炒作的目的。
4.3 用戶關(guān)系特征
用戶關(guān)系是社交網(wǎng)絡(luò)上的重要體現(xiàn)之一,機(jī)器用戶中認(rèn)證用戶較多,他們利用認(rèn)證身份的優(yōu)勢(shì)以及借助自動(dòng)化手段發(fā)布優(yōu)質(zhì)博文,收獲更多的粉絲。而真實(shí)用戶是將現(xiàn)實(shí)生活中的關(guān)系映射到其社交關(guān)系中,因而其關(guān)注數(shù)和粉絲數(shù)相差不大。根據(jù)以上分析,定義名譽(yù)率,計(jì)算公式如下:
(4)
式中:為用戶粉絲數(shù),為用戶關(guān)注數(shù),名譽(yù)率越接近0,表示關(guān)注數(shù)遠(yuǎn)遠(yuǎn)大于粉絲數(shù),受歡迎度接近1,表示粉絲量大,言論會(huì)受到眾多關(guān)注,更受歡迎。名譽(yù)度指標(biāo)反映的是用戶粉絲量占總體關(guān)系的比例,該指標(biāo)越高說(shuō)明此用戶粉絲越多,越受粉絲歡迎。受歡迎指數(shù)的CDF曲線圖如圖3所示,橫坐標(biāo)為受歡迎指數(shù)的值,取值范圍是0~1,縱坐標(biāo)表示統(tǒng)計(jì)值小于該值的樣本數(shù)量占總樣本的比例,因此曲線偏向左邊,則該組樣本的受歡迎指數(shù)偏低,反之,曲線偏向右邊,該組樣本的受歡迎指數(shù)較高。
由圖3可見(jiàn),機(jī)器用戶的受歡迎度比真實(shí)用戶名譽(yù)率更高。因?yàn)闄C(jī)器用戶并不是通過(guò)大量關(guān)注普通用戶,來(lái)獲取更多的被關(guān)注機(jī)會(huì),操縱這些機(jī)器賬號(hào)的用戶更多的是通過(guò)創(chuàng)造良好的口碑和微博形象,提供更有價(jià)值的信息,以此來(lái)吸引粉絲,這些粉絲與博主具有相同的興趣,樂(lè)于接受博文更新。由受歡迎度累積分布圖來(lái)看,在相同概率下,機(jī)器用戶比真實(shí)用戶具有更高的受歡迎度,而真實(shí)用戶通常利用微博瀏覽興趣話題,因而關(guān)注量大于粉絲量。
4.4 發(fā)博設(shè)備特征
機(jī)器用戶通常借助第三方平臺(tái)來(lái)更新博文信息流,發(fā)博設(shè)備作為區(qū)分特征之一是有效的,發(fā)博設(shè)備有Mobileweb和Wap、Web應(yīng)用、瀏覽器、平板電腦、手機(jī)和桌面。
如圖4所示,87%以上真實(shí)用戶的發(fā)博行為都發(fā)生在移動(dòng)端,而機(jī)器用戶僅有50%的用戶在移動(dòng)端發(fā)布博文,機(jī)器用戶常用的設(shè)備是Web應(yīng)用即第三方軟件平臺(tái),由此可見(jiàn),機(jī)器用戶大多是在PC平臺(tái)操作,借助Web應(yīng)用軟件來(lái)批量發(fā)送博文,而普通用戶僅把微博作為及時(shí)記錄心情和新鮮事的工具。
圖1 轉(zhuǎn)發(fā)率累積分布圖 圖2 重復(fù)率累積分布圖圖
圖3 名譽(yù)率累積分布圖 圖4 發(fā)博設(shè)備分布情況
5 模型構(gòu)建
從上文提出的行為、內(nèi)容、關(guān)系和平臺(tái)4個(gè)特征維度,分別是轉(zhuǎn)發(fā)率、重復(fù)度、名譽(yù)率、設(shè)備信息。識(shí)別某用戶是否為機(jī)器用戶的算法就是根據(jù)這幾個(gè)特征構(gòu)建模型。本文使用機(jī)器學(xué)習(xí)工具Weka來(lái)訓(xùn)練和測(cè)試算法模型,基于微博數(shù)據(jù)和分類算法決策樹(shù)C4.5和隨機(jī)森林構(gòu)建模型。選用決策樹(shù)和隨機(jī)森林算法,是因?yàn)闆Q策樹(shù)和隨機(jī)森林在解決分類問(wèn)題的良好性能。
5.1 數(shù)據(jù)來(lái)源
本文數(shù)據(jù)樣本均來(lái)自于新浪微博數(shù)據(jù)倉(cāng)庫(kù)。抽取用戶樣本的規(guī)則是基于機(jī)器用戶單位發(fā)博量巨大的顯著特征,抽取2016年2月一整月發(fā)博數(shù)最高的前3000個(gè)賬號(hào)標(biāo)記為機(jī)器用戶,真實(shí)用戶按照合理發(fā)博數(shù)隨機(jī)取2406為初始實(shí)驗(yàn)數(shù)據(jù)。
本文所選數(shù)據(jù)包含以下方面:用戶的基本屬性、用戶的關(guān)系屬性、用戶的行為屬性和用戶發(fā)布博文屬性,數(shù)據(jù)存儲(chǔ)表信息如下:
5.2 模型構(gòu)建與評(píng)估標(biāo)準(zhǔn)
從前文提出的發(fā)博行為、博文內(nèi)容、用戶關(guān)系和發(fā)博設(shè)備四個(gè)特征維度,計(jì)算得到數(shù)值型變量、轉(zhuǎn)發(fā)率、重復(fù)率、名譽(yù)率,發(fā)博設(shè)備是標(biāo)識(shí)性變量,識(shí)別機(jī)器用戶的分類器就是基于這四個(gè)特征值構(gòu)建的模型,識(shí)別的流程圖如圖5所示:
對(duì)于一個(gè)二分類問(wèn)題,模型預(yù)測(cè)可能產(chǎn)生四種不同的結(jié)果,如表3所示:
實(shí)驗(yàn)評(píng)價(jià)模型的標(biāo)準(zhǔn)有:命中率(TP Rate),誤判率(FP Rate),正確率(Precision),召回率(Recall),F(xiàn)值(F-measure)和ROC area,這些指標(biāo)的計(jì)算公式是:(1)命中率:TP Rate=TP/(TP+FN):正樣本分類成正樣本數(shù)/正樣本總數(shù);(2)誤判率:FP Rate=FP/(FP+TN):負(fù)樣本分類成正樣本數(shù)/負(fù)樣本總數(shù);(3)正確率:Precision=TP/(TP+FP):返回的正確樣本數(shù)/返回的樣本總數(shù);(4)召回率:Recall=TP/(TP+TN):返回的正確樣本數(shù)/全部的正確樣本數(shù);(5)F值:F-measure=2*Precision*Recall/(Precision+Recall);(6)ROC area(Receiver Operating Characteristic):在ROC空間中,每個(gè)點(diǎn)的橫坐標(biāo)是FPR,縱坐標(biāo)是TPR。ROC是計(jì)算曲線下的面積,面積越接近1,說(shuō)明模型效果越好。
5.3 實(shí)驗(yàn)與結(jié)果分析
基于上述模型,本文標(biāo)注了一些數(shù)據(jù)集,用于測(cè)試和檢驗(yàn)?zāi)P偷挠行浴?shí)驗(yàn)數(shù)據(jù)來(lái)源于新浪微博數(shù)據(jù)倉(cāng)庫(kù),隨機(jī)選取約4000用戶作為實(shí)驗(yàn)樣例。實(shí)現(xiàn)方法上,本文分別采用基于C4.5決策樹(shù)的分類算法和改進(jìn)決策樹(shù)的隨機(jī)森林分類算法對(duì)模型進(jìn)行訓(xùn)練,并用10折交叉驗(yàn)證的方法驗(yàn)證模型。本文利用機(jī)器學(xué)習(xí)工具集Weka分別用上述兩種算法訓(xùn)練模型,兩種算法的模型效果分別如表4和表5所示。圖6是這兩種算法統(tǒng)計(jì)對(duì)比圖。
實(shí)驗(yàn)中,本文標(biāo)記了3771個(gè)用戶數(shù)據(jù),其中機(jī)器用戶2069個(gè)、真實(shí)用戶1702個(gè),從分類結(jié)果來(lái)看,決策樹(shù)C4.5和隨機(jī)森林對(duì)機(jī)器用戶的識(shí)別效果相差不大,但隨機(jī)森林稍微優(yōu)于C4.5,從表4看到,C4.5的準(zhǔn)確率94.2%,而表5中隨機(jī)森林的準(zhǔn)確率為94.4%。整體來(lái)講,隨機(jī)森林模型優(yōu)于決策樹(shù)C4.5模型。
為了檢驗(yàn)各個(gè)特征屬性對(duì)模型效率的影響,分別去除某一特征,查看模型性能的變化情況。表6列出了分別去除發(fā)博平臺(tái)、名譽(yù)率、重復(fù)率和轉(zhuǎn)發(fā)率這4個(gè)特征之后,性能指標(biāo)的變化情況。從數(shù)據(jù)中可以看出:(1)對(duì)于決策樹(shù)C4.5算法來(lái)說(shuō),去掉名譽(yù)率和轉(zhuǎn)發(fā)率,模型性能略微提升,模型中去掉任意一個(gè)是合理的。但對(duì)于隨機(jī)森林來(lái)說(shuō),去掉任何一個(gè)指標(biāo),都將導(dǎo)致性能的下降,因此隨機(jī)森林宜保留全部特征屬性;(2)重復(fù)率對(duì)模型效率起到重要作用,去掉重復(fù)率以后,模型的效率下降幅度明顯,僅僅在0.7左右,并且對(duì)決策樹(shù)模型影響偏大,識(shí)別效率不到0.7;(3)發(fā)博平臺(tái)對(duì)整體模型,無(wú)論是決策樹(shù)還是隨機(jī)森林都有一定貢獻(xiàn)。
圖7是決策樹(shù)C4.5和隨機(jī)森林分別去掉每個(gè)屬性后,F(xiàn)值的對(duì)比,可見(jiàn)除了重復(fù)率,去掉發(fā)博平臺(tái)、名譽(yù)率和轉(zhuǎn)發(fā)率中的任意一個(gè)屬性,F(xiàn)值均可達(dá)到0.9以上。
以上分析可見(jiàn),重復(fù)率這一屬性對(duì)模型的影響效率非常明顯。若只考慮這一屬性特征,訓(xùn)練模型后得到的準(zhǔn)確率決策樹(shù)和隨機(jī)森林分別為93.3%和92.7%。已經(jīng)達(dá)到很好的區(qū)分度,結(jié)合機(jī)器用戶的發(fā)博動(dòng)機(jī)和意圖,一部分以網(wǎng)絡(luò)水軍為主體的明星人氣造勢(shì)者以及另一部分以廣告營(yíng)銷為主體的廣播擴(kuò)散型商業(yè)機(jī)器用戶,從這一點(diǎn)考慮,頻繁和長(zhǎng)久的轉(zhuǎn)發(fā)相同賬號(hào)的博文是情理之中的。
6 結(jié)語(yǔ)
本文針對(duì)國(guó)內(nèi)新浪微博機(jī)器用戶的特點(diǎn),從發(fā)博行為、微博內(nèi)容相似情況、用戶關(guān)系、發(fā)布平臺(tái)4個(gè)維度構(gòu)建模型指標(biāo),分別利用決策樹(shù)C4.5和隨機(jī)森林算法實(shí)現(xiàn)了對(duì)機(jī)器用戶的有效識(shí)別。實(shí)驗(yàn)表明,本文采用的模型指標(biāo)和分類模型能有效地識(shí)別微博中的機(jī)器用戶,而且轉(zhuǎn)發(fā)博文的高度重復(fù)是機(jī)器用戶的重要特征。本文的工作對(duì)避免虛假、有害信息的擴(kuò)散,營(yíng)造積極健康的網(wǎng)絡(luò)環(huán)境有重要意義。由于網(wǎng)絡(luò)信息傳播模式變化較快,機(jī)器用戶采用的方法也會(huì)不斷變化,因此進(jìn)一步的研究需要及時(shí)關(guān)注機(jī)器用戶的最新特點(diǎn)和變化趨勢(shì),及時(shí)調(diào)整或構(gòu)建新的識(shí)別模型。另外,除了微博平臺(tái),機(jī)器用戶在論壇、貼吧、新聞評(píng)論、商品評(píng)論等其他網(wǎng)絡(luò)平臺(tái)上也較活躍,針對(duì)這些平臺(tái)中的機(jī)器用戶也需要構(gòu)建相應(yīng)的識(shí)別模型。
參考文獻(xiàn)
[1] 劉勘,袁蘊(yùn)英,劉萍.基于隨機(jī)森林分類的微博機(jī)器用戶識(shí)別研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,(2).
[2] Chu,Z.,et al.Detecting Automation of Twitter Accounts:Are You a Human,Bot,or Cyborg[J].IEEE Transactions on Dependable and Secure Computing,2012,9(6).
[3] Main,W.and N.Shekokhar.Twitterati Identification System[J].Procedia Computer Science,2015,(45).
[4] Zhang C M,Paxson V.Detecting and analyzing automated activity on twitter[A].Passive and Active Measurement[C].Springer Berlin Heidelberg,2011.
[5] Wang,A.H.Detecting Spam Bots in Online Social Networking Sites:A Machine Learning Approach[M].Data and Applications Security and Privacy XXIV,2010.
[6] Breiman L.Random forests[J].Machine Learning,2001,45(1).