Spark平臺(tái)加權(quán)分層子空間隨機(jī)森林算法研究

2020-05-28 09:36:21荊靜祝永志

軟件導(dǎo)刊 2020年3期

荊靜　祝永志

摘要：如何在各式大數(shù)據(jù)中更快更準(zhǔn)確地挖掘有用信息是研究熱點(diǎn)。隨機(jī)森林算法作為一種重要的機(jī)器學(xué)習(xí)算法，適用于大部分?jǐn)?shù)據(jù)集。隨機(jī)森林算法可以并行運(yùn)行，這是隨機(jī)森林算法處理大數(shù)據(jù)集時(shí)的優(yōu)勢。將隨機(jī)森林算法應(yīng)用在大數(shù)據(jù)處理框架Spark上，提高了隨機(jī)森林算法處理大數(shù)據(jù)集時(shí)的速度。首先對(duì)隨機(jī)森林進(jìn)行參數(shù)調(diào)優(yōu)，找到當(dāng)前數(shù)據(jù)集的最優(yōu)參數(shù)組合，采用隨機(jī)森林模型對(duì)特征進(jìn)行重要度計(jì)算，篩選掉噪聲數(shù)據(jù);然后采用卡方檢驗(yàn)對(duì)數(shù)據(jù)集的特征進(jìn)行分層，實(shí)現(xiàn)分層子空間隨機(jī)森林并驗(yàn)證準(zhǔn)確率和袋外精度;最后在傳統(tǒng)分層子空間隨機(jī)森林基礎(chǔ)上對(duì)分層子空間進(jìn)行加權(quán)改進(jìn)。實(shí)驗(yàn)證明改進(jìn)后的隨機(jī)森林算法準(zhǔn)確率提高了3%，袋外估計(jì)精度提高了1%。

關(guān)鍵詞：隨機(jī)森林;Spark;大數(shù)據(jù)處理;特征選擇

DOI：10. 11907/rjdk. 191691

中圖分類號(hào)：TP312 ? 文獻(xiàn)標(biāo)識(shí)碼：A ??????????????? 文章編號(hào)：1672-7800（2020）003-0120-05

Research of Random Forest Algorithm Using Weighted Stratified Subspace

Based on Spark Platform

JING Jing，ZHU Yong-zhi

（School of Information Science and Engineering，Qufu Normal University，Rizhao 276826，China）

Abstract：How to find useful information out of all kinds of big data faster and more accurately becomes an import problem in the time. As an important machine learning algorithm， random forest algorithm is flexible and suitable for most data sets. The random forest algorithm can run in parallel，this is an advantage when dealing with large data sets. The application of random forest algorithm to big data processing framework Spark can greatly improve the speed of running and processing big data of random forest algorithm. Firstly，the parameter of the random forest were optimized to find the optimal combination of parameters of the current data set. The importance of features are calculated to delete the useless feature by random forest model. Then， chi-square test is used to stratify the features of the data set to achieve the verification accuracy and out-of-bag accuracy of random forest using stratified subspace. Finally， on the basis of the traditional random forest using stratified subspace， the stratified subspace is improved by weighting. The experimental results show that the improved random forest algorithm improves the prediction accuracy by 3% and the out-of-bag estimation accuracy by 1%.

Key Words：random forest; Spark; big data processing; feature selection

0 引言

大數(shù)據(jù)具有數(shù)據(jù)量大、類型多樣和價(jià)值密度低等特點(diǎn)，如何在大數(shù)據(jù)中快速且準(zhǔn)確地挖掘信息成為亟待解決的問題。決策樹算法作為一種經(jīng)典的數(shù)據(jù)挖掘算法，既可作為分類算法，又可作為回歸算法，但是單一的決策樹在處理數(shù)據(jù)時(shí)容易產(chǎn)生過擬合問題，因此在2001年出現(xiàn)了隨機(jī)森林算法。對(duì)運(yùn)行在單機(jī)上的隨機(jī)森林算法研究已經(jīng)相對(duì)成熟，近年來的研究是將隨機(jī)森林并行運(yùn)行以提高其性能。Apache Spark是大數(shù)據(jù)機(jī)器學(xué)習(xí)中最受歡迎的平臺(tái)之一，它受益于分布式架構(gòu)和自動(dòng)數(shù)據(jù)并行化。Apache Spark MLlib為各種機(jī)器學(xué)習(xí)任務(wù)提供支持，包括回歸、降維、分類、聚類和規(guī)則提取[1]。

文獻(xiàn)[2]將隨機(jī)森林算法應(yīng)用在Spark平臺(tái)，并在投票時(shí)根據(jù)不同決策樹預(yù)測準(zhǔn)確度對(duì)其進(jìn)行加權(quán)，有效提高了算法準(zhǔn)確度。但是對(duì)于具有高維特征的大數(shù)據(jù)，隨機(jī)森林在處理數(shù)據(jù)時(shí)運(yùn)行時(shí)間過長，而且噪聲數(shù)據(jù)也會(huì)對(duì)結(jié)果準(zhǔn)確率產(chǎn)生影響;文獻(xiàn)[3]在Spark平臺(tái)上運(yùn)用隨機(jī)森林算法進(jìn)行特征選擇，對(duì)冗余數(shù)據(jù)和噪聲數(shù)據(jù)進(jìn)行篩選，并采用方差分析和后向序列選擇進(jìn)行降維，提高了隨機(jī)森林算法的準(zhǔn)確度。但方差分析和后向序列選擇方法在進(jìn)行特征篩選時(shí)，要自身把握度量標(biāo)準(zhǔn)，因而容易將有用特征刪除;文獻(xiàn)[4]針對(duì)不平衡大數(shù)據(jù)提出一種啟發(fā)式自舉抽樣方法，結(jié)合保險(xiǎn)大數(shù)據(jù)在Spark平臺(tái)上實(shí)驗(yàn)，證明具有良好性能。但其只針對(duì)保險(xiǎn)大數(shù)據(jù)集進(jìn)行改進(jìn)，只對(duì)某一類大數(shù)據(jù)集有效;文獻(xiàn)[5]提出了一種基于Flayed邊界點(diǎn)的隨機(jī)森林算法，這種算法在處理具有離散連續(xù)屬性的樣本時(shí)可降低時(shí)間復(fù)雜度;文獻(xiàn)[6]提出了基于粗糙集的隨機(jī)森林算法，將粗糙集理論應(yīng)用于特征選擇中，但是仍然無法完全消除噪聲數(shù)據(jù)的影響;文獻(xiàn)[7]提出用分層子空間方式處理高維大數(shù)據(jù)，將特征分為強(qiáng)特征層和弱特征層，然后在不同的特征層進(jìn)行取樣，預(yù)測結(jié)果準(zhǔn)確率有一定提高。但是其對(duì)不同層采用了等比例方式進(jìn)行采樣，也容易產(chǎn)生噪聲數(shù)據(jù)。本文首先在Spark平臺(tái)上對(duì)隨機(jī)森林算法進(jìn)行參數(shù)調(diào)優(yōu)，采用特征評(píng)估方法對(duì)特征進(jìn)行重要度計(jì)算，并刪除噪聲特征，然后對(duì)傳統(tǒng)分層子空間進(jìn)行實(shí)驗(yàn)，驗(yàn)證其準(zhǔn)確率。針對(duì)傳統(tǒng)分層子空間等比例抽樣所得結(jié)果受噪聲數(shù)據(jù)影響較大從而影響準(zhǔn)確度的不足，對(duì)分層子空間進(jìn)行加權(quán)，并對(duì)加權(quán)分層子空間隨機(jī)森林的準(zhǔn)確率與原始分層子空間隨機(jī)森林算法準(zhǔn)確率進(jìn)行比較，發(fā)現(xiàn)加權(quán)抽樣時(shí)所得結(jié)果最優(yōu)。實(shí)驗(yàn)證明經(jīng)過加權(quán)的隨機(jī)森林算法準(zhǔn)確率提升了3%，袋外估計(jì)準(zhǔn)確率也有提升。

1 隨機(jī)森林算法

隨機(jī)森林（Random Forest，RF）是一種組合分類器，它首先訓(xùn)練多棵決策樹，訓(xùn)練完成后將其組合成隨機(jī)森林模型，然后運(yùn)用隨機(jī)森林模型進(jìn)行預(yù)測。隨機(jī)森林應(yīng)用廣泛，如用于預(yù)測疾病風(fēng)險(xiǎn)[8]、遙感社區(qū)[9]和保險(xiǎn)[10]等等。

1.1 決策樹

決策樹（decision tree）指以樹的形式進(jìn)行分類預(yù)測的模型。決策樹在節(jié)點(diǎn)劃分時(shí)就是要尋找一種最純凈的劃分方法，在數(shù)學(xué)中稱之為純度，分裂屬性使得孩子節(jié)點(diǎn)的數(shù)據(jù)劃分得最純。

1.1.1 熵

熵（entroy）表示數(shù)據(jù)的混亂程度，熵與混亂程度呈正比，熵變大時(shí)混亂程度也變高。

定義1：對(duì)類別為隨機(jī)變量X的樣本集合D，假設(shè)X有k個(gè)類別，每個(gè)類別的概率為[CkD]，其中[Ck]表示類別k的樣本個(gè)數(shù)，[D]表示樣本總數(shù)，則樣本集合D的熵公式如下：

1.1.2 基尼值

定義2：設(shè)[pi]為類別i在樣本D中出現(xiàn)的概率，基尼指數(shù)公式如下：

基尼指數(shù)被定義用來衡量節(jié)點(diǎn)純度，基尼指數(shù)與純度成反比關(guān)系，即基尼指數(shù)變大時(shí)節(jié)點(diǎn)純度會(huì)變低。

決策樹理解起來比較簡單，但是它可能會(huì)出現(xiàn)過度分割樣本空間問題，導(dǎo)致決策樹算法復(fù)雜度很高，并且會(huì)出現(xiàn)過擬合。為了解決這些問題，針對(duì)決策樹缺點(diǎn)提出隨機(jī)森林算法。隨機(jī)森林算法是對(duì)決策樹算法的一種集成，可以有效避免過擬合。

1.2 隨機(jī)森林

定義3：假設(shè)數(shù)據(jù)集為D={Xi，Yj}，Xi∈R，Yi∈{1，2，…，C}，隨機(jī)森林是在數(shù)據(jù)集上以M個(gè)決策樹{g（D，θm}，m=1，2，…，M}為基分類器進(jìn)行集成學(xué)習(xí)后得到的一個(gè)組合分類器。

隨機(jī)森林算法創(chuàng)建過程分為3個(gè)步驟：①劃分訓(xùn)練樣本子集;②訓(xùn)練隨機(jī)森林;③預(yù)測。隨機(jī)森林算法的隨機(jī)性體現(xiàn)在它不僅在取樣時(shí)采用隨機(jī)取樣，在特征選擇時(shí)也是隨機(jī)抽取，然后從中采用最佳屬性進(jìn)行分裂。

1.2.1 卡方檢驗(yàn)

卡方檢驗(yàn)是衡量兩個(gè)變量相關(guān)性的一種檢驗(yàn)方法[11]。

定義4：對(duì)于數(shù)據(jù)集D，使用[X={x1，？，xk}]表示樣本，使用[Y={y1，？，yq}]表示類別，使用[A={A1，？，AM}]表示特征，而對(duì)于每一個(gè)特征，假設(shè)特征[Ai]有p個(gè)不同取值，當(dāng)[Ai=al]時(shí)， [Y=yj（j=1，？，q）]的D子集大小為[vallj]，特征[Ai]與類別之間的信息量公式如下：

其中，[vallj]為觀察頻數(shù)，即表示為實(shí)際發(fā)生的頻數(shù)，[tlj]為期望頻數(shù)。期望函數(shù)取值為：

特征和類別之間的相關(guān)性越強(qiáng)，特征分類新事物的能力也越強(qiáng)，因此將卡方檢驗(yàn)應(yīng)用在隨機(jī)森林算法的特征選擇中，檢測特征與類別之間的關(guān)系。根據(jù)相關(guān)性將特征劃分為強(qiáng)特征和弱特征層，在進(jìn)行特征選擇時(shí)在不同層進(jìn)行抽樣，增強(qiáng)單棵樹的分類強(qiáng)度，不增加樹之間的相關(guān)性。

傳統(tǒng)的分層子空間隨機(jī)森林算法在不同層進(jìn)行等比例取樣，能保證結(jié)果最優(yōu)。

1.2.2 隨機(jī)森林特征評(píng)估

大數(shù)據(jù)價(jià)值很高，但也有許多問題，其中最重要的是降維，特別是特征選擇[12]。對(duì)高維樣本進(jìn)行降維方法有多種，如T-test檢測、序列后向選擇[13]等，本文采用隨機(jī)森林模型進(jìn)行特征篩選，特征評(píng)估衡量標(biāo)準(zhǔn)為Gini指數(shù)變化量。

定義5：特征Xi在節(jié)點(diǎn)m上的重要性即節(jié)點(diǎn)m分枝前后的Gini指數(shù)變化量，其公式如下：

其中GIl和GIr分別表示以特征m進(jìn)行分裂后左右兩個(gè)孩子節(jié)點(diǎn)的Gini指數(shù)。

在使用卡方檢驗(yàn)將特征子空間分層后，對(duì)每個(gè)特征進(jìn)行特征評(píng)估得到一個(gè)評(píng)估值，對(duì)層內(nèi)每個(gè)特征的重要度進(jìn)行累加得到層的權(quán)重。

定義6：設(shè)每層有r個(gè)特征[Ai]（i=1，…r），定義層權(quán)重公式為：

1.2.3 袋外估計(jì)

袋外數(shù)據(jù)（OOB，out-of-bag）即未被抽取到的訓(xùn)練數(shù)據(jù)[14]。對(duì)隨機(jī)森林每棵樹而言，建樹時(shí)采用隨機(jī)并且有放回地進(jìn)行抽取，所以每棵樹大約有1/3的數(shù)據(jù)未被抽到，這些數(shù)據(jù)稱為袋外數(shù)據(jù)。因?yàn)槲磪⑴c建模過程，因此用這些數(shù)據(jù)對(duì)隨機(jī)森林模型進(jìn)行評(píng)估結(jié)果較為可信。

使用袋外數(shù)據(jù)進(jìn)行評(píng)估得到的正確率稱為袋外正確率。袋外估計(jì)可以作為泛化誤差估計(jì)的一部分，使得隨機(jī)森林算法不再需要交叉驗(yàn)證。

1.3 隨機(jī)森林算法特點(diǎn)

現(xiàn)實(shí)生活中的大多數(shù)數(shù)據(jù)分析都是分類和回歸問題，而隨機(jī)森林算法既可作為分類算法，又可作為回歸算法。近年來隨機(jī)森林算法廣受歡迎，應(yīng)用在各種領(lǐng)域，如銀行、股票市場和醫(yī)藥行業(yè)等等。隨機(jī)森林在處理各種問題時(shí)發(fā)揮著強(qiáng)大的優(yōu)勢，它的優(yōu)點(diǎn)主要有：①具有良好的準(zhǔn)確率;②訓(xùn)練速度快，能夠運(yùn)行在大數(shù)據(jù)集上;③能夠處理高維特征樣本;④可以評(píng)估特征在模型中的重要程度;⑤可以在模型生成過程中取得真實(shí)誤差的無偏統(tǒng)計(jì);⑥容易并行化。

2 Spark

2.1 Spark介紹

因?yàn)閿?shù)據(jù)量超過了單機(jī)所能處理的極限，所以用戶需要新的架構(gòu)將計(jì)算擴(kuò)展到多個(gè)節(jié)點(diǎn)進(jìn)行，以應(yīng)對(duì)不同工作負(fù)載的新集群編程模型數(shù)量的飛速增長[15]。Spark自2010年發(fā)布以來已成為最活躍的大數(shù)據(jù)處理計(jì)算引擎，廣泛應(yīng)用在金融、生物技術(shù)和天文學(xué)等多個(gè)領(lǐng)域[16]。

Spark基于彈性分布式數(shù)據(jù)集（RDD）[17]。RDD是一種可并行計(jì)算的集合，它不可變并且可被分區(qū)，可以由存儲(chǔ)的數(shù)據(jù)或其它RDD生成，是最基本的數(shù)據(jù)抽象。RDD？有轉(zhuǎn)化和行動(dòng)兩種類型操作，轉(zhuǎn)化操作主要由一個(gè)已知RDD轉(zhuǎn)化為一個(gè)新的RDD。行動(dòng)操作在應(yīng)用一組操作后將記錄/值返回給主程序。這兩個(gè)操作之間的主要區(qū)別在于它們何時(shí)以及如何應(yīng)用于數(shù)據(jù)。

Spark提供一系列組件支持?jǐn)?shù)據(jù)處理。Spark shell提供多個(gè)API使得交互式數(shù)據(jù)分析更方便快捷。Spark SQL提供交互式查詢。Spark streaming用于處理實(shí)時(shí)數(shù)據(jù)組件，提供流式數(shù)據(jù)計(jì)算;Mllib庫支持?jǐn)?shù)據(jù)分析等，包含大量機(jī)器學(xué)習(xí)算法[18];GraphX對(duì)圖計(jì)算提供支持。這些組件提供給用戶的都是jar包，使用時(shí)無需部署、維護(hù)等復(fù)雜操作，在Spark平臺(tái)上可直接使用，充分體現(xiàn)了Spark的通用性。Spark可以獨(dú)立安裝使用，也可與其它平臺(tái)配合使用。Spark架構(gòu)如圖1所示。

2.2 基于Spark的隨機(jī)森林算法

由于隨機(jī)森林算法基于多個(gè)獨(dú)立樹定義，因此可以直接并行隨機(jī)森林方法并更快地將其實(shí)現(xiàn)，其中許多樹在不同的核上并行構(gòu)建[19]。隨機(jī)森林模型如圖2所示。

基于Spark的隨機(jī)森林建模過程：①從hdfs讀取訓(xùn)練數(shù)據(jù)集并將其設(shè)置為廣播變量，壓縮為一個(gè)forest列表;②將不同的訓(xùn)練樣本子集分發(fā)給不同的從機(jī)進(jìn)行決策樹訓(xùn)練。主機(jī)從各個(gè)從機(jī)收集訓(xùn)練完成的子森林組合成隨機(jī)森林，將測試集分成一定大小的塊并分發(fā)給從機(jī)進(jìn)行預(yù)測，主機(jī)收集并返回預(yù)測結(jié)果。

基于Spark平臺(tái)的隨機(jī)森林主要對(duì)訓(xùn)練過程和預(yù)測過程進(jìn)行并行化[20]，這樣不僅增大了可處理的數(shù)據(jù)量，也加快了運(yùn)行速度。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)與環(huán)境

本文采用Semeion手寫字?jǐn)?shù)據(jù)集，該數(shù)據(jù)每個(gè)記錄代表一個(gè)手寫字，有256個(gè)特征。實(shí)驗(yàn)環(huán)境為Windows上的ubuntu虛擬hadoop集群，集群包含3個(gè)節(jié)點(diǎn)，采用HDFS存儲(chǔ)文件，集群管理器為YARN，編程語言為Python。

3.2 實(shí)驗(yàn)結(jié)果與分析

將數(shù)據(jù)集以7∶3拆分為訓(xùn)練集和測試集。對(duì)隨機(jī)森林進(jìn)行參數(shù)調(diào)優(yōu)，包括控制樹的數(shù)量和選擇合適的特征比例兩個(gè)方面，實(shí)驗(yàn)準(zhǔn)確率如圖3所示。

分別選取隨機(jī)森林規(guī)模為10，50和100，特征選取比例分別為0.1，0.5和0.8進(jìn)行實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果可以看出，當(dāng)特征比選為0.5時(shí)，隨機(jī)森林預(yù)測準(zhǔn)確度達(dá)到最高，當(dāng)特征比例選擇更大時(shí)，準(zhǔn)確率不升反降，此時(shí)準(zhǔn)確率可能受到噪聲數(shù)據(jù)的影響。對(duì)隨機(jī)森林規(guī)模選取進(jìn)行測試，發(fā)現(xiàn)隨著隨機(jī)森林規(guī)模的變大準(zhǔn)確率也會(huì)上升，但對(duì)于當(dāng)前數(shù)據(jù)而言，隨機(jī)森林規(guī)模在50和100的準(zhǔn)確率并未增長，反而增加了程序運(yùn)行時(shí)間，所以對(duì)特定數(shù)據(jù)集選取合適的森林規(guī)模對(duì)算法性能有很重要的影響。

對(duì)數(shù)據(jù)集進(jìn)行特征評(píng)估操作，將評(píng)估結(jié)果歸一化，對(duì)每個(gè)特征評(píng)估出一個(gè)重要度，所有特征重要度相加為1，計(jì)算出一些特征為0的噪聲特征，將這些特征刪除。有效降維使算法的準(zhǔn)確度和運(yùn)行時(shí)間都有提升，有利于提升算法性能。

降維后開始進(jìn)行分層子空間隨機(jī)森林實(shí)驗(yàn)。該實(shí)驗(yàn)分3組進(jìn)行，分別為：①強(qiáng)弱特征層等比例抽樣;②僅在強(qiáng)特征層抽樣;③僅在弱特征層抽樣。驗(yàn)證3組實(shí)驗(yàn)結(jié)果準(zhǔn)確率，如圖4所示。

從實(shí)驗(yàn)結(jié)果可以看出，強(qiáng)特征層和弱特征層的結(jié)果相差較大，在強(qiáng)特征層進(jìn)行抽樣時(shí)的實(shí)驗(yàn)結(jié)果優(yōu)于等比例抽樣，所以在強(qiáng)弱特征層進(jìn)行等比例抽樣算法有待優(yōu)化。

對(duì)不同層進(jìn)行特征重要度計(jì)算，然后記為層重要度，根據(jù)重要度比例進(jìn)行抽樣，實(shí)驗(yàn)結(jié)果與原始結(jié)果對(duì)比見圖5。

從實(shí)驗(yàn)結(jié)果可以看出，加權(quán)后的分層子空間隨機(jī)森林算法較原始隨機(jī)森林算法準(zhǔn)確度有所提升，袋外準(zhǔn)確度也有提升。

由以上實(shí)驗(yàn)可知，優(yōu)化后的隨機(jī)森林算法預(yù)測精度有一定提升，有效降維減少了算法運(yùn)行時(shí)間，提高了算法性能。將優(yōu)化后的隨機(jī)森林算法應(yīng)用在Spark平臺(tái)上，可對(duì)大數(shù)據(jù)進(jìn)行高效處理。

4 結(jié)語

本文首先對(duì)隨機(jī)森林進(jìn)行參數(shù)調(diào)優(yōu)，找到最合適的參數(shù)組合。在調(diào)參過程中發(fā)現(xiàn)過大的特征比使噪聲對(duì)隨機(jī)森林準(zhǔn)確率有明顯影響;然后使用隨機(jī)森林模型對(duì)數(shù)據(jù)集進(jìn)行特征評(píng)估，去除掉一些噪聲數(shù)據(jù)，對(duì)篩選后的特征進(jìn)行卡方檢驗(yàn)操作，將特征分為強(qiáng)弱特征層;分層后對(duì)不同層進(jìn)行權(quán)重計(jì)算，按照權(quán)重比例取樣，訓(xùn)練隨機(jī)森林模型，進(jìn)行分類預(yù)測。實(shí)驗(yàn)結(jié)果表明隨機(jī)森林預(yù)測準(zhǔn)確度明顯提升，袋外正確率也有一定提升。

本文在進(jìn)行特征分層時(shí)沒有考慮冗余數(shù)據(jù)影響，因?yàn)樘卣骶S度較大，冗余數(shù)據(jù)的計(jì)算量也較大。下一步將研究一種優(yōu)化的冗余特征處理方式。

參考文獻(xiàn)：

[1]ASSEFI M，BEHRAVESH E. Big data machine learning using Apache Spark MLLIB[C]. 2017 IEEE International Conference on Big Data （Big Data）.? IEEE， 2017： 3492-3498.

[2]CHEN J， LI K， TANG Z， et al. A parallel random forest algorithm for big data in a spark cloud computing environment[J]. IEEE Transactions on Parallel and Distributed Systems， 2017， 28（4）： 919-933.

[3]SUN K， MIAO W， ZHANG X， et al. An improvement to feature selection of random forests on spark[C]. 2014 IEEE 17th International Conference on Computational Science and Engineering，2014：774-779.

[4]DEL RíO S， LóPEZ V， BENíTEZ J M， et al. On the use of mapreduce for imbalanced big data using random forest[J]. Information Sciences， 2014（285）： 112-137.

[5]XY Y. Research and implementation of improved random forest algorithm based on spark[C]. 2017 IEEE 2nd International Conference on Big Data Analysis，2017： 499-503.

[6]羅元帥.? 基于隨機(jī)森林和Spark的并行文本分類算法研究[D]. 成都：西南交通大學(xué)，2016.

[7]牛志華.? 基于Spark分布式平臺(tái)的隨機(jī)森林分類算法研究[D]. 天津：中國民航大學(xué)，2017.

[8]KHALILIA M，CHAKRABORTY S，POPESCU M. Predicting disease risks from highly imbalanced data using random forest[J].? BMC Medical Informatics and Decision Making， 2011， 11（1）： 51-59.

[9]BELGIU M，DRAGUT L.Random forest in remote sensing： a review of applications and future directions[J]. ISPRS Journal of Photogrammetry and Remote Sensing， 2016（114）： 24-31.

[10]LIN W， WU Z， LIN L， et al. An ensemble random forest algorithm for insurance big data analysis[J]. IEEE Access， 2017（5）： 16568-16575.

[11]張思琪. 基于改進(jìn)貝葉斯分類的Android惡意軟件檢測[J]. 無線電通信技術(shù)，2014，40（6）：73-76.

[12]DAGDIA Z C， ZARGES C，BECK G，et al. A distributed rough set theory based algorithm for an efficient big data pre-processing under the Spark framework[C]. 2017 IEEE International Conference on Big Data （Big Data）.? IEEE， 2017： 911-916.

[13]RUAN F， QI J， YAN C， et al. Quantitative detection of harmful elements in alloy steel by LIBS technique and sequential backward selection-random forest （SBS-RF）[J]. Journal of Analytical Atomic Spectrometry，2017，32（11）： 2194-2199.

[14]馬曉東. 基于加權(quán)決策樹的隨機(jī)森林模型優(yōu)化[D]. 武漢：華中師范大學(xué)，2017.

[15]ZAHARIA M， XIN R S， WENDELL P， et al. Apache Spark： a unified engine for big data processing[J]. Communications of the ACM， 2016， 59（11）： 56-65.

[16]梁彥.? 基于分布式平臺(tái)Spark和YARN的數(shù)據(jù)挖掘算法的并行化研究[D]. 廣州：中山大學(xué)，2014.

[17]遲玉良，祝永志. 項(xiàng)目相似度與ALS結(jié)合的推薦算法研究[J]. 軟件導(dǎo)刊，2018，17（6）：81-84.

[18]唐振坤. 基于Spark的機(jī)器學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D]. 廈門：廈門大學(xué)，2014.

[19]GENUER R，POGGI J M，TULEAUL C， et al. Random forests for big data[J].? Big Data Research， 2017（9）： 28-46.

[20]孫科.? 基于Spark的機(jī)器學(xué)習(xí)應(yīng)用框架研究與實(shí)現(xiàn)[D]. 上海：上海交通大學(xué)，2015.

（責(zé)任編輯：杜能鋼）

收稿日期：2019-05-13

基金項(xiàng)目：山東省自然科學(xué)基金項(xiàng)目（ZR2013FL015）;山東省研究生教育創(chuàng)新資助計(jì)劃項(xiàng)目（SDYY12060）

作者簡介：荊靜（1995-），女，曲阜師范大學(xué)信息科學(xué)與工程學(xué)院碩士研究生，研究方向?yàn)榉植际接?jì)算、大數(shù)據(jù);祝永志（1964-），男，曲阜師范大學(xué)信息科學(xué)與工程學(xué)院教授、碩士生導(dǎo)師，研究方向?yàn)椴⑿信c分布式計(jì)算、網(wǎng)絡(luò)數(shù)據(jù)庫。