• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種改進(jìn)的隨機(jī)森林在醫(yī)療診斷中的應(yīng)用

      2020-12-24 08:01:42龐泰吾胡春燕尹鐘
      軟件 2020年7期
      關(guān)鍵詞:決策樹森林樣本

      龐泰吾 胡春燕 尹鐘

      摘? 要: 快速地建立預(yù)測(cè)模型并且完成準(zhǔn)確的分類在某些特殊的醫(yī)療診斷場(chǎng)合下具有重要的意義。從連續(xù)特征離散化入手,本文提出了一種改進(jìn)的隨機(jī)森林算法。之后使用改進(jìn)的算法建立了分類模型,并在三個(gè)常用的醫(yī)療數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明改進(jìn)的隨機(jī)森林算法不僅運(yùn)行時(shí)間顯著縮減,同時(shí)預(yù)測(cè)精度也得到了提升。更進(jìn)一步的,初始的連續(xù)特征經(jīng)過離散化之后變得簡(jiǎn)潔明了,這可以方便研究人員的理解。

      關(guān)鍵詞: 隨機(jī)森林;連續(xù)特征離散化;決策樹;算法改進(jìn);醫(yī)療診斷;分類算法

      中圖分類號(hào): TP301.6 ???文獻(xiàn)標(biāo)識(shí)碼: A??? DOI:10.3969/j.issn.1003-6970.2020.07.032

      本文著錄格式:龐泰吾,胡春燕,尹鐘. 一種改進(jìn)的隨機(jī)森林在醫(yī)療診斷中的應(yīng)用[J]. 軟件,2020,41(07):159-163

      An Improved Random Forest for Medical Diagnosis

      PANG Tai-wu, HU Chun-yan, YIN Zhong

      (School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)

      【Abstract】: The rapid building of predictive models and accurate classification is of great significance in some special medical diagnosis situations. Based on the discretization of continuous features, an improved random forest algorithm was proposed in this paper. Then the classification model was built by using the improved algorithm and experiments were carried out on three widely used medical data sets. Experimental results show that the improved random forest algorithm not only reduces the running time significantly, but also improves the prediction accuracy. Furthermore, discretization makes the initial continuous feature concise, which is convenient for researchers to understand.

      【Key words】: Random forest; Discretization of continuous features; Decision tree; Algorithm improvement; Medical diagnosis; Classification algorithm

      0? 引言

      機(jī)器學(xué)習(xí)可謂當(dāng)下最炙手可熱的人工智能技術(shù)。如何將它與傳統(tǒng)行業(yè)相結(jié)合成為了許多企業(yè)所面臨的新課題。機(jī)器學(xué)習(xí)可以看作一個(gè)通過挖掘數(shù)據(jù)中存在的潛在規(guī)律來構(gòu)建學(xué)習(xí)器的過程。學(xué)習(xí)器通常可以分為淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)兩種。前者是由一些傳統(tǒng)的機(jī)器學(xué)習(xí)方法構(gòu)建的,如邏輯回歸、支持向量機(jī)等。它們雖然結(jié)構(gòu)簡(jiǎn)單,訓(xùn)練省時(shí),且針對(duì)小樣本數(shù)據(jù)也有不錯(cuò)的預(yù)測(cè)精度,但卻普遍存在著過擬合的問題[1]。深層網(wǎng)絡(luò)包括結(jié)構(gòu)各異的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN),如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。ANN相較于傳統(tǒng)學(xué)習(xí)器更能挖掘出數(shù)據(jù)背后的本質(zhì)規(guī)律,從而達(dá)到更好的學(xué)習(xí)效果。但是ANN具有眾多的超參數(shù)。實(shí)現(xiàn)對(duì)這些參數(shù)的精確調(diào)控需要大量的數(shù)據(jù)作為支撐。而獲得大量的標(biāo)記樣本往往并不是一件容易的事。

      為了解決數(shù)據(jù)樣本較少和淺層網(wǎng)絡(luò)存在的過擬合問題,集成學(xué)習(xí)是一個(gè)不錯(cuò)的選擇。它是一種將多個(gè)弱學(xué)習(xí)器進(jìn)行整合從而得到更好預(yù)測(cè)效果的方法[2]。其主要包括三種構(gòu)造思想:bagging[3]、boosting[4]和stacking[5]。隨機(jī)森林(Random Forest,RF)作為bagging方法的代表,已經(jīng)在軟件工程[6]、機(jī)械設(shè)計(jì)制造[7]、模式識(shí)別[8]、金融科技[9]等諸多領(lǐng)域取得了廣泛的應(yīng)用。因?yàn)獒t(yī)療數(shù)據(jù)采集比較困難且涉及患者隱私,所以樣本規(guī)模通常不大。這便給RF提供了廣泛的應(yīng)用前景[10-11]。但RF構(gòu)建了多個(gè)學(xué)習(xí)器,所以它的運(yùn)行效率顯著低于單個(gè)淺層網(wǎng)絡(luò)。而在一些特殊的情況下,時(shí)間是最重要的評(píng)估因素。同時(shí),RF的預(yù)測(cè)精度還有進(jìn)一步提升的空間。據(jù)此,本文提出一種基于連續(xù)屬性離散化的改進(jìn)方法,力求在保證模型預(yù)測(cè)精度的同時(shí),使模型的訓(xùn)練時(shí)間盡可能地縮短。更進(jìn)一步的,離散化也可以為連續(xù)數(shù)據(jù)提供一個(gè)簡(jiǎn)明的概括,從而方便研究人員的理解。

      1? 算法研究

      隨機(jī)森林是多個(gè)決策樹集成的產(chǎn)物。因?yàn)槊靠脴涞奶匦愿鞑幌嗤?,即針?duì)測(cè)試集的表現(xiàn)各有千秋。所以將它們進(jìn)行結(jié)合可以顯著地降低結(jié)果方差,從使模型的整體預(yù)測(cè)精度得到提升。據(jù)此,本文首先對(duì)決策樹的有關(guān)概念進(jìn)行闡述。

      1.1? 決策樹

      決策樹是一種經(jīng)典的學(xué)習(xí)器,它由根節(jié)點(diǎn)、葉子節(jié)點(diǎn)、中間節(jié)點(diǎn)及各節(jié)點(diǎn)之間的路徑組成。其中節(jié)點(diǎn)表示若干樣本的集合,而路徑表示某種分類的規(guī)則。根據(jù)節(jié)點(diǎn)分裂方法的不同,現(xiàn)在廣泛使用的決策樹包括C4.5和CART(Classification And Regression Tree)兩種。本文中的隨機(jī)森林是使用CART構(gòu)建的。該種樹采取Gini系數(shù)作為節(jié)點(diǎn)分裂的指標(biāo)。CART的生成過程如下。

      計(jì)算當(dāng)前節(jié)點(diǎn)中樣本的Gini系數(shù)可表示為。

      式中Sr表示節(jié)點(diǎn)的樣本集,n表示類標(biāo)的種數(shù),Pi表示類標(biāo)為i的樣本占總樣本的比例。之后分別計(jì)算每種劃分情況下的Gini系數(shù),下式以一個(gè)二元屬性x為例。

      式中|Sx1|表示x屬性值為1的樣本個(gè)數(shù)。接著選擇Gini系數(shù)最小的屬性作為節(jié)點(diǎn)劃分的依據(jù)。需要說明的是,針對(duì)連續(xù)屬性,CART會(huì)先將其離散化之后再按照離散變量處理。最終以遞歸的形式重復(fù)上述步驟直到?jīng)Q策樹的完全構(gòu)建。

      觀察上述過程不難看出,決策樹每一步的分裂都依據(jù)了貪婪的思想,這便使其很容易陷入到局部最優(yōu)中。同時(shí)從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑往往非常復(fù)雜,這使得決策樹對(duì)噪聲很敏感,且容易出現(xiàn)過擬合現(xiàn)象。為了解決這一問題,隨機(jī)森林應(yīng)運(yùn)而生。

      1.2? 隨機(jī)森林

      1.2.1? 隨機(jī)森林簡(jiǎn)述

      隨機(jī)森林是一種基于決策樹的集成學(xué)習(xí)方法。它的具體工作流程如下圖所示。

      現(xiàn)有大量實(shí)驗(yàn)證明,相較于決策樹,隨機(jī)森林的泛化誤差得到了顯著的降低[12-13]。這與它的隨機(jī)特性是密切相關(guān)的。隨機(jī)森林的隨機(jī)性主要表現(xiàn)在兩個(gè)方面:①訓(xùn)練集的隨機(jī)性,即采用一種有放回的抽樣法獲取多個(gè)不盡相同的樣本集;②屬性的隨機(jī)性,即僅使用樣本集中部分的特征變量來訓(xùn)練決策樹。有了上述隨機(jī)性的保證,隨機(jī)森林便不會(huì)像單個(gè)決策樹那樣產(chǎn)生嚴(yán)重的過擬合現(xiàn)象了。下文中的定理2充分說明了這一點(diǎn)。

      1.2.2? 隨機(jī)森林的數(shù)學(xué)描述[14]

      定義1? 隨機(jī)森林的本質(zhì)為一個(gè)集成分類器,為了對(duì)其置信度進(jìn)行度量,引入邊緣函數(shù)(Marginal Function)的定義是十分必要的。設(shè)隨機(jī)森林是由Nt棵決策樹構(gòu)成的,且基分類器表示為hXθk),其中X表示輸入向量,θk是一個(gè)用來刻畫第k棵決策樹構(gòu)造過程的隨機(jī)向量。

      式中:Y為正確的預(yù)測(cè)類標(biāo);avg為求平均的函數(shù);I為示性函數(shù);k為從1~Nt的整數(shù);j為某一個(gè)不正確的類標(biāo)。根據(jù)上式可以看出,函數(shù)mf表示了正確分類的平均得票數(shù)超過最大的錯(cuò)誤分類平均得票數(shù)的程度。顯然,mf函數(shù)的輸出值越大,分類器的置信度便越高。

      定義2? 根據(jù)邊緣函數(shù)的定義,隨機(jī)森林的泛化誤差可以表示為。

      式中:P表示錯(cuò)誤分類的概率,其下標(biāo)刻畫了該式中的概率空間。根據(jù)上述兩個(gè)定義和大數(shù)定理,可以得到定理1。

      定理1? 當(dāng)隨機(jī)森林中基分類器的個(gè)數(shù)增加時(shí),其泛化誤差均收斂于。

      定理1? 說明了隨著樹數(shù)目的增加,森林的泛化誤差會(huì)趨向某一個(gè)上界。這表明了隨機(jī)森林相較于決策樹具有很好的抗過擬合能力。

      定理2? 泛化誤差的上界可表示為。

      式中:表示森林中決策樹的平均相關(guān)度;s2表示決策樹強(qiáng)度的平均值。根據(jù)式(6)可以看出,降低隨機(jī)森林的泛化誤差主要有兩種方法:增加單棵樹的預(yù)測(cè)能力;降低森林中各棵樹之間的相關(guān)性。在前文中已經(jīng)提到,上述的兩點(diǎn)正是由隨機(jī)森林的隨機(jī)性保證的。

      1.2.3? 隨機(jī)森林的缺陷

      縱使隨機(jī)森林在很大程度上解決了決策樹面臨的過擬合問題,但它所使用的bagging算法也增加了計(jì)算成本。而使RF運(yùn)行效率降低的另一個(gè)主要因素便是CART對(duì)連續(xù)特征的處理方法,即逐一針對(duì)每個(gè)分裂點(diǎn)進(jìn)行二分處理,之后根據(jù)GINI系數(shù)選擇劃分方案。顯然,這樣的處理方法具有一定的盲目性。同時(shí),隨機(jī)森林模型的預(yù)測(cè)精度也有進(jìn)一步提升的空間。

      1.3? 算法改進(jìn)

      如前文所介紹的,本文主要通過引入一種連續(xù)特征離散化的方法來改進(jìn)隨機(jī)森林的算法的性能[15]。當(dāng)前,連續(xù)特征離散化存在著眾多方法。依據(jù)劃分起點(diǎn)的不同,它們可以分為自底向上的和自頂向下的兩種。當(dāng)連續(xù)屬性的取值個(gè)數(shù)遠(yuǎn)大于目標(biāo)劃分區(qū)間的種數(shù)時(shí),后者的運(yùn)行效率顯然會(huì)高于前者。所以本文決定選擇CACC(Class-Attribute Contingency Coe?cient)算法作為連續(xù)屬性離散化的方法[16]。不同于CART以GINI系數(shù)作為劃分的依據(jù),CACC算法引入了一個(gè)新的指標(biāo)cacc。其計(jì)算過程如下。

      式中:M表示數(shù)據(jù)集中樣本的總個(gè)數(shù);qir表示類標(biāo)為i且在第r個(gè)特征劃分(dr-1,dr]內(nèi)的樣本的個(gè)數(shù);S表示類標(biāo)的種數(shù);n表示特征劃分的種數(shù);Mi+為類標(biāo)為i的樣本的總個(gè)數(shù);M+r為在特征劃分(dr-1dr]內(nèi)的樣本的總個(gè)數(shù);log表示求自然對(duì)數(shù)的函數(shù)。之后CACC算法以分治和貪心的思想[17]逐步遞歸便可以完成連續(xù)屬性的離散化了。

      2? 實(shí)驗(yàn)

      2.1? 數(shù)據(jù)集及實(shí)驗(yàn)環(huán)境

      本文實(shí)驗(yàn)中所使用的數(shù)據(jù)集均源于UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)。它們分別是關(guān)于如下三種疾病的數(shù)據(jù):糖尿病、心臟病和癌癥。數(shù)據(jù)集的具體信息如表1所示。

      在對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理之后,實(shí)驗(yàn)在一臺(tái)6核16G的計(jì)算機(jī)上進(jìn)行。其操作系統(tǒng)為Windows 10;程序設(shè)計(jì)語言為Python 3.7。

      2.2? 參數(shù)配置

      不同于神經(jīng)網(wǎng)絡(luò),隨機(jī)森林算法僅涉及兩個(gè)超參數(shù)的配置[18]。它們是森林中樹的棵數(shù)Nt和構(gòu)造單個(gè)決策樹時(shí)選用特征的個(gè)數(shù)Nf。由定理1可以看出,Nt的增加并不會(huì)導(dǎo)致森林出現(xiàn)嚴(yán)重的過擬合。但是隨著樹數(shù)目的增多,模型所花費(fèi)的時(shí)間成本與空間成本都會(huì)上升。而且邊際效用遞減法則同樣適用于此[14]Nf如果取值過小,則單棵決策樹的強(qiáng)度無法得到保證;但隨著Nf的增大,森林中樹間的相關(guān)度有可能也會(huì)增大。經(jīng)過上述分析我們不難發(fā)現(xiàn)NtNf的設(shè)置對(duì)于模型性能的影響是很大的。經(jīng)過大量實(shí)驗(yàn),本文對(duì)隨機(jī)森林的兩個(gè)超參數(shù)的設(shè)置如表2所示。

      2.3? 評(píng)估指標(biāo)

      對(duì)于類標(biāo)為兩種的醫(yī)療診斷問題,結(jié)果通??煞譃橐韵滤姆N:患者本身沒病但被診斷為有?。‵alse Positive,F(xiàn)P);患者本身有病但被診斷為沒?。‵alse Negative,F(xiàn)P);患者有病且被診斷為有?。═rue Positive,TP);患者沒病且被診斷為沒?。═rue Negative,TN)。本文選用醫(yī)學(xué)中最常用的三個(gè)指標(biāo)作為模型評(píng)估的依據(jù)。它們是:特異性(Specificity)、靈敏度(Sensitivity)和準(zhǔn)確性(Accuracy)。其可通過如下的公式計(jì)算得出。

      2.4? 結(jié)果及分析

      考慮到一次實(shí)驗(yàn)可能存在著偶然性,本文將每組實(shí)驗(yàn)重復(fù)50次,之后取各個(gè)評(píng)估指標(biāo)的平均值作為最終的結(jié)果。需要說明的是,實(shí)驗(yàn)中訓(xùn)練集與測(cè)試集的比例為4∶1。同時(shí),本文將引入CACC算法的RF記為IRF(Improved Random Forest)。

      2.4.1? 模型訓(xùn)練速度

      為了測(cè)試改進(jìn)的隨機(jī)森林算法的運(yùn)行效率,本文使用傳統(tǒng)的隨機(jī)森林算法建立了模型以與其形成對(duì)比。上述兩種算法運(yùn)行的具體時(shí)間如下表所示。

      通過上表我們可以看出,IRF在三個(gè)數(shù)據(jù)集上的表現(xiàn)均要優(yōu)于RF。其中運(yùn)行時(shí)間縮短幅度最大可以達(dá)到24.48%;平均的縮減幅度可以達(dá)到12.11%。這說明IRF的運(yùn)行效率相較于RF得到了提升,而隨著數(shù)據(jù)集規(guī)模的增大,前者的優(yōu)勢(shì)也將得到擴(kuò)大。

      2.4.2? 模型預(yù)測(cè)精度

      為了檢測(cè)CACC對(duì)IRF算法性能所造成的影響,實(shí)驗(yàn)使用RF與IRF構(gòu)建了分類模型,之后將三個(gè)數(shù)據(jù)集分別代入其中完成了模型的訓(xùn)練與預(yù)測(cè)。RF和IRF模型的診斷結(jié)果如表4、表5所示。

      從表4、表5可以看出,相較于RF模型,IRF模型的預(yù)測(cè)準(zhǔn)確性在糖尿病樣本集上保持穩(wěn)定,而在另兩個(gè)數(shù)據(jù)集上均略有提升。同時(shí)特異性和靈敏度也均穩(wěn)步提升。這一結(jié)果與引入的連續(xù)特征離散化的方法是密切相關(guān)的。CACC算法對(duì)相依系數(shù)的概念進(jìn)行拓展[16],從而使得生成的規(guī)則更加符合樣本間的內(nèi)在聯(lián)系。這與預(yù)期的結(jié)果是相符的。

      3? 結(jié)束語

      本文從連續(xù)變量離散化入手,對(duì)隨機(jī)森林算法進(jìn)行了改進(jìn)。通過實(shí)驗(yàn)證明,改進(jìn)的隨機(jī)森林算法在運(yùn)行時(shí)間上顯著縮短,且預(yù)測(cè)精度也有所提升。更進(jìn)一步的,連續(xù)特征離散化后變得更加簡(jiǎn)潔明了,這無疑可以方便研究人員的理解??v使IRF相較于RF展現(xiàn)出了一定的優(yōu)越性,但仍存在著很大的改進(jìn)空間。本文提出的算法僅是針對(duì)處理連續(xù)特征的方法進(jìn)行了優(yōu)化,如若對(duì)特殊的數(shù)據(jù)集采取相應(yīng)的預(yù)處理,抑或?qū)?jié)點(diǎn)的分裂算法進(jìn)行改進(jìn),想必都可以使算法的性能得到提升。當(dāng)下知識(shí)更新迅速,新的技術(shù)與算法層出不窮,只有不斷地學(xué)習(xí),完善自身才是正道。

      參考文獻(xiàn)

      1. Larasati A, DeYong C, Slevitch L. The Application of Neural Network and Logistics Regression Models on Predicting Customer Satisfaction in a Student-Operated Restaurant[J]. Procedia-Social and Behavioral Sciences, 2012, (65): 94-99.

      2. Nath A, Sahu G K. Exploiting ensemble learning to improve prediction of phospholipidosis inducing potential[J]. Journal of Theoretical Biology, 2019, (479): 37-47.

      3. 張春霞,郭高. Out-of-bag樣本的應(yīng)用研究[J]. 軟件, 2011, 32(3): 1-4.

      4. Pooja S B, Balan S R V, Anisha M, et al. Techniques Tanimoto correlated feature selection system and hybridization of clustering and boosting ensemble classification of remote se?n?sed big data for weather forecasting[J]. Computer Commun?i?c?ations, 2020, (151): 266-274.

      5. 李昆明, 厲文婕. 基于利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行Stacking模型融合算法的電力非節(jié)假日負(fù)荷預(yù)測(cè)研究[J]. 軟件, 2019, 40(9): 176-181.

      6. 張洋. 一種基于Logicboost的軟件缺陷預(yù)測(cè)方法[J]. 軟件, 2019, 40(8): 79-83.

      7. Tao Hongfei, Chen Ran, Xuan Jianping, et al. Prioritization analysis and compensation of geometric errors for ultra-? pre?cision lathe based on the random forest methodology[J]. Precision Engineering, 2020, (61): 23-40.

      8. 全雪峰. 基于奇異熵和隨機(jī)森林的人臉識(shí)別[J]. 軟件, 2016, 37(2): 35-38.

      9. Gupta D, Pierdzioch C, Vivian A J, et al. The predictive value of inequality measures for stock returns: An analysis of long- span UK data using quantile random[J]. Finance Research Letters, 2019, (29): 315-322.

      10. 張雨琦, 林勇. 基于機(jī)器學(xué)習(xí)的腫瘤免疫治療應(yīng)答預(yù)測(cè)研究[J]. 軟件, 2019, 40(1): 97-102.

      11. 全雪峰. 基于隨機(jī)森林的乳腺癌計(jì)算機(jī)輔助診斷[J]. 軟件, 2017, 38(3): 57-59.

      12. Fratello M, Tagliaferri R. Decision Trees and Random For?ests[J]. Encyclopedia of Bioinformatics and Computational Biology, 2019, (1): 374-383.

      13. Akhoondzadeh M. Decision Tree, Bagging and Random For?est methods detect TEC seismo-ionospheric anomalies around the time of the Chile, (Mw=8.8) earthquake of 27 February 2010[J]. Advances in Space Research, 2016, 57(12): 374-383.

      14. Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1): 44-51.

      15. 沈?qū)W華, 周志華, 吳建鑫, 等. Boosting和Bagging綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2000, 36(12): 31-32, 40.

      16. Tsai C J, Lee C I, Yang Weipang. A discretization algorithm based on Class-Attribute Contingency Coefficient[J]. Neuro?biology of Aging, 2008, 178(3): 180-191.

      17. Cormen T H, Leiserson C E, Rivest R L, et al. Introduction to Algorithms[M]. Beijing: China Machine Press, 2012: 16-19, 242-244 (in Chinese).

      18. 方匡南, 吳見彬, 朱建平, 等. 隨機(jī)森林方法研究綜述[J]. 統(tǒng)計(jì)與信息論壇, 2011, 26(3): 32-38.

      猜你喜歡
      決策樹森林樣本
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      推動(dòng)醫(yī)改的“直銷樣本”
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      哈Q森林
      哈Q森林
      哈Q森林
      基于決策樹的出租車乘客出行目的識(shí)別
      村企共贏的樣本
      轮台县| 新源县| 双桥区| 西华县| 铁岭市| 青浦区| 赤城县| 贵港市| 平昌县| 滦平县| 莱芜市| 鄂州市| 蕉岭县| 毕节市| 桦甸市| 建始县| 祁东县| 罗甸县| 天津市| 海林市| 上饶市| 南雄市| 安阳市| 濉溪县| 金乡县| 陕西省| 铁力市| 水城县| 凤庆县| 若尔盖县| 威信县| 綦江县| 德阳市| 德庆县| 彩票| 阿瓦提县| 潞城市| 平塘县| 襄垣县| 凤城市| 思茅市|