• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      隨機(jī)森林在阿爾茨海默病患病分析中的應(yīng)用

      2018-05-11 09:50姜博原劉麗
      科技視界 2018年6期
      關(guān)鍵詞:隨機(jī)森林阿爾茨海默病降維

      姜博原 劉麗

      【摘 要】基于隨機(jī)森林算法能夠?qū)Π柎暮D』疾〉那闆r進(jìn)行分析。通過去除常量、基于有監(jiān)督學(xué)習(xí)的特征選擇及相關(guān)數(shù)據(jù)檢測,對人體各項(xiàng)指標(biāo)的數(shù)據(jù)進(jìn)行合理的降維處理。創(chuàng)建基于隨機(jī)森林的分類器,將其應(yīng)用于阿爾茨海默病患病分析,利用降維后有效的特征屬性得到的結(jié)果可以反應(yīng)患病情況和診斷狀況。

      【關(guān)鍵詞】隨機(jī)森林;決策樹;降維;阿爾茨海默病

      中圖分類號: F273.2 文獻(xiàn)標(biāo)識碼: A 文章編號:2095-2457(2018)06-0088-002

      【Abstract】Based on the random forest algorithm, we can analyze the prevalence of Alzheimers disease. Through the removal of constants, feature selection based on supervised learning, and related data detection, the data on the human bodys indexes are rationally reduced. A random forest-based classifier was created and applied to the analysis of Alzheimers disease. The results obtained by using the effective characteristic attributes after dimension reduction can reflect the prevalence and diagnosis.

      【Keywords】Random forest; Decision tree; Dimension reduction; Alzheimers disease

      1 理論基礎(chǔ)

      隨機(jī)森林是由Leo Breiman(2001)提出的一種比較新的機(jī)器學(xué)習(xí)模型[1]。它是由多個(gè)隨機(jī)創(chuàng)建的決策樹所構(gòu)成的分類器,因此,決策樹之間不存在必然聯(lián)系,所以被稱為隨機(jī)決策樹。當(dāng)隨機(jī)森林收到數(shù)據(jù)時(shí),將通過所有決策樹依次對數(shù)據(jù)進(jìn)行分類,從而得到與決策樹個(gè)數(shù)相同的分類結(jié)果數(shù),然后把全部分類結(jié)果中出現(xiàn)次數(shù)最多的類別作結(jié)果。因此,它是一個(gè)通過投票方式,將票數(shù)最多結(jié)果作最終結(jié)果的分類器。

      1.1 Bootstrap法重采樣

      設(shè)樣本集S*中含有n個(gè)不同的樣本{X1,X2,…,Xn},假設(shè)有放回地從樣本集S中每次抽取一個(gè)樣本,總共抽取n次,組成新的樣本集S*,那么樣本集S*中不包含某個(gè)樣本Xi(i=1,2,…,n)的概率為

      因此,雖然新集合S*的樣本總量與原集合S的樣本總量相等(都為n),但是在新集合S*中,由于采用有放回的方法抽取,因此存在重復(fù)樣本,如果去除重復(fù)樣本,那么新集合S*中只包含了原集合S中約1-0.368×100%=63.2%的樣本總量。

      1.2 Bagging算法概述

      Bagging(Bootstrap aggregating的縮寫)算法是最早的集成學(xué)習(xí)算法[2]。它的基本思想如圖1所示,具體的步驟如下:

      (1)使用Bootstrap方法,在允許重復(fù)抽取樣本的前提下,隨機(jī)產(chǎn)生T個(gè)可用于建立模型的訓(xùn)練集S1,S2,…,Sn;

      (2)通過隨機(jī)產(chǎn)生的訓(xùn)練集,建立決策樹模型C1,C2,…,Cn;

      (3)利用全部決策樹模型,對測試集X進(jìn)行測試,并得到所有決策樹的最優(yōu)解C1(X),C2(X),…,Cn(X);

      (4)通過投票的方法,把全部最優(yōu)解中出現(xiàn)次數(shù)最多解作為測試集X的最優(yōu)解。

      1.3 隨機(jī)森林算法流程

      隨機(jī)森林是一種集成樹形分類器,它采用 bootstrap 采樣,從原始訓(xùn)練集中得到多個(gè)訓(xùn)練子集[3-4]。兩者的區(qū)別是,隨機(jī)森林算法采用了隨機(jī)抽取分裂特征集的方法構(gòu)建決策樹。設(shè)M,m大于零,樣本特征的個(gè)數(shù)為M,M大于m,具體的隨機(jī)森林算法步驟如下所示:

      (1)利用Bootstrap方法從原始樣本集中隨機(jī)抽取T個(gè)訓(xùn)練集S1,S2,…,Sn[5]。

      (2)利用T個(gè)訓(xùn)練集,構(gòu)建相應(yīng)的決策樹模型C1,C2,…,CT;設(shè)每棵決策樹有M個(gè)特征,從這些特征中隨機(jī)選取m個(gè)特征進(jìn)行測試,然后獲得這m個(gè)特征中的最優(yōu)解,最后對這個(gè)最優(yōu)解進(jìn)行分裂。

      (3)不對決策樹模型進(jìn)行簡化處理,忽略過度擬合,允許它完整生長。

      (4)利用每個(gè)決策樹對測試集X進(jìn)行處理,得到對應(yīng)的最優(yōu)解C1(X),C2(X),…,CT(X)。

      (5)用投票的方法處理T個(gè)決策樹中出現(xiàn)的最優(yōu)解,把出現(xiàn)次數(shù)最多的最優(yōu)解作為測試集X的測試結(jié)果。

      2 隨機(jī)森林在阿爾茨海默病患病分析中的應(yīng)用

      2.1 問題描述

      選取來自某醫(yī)學(xué)論壇與阿爾茨海默病相關(guān)的人體各項(xiàng)指標(biāo)檢測的數(shù)據(jù)。數(shù)據(jù)中包含了大量各項(xiàng)人體指標(biāo),這些數(shù)據(jù)都可能與阿爾茨海默病存在聯(lián)系。由于研究對象為高維矩陣,面臨維數(shù)災(zāi)難問題,因此,需要對該高維矩陣進(jìn)行降維處理,篩選出與阿爾茨海默病關(guān)聯(lián)性較強(qiáng)的數(shù)據(jù),并建立一個(gè)確定的模型來描述高維矩陣中各個(gè)量化特征與阿爾茨海默病之間的關(guān)系,從而可以根據(jù)降維后各項(xiàng)人體指標(biāo)的量化特征得出被檢測人員的阿爾茨海默病的患病情況。

      2.2 建模過程

      2.2.1 設(shè)計(jì)思路

      首先對阿爾茨海默病的數(shù)據(jù)進(jìn)行降維,將降維后的數(shù)據(jù)作為模型的輸入數(shù)據(jù),正常和患病作為模型的輸出結(jié)果。利用訓(xùn)練集數(shù)據(jù)構(gòu)建隨機(jī)森林模型,然后通過仿真測試獲得相應(yīng)結(jié)果并進(jìn)行整理分析。

      2.2.2 設(shè)計(jì)步驟

      根據(jù)上述設(shè)計(jì)思路,設(shè)計(jì)基于隨機(jī)森林算法對阿爾茨海默病患病情況的分析步驟主要包括以下幾個(gè)部分,如圖2所示。

      2.2.3 數(shù)據(jù)采集

      數(shù)據(jù)來源于某醫(yī)學(xué)論壇與阿爾茨海默病相關(guān)的人體各項(xiàng)指標(biāo)檢測的的數(shù)據(jù)集,共包括10000個(gè)檢測結(jié)果,第238列為目標(biāo)列。通過常量篩選和有監(jiān)督學(xué)習(xí)的特征選擇降維后剩3000個(gè)檢測結(jié)果,第238列仍為目標(biāo)列,如圖3所示。隨機(jī)抽取300組數(shù)據(jù)作為測試集,其余2700組數(shù)據(jù)作為訓(xùn)練集。

      2.2.4 數(shù)據(jù)降維

      利用SPSS實(shí)現(xiàn)常量去除,實(shí)現(xiàn)初步降維,利用SPSS Modeler實(shí)現(xiàn)有監(jiān)督學(xué)習(xí)的特征選擇,獲取有效特征屬性,實(shí)現(xiàn)特征降維。

      2.2.5 隨機(jī)森林分類器

      以訓(xùn)練數(shù)據(jù)為依據(jù),在數(shù)據(jù)獲取和數(shù)據(jù)降維完成后,構(gòu)建一個(gè)隨機(jī)森林分類器,使用randomforest-matlab工具箱中的方法classRF_train()。其調(diào)用格式為:

      model=classRF_train(X,Y,ntree,mtry,extra_options)

      上述方法中,X表示輸入的數(shù)據(jù);Y表示輸出的數(shù)據(jù);ntree表示決策樹個(gè)數(shù);mtry表示做分裂處理的特征集中元素的個(gè)數(shù);extra_options表示可控參數(shù);model表示當(dāng)前采用的隨機(jī)森林模型。

      2.2.6 仿真測試

      完成對隨機(jī)森林的構(gòu)建后,開始進(jìn)行仿真測試,通過使用randomforest-matlab工具箱中的方法classRF_predict()。其調(diào)用格式為:

      [Y_hat,votes]=classRF_predict(X,model,ext_options)

      上述方法中,Y_hat表示測試集樣本的類別;votes用于記錄每一個(gè)類別獲得的票數(shù);X表示待輸入的測試集樣本,它的行表示單個(gè)樣本,它的列表示單個(gè)變量;model表示當(dāng)前采用的隨機(jī)森林模型;extra_options表示可控參數(shù)。

      2.2.7 輸出結(jié)果

      利用隨機(jī)森林模型進(jìn)行仿真測試的輸出結(jié)果,如圖4所示,可以得到正常者和患病者的人數(shù),并能得到誤診率(包括正常和患病被誤診為另一項(xiàng)),從而可以對該方法的可行性進(jìn)行評價(jià)。同時(shí),也可以與其他仿真方法結(jié)果進(jìn)行比較,探討該方法的有效性。

      3 性能分析

      這里僅在默認(rèn)的決策樹棵樹(500)情況下進(jìn)行分析討論。這里用一個(gè)布爾型問題進(jìn)行闡述,因此隨機(jī)森林中的決策樹的輸出類別只有兩種(1:患病,-1:正常)。如圖5所示,橫軸表示所有決策樹中,輸出結(jié)果為1的決策樹數(shù)量;縱軸表示輸出結(jié)果為-1的決策樹數(shù)量。理想狀態(tài)下,對于某一個(gè)樣本而言,其在圖5上的坐標(biāo)p(x,y)總體上應(yīng)滿足以下關(guān)系:

      x+y=500(3)

      并且,如果隨機(jī)森林對該樣本的預(yù)測類別與真實(shí)的類別一致,則在圖中用“o”標(biāo)記;反之,則用“*”標(biāo)記。

      3.1 錯(cuò)誤分類樣本個(gè)數(shù)

      一個(gè)具有較好泛化性能的隨機(jī)森林分類器,其錯(cuò)誤分類的樣本數(shù)應(yīng)該越少越好;若一個(gè)隨機(jī)森林分類器對于很多個(gè)樣本都不能正確地分類,顯然這個(gè)(下轉(zhuǎn)第40頁)(上接第89頁)隨機(jī)森林分類器的泛化性能是有待商討的。

      3.2 錯(cuò)誤分類樣本的位置

      從理論上分析,如果圖像中被錯(cuò)誤分類的樣本分散在函數(shù)圖像附近,即仿真測試結(jié)果中,決策樹輸出為1的類別和-1的類別數(shù)量基本相同,那么,這樣的錯(cuò)誤樣本是可以被允許的,此時(shí)的隨機(jī)森林泛化性良好。

      相反,如果偏離函數(shù)圖像的樣本都為錯(cuò)誤分類的樣本,說明在當(dāng)前隨機(jī)森林模型中,輸出結(jié)果為1和-1的決策樹數(shù)量相差較大,并且被錯(cuò)誤分類。這種結(jié)果被認(rèn)為是不合理的,因?yàn)楫?dāng)前隨機(jī)森林模型無法對訓(xùn)練集以外的數(shù)據(jù)集進(jìn)行良好分類。

      3.3 隨機(jī)森林棵樹

      隨機(jī)森林中構(gòu)建的決策數(shù)量,對其泛化性也有一定影響。為了分析隨機(jī)森林的性能,需要盡量消除決策樹數(shù)量對結(jié)果造成的影響,因此,在確定決策樹數(shù)量后,依次建立100個(gè)隨機(jī)森林模型進(jìn)行仿真測試,最終把當(dāng)前決策樹數(shù)目下正確率的平均值,作為當(dāng)前分類的正確率。

      對于本次測試數(shù)據(jù),經(jīng)過大量測試和分析,綜合考慮決策樹數(shù)量和建模速度對測試的影響,當(dāng)決策樹數(shù)量在50~100時(shí),所得分類結(jié)果較為理想。

      4 小結(jié)

      隨機(jī)森林能夠通過對與阿爾茨海默病相關(guān)的各項(xiàng)人體指標(biāo)數(shù)據(jù)的仿真測試,分析預(yù)測是否患有阿爾茨海默病,但由于分類樣本結(jié)果在一定程度上偏離相關(guān)函數(shù),因此,這個(gè)隨機(jī)森林分類器無法很較好的對訓(xùn)練集之外的數(shù)據(jù)集進(jìn)行正確分類,我們后期將會繼續(xù)改進(jìn)。同時(shí)分析預(yù)測性能受決策樹棵樹影響,因此,我們也會加強(qiáng)對隨機(jī)森林的性能分析的研究,確定隨機(jī)森林中最優(yōu)的決策樹棵樹,以便獲得更加準(zhǔn)確的結(jié)果。此外,不少專家對隨機(jī)森林做了不少改進(jìn)和完善,并且取得了豐碩的研究成果。也有一些學(xué)者嘗試將隨機(jī)森林思想與其他分類器相結(jié)合,也取得了不錯(cuò)的進(jìn)展,因此,在以后,我們也將做一些嘗試和深入研究。

      【參考文獻(xiàn)】

      [1]蘇亞麟,呂開云.基于隨機(jī)森林算法的特征選擇的水稻分類——以南昌市為例[J].江西科學(xué),2018,01(36):161-167.

      [2]Beriman L.Bagging predictors[J].Machine Learning,1996,24(2):123-140.

      [3]全雪峰.基于隨機(jī)森林的乳腺癌計(jì)算機(jī)輔助診斷[J].軟件,2017,03(38):57-59.

      [4]朱煒,李東,沈飛,湯根云,吳建明,陳繼民,劉政,王志輝.高光譜遙感森林樹種分類研究進(jìn)展[J].浙江林業(yè)科技,2013,02(33):84-90.

      [5]方匡南,吳建彬,朱建平,謝邦昌.隨機(jī)森林研究方法綜述[J].統(tǒng)計(jì)與信息論壇,2011,26(3):32-37.

      猜你喜歡
      隨機(jī)森林阿爾茨海默病降維
      混動成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
      降維打擊
      拱壩變形監(jiān)測預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
      功能磁共振成像在輕度認(rèn)知障礙患者中的應(yīng)用研究進(jìn)展
      拋物化Navier-Stokes方程的降維仿真模型
      基于特征聯(lián)合和偏最小二乘降維的手勢識別
      奇台县| 河南省| 呼玛县| 犍为县| 雅江县| 无锡市| 宝清县| 广州市| 乌拉特中旗| 岚皋县| 万源市| 东乡县| 鄱阳县| 沂南县| 民和| 宁乡县| 新沂市| 阜宁县| 简阳市| 永新县| 邻水| 定安县| 玛纳斯县| 尼玛县| 临湘市| 札达县| 明溪县| 桑植县| 梅河口市| 昌都县| 西盟| 芜湖市| 乡城县| 姜堰市| 莱州市| 通山县| 汉源县| 勃利县| 定州市| 林口县| 缙云县|