宋欠欠李軼群侯 艷李 康△
隨機(jī)森林的變量捕獲方法在高維數(shù)據(jù)變量篩選中的應(yīng)用*
宋欠欠1李軼群2侯 艷1李 康1△
目的探討隨機(jī)森林(RF)的變量捕獲方法在高維數(shù)據(jù)變量篩選中的應(yīng)用。方法通過(guò)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)分析,對(duì)兩種變量捕獲(vh.md,vh.vimp)和逐步剔除方法(varSelRF)進(jìn)行比較,并通過(guò)選入變量的數(shù)目、模型預(yù)測(cè)錯(cuò)誤率(PE)和受試者工作特征曲線下面積(AUC)對(duì)其進(jìn)行評(píng)價(jià)。結(jié)果模擬實(shí)驗(yàn)表明,在變量具有聯(lián)合作用、交互作用和弱獨(dú)立作用情況下,變量捕獲方法均明顯優(yōu)于varSelRF方法和全變量VIMP排序方法;實(shí)際數(shù)據(jù)分析結(jié)果表明,變量捕獲方法篩選變量結(jié)果穩(wěn)定,并能夠保證良好的預(yù)測(cè)效果。結(jié)論變量捕獲方法適用于高維數(shù)據(jù)的變量篩選,具有實(shí)用價(jià)值。
隨機(jī)森林 變量篩選 變量捕獲
高通量組學(xué)技術(shù)的迅速發(fā)展促進(jìn)了研究者們從分子水平上研究疾病的發(fā)生和發(fā)展過(guò)程,成為生物學(xué)研究的有力工具。另一方面,高維組學(xué)數(shù)據(jù)的特點(diǎn)使得傳統(tǒng)的方法不再可行,對(duì)統(tǒng)計(jì)學(xué)和生物信息學(xué)數(shù)據(jù)分析提出了重大挑戰(zhàn)。近年來(lái),隨機(jī)森林(random forest,RF)方法在高維組學(xué)中得到廣泛應(yīng)用,它是一個(gè)非參數(shù)的基于樹的組合分類器(模型),能夠有效地處理高維變量問(wèn)題[1]。RF的重要特點(diǎn)是可以對(duì)變量的重要性進(jìn)行排序,識(shí)別與疾病有關(guān)的基因、蛋白、代謝物等生物標(biāo)志物,同時(shí)能夠?qū)?shù)據(jù)進(jìn)行分類。然而,通常情況下組學(xué)數(shù)據(jù)變量數(shù)目巨大(如m>2000),且對(duì)預(yù)測(cè)有作用的變量數(shù)目p占總變量數(shù)目m的比例很小(如p/m<0.05),建立的RF模型容易受到對(duì)分類不起作用變量的干擾,使變量重要性排序和分類效果下降,甚至完全失效[2-6]。為此,Ishwaran等人給出了變量捕獲(variable hunting)方法[7-9],用來(lái)解決這一問(wèn)題。本文在簡(jiǎn)要介紹這一方法的基礎(chǔ)上,通過(guò)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)探索其適用性,并與直接使用RF方法及目前使用較多的變量逐步剔除方法(backwards variable elimination using random forests,varSelRF)進(jìn)行比較[10]。
1.隨機(jī)森林的基本思想
RF的基本思想是通過(guò)自助法(bootstrap)重抽樣技術(shù)從原始數(shù)據(jù)中有放回的隨機(jī)抽取Ntree個(gè)自助樣本,作為訓(xùn)練樣本,對(duì)每個(gè)樣本都建立一個(gè)二元遞歸分類樹。每個(gè)自助樣本平均不包含37%的原始數(shù)據(jù),將這些數(shù)據(jù)稱為袋外數(shù)據(jù)(out of bag data sets,OOB)并作為RF的測(cè)試樣本;最后,由訓(xùn)練樣本生成Ntree個(gè)分類樹組成隨機(jī)森林,根據(jù)分類樹的投票確定測(cè)試樣本的分類結(jié)果[1-2]。變量的篩選可以依據(jù)不同的統(tǒng)計(jì)量和篩選過(guò)程。
2.衡量變量重要性的統(tǒng)計(jì)量
(1)VIMP統(tǒng)計(jì)量 計(jì)算置換變量的重要性(permutation variable important,VIMP)。具體地,測(cè)量一個(gè)變量Xi(i∈1,2,…,m)的重要性,首先建立樣本數(shù)據(jù)的隨機(jī)森林(RF),然后對(duì)所有OOB樣本中這個(gè)變量的值進(jìn)行隨機(jī)打亂,并根據(jù)建立好的RF模型對(duì)每一個(gè)體所屬類別進(jìn)行預(yù)測(cè),計(jì)算該變量擾亂前后OOB的預(yù)測(cè)錯(cuò)誤率的改變大小。對(duì)于所有的樹,變量擾亂前后OOB預(yù)測(cè)錯(cuò)誤率改變的平均值作為置換變量的重要性評(píng)分[1,4]。
(2)最小深度統(tǒng)計(jì)量 從樹的根結(jié)點(diǎn)到最近的變量Xi的最大子樹的根結(jié)點(diǎn)的距離稱為變量Xi的最小深度。變量Xi的最大子樹越接近根節(jié)點(diǎn),其預(yù)測(cè)作用越大。最小深度的分布和變量篩選的閾值都可以計(jì)算出來(lái)[8-9]。在高維數(shù)據(jù)中,假設(shè)變量與分類變量無(wú)關(guān),D(ζ)是樹ζ的深度,其概率分布為
其中l(wèi)d等于深度為d時(shí)非終節(jié)點(diǎn)的數(shù)目,m為變量的數(shù)目。
3.變量捕獲方法
這是一種再抽樣和向前選擇變量的方法,由Ishwaran等人提出[8-9]。首先,從數(shù)據(jù)中隨機(jī)抽取一個(gè)子集(如五折抽樣,其中四份為訓(xùn)練樣本,其余一份為預(yù)測(cè)樣本),同時(shí)隨機(jī)選擇一部分變量(如m/5);應(yīng)用選擇的數(shù)據(jù)和變量構(gòu)建RF,變量排序可以使用VIMP統(tǒng)計(jì)量(variable hunting with variable importance,vh.vimp)或最小深度統(tǒng)計(jì)量(variable hunting with minimal depth,vh.md)。選擇最小深度閾值作為最初的模型,然后根據(jù)最小深度或VIMP的排序?qū)⒆兞恐鸩皆黾拥阶畛醯哪P椭?,直到模型的?lián)合VIMP統(tǒng)計(jì)量穩(wěn)定為止,并作為最終模型。聯(lián)合VIMP統(tǒng)計(jì)量的計(jì)算原理同前,但需要同時(shí)置換多個(gè)變量。上述過(guò)程重復(fù)nrep次,計(jì)算平均篩選變量的個(gè)數(shù)(取近似整數(shù)值p),再根據(jù)各變量被篩選出來(lái)的頻率進(jìn)行排序,選擇排列在前面的p個(gè)變量作為最終篩選出的重要變量。最后,應(yīng)用篩選出的變量對(duì)樣本數(shù)據(jù)給出一個(gè)新的RF模型。
上述過(guò)程可以使用R語(yǔ)言程序包randomForestSRC實(shí)現(xiàn)。
實(shí)驗(yàn)?zāi)康模簶?gòu)建具有不同作用的變量,并加入一定數(shù)目的噪聲變量,考察基于VIMP的變量捕獲方法(vh.vimp)和基于最小深度的變量捕獲方法(vh.md)的篩選效果,同時(shí)與目前使用較多的變量逐步剔除方法(varSelRF)和直接使用VIMP統(tǒng)計(jì)量排序方法進(jìn)行比較。
1.模擬實(shí)驗(yàn)一
實(shí)驗(yàn)設(shè)置:設(shè)置3個(gè)具有聯(lián)合分類作用的變量X1,X2,X3,且均為二分類編碼(1表示高表達(dá),0表示低表達(dá)),3個(gè)變量有8種不同的組合方式,不同組合出現(xiàn)的概率不同,并與取值是否為“1”或“0”有極強(qiáng)的關(guān)系,如圖1所示。按照這種方式隨機(jī)產(chǎn)生2組上述聯(lián)合分類變量,即X1,X2,…,X6,其中X4,X5,X6,產(chǎn)生方式同X1,X2,X3,且各變量對(duì)于分類貢獻(xiàn)等同。隨機(jī)產(chǎn)生2000個(gè)標(biāo)準(zhǔn)正態(tài)分布噪聲變量Z~N(0,1),疾病組(D=1)與對(duì)照組(D=0)的樣本含量設(shè)置為n1=n2=50,形成模擬數(shù)據(jù)。同時(shí)產(chǎn)生兩組樣本量均為200的測(cè)試數(shù)據(jù)集。
圖1 二分類聯(lián)合作用變量的模擬數(shù)據(jù)產(chǎn)生示意圖
模擬方法:應(yīng)用vh.vimp、vh.md和varSelRF程序?qū)τ?xùn)練數(shù)據(jù)進(jìn)行變量篩選,并使用所有變量應(yīng)用VIMP對(duì)其進(jìn)行排序,記錄前10(vimp10)、25(vimp25)和50(vimp50)個(gè)變量中含有設(shè)定的差異變量的情況。根據(jù)篩選出的變量計(jì)算變量篩選的假發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR),同時(shí)應(yīng)用篩選后的訓(xùn)練數(shù)據(jù)建立RF模型,并對(duì)預(yù)測(cè)數(shù)據(jù)進(jìn)行預(yù)測(cè),應(yīng)用預(yù)測(cè)誤分錯(cuò)誤率(predicted error rate,PE)和ROC曲線下面積(area under the receiver operating characteristic curve,AUC)進(jìn)行評(píng)價(jià)。模擬重復(fù)100次,結(jié)果見表1。
模擬結(jié)果:表1給出了varSelRF、vh.vimp和vh.md在模擬實(shí)驗(yàn)中篩選的變量個(gè)數(shù)、包含差異變量的個(gè)數(shù)、假發(fā)現(xiàn)率和變量篩選前后隨機(jī)森林預(yù)測(cè)效果的評(píng)價(jià)統(tǒng)計(jì)量的平均值,同時(shí)給出了根據(jù)隨機(jī)森林全部變量VIMP的大小進(jìn)行排序后選擇前10、25、50個(gè)變量時(shí)包含真實(shí)差異變量的情況。結(jié)果表明,在二分類聯(lián)合作用條件下,varSelRF、vh.vimp和vh.md均能篩選出較多的差異變量,而基于全部變量的VIMP排序則不能夠達(dá)到較好的變量篩選效果。同時(shí)注意到,varSelRF篩選的變量結(jié)果極不穩(wěn)定(四分位數(shù)間距為34),而vh.md方法雖然能夠篩選出所有的差異變量,但卻具有較高的FDR值??傊?,三種方法中vh.vimp方法篩選變量的FDR值最小,結(jié)果穩(wěn)定,其預(yù)測(cè)效果最好。
表1 具有變量聯(lián)合作用時(shí)幾種變量篩選方法的模擬實(shí)驗(yàn)結(jié)果
2.模擬實(shí)驗(yàn)二
實(shí)驗(yàn)設(shè)置:設(shè)置具有交互作用的變量。兩個(gè)差異變量Z1和Z2服從正態(tài)分布,疾病組服從Z1~N(1,1)和Z2~N(5,1),對(duì)照組服從Z1~N(0,1)和Z2~N(0,1),兩變量的相關(guān)系數(shù)為0.6。做變量變換X1=Z1,X2=Z2/Z1,即X1和X2具有一階交互作用。應(yīng)用同樣方式,給出{X3,X4},{X5,X6},{X7,X8},{X9,X10},每個(gè)單變量AUC≈0.76。另外,隨機(jī)產(chǎn)生2000個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的變量作為噪聲變量(n1=n2=50),形成模擬數(shù)據(jù),用于變量篩選和建立RF模型,同時(shí)產(chǎn)生兩組樣本量均為200的測(cè)試數(shù)據(jù)集用于變量篩選后RF模型的預(yù)測(cè)。模擬重復(fù)100次。
表2給出了varSelRF、vh.vimp、vh.md和基于全部變量顯示VIMP排序方法在存在交互作用時(shí)模擬實(shí)驗(yàn)情況。結(jié)果顯示,變量捕獲方法明顯優(yōu)于varSelRF方法,雖然varSelRF方法也能較好地篩選出差異變量,但其穩(wěn)定性上明顯不如前者,同時(shí)變量捕獲方法有更低的FDR值。由于設(shè)定的差異變量作用很強(qiáng),在包含所有變量的VIMP方法中這些變量也排在了最前面。
表2 具有變量交互作用時(shí)幾種變量篩選方法的模擬實(shí)驗(yàn)結(jié)果
3.模擬實(shí)驗(yàn)三
實(shí)驗(yàn)設(shè)置:設(shè)置具有作用較弱且相互獨(dú)立的差異變量。病例組每個(gè)差異變量服從X~N(0.5,1)的正態(tài)分布,對(duì)照組服從標(biāo)準(zhǔn)正態(tài)分布X~N(0,1),每個(gè)單變量AUC≈0.62,共10個(gè)差異變量。在兩組中,隨機(jī)產(chǎn)生4000個(gè)正態(tài)分布噪聲變量X~N(0,1)。樣本量設(shè)置為n1=n2=50,形成模擬數(shù)據(jù),進(jìn)行變量篩選并用篩選后數(shù)據(jù)建立RF模型,同時(shí)應(yīng)用上述模擬產(chǎn)生200例測(cè)試數(shù)據(jù)用于評(píng)價(jià)RF模型,模擬重復(fù)100次。
模擬結(jié)果:表3給出了varSelRF、vh.md、vh.vimp和基于全部變量的VIMP排序方法在模擬實(shí)驗(yàn)中進(jìn)行變量篩選的情況。結(jié)果顯示,varSelRF、vh.md和vh.vimp在一定程度上能夠達(dá)到變量篩選的效果,但漏選的變量較多。相比而言,兩種基于變量捕獲方法篩選的變量個(gè)數(shù)均比較穩(wěn)定,并具有較低的FDR值(FDR<0.45),而varSelRF篩選的變量個(gè)數(shù)較多且不穩(wěn)定,并有較高的FDR值。
選用課題組研究的四個(gè)代謝組數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)的基本情況如表4。利用7折交叉驗(yàn)證方法,將實(shí)際數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),使用隨機(jī)森林的兩種變量捕獲方法(vh.md,vh.vimp)和逐步剔除(varSelRF)方法,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行變量篩選,然后應(yīng)用篩選后的訓(xùn)練數(shù)據(jù)建立RF模型,對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)和評(píng)價(jià)。隨機(jī)重復(fù)10次7折交叉驗(yàn)證,計(jì)算平均值。
表3 具有變量弱獨(dú)立作用時(shí)幾種變量篩選方法的模擬實(shí)驗(yàn)結(jié)果
表4 實(shí)際代謝組數(shù)據(jù)的樣本分布情況
表5給出了四個(gè)代謝組數(shù)據(jù)使用三種不同方法篩選的變量個(gè)數(shù)和預(yù)測(cè)情況。
表5 隨機(jī)森林(RF)篩選變量的三種方法分析結(jié)果
圖2 實(shí)際四組代謝組數(shù)據(jù)中應(yīng)用三種篩選變量方法建立的RF預(yù)測(cè)結(jié)果
結(jié)果顯示,三種方法篩選變量后建模,其預(yù)測(cè)能力與使用全部變量相近,vh.md和vh.vimp方法優(yōu)于varSelRF(圖2)。從變量篩選上看,varSelRF篩選的變量總數(shù)較少,vh.vimp在三種方法中篩選的變量個(gè)數(shù)適中,其四分位數(shù)間距最小,篩選變量的結(jié)果最為穩(wěn)定和可靠。
1.RF是一個(gè)組合決策樹方法,具有抗噪聲、防止過(guò)擬合、不受共線影響和能夠處理非線性數(shù)據(jù)等優(yōu)點(diǎn),可用于高維組學(xué)數(shù)據(jù)的變量篩選和預(yù)測(cè)。在變量很多的情況下,RF變量篩選容易受大量無(wú)作用的噪聲變量的干擾,直接使用VIMP進(jìn)行排序可能不準(zhǔn)確,而且各變量之間的VIMP相互影響,無(wú)法用標(biāo)準(zhǔn)化的方法給出篩選變量的閾值。
2.varSelRF方法是一種向后選擇變量的方法,其基本思想是不斷去除VIMP排在后面的變量,減少噪聲變量的干擾,使前面的變量排序更加準(zhǔn)確,再不斷去除可能沒(méi)有作用的變量,選擇OOB錯(cuò)誤率最小的變量集。這種方法的主要問(wèn)題是,如果有比較多的差異變量,而且一些變量之間具有較強(qiáng)的相關(guān)性(信息重疊),遵照“最節(jié)省原則”,可能會(huì)使很多變量不能被選入RF模型。另外,如果數(shù)據(jù)中含有作用很大的變量,其他作用相對(duì)較弱的變量就不容易選入模型,從實(shí)例驗(yàn)證可以清楚地看到這一點(diǎn)。模擬實(shí)驗(yàn)中沒(méi)有顯示相應(yīng)的結(jié)果,原因是設(shè)置的差異變量的作用相同。varSelRF方法的最大問(wèn)題是篩選變量的結(jié)果不穩(wěn)定。
3.相對(duì)而言,變量捕獲方法是一種更好的變量篩選方法。其基本思想是利用重抽樣方法不斷抽取一定比例的樣本,同時(shí)在所有變量中抽取一定數(shù)量的變量進(jìn)行建模,核心是利用最小深度統(tǒng)計(jì)量的概率分布確定閾值,在此基礎(chǔ)上向前進(jìn)行變量篩選。理論上,這種方法可以應(yīng)用于任意高維變量的組學(xué)數(shù)據(jù)中,拓寬了RF的應(yīng)用范圍。本文在模擬實(shí)驗(yàn)中,應(yīng)用FDR值進(jìn)行變量篩選效果的評(píng)價(jià),同時(shí)對(duì)基于篩選變量后的訓(xùn)練數(shù)據(jù)建立RF模型,并使用預(yù)測(cè)錯(cuò)誤率以及AUC值兩個(gè)指標(biāo)進(jìn)行預(yù)測(cè)效果評(píng)價(jià)。模擬實(shí)驗(yàn)證實(shí),即使在變量作用較弱的情況下,仍能夠保證篩選的變量具有較低的FDR值,特別是vh.vimp方法在本文中給出的各種情況下,篩選變量的穩(wěn)定性非常好,而且其篩選后變量的預(yù)測(cè)效果略優(yōu),結(jié)果更為可信。在實(shí)際數(shù)據(jù)分析中,本文應(yīng)用篩選變量后的訓(xùn)練數(shù)據(jù)建立RF模型并應(yīng)用測(cè)試數(shù)據(jù)對(duì)篩選效果進(jìn)行評(píng)價(jià),結(jié)果表明vh.vimp和vh.md均在一定程度上優(yōu)于varSelRF方法。
4.變量捕獲方法本質(zhì)上是一種篩選變量的策略,篩選時(shí)可以使用不同的統(tǒng)計(jì)量。事實(shí)上,改變篩選變量過(guò)程的不同參數(shù),可以獲得不同數(shù)量的“差異變量”,如本文確定RF模型變量的數(shù)目是根據(jù)再抽樣樣本選入變量的平均值,實(shí)際中也可以設(shè)定其他參數(shù)(如P75)進(jìn)行變量篩選。
1.Breiman L.Random forests.Machine Learning,2001,45(1):5-32.
2.武曉巖,李康.隨機(jī)森林方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用及研究進(jìn)展.中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(4):437-440.
3.Wu X,Wu Z,Li K.Classification and identification of differential gene expression for microarray data:improvement of the random forest method.International Conference on Bioinformatics and Biomedical Engineering,2008.
4.Wu X,Wu Z,Li K.Identification of differential gene expression form icroarray data using recursive random forest.Chinese Medical Journal,2008,121(24):2492-2496.
5.Strobl C,Boulesteix AL,Zeileis A,et al.Bias in random forest variable importance measures:illustrations,sources and a solution,BMC Bioinformatics,2007,8(25).
6.Biau G,Devroye L,Lugosi G.Consistency of random forests and other averaging classifiers,Journal of Machine Learning Research,2008,9:2015-2033.
7.Ishwaran H,Kogalur UB,Blackstone EH,et al.Random survival forests.The Annals of Applied Statistics,2008,2(3):841-860.
8.Ishwaran H,Kogalur UB,Gorodeski EZ,etal.High-Dimensional Variable Selection for Survival Data.Journal of the American Statistical Association,2010,105(489):205-217.
9.Ishwaran H,Kogalur UB,Chen X,et al.Random survival forests for high-dimensional data.Statistical Analysis and Data Mining,2011,4(1):115-132.
10.Díaz-Uriarte R,Alvarez de Andrés S.Gene selection and classification of microarray data using random forest.BMC Bioinformatics,2006,7(3).
(責(zé)任編輯:劉 壯)
The Application of a Random Forest-based Variable Hunting Method to Variable Selection in High-dimensional Data
Song Qianqian,Li Yiqun,Hou Yan,et al(Department of Medical Statistics,Harbin Medical University(150081),Harbin)
ObjectiveThis project explored the application of a random forest-based variable hunting approach to variable selection in high-dimensional data.MethodsTwo variable hunting methods(vh.md,vh.vimp)were compared with backwards variable elimination using random forest(varSelRF)by the analysis of simulation data and real metabonomics data,and then variable numbers,predicted error rate(PE)and the area under the receiver operating characteristic curve(AUC)were used to evaluate these approaches.ResultsSimulation experiments suggested that variable hunting method was more effective than varSelRF and sorted VIMP method,in the case of combined effects,interactions and weak independent effects.Analysis results of metabonomics data confirmed that the results of variable selection were stable and had favorable predictive effects with the variable hunting method.ConclusionThe variable hunting approach was applicable to variable selection in high-dimensional data and possessed practical value.
Random forest;Variable selection;Variable hunting
*:國(guó)家自然科學(xué)基金資助(81172767);高等學(xué)校博士學(xué)科專項(xiàng)基金(20122307110004)
1.哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081)
2.哈爾濱醫(yī)科大學(xué)生物信息教研室
△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn
中國(guó)衛(wèi)生統(tǒng)計(jì)2015年1期