夏伯候 胡玉珍 熊蘇慧 唐潔 閆慶梓 林麗美
[摘要] 該研究旨在建立隨機(jī)森林算法鑒別和分類不同品牌夏桑菊顆粒,為多指標(biāo)的復(fù)雜指紋圖譜的鑒別提供有效的參考。采用高效液相法采集83批不同品牌的夏桑菊顆粒指紋圖譜,比較主成分分析、偏最小二乘法判別分析、隨機(jī)森林等方法在處理不同分類樣品復(fù)雜數(shù)據(jù)時(shí)的不同。結(jié)果表明本研究成功建立了83批不同品牌夏桑菊顆粒的指紋圖譜;經(jīng)過(guò)不同模式識(shí)別方法比較可得,主成分分析分析只能解釋56.52%的方差貢獻(xiàn)率,同時(shí)不能完全將樣品分類;偏最小二乘法判別分析優(yōu)于主成分分析的結(jié)果,能達(dá)到一定的分離,解釋總體方差貢獻(xiàn)率63.43%;而隨機(jī)森林法能夠很好的將樣品分為3類,且3類樣本的10折交互驗(yàn)證準(zhǔn)確率達(dá)到96.5%。因此,隨機(jī)森林算法聯(lián)合HPLC指紋圖譜能夠有效構(gòu)建中藥質(zhì)量控制和分析體系。
[關(guān)鍵詞] 夏桑菊顆粒; 指紋圖譜; 主成分分析; 偏最小二乘法判別分析; 隨機(jī)森林
Application of random forest algorithm in fingerprint of Chinese medicine:
different brands of Xiasangju granules as example
XIA Bohou, HU Yuzhen, XIONG Suhui, TANG Jie, YAN Qingzi, LIN Limei*
(College of Pharmacy, Key Laboratory for Quality Evaluation of Bulk Herbs of Hunan Province, Hunan
Engineering Laboratory for Prevention and Control Technology of Toxic Substances in Chinese Medicine
/Collaborative Innovation Center for the protection and utilization of Chinese medicine resources, Hunan
University of Chinese Medicine, Changsha 410208, China)
[Abstract] To establish a random forest algorithm for identifying and classifying different brands of Xiasangju granules, and provide effective reference for identifying multiindex complex fingerprint. HPLC method was used to collect the fingerprint of 83 batches of Xiasangju granules from different manufacturers. The classification of Xiasangju granules samples based on chromatographic fingerprints was identified by chemometric methods including principal component analysis (PCA), partial least squares discriminate analysis (PLSDA) and random forest analysis (RF). The superiority of the above three chemometric methods was compared. The results showed that the fingerprints of 83 batches of Xiasangju granules were established in this study. PCA could only explicate 56.52% variance contribution rate and could not completely classify the samples; PLSDA analysis was superior to PCA, explicating 63.43% variance contribution rate and could obtain certain separation; RF could well classify the samples into 3 types, and the predication accuracy of the proposed method was 96.5%. Therefore, The results indicate that RF combined with HPLC fingerprint could effectively construct traditional Chinese medicine quality control and analysis system.
[Key words] Xiasangju Granules; fingerprint; principal component analysis; partial least squares discriminate analysis; random forest
指紋圖譜是指某些復(fù)雜物質(zhì),比如中藥,某種生物體或某種組織或細(xì)胞的DNA,蛋白質(zhì)經(jīng)適當(dāng)處理后,采用一定的分析手段,得到的能夠標(biāo)示其化學(xué)特征的色譜圖或光譜圖。指紋圖譜主要分為中藥指紋圖譜,DNA指紋圖譜和肽指紋圖譜。其中,中藥指紋圖譜的研究以反映中藥的整體化學(xué)特征為立論依據(jù),實(shí)現(xiàn)指紋圖譜技術(shù)在中藥質(zhì)量控制方面的應(yīng)用[1]。由于中藥指紋圖譜的復(fù)雜性,在實(shí)際應(yīng)用研究中常常配合化學(xué)計(jì)量學(xué)的方法,對(duì)多維數(shù)據(jù)進(jìn)行降維處理,從而得到有效的判別模式以及差異性標(biāo)記物。
化學(xué)計(jì)量學(xué)方法已被廣泛地應(yīng)用于多個(gè)學(xué)科的分析工作,包括藥物的代謝組學(xué)、基因組學(xué)、藥材質(zhì)量控制、植物分類等研究[24];尤其在指紋圖譜等多維的數(shù)據(jù)分析中顯示出優(yōu)勢(shì),也是其重要的分析手段,已經(jīng)得到廣泛的應(yīng)用[56]。目前常用的方法主要分為2類,一類是無(wú)監(jiān)督的分析方法主要有主成分分析(PCA)、聚類分析(HCE) 、獨(dú)立成分分析(ICA)等;另一類被稱為有監(jiān)督的分析方法,主要有判別分析(DA)、偏最小二乘法分析(PLS) 、偏最小二乘判別分析(PLSDA),正交校正的偏最小二乘法分析(OPLS)、最近鄰算法(KNN)、人工神經(jīng)網(wǎng)絡(luò)(ANN)等[7]。其中,作為目前分析最常用的算法PCA與PLSDA等均存在一定的缺陷,如PCA 對(duì)離群點(diǎn)較敏感,PLSDA 容易產(chǎn)生過(guò)擬合現(xiàn)象[8]。隨著數(shù)據(jù)的復(fù)雜性不斷增加,一些更先進(jìn)的機(jī)器學(xué)習(xí)方法,如支持向量機(jī)(SVM)、隨機(jī)森林(RF)、核主成分分析(KPCA)等越來(lái)越多地用于相關(guān)數(shù)據(jù)分析[9]。其中,隨機(jī)森林作為一種分類和預(yù)測(cè)模型,在許多領(lǐng)域取得了廣泛的應(yīng)用[1011]。隨機(jī)森林算法憑借其精度高、適用性廣、非線性數(shù)據(jù)分析能力強(qiáng)、不易過(guò)擬合等優(yōu)勢(shì),成為近年來(lái)生物醫(yī)學(xué)及生物信息學(xué)十分熱門(mén)的前沿研究領(lǐng)域之一[12]。
目前,中藥HPLC指紋圖譜的化學(xué)計(jì)量學(xué)研究手段主要應(yīng)用的最普遍的主成分分析、判別分析以及層次聚類分析等作為手段,大部分的文章均能用這2種方法進(jìn)行很好的數(shù)據(jù)降維。隨著技術(shù)的發(fā)展,比如2D,3D或者更復(fù)雜的1D的HPLC指紋圖譜等發(fā)展,這2種技術(shù)慢慢的不能夠滿足這些復(fù)雜數(shù)據(jù)的處理和分析。而目前為止,很少的文獻(xiàn)報(bào)道隨機(jī)森林方法在中藥指紋圖譜中的應(yīng)用。因此,本文以夏桑菊顆粒HPLC指紋圖譜為例,結(jié)合高效液相色譜法與不同化學(xué)計(jì)量學(xué)方法對(duì)不同品牌夏桑菊顆粒的差異進(jìn)行研究,采用高效液相色譜法建立不同品牌夏桑菊顆粒的指紋圖譜,進(jìn)而將得到的指紋圖譜數(shù)據(jù)作為特征向量分別輸入主成分分析、最小偏二乘法判別分析、隨機(jī)森林等計(jì)量學(xué)方法,比較隨機(jī)森林算法在色譜分析中的優(yōu)勢(shì),以期得到中藥指紋圖譜分析的新的有效手段和方法。
1 材料
1.1 儀器和試劑
KQ100B型超聲波清洗器(昆山超聲儀器有限公司);BPZ11D型電子分析天平(Sartorius公司);Waters26952996高效液相色譜系統(tǒng),Empower工作站,含四元梯度泵、自動(dòng)進(jìn)樣器(Waters 公司)。
醋酸(分析純,北京化工廠);甲醇(色譜純,TEDIA公司);乙腈(色譜純,F(xiàn)isher公司);水為娃哈哈純凈水。
1.2 樣品收集
夏桑菊顆粒,廣州星群(藥業(yè))股份有限公司化驗(yàn)室提供和市場(chǎng)上購(gòu)買。83批夏桑菊顆粒的具體來(lái)源見(jiàn)表1。
2 方法
2.1 色譜條件
色譜柱Agilent Eclipse XDBC18(4.6 mm×250 mm,5 μm);流速1.0 mL·min-1;檢測(cè)波長(zhǎng)290 nm;柱溫30 ℃;進(jìn)樣體積10 μL;流動(dòng)相乙腈(A)水(B,含1.0 %醋酸),梯度洗脫(0~10 min,5%A;10~20 min,5%~8.6%A;20~45 min,8.6%~17.6%A;45~70 min,17.6%~25.1%A;70~80 min,25.1%~32.1%A;80~90 min,32.1%~37.1%A)。
2.2 供試品制備
取夏桑菊顆粒約5 g,精密稱定,加甲醇10 mL,稱重,超聲30 min(功率250 W,頻率40 kHz),取出,靜置,放涼,補(bǔ)重,0.22 μm微孔濾膜濾過(guò),HPLC分析。
2.3 方法學(xué)驗(yàn)證
按照2.1與2.2項(xiàng)下方法制備供試品并建立HPLC分析條件,連續(xù)進(jìn)樣6次,計(jì)算保留時(shí)間及峰面積的精密度,結(jié)果表明該方法的精密度符合要求,其RSD<5%;平行制備6份藥材供試品溶液,以主要成分峰面積為標(biāo)準(zhǔn),考察方法重復(fù)性,結(jié)果表明方法的重復(fù)性在誤差范圍內(nèi);制備好的藥材供試品溶液后,在室溫下放置不同時(shí)間,進(jìn)行HPLC分析,以主要成分的峰面積計(jì)算,考察樣品的穩(wěn)定性,結(jié)果表明樣品至少在48 h內(nèi)是穩(wěn)定的。
2.4 數(shù)據(jù)處理與多變量統(tǒng)計(jì)分析
2.4.1 原始數(shù)據(jù)的篩選與處理 標(biāo)準(zhǔn)樣品的確立包括樣品的生產(chǎn)廠家、批號(hào)。參照峰的選擇必須符合下列條件:和相鄰色譜峰分離良好,峰位居中;是指紋圖譜中各待檢樣品中所共有的色譜峰?;谝陨显瓌t,選擇58.55 min的峰作為內(nèi)參峰,已知為迷迭香酸,是夏桑菊顆粒的主要和有效成分。所有的數(shù)據(jù)在進(jìn)行統(tǒng)計(jì)分析之前,均減去均值除以方差做均一化處理。
2.4.2 主成分分析(principal component analysis,PCA) 實(shí)際中所獲得的數(shù)據(jù)大多數(shù)為高通量多變量的數(shù)據(jù),變量的個(gè)數(shù)越多,對(duì)整個(gè)數(shù)據(jù)的分析難度也就越大。因此在處理多變量數(shù)據(jù)時(shí),往往需要對(duì)變量進(jìn)行壓縮分解,提取具有代表性的新變量。PCA的目的主要是通過(guò)線性的轉(zhuǎn)化將高維變量轉(zhuǎn)化成少數(shù)的因子,即主成分[13]。這些變量各主成分之間相互正交,線性無(wú)關(guān)。通過(guò)選擇合適的主成分進(jìn)行分析,既不會(huì)過(guò)多地丟失有用信息,而且還能減少數(shù)據(jù)中的冗余信息。PCA的分析流程如下[14]。①每行代表1個(gè)樣本,每1列代表1個(gè)變量,將原始數(shù)據(jù)轉(zhuǎn)成數(shù)據(jù)矩陣X。②對(duì)樣本矩陣進(jìn)行奇異值分解,得到得分矩陣和荷載矩陣,得分矩陣反映樣本與樣本之間的關(guān)系,載荷矩陣反映變量的重要度。③選擇T矩陣中的前2個(gè)或者3個(gè)具有最大特征值的特性向量進(jìn)行投影就可以得到二維或者三維的投影圖,直觀地分析樣本的聚類趨勢(shì)。
2.4.3 偏最小二乘法判別分析(partial least squaresdiscriminant analysis,PLSDA) 偏最小二乘法(PLS)是由Wold和Martens在1983年提出來(lái)的一種新穎的多元統(tǒng)計(jì)數(shù)據(jù)分析方法。它能消除自變量間的相關(guān)性,找到自變量與因變量之間的關(guān)系,最后構(gòu)建一個(gè)用于預(yù)測(cè)的回歸模型,因此適合解決高維,共線性嚴(yán)重且變量個(gè)數(shù)多于樣本個(gè)數(shù)的數(shù)據(jù)[15]。PLS的基本運(yùn)算是基于非線性迭代偏最小二乘算法(nonlinear iterative partial least squares NIPALS),同時(shí)分解X矩陣和Y矩陣,并在分解X矩陣的時(shí)候利用Y矩陣的信息,在分解Y矩陣時(shí)利用X矩陣的信息,因此可以得到較好的回歸結(jié)果。
PLSDA來(lái)源于PLS運(yùn)算算法,首先構(gòu)建一個(gè)虛擬的矩陣Y來(lái)描述樣本性質(zhì),然后按照上述PLS運(yùn)算所建立的回歸模型就稱為PLSDA。偏最小二乘法判別分析(PLSDA)是基于偏最小二乘法上的一種監(jiān)督模式識(shí)別方法,是一種可以同時(shí)實(shí)現(xiàn)多元線性回歸、主成分分析的數(shù)據(jù)分析方法。它的主要原理是先利用PLS提取樣本的主成分,然后將主成分作為新變量建立訓(xùn)練樣本自變量和分類變量之間的回歸模型,進(jìn)行判別分析[16]。
2.4.4 隨機(jī)森林(random forest,RF) 隨機(jī)森林是由Leo Breiman提出的一種基于樹(shù)分類器的集成算法,其包含了2種十分有效地機(jī)器學(xué)習(xí)技術(shù):Bagging和隨機(jī)變量選擇[17]。Bagging算法是通過(guò)bootstrap法(鞋帶法)有放回的采樣構(gòu)建多個(gè)訓(xùn)練集,最后的預(yù)測(cè)結(jié)果由所有構(gòu)建的分類器進(jìn)行投票表決得到。隨機(jī)森林是在Bagging的方法進(jìn)一步地發(fā)展,其在構(gòu)建每個(gè)獨(dú)立樹(shù)分類器的時(shí)候并不是使用所有的變量,而是隨機(jī)的從所有變量中選擇一部分進(jìn)行節(jié)點(diǎn)的劈分。隨機(jī)森林算法實(shí)現(xiàn)流程如下[18]。①用Bagging方法構(gòu)造單個(gè)獨(dú)立訓(xùn)練集,每個(gè)訓(xùn)練集都是從原始訓(xùn)練集的N個(gè)樣品中有放回地抽取m個(gè)樣品。②對(duì)于每個(gè)獨(dú)立訓(xùn)練集,用如下過(guò)程生成一棵不經(jīng)剪枝的分類回歸樹(shù)。設(shè)共有M個(gè)原始變量,給定一個(gè)正整數(shù)mtry,滿足mtry 如上所述,隨機(jī)森林由多個(gè)分類回歸樹(shù)的集成得到。所有的數(shù)據(jù)分析程序均在Matlab上由課題組自己編譯得到。 3 結(jié)果與討論 3.1 色譜條件的優(yōu)化與處理 為了達(dá)到更好的分離效果,本研究比較了不同流動(dòng)相以及不同的檢測(cè)波長(zhǎng)。經(jīng)過(guò)不同的試驗(yàn)比較,得出用流動(dòng)相乙腈與水(含1%的乙酸)時(shí),各峰之間具有較好的分離度和峰形,并具有較少的干擾物質(zhì)。同時(shí),比較不同的檢測(cè)波長(zhǎng)下色譜的峰形和峰數(shù)時(shí),發(fā)現(xiàn)在290 nm時(shí)色譜具有較好的峰形與較多的峰數(shù)。因此,選擇290 nm作為夏桑菊不同品牌HPLC指紋圖譜的檢測(cè)波長(zhǎng)。具體HPLC圖見(jiàn)圖1。經(jīng)過(guò)峰位矯正,共得到16個(gè)共有峰以進(jìn)行接下來(lái)的降維算法的分析。 3.2 主成分分析(PCA)結(jié)果 為了便于觀察不同品牌夏桑菊顆粒之間的差異性(不同的類別),在不損失大量信息的條件,利用PCA將高維的指紋圖譜數(shù)據(jù)轉(zhuǎn)化為低維的數(shù)據(jù)。所有的數(shù)據(jù)導(dǎo)入PCA進(jìn)行聚類分析,利用其前3個(gè)主成分(PC1,PC2和PC3)進(jìn)行畫(huà)圖區(qū)分,3個(gè)主成分對(duì)于方差的總貢獻(xiàn)度僅為56.52%,說(shuō)明利用PCA這種方法時(shí),所選擇的變量不能很好的解釋不同品牌夏桑菊顆粒的差異;另外,從PCA的得分圖,見(jiàn)圖2(每1個(gè)點(diǎn)代表1個(gè)樣品來(lái)源),可得星群夏桑菊(有糖型)與花城以及其他類夏桑菊之間是存在顯著區(qū)別的,居于圖片的右上方;但是花城和其他類的夏桑菊之間幾乎完全重疊,表明PCA只能將星群夏桑菊(有糖型)于其他的2種夏桑菊區(qū)別開(kāi),而無(wú)法將其他2類夏桑菊進(jìn)行區(qū)分。因而,本文將進(jìn)一步采取其他的模式識(shí)別算法對(duì)這3類夏桑菊產(chǎn)品進(jìn)行區(qū)分。 3.3 偏最小二乘法判別分析(PLSDA)結(jié)果 為了更好的將各不同品牌的夏桑菊顆粒的分類,偏最小二乘法判別分析被應(yīng)用的改指紋圖譜的分析。經(jīng)過(guò)偏最小二乘法判別分析可得,前3個(gè)主成分對(duì)于方差的總貢獻(xiàn)度為63.43%。相比主成分的分析,結(jié)果稍好。但是從PLSDA的得分圖,見(jiàn)圖3,星群(有糖型)夏桑菊顆粒能夠很好與其他2類分開(kāi),而花城的與其他品牌的同樣不能很好的分離,有一定的交集。表明PLSDA無(wú)法將這2類夏桑菊進(jìn)行區(qū)分。因此,采取更加先進(jìn)的模式識(shí)別算法對(duì)這3類夏桑菊產(chǎn)品進(jìn)行區(qū)分。 3.4 隨機(jī)森林(RF)分析結(jié)果 本節(jié)將采用隨機(jī)森林算法對(duì)3類夏桑菊產(chǎn)品進(jìn)行分析。隨機(jī)森林是一類基于分類回歸樹(shù)集成算法,其在進(jìn)行數(shù)據(jù)聚類分析的同時(shí)還能夠得到各變量(在本文中即為各色譜峰或色譜峰所代表的物質(zhì))對(duì)于聚類的貢獻(xiàn)度。每個(gè)物質(zhì)的聚類分析結(jié)果見(jiàn)圖4,可見(jiàn)3類夏桑菊產(chǎn)品均得到有效的區(qū)分。星群(有糖型)夏桑菊處于其他2類的另一個(gè)方向,而花城和其他類夏桑菊產(chǎn)品雖然距離較近,說(shuō)明2類產(chǎn)品還是較為相似,但依然存在區(qū)別,在隨機(jī)森林算法中均得到有效區(qū)分。 整個(gè)分析過(guò)程分為以下幾步:首先,從所有夏桑菊產(chǎn)品中選出80%的產(chǎn)品作為訓(xùn)練集,20%的產(chǎn)品作為獨(dú)立測(cè)試集。利用隨機(jī)森林對(duì)訓(xùn)練集進(jìn)行分類預(yù)測(cè),其10折交互驗(yàn)證的預(yù)測(cè)準(zhǔn)備率為96.49%,說(shuō)明隨機(jī)森林具有較強(qiáng)的分類能力,能夠有效區(qū)分多類夏桑菊產(chǎn)品。基于構(gòu)建的訓(xùn)練模型,對(duì)剩下的20%的獨(dú)立測(cè)試集進(jìn)行分類預(yù)測(cè),其預(yù)測(cè)準(zhǔn)確率為94.11%,具體的分類預(yù)測(cè)結(jié)果見(jiàn)表2。 4 討論 中藥指紋圖譜的一個(gè)重要特色在于用規(guī)范化的程序獲得中藥特征性總成分提取物,并用1HNMR,HPLC,UV,IR等多種手段表征其組成和結(jié)構(gòu)。不同的表征手段間的區(qū)別主要表現(xiàn)在所得到的信息多少不同和操作上的方便程度不同。同時(shí),核心的問(wèn)題 在于這種特征性總成分提取物要有真正的特征性,它的組成和結(jié)構(gòu)要能真正代表這種中藥。由于同一產(chǎn)品的生產(chǎn)工藝和廠家不同,必然造成了質(zhì)量不差異性,而這種差異性主要來(lái)自組分差異。本研究運(yùn)用主成分分析和正交最小偏二乘法判別分析得到的結(jié)果均不能將不同廠家的夏桑菊很好的分類,不能夠完全代表其真正的差異性。而隨機(jī)森林算法能夠很好的將不同廠家的樣品歸類,說(shuō)明該算法能夠很好的達(dá)到降維的目的,同時(shí)其結(jié)果真正的反應(yīng)了不同夏桑菊內(nèi)在的不同。
PCA是一個(gè)無(wú)監(jiān)督的學(xué)習(xí)方法,其依靠樣品間的相似性進(jìn)行分析,在分類識(shí)別的過(guò)程中并不需要進(jìn)行訓(xùn)練和測(cè)試,所以本文對(duì)其直接進(jìn)行分類預(yù)測(cè)。PLSDA方法作為一種廣泛使用的分類學(xué)習(xí)器,能夠有效提高預(yù)測(cè)準(zhǔn)確率,但在本研究中,其效果并不好,且PLSDA更多的用于2類分類問(wèn)題,而本研究中涉及到3類分類,建模式訓(xùn)練時(shí)常常采用1對(duì)1策略,或者1對(duì)多策略。需要進(jìn)行多次訓(xùn)練和測(cè)試。而隨機(jī)森林算法的提出能夠有效解決這些問(wèn)題,其適合多類分類問(wèn)題的計(jì)算,在1次建模分析中即可完成對(duì)數(shù)據(jù)的全部分類預(yù)測(cè)。
從本研究的結(jié)果說(shuō)明相比于PCA與PLSDA等算法,隨機(jī)森林算法在復(fù)雜數(shù)據(jù)或者指紋相似樣品的處理和分類上具有顯著的優(yōu)勢(shì),具有較好的效果。該方法的發(fā)展與應(yīng)用對(duì)指紋譜圖等復(fù)雜數(shù)據(jù)的分析與樣品的分析乃至基因組學(xué)、蛋白組學(xué)等發(fā)展具有重要的意義。
[參考文獻(xiàn)]
[1] 李強(qiáng),杜思邈,張忠亮,等. 中藥指紋圖譜技術(shù)進(jìn)展及未來(lái)發(fā)展方向展望[J]. 中草藥,2013(22):3095.
[2] Peng Q, Tian R, Chen F, et al. Discrimination of producing area of Chinese Tongshan kaoliang spirit using electronic nose sensing characteristics combined with the chemometrics methods[J]. Food Chem, 2015, 178: 301.
[3] Guo L, Duan L, Liu K, et al. Chemical comparison of Tripterygium wilfordii and Tripterygium hypoglaucum based on quantitative analysis and chemometrics methods[J]. J Pharm Biomed Anal, 2014, 95: 220.
[4] Bevilacqua M, Marini F. Local classification: locally weightedpartial least squaresdiscriminant analysis (LWPLSDA)[J]. Anal Chim Acta, 2014, 838: 20.
[5] 夏伯候, 嚴(yán)東, 曹藝,等. 不同劑型夏桑菊顆粒HPLC指紋圖譜及其模式識(shí)別分析[J]. 中國(guó)中藥雜志, 2016, 41(3):416.
[6] 蘇靜華, 張超, 孫磊,等. 指紋圖譜結(jié)合化學(xué)計(jì)量學(xué)用于香櫞品種鑒別的可行性分析[J]. 中國(guó)中藥雜志, 2015, 40(12):2318.
[7] Gad H A, ElAhmady S H, AbouShoer M I, et al. Application of chemometrics in authentication of herbal medicines: a review[J]. Phytochem Anal, 2013, 24(1): 1.
[8] 柯朝甫, 武曉巖, 侯艷, 等. 偏最小二乘判別分析交叉驗(yàn)證在代謝組學(xué)數(shù)據(jù)分析中的應(yīng)用[J]. 中國(guó)衛(wèi)生統(tǒng)計(jì), 2014, 31(1): 85.
[9] Pedergnana M, Marpu P R, Dalla Mura M, et al. A novel technique for optimal feature selection in attribute profiles based on genetic algorithms[J]. IEEE Trans Geosci Remot Sen, 2013, 51(6): 3514.
[10] Achawanantakun R, Chen J, Sun Y, et al. LncRNAID: long noncoding RNA identification using balanced random forests[J]. Bioinformatics, 2015, 31(24): 3897.
[11] Ganz M, Greve D N, Fischl B, et al. Relevant feature set estimation with a knockout strategy and random forests[J]. Neuro Image, 2015, 122: 131.
[12] Stephan J, Stegle O, Beyer A. A random forest approach to capture genetic effects in the presence of population structure[J]. Nat Commun, 2015, 6: 7432.
[13] Abdi H, Williams L J. Principal component analysis[J]. Wiley Interdisciplin Rev Comput Stat, 2010, 2(4): 433.
[14] Bro R, Smilde A K. Principal component analysis[J]. Anal Method, 2014, 6(9): 2812.
[15] Kalivodová A, Hron K, Filzmoser P, et al. PLSDA for compositional data with application to metabolomics[J]. J Chemometr, 2015, 29(1): 21.
[16] PérezEnciso M, Tenenhaus M. Prediction of clinical outcome with microarray data: a partial least squares discriminant analysis (PLSDA) approach[J]. Hum Genet, 2003,112: 581.
[17] Breiman L. Random forests[J]. Mach Learn, 2001, 45(1): 5.
[18] Jiang R, Tang W, Wu X, et al. A random forest approach to the detection of epistatic interactions in casecontrol studies[J]. BMC Bioinformatics, 2009, 10(1): S65.
[責(zé)任編輯 孔晶晶]