• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      核多元基因選擇和極限學(xué)習(xí)機(jī)在微陣列分析中的應(yīng)用

      2016-06-24 01:59:30董洪偉薛燕娜
      傳感器與微系統(tǒng) 2016年5期
      關(guān)鍵詞:極限學(xué)習(xí)機(jī)

      楊 勤,董洪偉,薛燕娜

      (江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無(wú)錫 214122)

      核多元基因選擇和極限學(xué)習(xí)機(jī)在微陣列分析中的應(yīng)用

      楊勤,董洪偉,薛燕娜

      (江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無(wú)錫 214122)

      摘要:針對(duì)微陣列數(shù)據(jù)樣本量少、維度高的特點(diǎn),結(jié)合當(dāng)前數(shù)據(jù)降維方法中沒有考慮特征與特征之間相關(guān)性的缺點(diǎn),提出一種核最小二乘的特征基因選擇方法。將解釋變量空間通過非線性映射轉(zhuǎn)換到高維空間上,再在高維空間上進(jìn)行最小二乘回歸,并采用極限學(xué)習(xí)機(jī)進(jìn)行訓(xùn)練和預(yù)測(cè)。結(jié)果表明:對(duì)三種經(jīng)典數(shù)據(jù)集的分類精度分別達(dá)到90.47 %,88.89 %,88.23 %,高于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,充分表明本方法的優(yōu)越性。

      關(guān)鍵詞:微陣列分類;基因選擇;核最小二乘;極限學(xué)習(xí)機(jī)

      0引言

      隨著人類基因組計(jì)劃的逐步實(shí)施和分子生物學(xué)迅猛發(fā)展,基因數(shù)據(jù)正在以前所未有的速度增長(zhǎng)。微陣列技術(shù)就是順應(yīng)這一科學(xué)發(fā)展的產(chǎn)物,并且廣泛應(yīng)用于生物學(xué)、醫(yī)學(xué)等領(lǐng)域[1]。微陣列數(shù)據(jù)是大數(shù)據(jù)時(shí)代的又一突破,但其樣本少而維度高的特點(diǎn)極易給數(shù)據(jù)分析帶來(lái)"維度災(zāi)難"。研究者們?cè)跀?shù)據(jù)降維上提出了多種方法,如典型相關(guān)分析(CCA)、主成分分析(PCA)等[2],但是這些降維方法仍達(dá)不到高精度生物學(xué)的研究目的。普通的單變量法具有低復(fù)雜度、高性能的優(yōu)點(diǎn),但它忽略了特征之間的聯(lián)系,會(huì)丟棄一些有用的特征。而傳統(tǒng)的多變量是基于條件熵之間的相交信息,仍然丟棄了一些被判定為冗余變量的特征,會(huì)對(duì)結(jié)果產(chǎn)生影響[3]。

      偏最小二乘(PLS)綜合了CCA和PCA的優(yōu)點(diǎn),常用于樣本值遠(yuǎn)大于樣本數(shù)的情況。傳統(tǒng)的PLS只是在原始空間利用線性回歸捕獲基因間的線性關(guān)系,在實(shí)際應(yīng)用中,線性方法常常不能捕獲所有的基因信息。本文提出的基于核的PLS方法則通過將原始數(shù)據(jù)隱射到高位空間來(lái)揭示原始數(shù)據(jù)間的內(nèi)在關(guān)系來(lái)提取有效的特征基因,并且利用極限學(xué)習(xí)機(jī)(ELM)[4]來(lái)對(duì)特征基因進(jìn)行訓(xùn)練,從而對(duì)待測(cè)數(shù)據(jù)進(jìn)行預(yù)測(cè)。

      1微陣列分析概述

      隨著基因微陣列技術(shù)的快速發(fā)展,生物學(xué)家可以在某一個(gè)實(shí)驗(yàn)中檢測(cè)到成千上萬(wàn)的基因表達(dá)水平,DNA基因序列通過轉(zhuǎn)錄變?yōu)閙RNA,將細(xì)胞中的mRNA定量雜交配種可以得到cDNA或者寡核苷酸陣列,這些體現(xiàn)細(xì)胞中相關(guān)mRNA平均分子數(shù)的數(shù)據(jù)即為微陣列數(shù)據(jù)[5]。微陣列數(shù)據(jù)通常被表示成矩陣形式,m個(gè)基因在n個(gè)mRNA雜交樣本上的基因表達(dá)數(shù)據(jù)以一個(gè)m×n矩陣表示,每列表示一個(gè)基因,每行表示一個(gè)mRNA樣本[6]。在微陣列數(shù)據(jù)的分析中,研究者通常采用有監(jiān)督的分類方法,比如K近鄰算法(KNN)、樸素貝葉斯或者支持向量機(jī)(SVM)[7]等方法。本文采用ELM對(duì)三個(gè)數(shù)據(jù)集分類,分類精度都高于目前研究中的經(jīng)典算法。

      2核最小二乘和極限學(xué)習(xí)機(jī)

      2.1核最小二乘算法

      當(dāng)原始數(shù)據(jù)和類標(biāo)簽存在線性關(guān)系時(shí),可運(yùn)用偏最小二乘回歸(PLS)來(lái)分析數(shù)據(jù)。對(duì)于非線性關(guān)系和復(fù)雜關(guān)系,偏最小二乘卻難以湊效。將核函數(shù)引入到PLS中,將其應(yīng)用到非線性領(lǐng)域,這樣改善了PLS只能用于線性模型分析的局限性,還能在一定程度上提高預(yù)測(cè)準(zhǔn)確率。

      在本文中,X∈RN·D表示N維輸入數(shù)據(jù)矩陣(樣本),Y∈RN·C表示相應(yīng)的C維響應(yīng)矩陣(標(biāo)簽)。假設(shè)X和Y都是零均值數(shù)據(jù)。PLS的目的是針對(duì)

      avgmax‖v‖=1,‖c‖=1cov(t,u)=cov(Xv,Yc)

      (1)

      優(yōu)化問題使用迭代方法計(jì)算v(X權(quán)重),c(Y權(quán)重),t(X貢獻(xiàn)值),u(Y貢獻(xiàn)值),其中,t=Xv,u=Yc分別是指X和Y的成分。當(dāng)?shù)谝唤M成分t1和u1給定,第二組成分t2和u2則分別可以通過殘差Ex=X-t1pT和EY=Y-t1qT計(jì)算出來(lái),p和q指t針對(duì)X和Y的荷載,當(dāng)滿足一定條件時(shí),這個(gè)過程才停止。本文提出的核最小二乘(KLS)利用非線性變換Φ將基因表達(dá)數(shù)據(jù)映射到高維的核空間K,不需要知道非線性映射的具體數(shù)學(xué)表達(dá),只需要在滿足Merser條件的情況下在原始空間上進(jìn)行點(diǎn)積運(yùn)算。為了在算法中實(shí)現(xiàn)點(diǎn)積操作,將v約束在這些點(diǎn)的一個(gè)線性跨度內(nèi),表達(dá)為

      (2)

      (3)

      設(shè)Kx(xi,xj)為特征空間的格拉姆矩陣,h為期望的成分?jǐn)?shù)。KLS的第一個(gè)成分是平方核矩陣βΦ的特征值,βΦλ=KYKXβΦ,λ為特征值。無(wú)論原始矩陣中的X和Y中有多少變量,這些核矩陣不受影響??梢娀诤说腜LS是一個(gè)強(qiáng)大的能迅速解決問題的算法。

      2.2極限學(xué)習(xí)機(jī)

      針對(duì)普通前饋神經(jīng)網(wǎng)絡(luò)存在網(wǎng)絡(luò)結(jié)構(gòu)不穩(wěn)定、學(xué)校效率低、容易產(chǎn)生過擬合等問題,黃廣斌提出了極限學(xué)習(xí)機(jī),已經(jīng)證明在神經(jīng)網(wǎng)絡(luò)中隱含層節(jié)點(diǎn)的參數(shù)隨機(jī)賦值能夠大大提高網(wǎng)絡(luò)學(xué)習(xí)的效率,因而,本文在對(duì)微陣列數(shù)據(jù)分類中直接應(yīng)用極限學(xué)習(xí)機(jī),并與先前研究者用的SVM,KNN和ANN等分類算法進(jìn)行比較。ELM模型表述如下:

      普通前饋神經(jīng)網(wǎng)絡(luò)中,N個(gè)樣本(xi,ti)∈Rm×Rn,m和n分別為輸入和輸出樣本的維度,隱含層節(jié)點(diǎn)個(gè)數(shù)為M,M≦N,所選擇的激活函數(shù)為g(·),因此,普通單層前饋網(wǎng)的模型為

      (4)

      式中(wi,bi)為隱含層神經(jīng)元的參數(shù)值,βi為輸出權(quán)值,j=1,2,…,N,則上述式(4)可以寫成

      Hβ=T

      (5)

      式中

      (6)

      為隱含層節(jié)點(diǎn)的輸出矩陣,其第i列表示第i個(gè)隱含層神經(jīng)元關(guān)于輸入x1,x2,…,xN的輸出值

      (7)

      由文獻(xiàn)[8]知,當(dāng)M=N時(shí),一旦給定(wi,bi)的值,輸出矩陣H可逆,這時(shí),ELM可以以很小的誤差逼近各種學(xué)習(xí)樣本,但是一般情況M遠(yuǎn)大于N,H為M×N的矩陣,這就要求所求H的廣義逆H+,可采用奇異值分析法來(lái)求解廣義逆矩陣,此時(shí),可由式(3)求解

      (8)

      使用ELM時(shí)一個(gè)重要的過程是對(duì)激活函數(shù)的選取,激活函數(shù)有sigmoid,sin,RBF等,文獻(xiàn)[8]中將這些激活函數(shù)應(yīng)用于同一非線性樣本數(shù)據(jù)上并作對(duì)比,發(fā)現(xiàn)sin函數(shù)在效率和精確度上最佳,因此,本文也選用sin作為ELM的激活函數(shù)。

      3實(shí)驗(yàn)與結(jié)果分析

      3.1實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備

      在先前的研究中,使用最多的微陣列數(shù)據(jù)是白血病(Leukemia)、乳腺癌(Breast)和結(jié)腸癌(Lung)三個(gè)數(shù)據(jù)集,它們包括二分類和多分類,其相關(guān)信息如表1所示。

      表1 本文使用的微陣列數(shù)據(jù)

      分類器而言分類精度都最大,因此,在基因選擇數(shù)為25時(shí),對(duì)數(shù)據(jù)集Leukemia中的選擇基因與文獻(xiàn)[9]進(jìn)行比較,發(fā)現(xiàn)重疊率達(dá)到76 %,說(shuō)明本文提出的特征選擇方法是有效的,如表2所示(其中黑體表示本文選取的特征基因與文獻(xiàn)[9]重疊的基因名稱)。

      表2 對(duì)Leukemia數(shù)據(jù)集選取的前25個(gè)特征基因名稱

      3.2數(shù)據(jù)分類

      本文對(duì)微陣列數(shù)據(jù)提取特征信息后,應(yīng)用極限學(xué)習(xí)機(jī)來(lái)訓(xùn)練和預(yù)測(cè)。由于極限學(xué)習(xí)機(jī)參數(shù)是隨機(jī)賦值的,因此其隱含層神經(jīng)元個(gè)數(shù)的設(shè)置至關(guān)重要,本文激活函數(shù)為sin函數(shù),隱含層神經(jīng)元數(shù)N由0到2000每間隔11取一次值,對(duì)分類精度進(jìn)行分析,發(fā)現(xiàn)隨著N值的變大,精度變高,當(dāng)N=1 800時(shí),精度就達(dá)到了88 %,且當(dāng)N繼續(xù)增大時(shí),精度變化不大;當(dāng)N=1 870時(shí),精度最大,達(dá)到90.47 %,如圖1所示。

      圖1 隱含層神經(jīng)元個(gè)數(shù)與分類精度效果圖Fig 1 Effect figure of numbers of hidden layer neurons and classification percision

      對(duì)Lymphoma和Lung數(shù)據(jù)集采用同樣的方法進(jìn)行特征基因選擇和隱含層神經(jīng)元個(gè)數(shù)設(shè)置,最后得到本文方法(KPL_ELM)對(duì)其分類的精度,與先前的研究[12]對(duì)比情況如表3所示(黑體精度值為幾種方法中最大值)。

      表3 本文方法與先前經(jīng)典算法的分類精度比較(%)

      從實(shí)驗(yàn)結(jié)果可以看出:本文提出的KPL_ELM算法對(duì)微陣列數(shù)據(jù)的特征基因選擇和分類效果有顯著的提高,說(shuō)明本文方法是有效可行的。

      4結(jié)束語(yǔ)

      本文針對(duì)微陣列數(shù)據(jù)樣本量小而維度高的特點(diǎn),結(jié)合當(dāng)前降維和特征提取方法速度慢、未考慮特征間聯(lián)系的劣勢(shì),提出基于核的最小二乘方法來(lái)提取特征基因,并應(yīng)用極限學(xué)習(xí)機(jī)來(lái)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測(cè),與以往的研究對(duì)比,實(shí)驗(yàn)精確度得到了很大程度的提高,充分說(shuō)明本文算法的優(yōu)越性和實(shí)用性,為生物醫(yī)學(xué)中對(duì)疾病的診斷和分類開拓了新思路。

      參考文獻(xiàn):

      [1]于化龍,高尚,趙靖,等.基于過采樣技術(shù)和隨機(jī)森林的不平衡微陣列數(shù)據(jù)分類方法研究[J].計(jì)算機(jī)科學(xué),2012(5):190-194.

      [2]金益,姜真杰.核主成分分析與典型相關(guān)分析相融合的人臉識(shí)別[J].計(jì)算機(jī)應(yīng)用與軟件,2014(1):191-193,270.

      [3]Sun S,Peng Q,Shakoor A.A kernel-based multivariate feature selection method for micro-array data classification [J].PloS one,2014,9(7):102541.

      [4]Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:Theory and applications [J].Neuro-computing,2006,70(1):489-501.

      [5]呂娜.極限學(xué)習(xí)機(jī)及其在無(wú)線頻譜預(yù)測(cè)中的應(yīng)用研究[D].蘭州:蘭州大學(xué),2014.

      [6]張麗娟,李舟軍.微陣列數(shù)據(jù)癌癥分類問題中的基因選擇[J].計(jì)算機(jī)研究與發(fā)展,2009(5):794-802.

      [7]李強(qiáng),石陸魁,劉恩海,等.基于流形學(xué)習(xí)的基因微陣列數(shù)據(jù)分類方法[J].鄭州大學(xué)學(xué)報(bào):工學(xué)版,2012(5):121-124.

      [8]Chacko B P,Krishnan V R V,Raju G,et al.Handwritten character recognition using wavelet energy and extreme learning machin-e[J].International Journal of Machine Learning and Cybernetics,2012,3(2):149-161.

      [9]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:Class discovery and class prediction by gene expression monitoring [J].Science,1999,286(5439):531-537.

      [10] Wang Y,Klijn J G M,Zhang Y,et al.Gene-expression profiles to predict distant metastasis of lymph-node-negative primary breast cancer[J].The Lancet,2005,365(9460):671-679.

      [11] Bhattacharjee A,Richards W G,Staunton J,et al.Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses [C]∥Proceedings of the National Academy of Sciences,2001:13790-13795.

      [12] 王剛,張禹瑄,李穎,等.一種微陣列數(shù)據(jù)降維新方法[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2014(5):1429-1434.

      Application of kernel-based multiple gene selection method and extreme learning machine in microarray analysis

      YANG Qin,DONG Hong-wei,XUE Yan-na

      (College of The Internet of Things Engineering,Jiangnan University,Wuxi 214122,China)

      Abstract:As quantity of microarray data sample is little and dimension of each sample is high,combined with disadvantages that in current data dimension reduction methods,correlation between features is not considered,put forward a kind of kernel-based least squares method for feature gene selection.Map explaining variable space to high dimension space,via nonlinear mapping transformation,and then carry out least-squares regression in high dimensional space;use extreme learning machine for training and predicting.The results show that classification precision of the three kinds of classic data set is 90.47 %,88.89 %,88.23 %,which is higher than traditional machine learning algorithms,which fully demonstrates superiority of this method.

      Key words:microarray classification;gene selection;kernel least squares;extreme learning machine

      DOI:10.13873/J.1000—9787(2016)05—0146—03

      收稿日期:2015—08—17

      中圖分類號(hào):TP 183

      文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1000—9787(2016)05—0146—03

      作者簡(jiǎn)介:

      楊勤(1990-),男,湖北黃岡人,碩士研究生,主要研究方向?yàn)槟J阶R(shí)別、生物信息學(xué)。

      猜你喜歡
      極限學(xué)習(xí)機(jī)
      基于ELM和證據(jù)理論的紋理圖像分類
      基于EEMD技術(shù)在電力信息安全中的多步時(shí)間序列預(yù)測(cè)方法
      混沌理論和極限學(xué)習(xí)機(jī)的物流需求預(yù)測(cè)模型
      改進(jìn)極限學(xué)習(xí)機(jī)的電子音樂分類模型
      基于稀疏編碼器與集成學(xué)習(xí)的文本分類
      神經(jīng)元的形態(tài)分類方法研究
      基于判別信息極限學(xué)習(xí)機(jī)的高光譜遙感圖像分類
      極限學(xué)習(xí)機(jī)修正誤差的體育成績(jī)預(yù)測(cè)模型
      基于極限學(xué)習(xí)機(jī)的玻璃瓶口缺陷檢測(cè)方法研究
      極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
      肇州县| 都安| 教育| 神池县| 崇左市| 恩平市| 深州市| 马龙县| 谷城县| 仁布县| 张家港市| 平乐县| 阿克| 乌拉特后旗| 通山县| 西安市| 镇宁| 喀喇| 鹿泉市| 深州市| 兴仁县| 佛坪县| 历史| 旅游| 东莞市| 慈利县| 阳新县| 吉安县| 临沂市| 沛县| 阿克| 临湘市| 宣城市| 宁都县| 广水市| 大石桥市| 江源县| 尉犁县| 贵定县| 三明市| 昂仁县|