• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于點的代數(shù)連通強度和非負矩陣分解的腫瘤基因分類

      2015-12-05 04:10:12汪沁紫
      關(guān)鍵詞:子集代數(shù)分類

      王 年,宋 豪,汪沁紫

      (安徽大學(xué) 計算機智能與信號處理教育部重點實驗室,安徽 合肥 230039)

      隨著基因表達譜技術(shù)的進步,對腫瘤基因的識別與分類的研究已經(jīng)成為生物信息學(xué)的研究熱點.如果能夠?qū)δ[瘤基因做出正確的識別和判斷,挖掘出有用的信息和知識,對推動腫瘤學(xué)的基礎(chǔ)研究和腫瘤的臨床診斷和治療,進而研究腫瘤的致病機制都有至關(guān)重要的作用.

      近些年來,為了解決基因表達譜數(shù)據(jù)樣本少、維數(shù)高和冗余基因多等問題,研究者們提出了諸多方法.自從1999年Golub等[1]提出一種以“信噪比”為指標對白血病的兩個亞型樣本進行分類研究以來,隨著后人對基因分類技術(shù)的不斷發(fā)展與改善,基因的特征可以在更大程度上被挖掘出來.相關(guān)研究有2009年Ghoula等[2]提出的多層神經(jīng)網(wǎng)絡(luò)算法,該算法可以解決聚類數(shù)目估計問題;Mishra等[3]于2011年對信噪比方法進行改進,使得該方法的分類效果進一步提高;2012年,秦傳東等[4]提出一種腫瘤基因的支持向量機的分類方法.在基因子集的選取方面,多種傳統(tǒng)方法得到運用,如T檢驗[5],相對熵[6]和基因調(diào)控概率[7].這些方法都是基于基因的重要性進行記分,以此選取重要的特征基因子集.然而經(jīng)已有相關(guān)研究表明,被保留的基因子集間仍然有大量信息冗余存在,進而學(xué)者們對此進一步進行特征提取,其常用方法有主成分分析[8]、獨立成分分析[9]和非負矩陣分解[10]等,其中非負矩陣分解作為近來一種新的矩陣分解方法,由Lee和Seung[11]于1999年在《Nature》上提出.該方法在對矩陣進行分解時,對矩陣以及分解后的子矩陣都施以嚴格的非負性約束,這樣能夠通過少量的基向量的正加性組合來表征原矩陣的數(shù)據(jù),且非負性約束的引入,可以保證原數(shù)據(jù)特征不會被削弱,實現(xiàn)原數(shù)據(jù)的純加性描述,使數(shù)據(jù)的結(jié)構(gòu)變得更加清晰,基于上述優(yōu)點,非負矩陣分解在數(shù)據(jù)處理中得到了越來越廣泛的運用.

      然而這些早期常用的方法是運用某種記分準則對一系列基因進行重要性打分,以便度量每個基因含有腫瘤信息的多少,從而選取少量的特征基因子集達到降維和去噪的目的,然而記分準則方法易受異常值、污染值影響,使之不能客觀反映選取的基因的重要性,因此作者在該文中采用點的代數(shù)連通強度與非負矩陣分解來對腫瘤基因進行識別和分類.首先通過點的代數(shù)連通強度得到基因的客觀表達,再通過修訂的特征計分準則進行篩選,得到相應(yīng)的基因子集,最后利用非負矩陣分解進一步提取基因表達特征,從而對腫瘤基因進行分類.經(jīng)真實數(shù)據(jù)實驗及其他方法的對比,驗證文中方法的有效性.

      1 點的代數(shù)連通強度

      圖中點的代數(shù)連通強度定義[12]:設(shè)完全圖F中有N個頂點V(F)={v1,v2,…,vN},相應(yīng)邊被賦予權(quán)值wi,j表示邊的兩個端i,j∈{1,2,…,N}點下標,對其任意結(jié)點vi,計算與其相鄰K個鄰接結(jié)點的邊權(quán)值之和,記,則Sum(vi)記為vi點的代數(shù)連通強度(the algebraic connectivity strength of point,簡稱ACSP).圖中點的代數(shù)連通強度可以很好地反映圖中某點與其他點的關(guān)聯(lián)程度,所得到的信息可以反映圖的基本特征信息,有助于找到更加有效的、客觀的點信息.

      對于每一個基因gi,則視該基因在同一類所有樣本中的表達值為點信息,構(gòu)建一個完全圖,其邊緣權(quán)值定義如下

      其中:Num表示同類中的樣本個數(shù),因此記每個gi對應(yīng)一個點集為:valuei={value1i,value2i,…,valueNumi},當鄰近點的數(shù)目K≈T×Num,這里T是一個參數(shù)且T∈[0,1].計算

      首先,確定最大值Sum(valueji)

      然后將與Summax對應(yīng)的valueji看做中心點.基因gi在同種類別中表達水平的均值和方差可以通過分析T×Num個相鄰的valueji來獲得(包括valueji).同樣原理,基因在不同類別中表達水平的均值和方差也可以用相同方法得到.最后,利用修訂的特征記分準則對基因gi進行計分.

      2 非負矩陣分解

      由于高維數(shù)據(jù)的數(shù)據(jù)量非常龐大,對矩陣進行直接操作效率很低,甚至不可行,因此需要對矩陣進行分解,降低矩陣的維數(shù),壓縮數(shù)據(jù),從而找到矩陣的關(guān)鍵信息,而非負矩陣分解(Non-negative Matrix Factorization,簡稱NMF)就是其中一種有效的分解方法,即對于給定的n×m的非負矩陣V,通過尋找兩個低秩的非負矩陣

      使得

      非負矩陣的算法是對W和H進行不斷地迭代更新,使得目標函數(shù)最小.其目標函數(shù)是由Lee等提出的一種基于V與W、H兩者乘積之間的歐氏距離的目標函數(shù),定義如下

      相應(yīng)的迭代規(guī)則為

      3 分類方法與實驗驗證

      3.1 分類方法

      作者對急性白血病和結(jié)腸癌兩類公開的基因表達譜數(shù)據(jù)集進行了實驗,其中白血病數(shù)據(jù)集含有52個樣本(24個為急性淋巴性白血病——ALL,28個為急性粒性白血病——AML),每個樣本有12 564個基因;結(jié)腸癌數(shù)據(jù)集中含有62個樣本,其中22個為正常樣本,40個為結(jié)腸癌樣本,每個樣本中包含2 000個基因.通過上述分析,其分類方法和步驟如下:

      (1)導(dǎo)入基因表達譜數(shù)據(jù),記為G=(gij)N×M,gij為第j個基因在第i個樣本中的表達水平,N、M分別為樣本數(shù)與基因數(shù);

      (2)對于每個基因,在T=0.8時,利用點的代數(shù)連通強度選取基因在各類所有樣本中的更客觀的、真實的表達值,消去各種外界因素導(dǎo)致的出格點,即突變值;

      (3)對M個基因都進行(2)處理,運用修正的特征記分準則(revised feature score criterion,簡稱RFSC)[13]對所有基因進行重要性記分并按降序排列,得到特征基因子集G′=(g′sk)N×L,L<M;

      (4)通過G'的選取,基于NMF理論,對該子集進行非負矩陣分解得到樣本的低維表達,獲得子矩陣Wn×r和Hr×L,則W的每行代表了原樣本在H={h1,h2,…,hr}低維空間中的特征表示;

      (5)最后以W的行作為樣本的特征數(shù)據(jù)輸入SVM分類器,對3組公開的基因表達譜數(shù)據(jù)進行分類驗證并給出分析.

      3.2 實驗驗證與結(jié)果分析

      作者首先對白血病數(shù)據(jù)集進行了實驗,通過點的代數(shù)連通強度算法,保留了ALL類和AML類中客觀的基因表達值,同時剔除了一些異常值(即出格點),再獲取基因特征子集,通過NMF方法的變換,將白血病樣本映射到一個低維特征空間,其實驗結(jié)果如圖1所示.

      當基因子集規(guī)模分別在Gene-Subset=50,90,…,290時,通過NMF方法將其映射到維數(shù)為r=2,3,…,9的低維空間中,圖1顯示了不同基因子集規(guī)模下及不同低維空間的分類正確率,可以發(fā)現(xiàn),分類正確率都在95%以上,其中在Gene-Subset=290時,隨著r的遞增,分類識別率達到100%且很穩(wěn)定,當Gene-Subset縮減到50時,也能達到客觀的效果;另一方面,在尋找較優(yōu)的及較穩(wěn)定的低維度時,r=6相對于其他情況能提供更好和穩(wěn)定的正確率.

      按同樣思路給出結(jié)腸癌數(shù)據(jù)的實驗結(jié)果,圖2顯示:分別在不同的Gene-Subset境況下,結(jié)合NMF方法,實現(xiàn)了正常樣本與癌癥樣本的識別.

      結(jié)腸癌數(shù)據(jù)分類在圖2的8個子圖中均在90%附近,通過異常點的消除、信息量小的基因的舍棄,以及NMF對信息基因間的冗余信息的壓縮,使不同類別得到有效識別.圖2中,在Gene-Subset=90的子圖中,對于公認的正負樣本規(guī)模不平衡、難以很好識別的結(jié)腸癌數(shù)據(jù)集,其最高識別率達到91.94%,說明了文中方法是有效的、可行的.

      將Sigh等[14]以“信噪比”作提取特征基因指標以及阮曉剛等[15]提出的CLUSTER-S2N方法提取特征基因等方法與該文方法進行比較,結(jié)果如表1所示.

      表1 實驗結(jié)果比較Tab.1 Comparison of experiment results

      在相同分類器SVM的情況下,對比識別效果,可以發(fā)現(xiàn)該文方法在識別精度上具有一定優(yōu)勢,表明利用文中方法處理白血病和結(jié)腸癌數(shù)據(jù)時,由于對實驗數(shù)據(jù)預(yù)處理時,使用將受外界影響較大的點的代數(shù)連通強度的數(shù)據(jù)剔除,使得基因表達值更加客觀,在獲取特征基因子集后,進一步利用NMF將數(shù)據(jù)樣本映射到低維的特征空間,使得數(shù)據(jù)可分性加強,因此白血病樣本分類正確率達到100%;而對于公認比較難分類的結(jié)腸癌樣本,利用該文方法進行試驗的正確率也非常可觀.

      4 結(jié)束語

      利用DNA微陣列數(shù)據(jù)對腫瘤基因數(shù)據(jù)進行分類識別是當前生物信息學(xué)研究的主要方向之一.作者提出了基于點的代數(shù)連通強度和非負矩陣分解相結(jié)合的方法,經(jīng)過實驗驗證了該方法對腫瘤類型識別的可行性與有效性.由于文中的方法利用了非負矩陣分解,而NMF的復(fù)雜度與初始矩陣W的選取有很大關(guān)系,因此在選取合適的初始矩陣方面,該方法有待改善.

      [1]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring[J].Science,1999,286(5439):531-537.

      [2]Ghouila A,Yahia S B,Malouche D,et al.Application of multi-SOM clustering approach to macrophage gene expression analysis[J].Infection,Genetics and Evolution,2009,9(3):328-336.

      [3]Mishra D,Sahu B.Feature selection for cancer classification:a signal-to-noise ratio approach[J].International Journal of Scientific & Engineering Research,2011,2(4):1-7.

      [4]秦傳東,劉三陽,張市芳.一種腫瘤基因的支持向量機提取方法[J].西安電子科技大學(xué)學(xué)報:自然科學(xué)版,2012,39(1):191-196.

      [5]Jafari P,Azuaje F.An assessment of recently published gene expression data analyses:reporting experimental design and statistical factors[J].BMC Med Inform Decis Mak,2006,6(1):27.

      [6]Chang G,Wang T.Weighted relative entropy for alignment-free sequence comparison based on Markov model[J].Journal of Biomolecular Structure and Dynamics,2011,28(4):545-555.

      [7]Wang H Q,Huang D S.A gene selection algorithm based on the gene regulation probability using maximal likelihood estimation[J].Biotechnol Lett,2005,27(8):597-603.

      [8]陳樂,王年,蘇亮亮,等.基于鄰接譜主分量分析的腫瘤分類方法[J].安徽大學(xué)學(xué)報:自然科學(xué)版,2011,35(4):86-91.

      [9]Esposito F,Goebel R.Extracting functional networks with spatial independent component analysis:the role of dimensionality,reliability and aggregation scheme[J].Current Opinion in Neurology,2011,24(4):378-385.

      [10]葉愛霞,王年,蘇亮亮.基于非負矩陣分解和Normal-Matrix的腫瘤基因分類[J].安徽大學(xué)學(xué)報:自然科學(xué)版,2012,36(3):90-94.

      [11]Lee D D,Seung H S.Learning the parts of objects by non-negative matrix factorization[J].Nature,1999,401(6755):788-791.

      [12]Wang N,Su L L,Tang J,et al.Informative gene selection using the algebraic connectivity strength of point and scoring criteria[J].Chinese Science Bulletin,2013,58(6):657-661.

      [13]李穎新,阮曉鋼.基于支持向量機的腫瘤分類特征基因選?。跩].計算機研究與發(fā)展,2006,42(10):1796-1801.

      [14]Singh D,F(xiàn)ebbo P G,Ross K,et al.Gene expression correlates of clinical prostate cancer behavior[J].Cancer Cell,2002,1(2):203-209.

      [15]阮曉鋼,晁浩.腫瘤識別過程中特征基因的選?。跩].控制工程,2007,14(4):373-375.

      猜你喜歡
      子集代數(shù)分類
      由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
      拓撲空間中緊致子集的性質(zhì)研究
      分類算一算
      兩個有趣的無窮長代數(shù)不等式鏈
      Hopf代數(shù)的二重Ore擴張
      什么是代數(shù)幾何
      科學(xué)(2020年1期)2020-08-24 08:08:06
      關(guān)于奇數(shù)階二元子集的分離序列
      分類討論求坐標
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      海宁市| 高尔夫| 韶山市| 马公市| 灵川县| 永嘉县| 金昌市| 波密县| 正宁县| 嘉善县| 临高县| 大新县| 衡阳县| 玛沁县| 靖远县| 新兴县| 比如县| 遂昌县| 梅州市| 华池县| 镇原县| 海城市| 霍山县| 赤壁市| 涪陵区| 丰城市| 关岭| 汨罗市| 阿拉善左旗| 体育| 浦东新区| 罗平县| 鹤壁市| 建始县| 东至县| 会同县| 缙云县| 咸丰县| 阿尔山市| 沙雅县| 贺州市|