• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      質(zhì)譜成像中的計(jì)算策略綜述

      2019-08-30 08:35:40甘勝豐李建軍
      分析科學(xué)學(xué)報(bào) 2019年4期
      關(guān)鍵詞:降維分類器質(zhì)譜

      許 光,甘勝豐,李建軍,楊 莉

      (1.湖北第二師范學(xué)院計(jì)算機(jī)學(xué)院,湖北武漢430205;

      2.Department of Computer Science,Texas A&M University Corpus Christi,TX,USA 78412;3.Human Health Therapeutics,National Research Council Canada,Ottawa,Ontario,Canada K1A0R6)

      1 前言

      質(zhì)譜成像(MSI)可以把生物組織切片上獲取的不同位置的質(zhì)譜數(shù)據(jù)直接生成二維或三維圖像中的像素點(diǎn)。近年來,發(fā)展迅速的最常見的MSI技術(shù)是基質(zhì)輔助激光解吸電離-飛行時(shí)間質(zhì)譜成像(MALDI成像)[1-2]。其他MSI方法包括二次離子質(zhì)譜(SIMS)和解吸電噴霧電離(DESI)也被廣泛應(yīng)用。對(duì)于 MSI數(shù)據(jù)分析,除了主成分分析(PCA)等常用算法外,近年還出現(xiàn)了大量新穎的計(jì)算策略和方法[3-5]。MSI的生物學(xué)和臨床應(yīng)用包括組織疾病(如癌癥)分類和診斷、生物標(biāo)記物研究、組織分子鑒定(如代謝組學(xué)內(nèi)容)和藥物開發(fā)[1,6]。在MSI技術(shù)中,由多個(gè)質(zhì)譜譜圖數(shù)據(jù)組成的空間數(shù)據(jù)矩陣可由MALDI質(zhì)譜儀產(chǎn)生。每張質(zhì)譜來自于整個(gè)組織切片中具有特定空間位置的樣本點(diǎn)。由于圖像的每個(gè)空間位點(diǎn)可顯示為具有x和y坐標(biāo)的像素點(diǎn),MSI數(shù)據(jù)矩陣包含三個(gè)維度,即空間坐標(biāo)x、y和每個(gè)質(zhì)譜數(shù)據(jù)中的質(zhì)荷比(m/z)。圖像的顏色是根據(jù)每個(gè)樣品的特定位點(diǎn)的分子豐度確定的。MSI圖像分辨率通常可以達(dá)到20μm,這意味著一個(gè)組織切片可以產(chǎn)生數(shù)萬個(gè)像素點(diǎn)。如果從每個(gè)譜圖中提取超過一百個(gè)信號(hào)峰,那么整個(gè)圖像將具有超過一百萬個(gè)數(shù)據(jù)點(diǎn)。

      因?yàn)樘幚鞰SI數(shù)據(jù)集中不同像素的質(zhì)譜是非常具有挑戰(zhàn)性的。我們?cè)谶@篇綜述首先討論原始數(shù)據(jù)預(yù)處理的算法,包括數(shù)據(jù)歸一化、校正和m/z-圖像去噪。我們隨后討論各種數(shù)據(jù)降維算法,包括線性降維方法(如PCA、獨(dú)立分量分析、非負(fù)矩陣分解和最大自相關(guān)因子)、非線性降維方法(隨機(jī)鄰域嵌入法(SNE))和特征選擇算法。我們還會(huì)總結(jié)MSI數(shù)據(jù)聚類和分類中的統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法。最后,我們回顧計(jì)算策略在MSI系統(tǒng)中的生物學(xué)應(yīng)用以及近年來已發(fā)表的軟件工具。

      1 MSI數(shù)據(jù)預(yù)處理

      1.1 譜圖處理

      MALDI-MSI超譜數(shù)據(jù)集是由大量質(zhì)譜譜圖組成,每個(gè)譜圖是由位于整個(gè)樣本區(qū)域內(nèi)一個(gè)空間點(diǎn)的樣本生成。圖像中的一個(gè)像素點(diǎn)可以用一個(gè)MALDI-MS譜圖來表示,該譜圖包含具有不同m/z的分子離子的定量豐度信息。m/z和豐度值成對(duì)出現(xiàn)在質(zhì)譜譜圖中形成峰值。在信號(hào)峰檢測(cè)和統(tǒng)計(jì)分析之前,預(yù)處理過程通常會(huì)被使用來修正數(shù)據(jù)從而獲取更加規(guī)范的空間質(zhì)譜數(shù)據(jù)集。

      與傳統(tǒng)的MALDI數(shù)據(jù)分析類似,MSI中的預(yù)處理方法也包括基線校正、平滑去噪、歸一化等[7-8]。然而,與MALDI-MS數(shù)據(jù)相比,在一個(gè)MSI數(shù)據(jù)集中有數(shù)千或數(shù)萬個(gè)質(zhì)譜譜圖。為了減小質(zhì)量和豐度在不同質(zhì)譜之間的偏差,校準(zhǔn)相同離子在不同譜中的m/z值,有必要將它們的豐度值歸一化為統(tǒng)一的尺度。人們通常選擇均勻分布在所有樣本像素中的分子作為參考,通過除以由標(biāo)準(zhǔn)峰得來的峰值系數(shù)來校準(zhǔn)信號(hào)峰的m/z或豐度值。最常見和最簡(jiǎn)單的無目標(biāo)歸一化策略是將質(zhì)譜中的所有分子離子豐度除以總離子數(shù)(TIC)。該方法假定每個(gè)譜圖的豐度變化處于同一水平。改進(jìn)的算法引入了統(tǒng)計(jì)學(xué)理論,比如豐度中值法、滑動(dòng)窗口歸一化(SWN)[9]、概率商歸一化(PQN)[10]、方差穩(wěn)定歸一化(VSN)[4]等。有研究證明,與未進(jìn)行歸一化或使用簡(jiǎn)單的中值法的圖像相比,SWN策略具有獲取更清晰圖像的優(yōu)勢(shì)[9]。已有研究系統(tǒng)地評(píng)估了針對(duì)每個(gè)像素對(duì)應(yīng)的質(zhì)譜圖的信號(hào)峰豐度的7種歸一化方法[10]。圖1顯示了6種歸一化方法中各個(gè)單獨(dú)像素點(diǎn)中的質(zhì)譜峰值豐度除以的系數(shù),“信息峰”是指通過兩種不同的方法進(jìn)行變量選擇后仍然存在的峰值。歸一化過程也可分為譜內(nèi)(Intra)-歸一化(計(jì)算每個(gè)像素中質(zhì)譜的歸一尺度因子)和譜間(Inter)-歸一化(在圖像樣本中的所有質(zhì)譜使用統(tǒng)一歸一尺度因子[11])。

      圖1 大鼠腦樣本矢狀面切片MALDI-MSI數(shù)據(jù)的歸一化處理。六張圖代表六種歸一化方法,每幅圖像的色階代表著歸一化因子系數(shù),每個(gè)單獨(dú)像素中的質(zhì)譜數(shù)據(jù)將除以這個(gè)因子進(jìn)行處理。紅色表示被高因子除,藍(lán)色表示被低因子除Fig.1 Normalization of MALDI MSI data of the sagittal rat brain section.The color scale for each image represents the factor by which the spectrum in an individual pixel would be divided for six normalization methods.Red represents the division by a higher factor and blue a lower factor.Reprinted with permission from Fonville et al.[10]Copyright 2012 American Chemical Society

      1.2 峰檢測(cè)和m/z-圖像去噪

      峰檢測(cè),也稱為質(zhì)心化[12]或峰提?。?3],這是質(zhì)譜數(shù)據(jù)分析中的一個(gè)常見步驟,它的目的是將一種化合物的質(zhì)譜信號(hào)組合成一個(gè)峰,從而將質(zhì)譜譜圖簡(jiǎn)化為信號(hào)峰列表。通常,MSI譜圖中的信號(hào)峰列表被構(gòu)建為m/z-圖像,這種圖像是基于MSI數(shù)據(jù)集中所有譜圖中具有特定m/z的峰的豐度值[13]。在隨后的數(shù)據(jù)處理階段,全變差(Total Variation)最小化和Chambole算法可用于對(duì)m/z-圖像進(jìn)行保持邊緣去噪。該去噪過程使用了在常規(guī)MALDI-MS去噪中不會(huì)考慮的MSI數(shù)據(jù)中的空間信息。另一種方法,即兩步峰值選擇法也被引入到了MALDI-MSI空間成像信息的處理中。該方法首先去除與基質(zhì)相關(guān)的噪聲峰,然后根據(jù)m/z-圖像的豐度分布來設(shè)定可解釋變異(Variance Explained)閾值完成空間質(zhì)譜數(shù)據(jù)的去噪[10]。

      2 降維處理

      2.1 線性降維處理

      線性降維與矩陣分解和變換密切相關(guān)。在MSI數(shù)據(jù)的統(tǒng)計(jì)分析中,矩陣因式分解是一個(gè)將二維MSI數(shù)據(jù)矩陣分解成其他矩陣乘積的數(shù)學(xué)過程。本綜述將根據(jù)不同的分解動(dòng)機(jī)和矩陣約束來討論幾種用于MSI數(shù)據(jù)集降維的矩陣分解方法。

      圖2顯示了基于4種常見的線性降維方法提取主因子,包括:主成分分析(PCA)、非負(fù)矩陣分解(NMF)、最大自相關(guān)因子(MAF)和概率潛在語義分析(PLSA)。前期的研究已經(jīng)證明降維處理可在不同組織切片間(如疾病和健康組織[11,15-17])提供帶有更顯著差異的和更好的可視化效果。另外,降維算法對(duì)生物標(biāo)記物的確認(rèn)也非常有幫助,更為自動(dòng)圖像識(shí)別提供了依據(jù)[5]。在醫(yī)藥領(lǐng)域,還有其他降維算法包括應(yīng)用于研究不同種類藥片中化合物的具體組成和分布[18]。為了獲得更加一致和準(zhǔn)確的結(jié)論,有的研究會(huì)結(jié)合多種降維策略。比如,Jones等人將三種矩陣分解方法(PCA、NMF、MAF)和兩種聚類算法(K-means聚類和模糊C-means聚類)生成的多個(gè)分量圖像集成為一致性圖用于圖像分析[19]。

      圖2 應(yīng)用主成分分析(PCA)、非負(fù)矩陣分解(NMF)、概率潛在語義分析(PLSA)和最大自相關(guān)因子(MAF)對(duì)大鼠大腦矢狀面切片的MALDI-MSI圖像進(jìn)行特征因子選擇Fig.2 Selected factors from principal component analysis(PCA),non-negative matrix factorization(NMF),maximum autocorrelation factor(MAF),and probabilistic latent semantic analysis(PLSA)applied to a MALDI-MSI image of a sagittal section of rat brain.Reprinted with permission from Race et al[14].Copyright 2016American Chemical Society

      2.1.1 主成分分析(PCA) PCA可以將坐標(biāo)系(包括像素位置的維度和MSI譜圖中選定信號(hào)峰的豐度值)線性變換為正交主成分坐標(biāo)系。PCA方法通常選擇一個(gè)或兩個(gè)主成分因子來表示MSI數(shù)據(jù)集,這會(huì)有效地減小數(shù)據(jù)維數(shù),去除不相關(guān)的噪聲,同時(shí)保留更多數(shù)據(jù)信息。第一主成分展示了數(shù)據(jù)集中的最大方差。許多綜述和研究討論了用于監(jiān)督和非監(jiān)督 MSI分析的 PCA 方法[5,7,9,11,14-16,18-21]。主成分分析也可以與其他幾種方法相結(jié)合使用,包括隨機(jī)投影主成分分析(RP-PCA)[22]、主成分分析-線性判別分析(PCA-LDA)[23]和主成分分析-符號(hào)判別分析(PCA-SDA)[24]。隨機(jī)投影可以將m/z-圖像中的所有像素點(diǎn)映射到較少的像素點(diǎn)上并計(jì)算投影分?jǐn)?shù),從而使數(shù)據(jù)維數(shù)變小。這種方法也可單獨(dú)用于MSI超譜數(shù)據(jù)分析[25-26]。PCA 與其他算法的結(jié)合可用于數(shù)據(jù)集的分類和聚類分析[23-24,27]。

      2.1.2 獨(dú)立成分分析(ICA) ICA可以將MSI數(shù)據(jù)集分解為若干統(tǒng)計(jì)學(xué)相互獨(dú)立的正交子成分的線性組合。通常是利用最大化某種非高斯性度量,而不是類似PCA中的方差最大化[18,21,28]。ICA主要針對(duì)非高斯分布樣本點(diǎn)。

      2.1.3 非負(fù)矩陣分解(NMF) NMF是用兩個(gè)非負(fù)矩陣的乘積來重構(gòu)MSI數(shù)據(jù)矩陣的另一種矩陣因子分解方法。為了使原始矩陣與重建的矩陣乘積之間的誤差最小化,通常會(huì)使用歐氏距離等最優(yōu)化函數(shù)[14,17-19]。

      2.1.4 最大自相關(guān)系數(shù)(MAF) 在MAF分析中,所使用的線性變換類似于PCA和ICA。唯一的區(qū)別是MAF是通過最大化MSI數(shù)據(jù)集中相鄰像素間的自相關(guān)指標(biāo)來實(shí)現(xiàn)因子分解[14,19]。

      2.2 非線性降維

      隨機(jī)鄰域嵌入(SNE)是一種非線性降維方法,它將高維數(shù)據(jù)展示在二維或三維空間中以便更好地可視化[29]。改進(jìn)的方法包括t-分布SNE(tSNE)和分層SNE(hSNE)已被用于 MSI數(shù)據(jù)集的可視化分析[16,30-33]。tSNE根據(jù)t分布和 KL散度計(jì)算相似概率分布,將數(shù)據(jù)定位在低維圖中[30,32-33]。hSNE 將高維MSI數(shù)據(jù)分層地顯示在低維空間中,每層具有不同程度的可視化信息[31]。

      2.3 特征選擇

      數(shù)據(jù)降維通常分為特征提取和特征選擇[34]。在前面的章節(jié)中,我們總結(jié)了通過將高維空間中的數(shù)據(jù)投影到低維空間中來減少維度的常見的特征提取方法。特征選擇可以看作是另一種數(shù)據(jù)降維方法,它通過選擇重要的和包含信息較多的特征(即質(zhì)譜數(shù)據(jù)中的信號(hào)峰的m/z值),以排除噪聲信號(hào),提高計(jì)算效率。特征選擇的其他優(yōu)勢(shì)還包括提高無監(jiān)督圖像像素聚類的準(zhǔn)確性,以及避免有監(jiān)督分類分析中的過擬合問題[7,35]。信息特征選擇還可通過應(yīng)用收縮t統(tǒng)計(jì)量(Shrunken t-Statistics)來比較類別或片段的質(zhì)心(由一種分類或一個(gè)圖像區(qū)域中的平均質(zhì)譜數(shù)據(jù)定義)與整體的質(zhì)心的差異來實(shí)現(xiàn)[36]。另一項(xiàng)研究提出基于Wilcoxon秩檢驗(yàn)和Kolmogorov-Smirnov檢驗(yàn)獲得顯著性差異程度p值,并選擇p值最小的信號(hào)峰作為分類特征,從而實(shí)現(xiàn)特征選擇[37]。

      3 聚類

      聚類是數(shù)據(jù)挖掘和統(tǒng)計(jì)分析中常用的無監(jiān)督方法。聚類方法可對(duì)MSI像素?cái)?shù)據(jù)點(diǎn)進(jìn)行分組,同一聚類簇中的像素?cái)?shù)據(jù)點(diǎn)的譜圖、峰值表或生成的主成分特征相比于其他簇中數(shù)據(jù)點(diǎn)具有更大的相似性。在二維和三維MSI分析中,聚類主要用于自動(dòng)構(gòu)建分割圖像,以便更好地實(shí)現(xiàn)可視化和進(jìn)行生物評(píng)價(jià)[38-39]。如圖3所示,根據(jù)分割圖[39],不同的解剖學(xué)結(jié)構(gòu)可以很容易地被識(shí)別和分辨??臻g分割圖還有助于揭示腫瘤區(qū)域在組織中的分布[40]、腫瘤的功能異質(zhì)性[41]以及借助微蛋白質(zhì)組學(xué)進(jìn)行腫瘤分類[42]。圖切割聚類法已應(yīng)用于比較小鼠腦組織切片的DESI和MALDI-MSI的離子抑制效果,它可以區(qū)分奧氮平(Olanzapine)的高、低離子抑制區(qū)[43]。MSI數(shù)據(jù)集中無監(jiān)督聚類分析的另一個(gè)應(yīng)用是分析在大麥發(fā)芽過程中具有組織特異性和時(shí)間依賴性的代謝物模式[44]。下面介紹最常用的幾種MSI聚類算法。

      3.1 K-均值(K-means)算法

      K-means算法將MSI數(shù)據(jù)集劃分為k個(gè)聚類簇,k的值是預(yù)定義的數(shù)。其劃分主要依據(jù)每個(gè)像素點(diǎn)的特征向量與k個(gè)聚類簇的質(zhì)心向量之間距離,像素點(diǎn)被分到距離最近的那個(gè)聚類簇中。質(zhì)心向量在第一次迭代時(shí)是隨機(jī)分配的,然后根據(jù)所有簇內(nèi)像素點(diǎn)的平均值更新每個(gè)簇的質(zhì)心向量,重復(fù)該過程直到質(zhì)心向量不再改變。其中計(jì)算距離常常是使用歐氏距離[40-42,45-46]。其它的距離度量也有在MSI數(shù)據(jù)分析研究中使用,如 Cityblock(曼哈頓)距離、相關(guān)性距離和余弦距離[39,43,47-49]。K-means算法已集成到各種MSI分析軟件工具中[11,50-51]。

      3.2 層次聚類(HC)

      HC建立了一個(gè)聚類簇的層次樹,稱為樹狀圖(Dendrogram)。集聚(Agglomerative)或分裂(Divisive)策略被遞歸地執(zhí)行,每次遞歸對(duì)最相似或最不相似的像素?cái)?shù)據(jù)點(diǎn)分別進(jìn)行合并或分割,并生成樹的一層分支節(jié)點(diǎn)。相似性的計(jì)算同樣基于距離度量,如歐氏距離。該方法已廣泛應(yīng)用在MSI圖像分割分析[8,16,40,52-53]。HC算法還用于通過將具有最小簇間距離的相鄰峰集合并到一個(gè)簇中來實(shí)現(xiàn) MSI譜圖的數(shù)據(jù)降維,每個(gè)簇的范圍是根據(jù)質(zhì)譜中的m/z值來計(jì)算確定的[54]。

      圖3 圖切割聚類法跟MSI中現(xiàn)有聚類算法的比較,算法應(yīng)用于大腦冠狀面(k=7)和矢狀面(k=20)切片的MSI圖像以及作為比較的Allen大腦圖集(圖底部)。大鼠腦冠狀面數(shù)據(jù)是以45×45μm的像素獲取并且共包含20 000個(gè)像素,大鼠腦矢狀面數(shù)據(jù)是以100×100μm的像素獲取并且共包含12 500個(gè)像素Fig.3 Comparison of existing clustering algorithms used in MSI,and graph cuts clustering applied to MSI images of a coronal(k=7)and sagittal(k=20)brain sections as compared to the Allen brain atlas(bottom).Coronal mouse brain data was acquired with 45×45μm pixels and contained a total of 20 000pixels,sagittal rat brain was acquired with 100×100μm pixels and contained 12 500pixels.Reprinted with permission from Dexter et al[39].Copyright 2017American Chemical Society

      3.3 自組織圖(SOM)

      SOM是一種神經(jīng)網(wǎng)絡(luò)類型,由高維的MSI數(shù)據(jù)集訓(xùn)練得到,用低維節(jié)點(diǎn)圖表示。在MSI數(shù)據(jù)分析中,SOM被用于數(shù)據(jù)降維、聚類和可視化[32]。而作為一種改進(jìn)的SOM方法,分層雙曲線自組織圖(H2SOM)是為MSI圖像分割和無監(jiān)督聚類而開發(fā)引入的[44]。

      3.4 其他聚類算法

      圖切割法是另一種聚類算法,已有研究將其與K均值法和層次聚類法進(jìn)行了比較[39]。比較結(jié)果證實(shí)它在小鼠冠狀面和矢狀面腦切片的MSI數(shù)據(jù)集中能生成更清晰的分割圖像(圖3)。模糊C-均值(C-means)算法不同于K-均值和HC等硬聚類算法。除了使用了模糊集思想,這種算法還采用了新的距離度量方式。模糊C-均值算法已用于對(duì)一種植物(桉樹)葉片的MSI代謝組學(xué)數(shù)據(jù)集進(jìn)行聚類[9]。利用期望最大化的概率聚類算法也被用于對(duì)大鼠腦冠狀切面產(chǎn)生的MSI數(shù)據(jù)進(jìn)行處理[46]。

      4 分類

      分類算法是一種有監(jiān)督的學(xué)習(xí)策略,它根據(jù)訓(xùn)練后的分類器對(duì)給定的數(shù)據(jù)集進(jìn)行分類。這些分類器由訓(xùn)練數(shù)據(jù)集中選定特征構(gòu)成的數(shù)學(xué)函數(shù)進(jìn)行定義。訓(xùn)練過程主要依賴于具有明確類標(biāo)簽的數(shù)據(jù)集。它不同于一般的聚類算法,因?yàn)榫垲愃惴]有將先驗(yàn)知識(shí)用于分析[7,35-36]。MSI數(shù)據(jù)分析中使用的大多數(shù)分類方法都集中在區(qū)分健康和疾病條件下的樣本數(shù)據(jù)的各種生物學(xué)應(yīng)用,以及在不同階段協(xié)助診斷疾病。通過從數(shù)據(jù)集中選擇包含信息較大的特征,可由經(jīng)過訓(xùn)練的分類器進(jìn)行診斷測(cè)試[16]。為了提高分類器的分類性能,各種算法包括支持向量機(jī)(SVM)、隨機(jī)森林(RF)和PCA等被用來獲取和訓(xùn)練分類器。在本節(jié)中,我們將描述這些用于MSI圖像分類的算法策略。

      4.1 支持向量機(jī)算法

      支持向量機(jī)(SVM)是一種非概率型分類算法,已經(jīng)在生物信息學(xué)領(lǐng)域得到了廣泛的應(yīng)用。根據(jù)不同的核函數(shù),SVM可以生成線性分類器或非線性分類器。訓(xùn)練過程包括最優(yōu)化超平面的計(jì)算,以劃分不同標(biāo)記類中的數(shù)據(jù)點(diǎn)。聯(lián)合使用SVM和PCA算法可將人腦組織樣本中感興趣區(qū)域ROI的MSI圖像像素點(diǎn)分為三類,即非病理性的人腦垂體區(qū)、分泌性和非分泌性垂體腺瘤區(qū)[27]。最近有研究利用支持向量機(jī)(SVM)算法建立了基于ALλ和ATTR淀粉樣蛋白的肽組成的分類模型,對(duì)淀粉樣變性疾病進(jìn)行診斷[55]。另外,SVM在腫瘤類型診斷和甲狀腺病變?cè)\斷中的應(yīng)用已有報(bào)道[56]。

      4.2 隨機(jī)森林算法

      隨機(jī)森林是一種利用投票將多個(gè)決策樹構(gòu)造為分類器的集成型分類方法。在每個(gè)樹的每個(gè)節(jié)點(diǎn)中,通過分裂情況來確定特征(MSI數(shù)據(jù)處理中的m/z值可作為特征)的隨機(jī)子集中最優(yōu)的特征,訓(xùn)練樣本集是由所有樣本中采用Bagging或Bootstrap的取樣方法有放回的選出的。隨機(jī)森林算法已與主動(dòng)學(xué)習(xí)(AL)策略和改進(jìn)的樣本標(biāo)記方法相結(jié)合用于對(duì)MSI數(shù)據(jù)集進(jìn)行多分類[3,57]。

      4.3 其他統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法

      通過對(duì)給定樣本和每個(gè)腫瘤類型的統(tǒng)計(jì)模型間相似性分?jǐn)?shù)計(jì)算,可以建立用于腫瘤類型分類和鑒定的統(tǒng)計(jì)框架[54]。Veselkov等人使用了遞歸最大間距準(zhǔn)則(RMMC)方法來處理基于脂質(zhì)分子特征的結(jié)腸癌組織類型分類問題。與基于偏最小二乘法(PLS)的算法以及它們以前所使用的PCA-LDA方法相比,它具有更高的分辨精確度[4]。在人類腎細(xì)胞癌MSI數(shù)據(jù)集上,另一個(gè)基于空間收縮質(zhì)心策略的統(tǒng)計(jì)模型被用于對(duì)正常組織和癌組織進(jìn)行分類。與PLS-DA算法相比,該算法在提供有用信息的特征顯著減少的情況下仍能獲得類似的分類性能[36]。

      套索算法(LASSO)模型也已在前期的研究中被使用,它通過選取小代謝產(chǎn)物和脂質(zhì)分子作為診斷特征來區(qū)分正常前列腺和前列腺癌[58]。該研究指出,在組織樣本MSI所有像素點(diǎn)的質(zhì)譜圖中,小代謝物葡萄糖和檸檬酸鹽的平均離子信號(hào)可作為癌癥診斷的分類器(圖4)。已有研究將三種分類器包括LDA分類器、樸素貝葉斯分類器(NBC)和決策樹分類器(DTC)進(jìn)行了系統(tǒng)性的比較[37]。深度學(xué)習(xí)是近年來解決具有大信息量的數(shù)據(jù)集中分類問題的有效方法。深度卷積神經(jīng)網(wǎng)絡(luò)方法(CNNs)也被應(yīng)用于處理基于MSI的腫瘤分類,比如診斷兩種肺部腫瘤亞型以及辨別肺部腫瘤和胰腺腫瘤[59]。

      圖4 負(fù)離子模式的DESI-MS針對(duì)葡萄糖/檸檬酸鹽的離子信號(hào)豐度比圖,用于(A)訓(xùn)練集(18個(gè)良性和18個(gè)癌癥樣本),以及(B)驗(yàn)證集(10個(gè)良性和8個(gè)癌癥樣本),其中信號(hào)是從單個(gè)組織樣本獲得的所有像素質(zhì)譜中的葡萄糖和檸檬酸鹽的平均離子信號(hào)。從這些圖中可以看出,當(dāng)葡萄糖/檸檬酸鹽信號(hào)豐度比大于1時(shí),一個(gè)組織可歸類為癌癥;當(dāng)葡萄糖/檸檬酸鹽信號(hào)豐度比小于0.5時(shí),該組織可歸類為良性Fig.4 Negative ion mode DESI-MS ion signal intensity ratios for glucose/citrate are plotted for(A)the training set(18 benign and 18cancer specimens),and(B)the validation set(10benign and 8cancer specimens)by averaging the ion signals of glucose and citrate from all pixels acquired from the individual tissue sample.From these plots,a tissue can be classified as cancer when glucose/citrate signal ratio is>1,and benign when the ratio is<0.5.Reprinted with permission from Banerjee et al[58].Copyright(2017)National Academy of Sciences

      5 MSI軟件

      前期的綜述文章對(duì)用于MSI數(shù)據(jù)分析和可視化的軟件工具已進(jìn)行了總結(jié),包括常用的商業(yè)軟件、免費(fèi)軟件工具和開源軟件[7]。因此,我們主要綜述過去三年新開發(fā)的工具。

      用戶友好性較好的商業(yè)工具M(jìn)assImager可提供高通量的MSI數(shù)據(jù)可視化和統(tǒng)計(jì)分析功能[5]。文獻(xiàn)中報(bào)道的用于MSI數(shù)據(jù)分析的軟件基本都是免費(fèi)的,如BioMap和Datacube。直接比較表明,盡管Biomap具有更好的用戶體驗(yàn)和便捷性,但它和Datacube的性能是基本相似的[60-61]。msIQuant是一個(gè)MSI可視化工具,可以相對(duì)快速加載較大的MSI數(shù)據(jù)集。新版本的msIQuant引入了減少數(shù)據(jù)信息熵和壓縮算法并可用于高效的數(shù)據(jù)歸檔[62-63]。BASTet是OpenMSI工具的一個(gè)擴(kuò)展框架,主要用于網(wǎng)絡(luò)共享、管理和分析MSI數(shù)據(jù)[64-65]。MSIdV可通過衡量和比較MSI數(shù)據(jù)集中不同m/z值的多個(gè)分子來實(shí)現(xiàn)組織切片的所有區(qū)域的生物指標(biāo)的可視化[66]。

      OpenMSI陣列分析工具包(OMAAT)是一個(gè)與OpenMSI集成的開源工具。它可以生成每個(gè)感興趣的離子的圖像,并協(xié)助分析指定空間區(qū)域中的一組數(shù)據(jù)[67]。兩個(gè)基于R的開源軟件包rMSI[68]和massPix[50]也已用于MSI數(shù)據(jù)處理。rMSI設(shè)計(jì)了一個(gè)用戶友好的圖形界面(GUI)來可視化MSI圖像數(shù)據(jù),界面包括空間圖像面板、所選的感興趣區(qū)域(ROI)和質(zhì)譜視圖面板。與rMSI不同,Masspix專門針對(duì)脂質(zhì)組學(xué)MSI,它專注于繪制單離子分布圖并加入了PCA和聚類算法等統(tǒng)計(jì)分析功能。pyBASIS是另一個(gè)開源平臺(tái),它可通過機(jī)器學(xué)習(xí)和模式識(shí)別等方法處理多個(gè)組織樣本中產(chǎn)生的大規(guī)模MSI數(shù)據(jù)集[11]。MsiReader v1.0是該開源工具系列的最新版本,它添加了一些新功能,例如用于分析極性切換數(shù)據(jù)的極性過濾器、用于成像顯示的圖像疊加功能以及用于質(zhì)量保證的質(zhì)量測(cè)量精度(MMA)熱圖繪制功能[69]。如圖5所示,MsiReader v1.0的界面展示了對(duì)小鼠腦組織切片的多個(gè)MSI數(shù)據(jù)集的處理情況。

      圖5 多個(gè)圖像數(shù)據(jù)集加載。圖示為12個(gè)小鼠腦組織矢狀面切片中膽固醇[M+H-H2O]+的圖像Fig.5 Loading multiple imaging data sets.The images presented are for cholesterol[M+H-H2O]+in 12sagittal mouse brain tissue sections.Reprinted with permission from [Springer Nature]:[Springer][Journal of The American Society for Mass Spectrometry][MSiReader v1.0:Evolving Open-Source Mass Spectrometry Imaging Software for Targeted and Untargeted Analyses.Bokhart M T,Nazari M,Garrard K P,Muddiman D C[69]].[COPYRIGHT](2018)

      6 結(jié)論

      MSI質(zhì)譜成像技術(shù)已成為組織樣本切片中分子組分鑒定的一項(xiàng)重要技術(shù)。由于數(shù)據(jù)量大、不同像素中的質(zhì)譜數(shù)據(jù)的差異以及實(shí)驗(yàn)噪聲等因素影響,MSI數(shù)據(jù)處理仍然具有挑戰(zhàn)性。本文中我們綜述了MSI數(shù)據(jù)分析流程中的生物信息學(xué)計(jì)算策略,包括預(yù)處理、數(shù)據(jù)降維、聚類、分類和軟件工具。數(shù)據(jù)歸一化處理在預(yù)處理中非常重要,我們也慨括了校正不同像素中數(shù)據(jù)之間的誤差的重要性。矩陣分解法(如PCA、ICA、NMF和MAF)常用于MSI線性數(shù)據(jù)降維,以去除次要成分因子,提高數(shù)據(jù)分析效率。我們也介紹了非線性降維算法SNE和基于統(tǒng)計(jì)的特征選擇方法。本綜述還討論了K-means、HC和SOM等聚類算法在圖像分割和生物學(xué)評(píng)價(jià)中的應(yīng)用。此外,MSI在疾病診斷和生物標(biāo)記物發(fā)現(xiàn)的應(yīng)用中,有監(jiān)督分類算法(如SVM、隨機(jī)森林)是一種有價(jià)值的驗(yàn)證標(biāo)準(zhǔn)。預(yù)計(jì)MSI計(jì)算策略的進(jìn)一步發(fā)展將有助于提高M(jìn)SI數(shù)據(jù)的質(zhì)量,并促進(jìn)MSI技術(shù)在生物和臨床發(fā)展中的應(yīng)用。

      致謝:感謝基礎(chǔ)教育信息技術(shù)服務(wù)湖北省協(xié)同創(chuàng)新中心的資助。

      猜你喜歡
      降維分類器質(zhì)譜
      混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
      車主之友(2022年4期)2022-08-27 00:57:12
      氣相色譜質(zhì)譜聯(lián)用儀在農(nóng)殘檢測(cè)中的應(yīng)用及維護(hù)
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      吹掃捕集-氣相色譜質(zhì)譜聯(lián)用測(cè)定水中18種揮發(fā)性有機(jī)物
      棗霜化學(xué)成分的色譜質(zhì)譜分析
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      Modeled response of talik development under thermokarst lakes to permafrost thickness on the Qinghai-Tibet Plateau
      扶沟县| 将乐县| 新乐市| 紫云| 陆丰市| 聊城市| 湖州市| 开化县| 大埔区| 县级市| 赣榆县| 泸水县| 鄄城县| 噶尔县| 厦门市| 富宁县| 河曲县| 泽库县| 建阳市| 钟山县| 沂源县| 会东县| 和平区| 新巴尔虎左旗| 前郭尔| 吉林市| 新蔡县| 赤峰市| 扶余县| 松滋市| 兰考县| 河池市| 商都县| 齐齐哈尔市| 苗栗县| 清原| 惠来县| 惠水县| 余庆县| 个旧市| 疏附县|