張淼 孫祥瑞 徐春明
(北京工商大學(xué)輕工科學(xué)技術(shù)學(xué)院,北京 100048)
隨著分子生物學(xué)技術(shù)的不斷發(fā)展,高通量測序已廣泛應(yīng)用于臨床醫(yī)學(xué)、基礎(chǔ)醫(yī)學(xué)、生物醫(yī)學(xué)等眾多領(lǐng)域,因其具有通量高、速度快、靈敏度高等優(yōu)勢,可在短時(shí)間內(nèi)檢測大量樣本的基因變異及轉(zhuǎn)錄水平,具有十分廣闊的應(yīng)用前景。以二代測序(Next generation sequencing,NGS)為典型代表的高通量測序已經(jīng)廣泛應(yīng)用于多種疾病的診斷、治療及預(yù)后評估[1]。
NGS可分為DNA測序和RNA測序,DNA測序以檢測基因變異為主[2],如堿基替換、小片段插入及缺失等,RNA測序主要以檢測基因的mRNA豐度為主[3]。根據(jù)所測細(xì)胞的群體區(qū)分,RNA測序可分為全轉(zhuǎn)錄組測序(Bulk RNA sequencing,bulk RNA-Seq)和單細(xì)胞轉(zhuǎn)錄組測序(Single cell RNA sequencing,scRNA-Seq)。Bulk RNA-Seq是目前最常用的RNA測序方法,但由于測序樣本普遍具有異質(zhì)性,bulk RNA-Seq結(jié)果僅能代表大細(xì)胞群體中每一個(gè)基因的平均表達(dá)水平,對比較轉(zhuǎn)錄組學(xué)研究有幫助,但不利于異質(zhì)性研究。2009年scRNA-Seq技術(shù)[4]被首次引用,測序樣本異質(zhì)性問題得到一定程度解決,并逐漸成為近年來的研究熱點(diǎn)。scRNA-Seq原理是分離單個(gè)細(xì)胞并提取RNA,經(jīng)PCR擴(kuò)增后進(jìn)行高通量測序,主要工作流程包括細(xì)胞解離、單細(xì)胞分離、文庫構(gòu)建、上機(jī)測序及數(shù)據(jù)分析[3],其中數(shù)據(jù)分析是整個(gè)scRNA-Seq過程中最重要的一個(gè)環(huán)節(jié)。
由于scRNA-Seq所使用的數(shù)據(jù)分析方法有別于bulk RNA-Seq,越來越多的針對scRNA-Seq技術(shù)的數(shù)據(jù)分析方法不斷涌現(xiàn),但每種分析方法都有各自的優(yōu)勢及局限性。因此,本文對比了scRNA-Seq與bulk RNA-Seq技術(shù)在數(shù)據(jù)分析上的差異,對scRNASeq數(shù)據(jù)分析研究進(jìn)展進(jìn)行總結(jié),探討每種方法的優(yōu)勢與局限性,以期能夠?qū)cRNA-Seq數(shù)據(jù)分析方法進(jìn)行系統(tǒng)了解。
在scRNA-Seq過程中,測序數(shù)據(jù)下機(jī)后需要進(jìn)行預(yù)處理,將基因轉(zhuǎn)錄序列轉(zhuǎn)換為fastq格式并與參考序列比對,鑒定差異表達(dá)基因或?qū)ふ铱勺兗羟形稽c(diǎn)。scRNA-Seq數(shù)據(jù)整體質(zhì)量評估的重要指標(biāo)是比對率,即reads在參考基因組中所占的比例。比對率越高說明數(shù)據(jù)利用率越高[5]。目前應(yīng)用于數(shù)據(jù)比對的工具主要有TopHat[6],STAR[7]或HISAT[8]。TopHat工具以Bowtie作為核心算法針對75 bp以上長度的RNA短序列與參考基因組進(jìn)行比對,找到匹配的序列,對外顯子進(jìn)行選擇性拼接,具有內(nèi)存小、準(zhǔn)確性高、容錯(cuò)率低、可跨內(nèi)含子比對等優(yōu)勢。Donbin等[7]研究發(fā)現(xiàn)STAR工具的核心算法是Maximal mappable prefix(MMP),其直接選用非連續(xù)序列進(jìn)行比對,運(yùn)行速度較TopHat工具快,但需要更大的內(nèi)存。HISAT工具基于Burrows-Wheeler變換(BWT)和Ferragina-Manzini索引(FM)結(jié)合的算法進(jìn)行對齊。Kim等[8]研究發(fā)現(xiàn)HISAT是第一個(gè)采用分層索引以及自適應(yīng)策略進(jìn)行對齊的工具,減少了內(nèi)存需求,也是目前運(yùn)行速度最快的工具,具有同其他比對工具相同甚至更高的精度。從總體來看,以上3種軟件在運(yùn)行速度和結(jié)果準(zhǔn)確性方面均表現(xiàn)良好,但Engstr?m等[9]進(jìn)一步研究發(fā)現(xiàn)運(yùn)行速度較快的軟件通常檢測的準(zhǔn)確性較低。
數(shù)據(jù)識別和去除低質(zhì)量細(xì)胞是scRNA-Seq質(zhì)量控制(Quality control,QC)的關(guān)鍵步驟。首先,在細(xì)胞捕獲過程中應(yīng)避免參雜混合或死亡的細(xì)胞。其次,使用FastQC[10]等工具檢查測序數(shù)據(jù)的質(zhì)量,根據(jù)QC值決定其在后續(xù)分析中是否被舍棄。異常的cut-off值可以人為定義,也可由程序自動(dòng)定義,但需考慮被分析組織的多樣性。此外,當(dāng)細(xì)胞受損時(shí),細(xì)胞質(zhì)RNA會(huì)丟失,但線粒體RNA會(huì)保留在受損細(xì)胞中,線粒體RNA含量是QC的另一個(gè)指標(biāo)[11]。除上述方法外,Jiang等[12]最新提出的一種針對單細(xì)胞RNA序列質(zhì)量控制(SinQC)工具,通過整合基因表達(dá)模式和數(shù)據(jù)質(zhì)量信息來檢測并去除低質(zhì)量細(xì)胞。
數(shù)據(jù)標(biāo)準(zhǔn)化是數(shù)據(jù)預(yù)處理的關(guān)鍵步驟。在bulk RNA-Seq中,DESeq2[13]和TMM[14]是常用的標(biāo)準(zhǔn)化處理算法。然而,DEseq2算法并不適用于scRNA-Seq數(shù)據(jù)分析,因?yàn)镈Eseq2算法假設(shè)所有樣本RNA總量相等,reads數(shù)僅與測序深度有關(guān),根據(jù)不同樣本的reads數(shù)來計(jì)算比例,但對于單個(gè)細(xì)胞可能會(huì)受到零值和高變異性的影響,結(jié)果不穩(wěn)定。因此,Bacher等[15]提出SCnorm工具,其使用分位數(shù)回歸的方法對測序數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,可以避免針對bulk RNA-Seq的傳統(tǒng)標(biāo)準(zhǔn)化方法對scRNA-Seq數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化時(shí)所引入的錯(cuò)誤,改善主成分分析和差異表達(dá)基因的識別,可以用于scRNA-Seq數(shù)據(jù)標(biāo)準(zhǔn)化。最常用的數(shù)據(jù)歸一化方法為 Count depth scaling,又稱為Counts per million(CPM),它會(huì)根據(jù)每個(gè)細(xì)胞的總表達(dá)量計(jì)算一個(gè)size factor,然后對其中各個(gè)基因表達(dá)量進(jìn)行標(biāo)準(zhǔn)化。除CPM外,非線性標(biāo)準(zhǔn)化方法使用測序深度擬合的負(fù)二項(xiàng)模型,可解釋更復(fù)雜的異質(zhì)性。因此,數(shù)據(jù)標(biāo)準(zhǔn)化方法的使用需要根據(jù)不同細(xì)胞特性進(jìn)行選擇,單一的標(biāo)準(zhǔn)化方法不能適用于所有類型的scRNA-seq數(shù)據(jù)。
在測序過程中,很多低表達(dá)或中度表達(dá)的基因無法有效檢測到,導(dǎo)致表達(dá)值為零或減少,影響下游后續(xù)分析,增加細(xì)胞間變異,甚至不能獲得完整的單個(gè)細(xì)胞轉(zhuǎn)錄組信息,這種情況稱之為Dropout。在實(shí)際操作過程中Dropouts[16]對數(shù)據(jù)分析影響較大,合適的插補(bǔ)方法可以彌補(bǔ)Dropout產(chǎn)生的影響。目前針對插補(bǔ)開發(fā)的算法有MAGIC[17]、ScImpute[18]、SAVER[19]、DrImpute[20]和AutoImpute[21],各種算法的計(jì)算原理不同。MAGIC算法使用基于Markov親和力的矩陣確定細(xì)胞間的相似性,對高度相似細(xì)胞中基因表達(dá)進(jìn)行聚集,以估算基因表達(dá)量。ScImpute算法通過擬合Gamma-Normal混合模型估算基因缺失概率,根據(jù)相似細(xì)胞信息估算可能的Dropout。SAVER和MAGIC算法分析可能會(huì)造成未受Dropout影響的基因表達(dá)發(fā)生變化,但ScImpute算法可以利用其他類似細(xì)胞中不太可能受Dropout影響的相同基因信息,在不引入新偏差情況下計(jì)算缺失值。有研究表明,MAGIC和scImpute算法都依賴于相似細(xì)胞基因數(shù)據(jù),這會(huì)消除細(xì)胞間的隨機(jī)性,而Huang等[19]提出的SAVER算法來接收具有唯一分子索引的矩陣后,假定每個(gè)基因都遵循Poisson-Gamma模型,使用多元廣義泊松回歸模型的貝葉斯分析還原基因表達(dá)水平,消除技術(shù)差異的同時(shí)還可保留不同細(xì)胞間的生物學(xué)差異。DrImpute是一種集群分析算法,通過使用Spearman和Pearson相關(guān)系數(shù)計(jì)算距離矩陣,可將Dropout從真正的零值中有效地分離出來。Gong等[20]將DrImpute算法與多種插補(bǔ)算法進(jìn)行性能比較發(fā)現(xiàn),與MAGIC和scImpute算法相比,DrImpute可以恢復(fù)更多的缺失值,提高后續(xù)細(xì)胞類型識別和擬時(shí)間推斷的準(zhǔn)確性。受到上述軟件的啟發(fā),Talwar等[21]提出了AutoImpute自編碼分析算法,通過學(xué)習(xí)scRNA-Seq數(shù)據(jù)的固有分布和模式來尋找缺失值。通過與現(xiàn)有的9種獨(dú)立數(shù)據(jù)集的插補(bǔ)算法進(jìn)行比較,AutoImpute被證實(shí)是唯一能對最大數(shù)據(jù)集進(jìn)行插補(bǔ)而不會(huì)消耗內(nèi)存的算法。
完整的RNA測序流程包括細(xì)胞分離、RNA提取、文庫構(gòu)建、上機(jī)測序及測序后數(shù)據(jù)分析等多個(gè)環(huán)節(jié),但不同實(shí)驗(yàn)室、不同時(shí)間以及不同人員操作會(huì)造成批次效應(yīng),影響結(jié)果可靠性。批次效應(yīng)也成為scRNA-Seq技術(shù)中常見的變異來源[22]。由于scRNASeq與bulk RNA-Seq在數(shù)據(jù)特征上具有差異,常規(guī)用于 bulk RNA-Seq的批次校正算法,如RUVseq[23]和svaseq[24]等算法可能并不適用于scRNA-Seq。但是,在scRNA-seq研究中,批次之間的種群組成通常并不相同,即使假設(shè)每個(gè)批次中存在相同的細(xì)胞類型,數(shù)據(jù)集中每種細(xì)胞類型的豐度也會(huì)根據(jù)細(xì)胞培養(yǎng)或組織提取、解離等過程中的細(xì)微差異而變化,因此造成變異的因子并非僅考慮技術(shù)性因素。為了校正單細(xì)胞測序中的批次效應(yīng),多種scRNASeq數(shù)據(jù)校正算法被開發(fā),包括ComBat[25]、相互最 近 鄰(Mutual nearest neighbours,MNN)[26]和Scanorama[27]等。當(dāng)批次信息可用時(shí),ComBat算法使用參數(shù)和非參數(shù)經(jīng)驗(yàn)貝葉斯框架通過批處理效應(yīng)變量的加法組合來描述基因表達(dá)。Haghverdi等[26]提出的MNN算法是計(jì)算成對細(xì)胞的余弦歸一化表達(dá)譜之間的歐氏距離,再根據(jù)每個(gè)批次中共享種群的偏差來調(diào)整批次效果。盡管MNN和ComBat是常用的分析算法,但研究發(fā)現(xiàn)MNN算法性能要優(yōu)于ComBat。Hie等[27]最近提出的Scanorama是采用一種可識別并準(zhǔn)確整合數(shù)據(jù)集合的算法,利用匹配的信息進(jìn)行批次效應(yīng)校正,相比于MNN算法,該技術(shù)不需要依賴于數(shù)據(jù)集的順序,將鄰近搜索優(yōu)化為低維嵌入的基因表達(dá)譜,極大減少了搜索時(shí)間。
高維性是scRNA-Seq數(shù)據(jù)的顯著特點(diǎn),數(shù)據(jù)分析時(shí)常常要用到降維分析法。主成分分析(Principal component analysis,PCA)作為一種經(jīng)典的無監(jiān)督降維算法,借助正交變換使線性維數(shù)減少,產(chǎn)生一組不相關(guān)的分量,通過最大化投影數(shù)據(jù)的方差,將高維數(shù)據(jù)投影到低維線性空間上。其具有兩大主要優(yōu)勢:第一,PCA通過正交線性投影可以消除基因間的冗余,被用作多種降維方法的預(yù)處理步驟。第二,PCA可將高維數(shù)據(jù)投影到低維線性空間上,可以預(yù)測多維數(shù)據(jù)的相關(guān)性。研究表明[28]通過分散表達(dá)水平來過濾基因,然后選擇數(shù)百個(gè)最具可變性的基因來捕獲整個(gè)種群的重要特征。PCA已成功應(yīng)用于scRNA-Seq數(shù)據(jù)分析中[29-31],以捕獲細(xì)胞異質(zhì)性的整體結(jié)構(gòu),其局限性在于無法可視化細(xì)胞聚類和細(xì)胞類型識別所必須的局部結(jié)構(gòu)。
為了彌補(bǔ)PCA無法可視化的局限性,t分布隨機(jī)領(lǐng)域嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法被引入單細(xì)胞測序分析。Alexander等[32]提出的t-SNE是一種用于高維數(shù)據(jù)可視化的非線性分析算法,通過捕獲局部結(jié)構(gòu),將原始高維空間中不相似單元以大距離建模,而相似單元?jiǎng)t以小距離建模,在不丟失數(shù)據(jù)點(diǎn)間相對距離的基礎(chǔ)上,將高維數(shù)據(jù)嵌入到二維或三維空間中進(jìn)行可視化。通過降維與最近鄰網(wǎng)絡(luò)相結(jié)合來考慮數(shù)據(jù)點(diǎn)之間的局部距離,目的是分離不同的群集。t-SNE可以通過構(gòu)造概率分布來描述數(shù)據(jù)集,相似的單元格分配概率高,相異的單元格分配概率低,在高維空間中相似的單元將在低維空間中聚集在一起。t-SNE在維持相似細(xì)胞群集能力方面優(yōu)于PCA。目前,t-SNE還不能很好地捕獲全局結(jié)構(gòu),如群集之間的距離。盡管t-SNE在scRNA-Seq數(shù)據(jù)可視化方面取得了成功,但仍存在兩種算法的缺陷[33]。首先,由于t-SNE的隨機(jī)性,同一數(shù)據(jù)集在不同的運(yùn)行中可能產(chǎn)生不同的可視化效果。為了獲得對種群結(jié)構(gòu)的認(rèn)識,可能需要對同一數(shù)據(jù)集進(jìn)行多次t-SNE運(yùn)行。其次,雖然t-SNE將原始空間中相似單元格放置在低維空間中來維持簇,但原始空間中不相似單元格不一定會(huì)在低維空間中按比例放置。最近,一種基于黎曼幾何和代數(shù)拓?fù)淅碚摰腢MAP工具[34]被開發(fā)出來,其性能和效率均優(yōu)于t-SNE。UMAP工具能夠沿著分化軌跡排列簇并保留瞬時(shí)細(xì)胞的分化連續(xù)體,通過在二維或三維圖上覆蓋標(biāo)記基因的表達(dá)或與生物過程有關(guān)的一組基因的活性,捕獲scRNASeq數(shù)據(jù)中局部和全局結(jié)構(gòu)。
在特定條件下,對組織中的細(xì)胞亞群進(jìn)行鑒定是scRNA-Seq數(shù)據(jù)分析的關(guān)鍵目標(biāo)之一,其結(jié)果可以揭示細(xì)胞異質(zhì)性[35]。結(jié)合降維分析方法,通過聚類分析實(shí)現(xiàn)細(xì)胞亞群的鑒定。在無監(jiān)督聚類分析中,主要以分層聚類和K-means聚類為主。分層聚類無需預(yù)先定義聚類數(shù)量,以聚集或分裂的方式進(jìn)行連續(xù)合并或拆分,目前常用的工具包括SINCERA[36]和bigSCale[37]。其中,Iacono等[37]提出的bigSCale工具框架構(gòu)建了一個(gè)概率模型來定義所有可變性成對細(xì)胞之間的表型距離。與在簡單或混合概率模型中假設(shè)負(fù)二項(xiàng)式,伽馬或泊松分布的其他方法相比,bigSCale工具構(gòu)建了一個(gè)高精度、全面的噪聲數(shù)值模型,通過將P值分配給每個(gè)基因來量化細(xì)胞間距離。而K-means聚類[11]則是先確定簇中心,再將細(xì)胞分配到最近的簇中心,迭代優(yōu)化質(zhì)心位置,將細(xì)胞分為 k個(gè)簇,根據(jù)質(zhì)心聚類中細(xì)胞的平均值重新計(jì)算質(zhì)心,工作速度快于分層聚類。以上兩種傳統(tǒng)聚類方法都會(huì)受到數(shù)據(jù)規(guī)模和噪聲的影響。為此,Lin等[38]在聚類前通過插補(bǔ)和降維進(jìn)行聚類(CIDR)使用非線性最小二乘回歸擬合數(shù)據(jù),并對零值進(jìn)行插補(bǔ)來減弱Dropout影響。該算法可識別并評估Dropout與基因表達(dá)水平之間的關(guān)系,計(jì)算基因表達(dá)譜之間的差異。通過實(shí)驗(yàn)證實(shí)CIDR運(yùn)算速度遠(yuǎn)快于傳統(tǒng)算法。近年來,新的聚類算法不斷被開發(fā),如graph-based 聚類包括SNN[39]和RaceID2[40],這些算法將單元格嵌入圖形中,每個(gè)邊代表兩個(gè)單元格之間的相似度,將圖形劃分為高度互連的模塊,具有高效性和穩(wěn)定性。Seurat基于共享近鄰(Shared nearest neighbor,SNN)聚類算法來識別細(xì)胞簇,通過差異表達(dá)或方差分析來識別不同亞群標(biāo)記物,基于表達(dá)水平的相似度的不同構(gòu)建共享近鄰網(wǎng)絡(luò)。為了證明SNN算法的有效性,Xu等[39]通過在不同結(jié)構(gòu)的數(shù)據(jù)集上進(jìn)行測試發(fā)現(xiàn),與原始數(shù)據(jù)的研究結(jié)論相同。為開發(fā)出一種可靠的方式推斷分化軌跡,Grün等[40]提出RaceID2工具,該軟件適合測試微分動(dòng)力學(xué),在增加集群數(shù)后可通過識別集群內(nèi)的飽和點(diǎn)確定亞群數(shù)量,使數(shù)據(jù)比K-means聚類更可靠,且已在動(dòng)物實(shí)驗(yàn)中證實(shí)。除上述方法外,單細(xì)胞一致性聚類(Single cell consensus clustering,SC3)是特別為scRNA-Seq數(shù)據(jù)開發(fā)的聚類算法,通過共識方法將多個(gè)聚類算法組合在一起,具有高度的準(zhǔn)確性和魯棒性[41],相比于K-means,SNN和SINCERA算法分析,SC3缺點(diǎn)是運(yùn)行時(shí)間長,但準(zhǔn)確性最高[42]。
差異表達(dá)基因分析可以檢測不同細(xì)胞類型、不同細(xì)胞亞群間的mRNA豐度,通過組間比對,獲得不同樣本或不同處理方法對基因表達(dá)水平的影響,或上調(diào)或下調(diào)[43],進(jìn)而可對差異表達(dá)基因進(jìn)行功能分析,如通過基因本體分析(Gene ontology,GO),確定基因所參與的生物學(xué)過程、分子功能及細(xì)胞組分,通過KEGG分析差異基因參與的信號通路。盡管scRNA-Seq結(jié)果可以鑒定差異表達(dá)基因,但其也存在一定的局限性。首先,由于單細(xì)胞測序數(shù)據(jù)通常具較高的背景噪音,很多低表達(dá)或者中等表達(dá)水平的基因不能被有效檢測到。所以,針對bulk RNASeq數(shù)據(jù)開發(fā)的差異表達(dá)檢測算法,并不完全適用于scRNA-Seq。針對scRNA-Seq的差異表達(dá)算法被陸 續(xù) 開 發(fā),如SCDE[44],MAST[45],Census[46]和BCseq[47]等。其中,SCDE是一種運(yùn)用貝葉斯算法,從單個(gè)測量中獲得的不確定信息,使用泊松過程來解釋Dropouts,通過對比分析證明SCDE算法具有比傳統(tǒng)方法更高的靈敏度[44]。MAST算法采用線性模型對轉(zhuǎn)錄陽性表達(dá)的平均值進(jìn)行建模,同時(shí)控制模型的離散性和技術(shù)因素。其采用廣義相加模型(Generalized additive models,GAMS)與Tobit模型進(jìn)行正態(tài)分布。Finak等[45]通過比較發(fā)現(xiàn)SCDE算法檢測的差異表達(dá)基因數(shù)量高于MAST,但MAST算法的特異性更高。Qiu等[46]研究發(fā)現(xiàn)Census算法可將常規(guī)的相對表達(dá)量轉(zhuǎn)換為相對轉(zhuǎn)錄本計(jì)數(shù),與標(biāo)準(zhǔn)的讀取計(jì)數(shù)相比,使用回歸技術(shù)更容易建模,而且顯著提高準(zhǔn)確度。BCseq算法無需指定偏差的來源或格式即可校正表達(dá)量化中的偏差,即以自適應(yīng)的方式糾正固有偏差,有效降低技術(shù)噪音。Chen等[47]通過對比發(fā)現(xiàn)BCseq算法在細(xì)胞類型分類性能上優(yōu)于MAST和SCDE。盡管多種算法被用于差異表達(dá)基因分析,但不同算法處理后的數(shù)據(jù)結(jié)果仍存在一定偏差。早期一項(xiàng)針對36種基因差異表達(dá)分析算法有效性的研究發(fā)現(xiàn),不同算法得到的差異表達(dá)基因在特征及數(shù)量上均存在顯著差異[48]。因此,測序后數(shù)據(jù)分析算法的優(yōu)化仍然是今后的一項(xiàng)重要工作。
擬時(shí)序分析法是指根據(jù)單個(gè)細(xì)胞的基因表達(dá)模式推斷出細(xì)胞發(fā)育或分化的動(dòng)態(tài)路徑[49]。與bulk RNA-Seq不同,單細(xì)胞測序可以沿著一個(gè)連續(xù)發(fā)展的過程對細(xì)胞進(jìn)行排序,在軌跡的開始、中間和結(jié)束狀態(tài)對細(xì)胞類型進(jìn)行識別,進(jìn)展越少越接近原始細(xì)胞狀態(tài),進(jìn)展越多越接近終點(diǎn)細(xì)胞狀態(tài)。針對scRNA-Seq擬時(shí)序分析開發(fā)的算法有Monocle[50],Waterfall[51],TSCAN[52],Sincell[53],SLICER[54]和Wishbone[55]。Monocle算法將無監(jiān)督的數(shù)據(jù)與反向圖形嵌入結(jié)合在一起,通過分化進(jìn)程對細(xì)胞進(jìn)行排序,揭示關(guān)鍵調(diào)控因子表達(dá)中的變化及細(xì)胞分化的新型調(diào)控因子。Pere?íni 等[50]將Monocle算法可應(yīng)用于骨骼肌分化過程中,明確了一系列形態(tài)學(xué)和轉(zhuǎn)錄組動(dòng)力學(xué)。該算法將每個(gè)細(xì)胞的表達(dá)譜表示為高維空間的一個(gè)點(diǎn),高度相似的單元格之間添加連接邊,構(gòu)建最小生成樹圖,找到最長路徑的對應(yīng)轉(zhuǎn)錄序列,即可找到分化過程中單個(gè)細(xì)胞的動(dòng)態(tài)路徑。當(dāng)對體內(nèi)連續(xù)生物學(xué)過程進(jìn)行scRNA-Seq分析時(shí),由于缺少足夠的信息不適合使用Monocle等傳統(tǒng)方法,因此Jaehoon等[51]開發(fā)了一種更為通用的算法Waterfall,它可以對連續(xù)生物學(xué)過程的多位單細(xì)胞數(shù)據(jù)集進(jìn)行無偏差統(tǒng)計(jì)分析,該算法使用Hidden markov模型以無偏差方式確定擬時(shí)序上每個(gè)基因的表達(dá)狀態(tài),并量化為隨時(shí)間變化的分子級聯(lián)圖,最后將基因表達(dá)水平與擬時(shí)序相關(guān)聯(lián)。盡管Waterfall算法中曾考慮過細(xì)胞聚類的影響,但并未對細(xì)胞聚類對細(xì)胞有序性影響進(jìn)行系統(tǒng)評估,在此基礎(chǔ)上,Ji等[52]提出TSCAN工具,基于構(gòu)建最小生成樹之前對細(xì)胞進(jìn)行聚類可以降低復(fù)雜性,解決Monocle由于高復(fù)雜性造成的穩(wěn)定性差。Juliá 等[53]開發(fā)的Sincell實(shí)現(xiàn)了兩種算法,以區(qū)分穩(wěn)定細(xì)胞和噪聲影響的層次結(jié)構(gòu),第一種依賴于基因重采樣程序;第二種系統(tǒng)隨機(jī)生成的復(fù)制細(xì)胞,這些復(fù)制細(xì)胞遵循原始細(xì)胞的隨機(jī)模式。Sincell可以提供細(xì)胞狀態(tài)層次結(jié)構(gòu),同時(shí)考慮scRNA-Seq序列中的隨機(jī)因素。上述方法無法推斷對于非線性基因表達(dá)的變化和與過程無關(guān)的基因的分析,Welch等[54]開發(fā)SLICER使用局部線性嵌入來重建細(xì)胞軌跡,該算法可以推斷非線性的軌跡,無需了解過程即可選擇基因,并自動(dòng)確定分支的位置和數(shù)量,通過對小鼠非細(xì)胞和神經(jīng)干細(xì)胞的驗(yàn)證,證實(shí)了此算法的有效性。如果要為多細(xì)胞構(gòu)建分支軌跡,上述方法在分辨率和準(zhǔn)確性上較為不足,Manu等[55]提出的Wishbone算法解決了此類問題,關(guān)鍵技術(shù)在于通過重復(fù)采樣邊緣子集來確定軌跡,并用動(dòng)物實(shí)驗(yàn)證明了Wishbone的準(zhǔn)確性。因此,選擇合適的方法應(yīng)主要依賴于數(shù)據(jù)集特點(diǎn)。
隨著多種單細(xì)胞測序數(shù)據(jù)分析方法的開發(fā)與應(yīng)用,在一定程度上促進(jìn)了單細(xì)胞轉(zhuǎn)錄組學(xué)的發(fā)展,改善了高背景噪音和高變異性對數(shù)據(jù)產(chǎn)生的影響,為細(xì)胞異質(zhì)性研究奠定了分子基礎(chǔ)。但單細(xì)胞測序數(shù)據(jù)分析仍面臨著新的問題和挑戰(zhàn)。首先,隨著單細(xì)胞測序數(shù)據(jù)集激增,如何提高軟件運(yùn)行速度和儲(chǔ)存效率是目前需要解決的一項(xiàng)重要問題。其次,由于不同實(shí)驗(yàn)室在實(shí)驗(yàn)方案和數(shù)據(jù)處理流程方面存在差異,結(jié)果的室間比對較為困難。因此,我們?nèi)匀挥斜匾獙ΜF(xiàn)有的分析方法進(jìn)行優(yōu)化,不斷開發(fā)新的高效的數(shù)據(jù)分析方法,進(jìn)一步提升單細(xì)胞測序結(jié)果的準(zhǔn)確性和可靠性。