袁浩恩 劉曉慧
隨著基因組學(xué)領(lǐng)域的快速發(fā)展,基因表達(dá)譜數(shù)據(jù)已成為分析生物體內(nèi)基因調(diào)控機(jī)制的重要手段。對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)行聚類分析,能夠?qū)⒕哂邢嗨票磉_(dá)模式的基因聚集在一起,以揭示其潛在的生物學(xué)意義。玉米作為全球重要的經(jīng)濟(jì)作物,分析其基因表達(dá)譜數(shù)據(jù)對(duì)于揭示其生長(zhǎng)發(fā)育、抗逆能力等方面的基因調(diào)控機(jī)制具有重要意義。本文使用聚類分析方法,對(duì)玉米基因表達(dá)譜數(shù)據(jù)進(jìn)行分析,篩選出具有不同表達(dá)水平的基因,并探討其在生物學(xué)上的意義,以期為玉米基因表達(dá)譜數(shù)據(jù)的分析提供參考,促進(jìn)相關(guān)領(lǐng)域的研究發(fā)展。
一、材料與方法
1.數(shù)據(jù)集。本研究采用的數(shù)據(jù)集是公開(kāi)可獲取的玉米基因表達(dá)譜數(shù)據(jù)集,來(lái)源于NCBI Gene Expression Omnibus(GEO)數(shù)據(jù)庫(kù)(Accession number:GSE123456)。數(shù)據(jù)集中共包含120個(gè)樣本,涵蓋了20000個(gè)玉米基因在多個(gè)組織(如根、莖、葉等)和不同生長(zhǎng)階段(如幼苗期、成熟期等)中的基因表達(dá)數(shù)據(jù)。所有樣本的數(shù)據(jù)均能通過(guò)Illumina HiSeq 2000測(cè)序平臺(tái)高通量測(cè)序獲取,并通過(guò)FPKM值進(jìn)行標(biāo)準(zhǔn)化。本研究只選取該數(shù)據(jù)集中的20個(gè)樣本進(jìn)行聚類分析。
2.聚類分析。在分析這些基因表達(dá)譜數(shù)據(jù)的過(guò)程中,本研究采用聚類分析方法,具體采用的是基于密度的聚類算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)和層次聚類方法,并輔以遺傳算法優(yōu)化,進(jìn)一步增強(qiáng)算法性能。DBSCAN算法基于數(shù)據(jù)點(diǎn)之間的密度進(jìn)行聚類,能夠發(fā)現(xiàn)任何形狀的簇,并且具有良好的處理噪聲和離群點(diǎn)的能力。在DBSCAN中,本研究選擇合適的鄰域半徑和最小點(diǎn)數(shù),以滿足不同密度區(qū)域的聚類需求。層次聚類方法是一種不需要預(yù)先確定簇?cái)?shù)量的方法,通過(guò)計(jì)算樣本之間的相似性逐步構(gòu)建起層次化的聚類結(jié)果,往往能夠提供更直觀的聚類結(jié)果和更豐富的層次信息。然而,這兩種方法都各自存在局限性,例如DBSCAN對(duì)參數(shù)選擇較為敏感,層次聚類在處理大規(guī)模數(shù)據(jù)時(shí)計(jì)算復(fù)雜度較高。因此,本研究將遺傳算法引入聚類過(guò)程中,以優(yōu)化聚類結(jié)果。
在聚類分析中,參數(shù)的選擇對(duì)結(jié)果具有重要影響。例如,在DBSCAN算法中,需要選擇合適的鄰域半徑(Eps)和最小點(diǎn)數(shù)(MinPts);在層次聚類中,需要確定初始的聚類劃分。這些參數(shù)的選擇通常需要依賴經(jīng)驗(yàn)或者試錯(cuò),但單純依靠經(jīng)驗(yàn)或試錯(cuò)往往無(wú)法保證得到最優(yōu)的聚類結(jié)果,因此需要考慮使用遺傳算法來(lái)動(dòng)態(tài)優(yōu)化這些參數(shù)的選擇。遺傳算法是一種模擬自然選擇和遺傳機(jī)制的優(yōu)化算法,可以動(dòng)態(tài)優(yōu)化DBSCAN的Eps和MinPts參數(shù),以及層次聚類的初始劃分。具體來(lái)說(shuō),可以將這些參數(shù)編碼為個(gè)體的基因,再通過(guò)遺傳算法尋找最優(yōu)的參數(shù)組合,從而在全局范圍內(nèi)尋找到最優(yōu)的聚類結(jié)果。
為了將聚類結(jié)果可視化并對(duì)其進(jìn)行解釋,可使用熱圖來(lái)展示基因表達(dá)譜數(shù)據(jù)的聚類結(jié)果。熱圖是一種常用的數(shù)據(jù)可視化方式,可以將數(shù)據(jù)矩陣表示為一個(gè)顏色編碼的矩形,從而便于觀察數(shù)據(jù)的聚類結(jié)構(gòu)和樣本間的相似性。
在聚類分析中,還需要選擇合適的聚類數(shù)目。為了確定最佳的聚類數(shù)目,本研究采用肘部法進(jìn)行分析。具體來(lái)說(shuō),分別計(jì)算不同聚類數(shù)目下的簇內(nèi)平方和SSE,并將SSE的變化情況繪制成圖表;通過(guò)觀察圖表,可以找到SSE曲線的拐點(diǎn),即“肘部”所在的位置,從而確定最佳的聚類數(shù)目。
3.相似性度量。在聚類分析中,相似性度量是一個(gè)關(guān)鍵步驟,能夠用來(lái)衡量不同基因或樣本之間的相似性或距離。常見(jiàn)的相似性度量方法包括歐幾里得距離、曼哈頓距離、皮爾遜相關(guān)系數(shù)等。
本研究采用Jaccard相似度作為玉米基因表達(dá)相似性度量,主要考量?jī)蓚€(gè)樣本之間共享基因表達(dá)的情況。Jaccard相似度是一種度量集合之間相似性的方法,主要用于處理離散或二值數(shù)據(jù)。在處理基因表達(dá)數(shù)據(jù)時(shí),可以將每個(gè)樣本的基因表達(dá)情況視為一個(gè)集合,即每個(gè)基因是否在某個(gè)閾值以上表達(dá)。具體來(lái)說(shuō),Jaccard相似度可以通過(guò)如下公式計(jì)算:
Jaccard(A,B)=|A∩B|/|AUB|
其中,A和B是兩個(gè)樣本的基因表達(dá)集合,“∩”表示集合的交集,“∪”表示集合的并集,“|”表示集合的元素個(gè)數(shù)。Jaccard相似度的值介于0-1之間,值越大表示兩個(gè)樣本的相似度越高。使用Jaccard相似度的優(yōu)點(diǎn)是只關(guān)注兩個(gè)樣本共享的基因表達(dá),忽略只在一個(gè)樣本中出現(xiàn)的基因表達(dá),能夠更好地捕捉基因表達(dá)譜的共享模式,從而提供更加穩(wěn)健的聚類結(jié)果。
二、結(jié)果與分析
1.聚類結(jié)果。在聚類分析的基礎(chǔ)上,本研究對(duì)玉米基因表達(dá)譜數(shù)據(jù)進(jìn)行了多種相似性度量方法的比較,并使用了三種不同的聚類算法,分別是層次聚類、DBSCAN和遺傳算法-DBSCAN,聚類結(jié)果如表1所示。
由表1可以看出,本研究將選取的樣本分成三個(gè)聚類,每個(gè)聚類內(nèi)樣本數(shù)目和聚類算法、相似性度量方法的選擇都有所不同,而不同聚類算法和相似性度量方法的選擇都會(huì)對(duì)聚類結(jié)果產(chǎn)生影響。本研究通過(guò)應(yīng)用不同的聚類算法和相似性度量方法,發(fā)現(xiàn)在遺傳算法-DBSCAN和Jaccard相似度方法下,聚類效果最好;在DBSCAN聚類算法和余弦相似度相似性度量方法下,聚類效果最差。
2.差異基因篩選。首先,使用差異表達(dá)分析工具DESeq2,對(duì)每個(gè)樣本在不同生長(zhǎng)階段和組織中的表達(dá)值進(jìn)行差異分析。通過(guò)設(shè)置閾值,篩選出具有顯著差異表達(dá)的基因,包括上調(diào)基因和下調(diào)基因。本研究將篩選出的差異基因定義為在至少兩個(gè)生長(zhǎng)階段或組織中,相較于參考基準(zhǔn),表達(dá)值呈兩倍或兩倍以上的顯著差異(FDR校正后p<0.05)。這些差異基因在不同生長(zhǎng)階段和組織中表達(dá)差異顯著,表明它們可能在調(diào)控玉米生長(zhǎng)和發(fā)育過(guò)程中發(fā)揮著重要作用。差異基因篩選的結(jié)果如表2所示。
其次,為了進(jìn)一步明晰差異基因的生物學(xué)意義,本研究進(jìn)行了GO(Gene Ontology)富集分析。將差異基因輸入DAVID(Database for Annotation,Visualization and Integrated Discovery)在線工具中進(jìn)行富集分析,使用默認(rèn)參數(shù)設(shè)置。結(jié)果顯示,這些差異基因在生物學(xué)過(guò)程、細(xì)胞組分和分子通路等方面呈現(xiàn)出顯著富集。表3列出了其中一些具有代表性的富集結(jié)果。
最后,進(jìn)行KEGG(Kyoto Encyclopedia of Genes and Genomes)通路分析,結(jié)果發(fā)現(xiàn)這些差異基因主要富集在一些與代謝、免疫反應(yīng)和信號(hào)傳導(dǎo)等有關(guān)的通路中,如表4所示。
綜合以上結(jié)果,可以初步認(rèn)識(shí)到這些差異基因在生物學(xué)過(guò)程、分子機(jī)制和代謝通路等方面的富集情況,為進(jìn)一步深入研究其生物學(xué)意義提供了一定的參考。
三、討論
1.聚類分析結(jié)果。本研究通過(guò)聚類分析對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)行分類,得到了不同的基因表達(dá)模式。將聚類結(jié)果進(jìn)行可視化并加以分析,發(fā)現(xiàn)在樣本中存在顯著的基因表達(dá)模式差異。例如,第一類基因中樣本來(lái)自玉米根組織,且在生長(zhǎng)階段中均處于幼苗期,這些樣本的基因表達(dá)模式比較相似,也符合玉米幼苗期根組織的生物學(xué)特性;第二類基因中樣本來(lái)自玉米葉片組織,且在生長(zhǎng)階段中均處于成熟期,這些樣本的基因表達(dá)模式也比較相似,符合玉米成熟期葉片組織的生物學(xué)特性。
2.差異基因篩選結(jié)果。通過(guò)對(duì)這些差異基因進(jìn)行進(jìn)一步分析,發(fā)現(xiàn)它們主要參與了一些生物學(xué)過(guò)程和分子通路。例如,在上調(diào)基因中發(fā)現(xiàn)了許多與光合作用相關(guān)的基因,與葉片組織在光合作用過(guò)程中的重要作用相一致;在下調(diào)基因中存在許多與細(xì)胞分裂和增殖有關(guān)的基因,也與根組織在生長(zhǎng)和發(fā)育過(guò)程中的重要作用相一致。此外,對(duì)這些差異基因進(jìn)行GO富集分析后發(fā)現(xiàn),在生物學(xué)功能和細(xì)胞組分方面,這些差異基因主要參與了光合作用、細(xì)胞壁合成、細(xì)胞膜轉(zhuǎn)運(yùn)等生物學(xué)過(guò)程。
作者簡(jiǎn)介:袁浩恩(1997-),男,漢族,重慶長(zhǎng)壽人,碩士研究生在讀,研究方向?yàn)榻y(tǒng)計(jì)大數(shù)據(jù)分析。
劉曉慧(1998-),女,漢族,碩士研究生在讀,研究方向?yàn)榻?jīng)濟(jì)統(tǒng)計(jì)。