• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大豆泛基因組研究進展

      2024-03-22 06:54:48劉羽誠申妍婷田志喜
      遺傳 2024年3期
      關(guān)鍵詞:基因組研究變異基因組

      劉羽誠,申妍婷,田志喜,2

      優(yōu)博專欄

      大豆泛基因組研究進展

      劉羽誠1,申妍婷1,田志喜1,2

      1. 中國科學院遺傳與發(fā)育生物學研究所,種子創(chuàng)新重點實驗室,北京 100101 2. 中國科學院大學,北京 101408

      人工馴化為農(nóng)業(yè)發(fā)展提供了原始驅(qū)動力,也深刻地改變了許多動植物的遺傳背景。伴隨組學大數(shù)據(jù)理論和技術(shù)體系的發(fā)展,作物基因組研究已邁入泛基因組時代。借助泛基因組的研究思路,通過多基因組間的比較和整合,能夠評估物種遺傳信息上界和下界,認知物種的遺傳多樣性全貌。此外,將泛基因組與染色體大尺度結(jié)構(gòu)變異、群體高通量測序及多層次組學數(shù)據(jù)相結(jié)合,可以進行更為深入的性狀-遺傳機制解析。大豆((L.) Merr.)是重要的糧油經(jīng)濟作物,大豆產(chǎn)能關(guān)乎國家糧食安全。對大豆遺傳背景形成、重要農(nóng)藝性狀關(guān)鍵位點的解析,是實現(xiàn)更高效的大豆育種改良的前提。本文首先對泛基因組學的核心問題進行了闡述,解釋了從頭組裝/比對組裝、迭代式組裝和圖基因組等泛基因組研究策略的演變歷程和各自特征;接著對作物泛基因組研究的熱點問題進行了概括,并且以大豆為例詳細闡釋了包括類群選擇、泛基因組構(gòu)建、數(shù)據(jù)挖掘等方面在內(nèi)的泛基因組研究的開展思路,著重說明染色體結(jié)構(gòu)變異在大豆演化/馴化歷程中的貢獻及其在農(nóng)藝性狀遺傳基礎挖掘上的價值;最后討論了圖泛基因組在數(shù)據(jù)整合、結(jié)構(gòu)變異計算方面的應用前景。本文對作物泛基因組未來的發(fā)展趨勢進行了展望,以期為作物基因組學及數(shù)據(jù)科學研究提供參考。

      大豆;泛基因組;結(jié)構(gòu)變異;演化;馴化

      近20年來基因組學經(jīng)歷了爆發(fā)式的發(fā)展,如今已經(jīng)成為生命科學領(lǐng)域研究的重要范疇。基因組承載著生命體的基本遺傳信息,一個高質(zhì)量的基因組是展開深度遺傳學及分子功能研究的先決條件。然而,隨著基因組學理論體系的延展、測序技術(shù)的革新、數(shù)據(jù)維度和數(shù)據(jù)需求的不斷豐富,研究者對基因組本身的認知經(jīng)歷了不斷的擴充與迭代。將單一的參考基因組作為特定物種或者類群基因組的“標準品”,其代表性和蘊含的生物多樣性始終是有限的。物種內(nèi)、種系間的差異是解析種群演化和表型特征形成的關(guān)鍵,不能被忽視。針對這些問題,研究人員不斷探索新的研究方法與思路,這此過程中考慮多個代表性基因組比較與整合的泛基因組學(pan-genomics)框架得以建立,成為現(xiàn)今研究的熱點方向。

      作物分子設計育種是解決國家糧食安全問題的重要手段,而高質(zhì)量的作物基因組是遺傳學家、育種家認識改造作物的關(guān)鍵基礎。作物基因組演化存在諸多特征。一方面,植物基因組中基因組序列重復、基因組加倍、多倍化等事件更為頻繁,使得植物在染色體水平上積累了更多的結(jié)構(gòu)差異[1];另一方面,作物馴化改良是一致性和多樣化兼有的過程,盡管品種/品系之間具備高度的可比性,但單個品種/品系的基因組并不能代表整個作物的遺傳背景。因此研究者認識到,使用單個基因組作為參考開展作物遺傳與功能基因組研究,很可能低估研究對象遺傳分化的程度并遺失諸多重要的遺傳變異[2,3]。以上特征表明作物是開展泛基因組研究的良好素材,而泛基因組也是深度解析作物基因組多樣性、挖掘農(nóng)藝性狀相關(guān)位點的重要方法。作為傳統(tǒng)基因組形式的補充和擴展,泛基因組現(xiàn)今已成為作物基因組圖譜繪制和遺傳解析的常用手段[4,5]。

      大豆()是我國重要的作物和經(jīng)濟物資,由于需求的激增導致供給不足,國內(nèi)大豆不得不大量依賴進口。改良種質(zhì),培育高產(chǎn)、穩(wěn)產(chǎn)、高品質(zhì)、適應不同農(nóng)田環(huán)境的大豆,是提高大豆產(chǎn)量的關(guān)鍵。中國擁有最豐富的大豆遺傳資源以及多樣的栽植生態(tài)區(qū)系,采用泛基因組的研究方法,厘清大豆的遺傳變異,發(fā)掘新的或未被充分使用的遺傳位點,結(jié)合分子設計育種等手段,對于推進中國大豆品種的選優(yōu)改良,具有重要意義。

      1 泛基因組概述

      1.1 泛基因組概念的發(fā)展

      泛基因組(pan-genome)的詞綴“pan”來源于希臘語,意為“全”、“一切”。泛基因組通常意義上是指代一個物種/類群所有基因組,或代表性基因組的總和。在研究的早期,測序技術(shù)產(chǎn)出的數(shù)據(jù)質(zhì)量有限,測序成本高昂,在許多真核生物中獲得單個高質(zhì)量組裝基因組是十分困難的事情。因此,往往用單個或少數(shù)高完成度的基因組作為一個物種或是一個類群的代表或參考。而在一些原核生物中,由于基因組規(guī)模小,獲取基因組相對容易,研究人員通??梢垣@得同一個類群中多個個體的完整基因組,并且開展多基因組間的整體比對。這類工作最早由Tettelin等[6]于2005年在無乳鏈球菌()中開展,是泛基因組研究的雛形。

      然而泛基因組的概念推廣到更復雜的動植物等真核生物類群并沒有那么迅速。首先,通常情況下真核生物基因組相比細菌要大得多,這意味著基因組測序的成本和后續(xù)組裝消耗的算力、時間資源都很巨大。其次,真核生物基因組更為復雜,多倍體、高重復序列、高雜合度等情況都會增加基因組組裝的難度[7~10]。并且由于基因組成分復雜,有大量非基因區(qū)序列、重復序列的存在,使得泛基因組組分評估及基因組差異的鑒定也不易進行[11]。近幾年,隨著測序技術(shù)的發(fā)展,測序成本下降,比較基因組學手段不斷完善,這些問題才逐漸得到解決。從原核生物到真核生物,泛基因組的范疇也從包含全體注釋基因擴展到包含所有基因組序列。而伴隨組學研究維度的開拓,泛組學概念的應用也從基因組層面延伸到如泛轉(zhuǎn)錄組、泛三維基因組等層面[12,13]。

      1.2 泛基因組研究的核心問題

      泛基因組研究的核心問題,是對物種/類群基因組完備性或者代表性遺傳信息的描述[14]。與群體遺傳學類似,泛基因組的研究對象并非單一個體。然而群體遺傳學層面的基因組研究側(cè)重于發(fā)掘變異位點及遺傳多態(tài)性,即個體間的異質(zhì)性。而個體間的異質(zhì)性和同質(zhì)性,即共享與差異的基因組成分,均為泛基因組研究描述的內(nèi)容。通過泛基因組研究,人們能了解一個物種/類群的完整基因組架構(gòu),并借此推斷構(gòu)成這一物種/類群的核心遺傳信息(即基因組下界),以及物種/類群的遺傳分化程度(即基因組上界)。

      此外,泛基因組研究涉及基因組間的比較和整合,其中對不同基因組間染色體結(jié)構(gòu)變異(structural variation,SV)的挖掘和處理也成為研究的重要環(huán)節(jié)[15]。相較于單核苷酸多態(tài)性(single nucleotide polymorphism,SNP),結(jié)構(gòu)變異的長度不定,變異類型更為復雜,處理難度也更高。同時,結(jié)構(gòu)變異引起的基因組改變更為劇烈,更易引起物種間表型特征的多態(tài)性。這類變異在基因組學研究的早期,因為技術(shù)和成本的限制,很難作為重要的研究方向,而如今則成為泛基因組研究聚焦的重點之一。對于染色體結(jié)構(gòu)變異的處理,也體現(xiàn)了泛基因組實踐策略的不同發(fā)展階段。

      2 泛基因組實踐策略及研究實例

      2.1 從頭組裝/比對組裝基因組

      泛基因組構(gòu)建需要對物種/類群的代表性個體進行仔細篩選,進行基因組測序。獲得數(shù)據(jù)后,最常規(guī)的策略是分別對每個個體進行基因組從頭組裝,將單獨組裝的基因組數(shù)據(jù)集作為泛基因組[16~18];或者將測序數(shù)據(jù)比對到一個高質(zhì)量的參考基因組上,并將無法比對的數(shù)據(jù)分類出來單獨進行組裝,作為現(xiàn)有參考基因組的擴展集,形成“參考基因組+額外序列”,即“共有序列+染色體差異序列”的形式[19~21]。

      這類方法在實踐層面上最為簡單,在泛基因組研究的早期有較多應用,但也存在諸多問題。單獨基因組形式的泛基因組通常包含過多冗余的數(shù)據(jù)量和數(shù)據(jù)維度。而“參考基因組+額外序列”的方式對于泛基因組的組織并不直觀有效。因此研究者需要探索更為高效合理的泛基因組數(shù)據(jù)組織形式。

      2.2 迭代式泛基因組

      迭代式基因組是一類經(jīng)過實踐的參考基因組整合方法。該類方法從一個參考基因組(往往是高質(zhì)量或已被廣泛認可的基因組)開始,依次將其他樣品的測序讀段比對到參考基因組上,并且直接修改當前參考基因組,在恰當?shù)奈恢锰砣敕侨哂嗟娜旧w差異序列。參考基因組在這個過程中不斷被迭代升級,最終成為一個兼容多基因組狀態(tài)的線性基因組[2,22]。這類方法主要在甘藍中得以實踐,獲得了99 Mb的額外序列,并且繪制了多個體來源整合的染色體變異圖譜[22]。

      迭代式泛基因組相較于從頭組裝的泛基因組整合度高,不引入額外序列,并且類似傳統(tǒng)的線性基因組,更易于理解。但實現(xiàn)過程中對于原有基因組的覆蓋將不可避免丟失許多單獨基因組狀態(tài)下的特征。因此,迭代式組裝盡管減少了信息的冗余,也同時存在大量的信息丟失[11]。

      2.3 基于圖論的泛基因組

      基因組學的快速發(fā)展對泛基因組提出了更全面的數(shù)據(jù)結(jié)構(gòu)訴求。泛基因組除了提供個體間共享和特異序列信息的記錄存儲外,還承擔著數(shù)據(jù)的調(diào)用、檢索、可視化、比對等多種功能?;趫D論的基因組(即圖基因組)是滿足以上需求的有效形式。該方法首先選擇一個基因組作為本底,通過讀段比對或者染色體共線性比較的方式,獲得各個樣品相對于參考基因組的變異位置及變異內(nèi)容。最后依照上述信息,采用圖論的方式將參考序列與變異序列以節(jié)點方式存儲,并且用邊代表他們的連接關(guān)系[2,4,11,23]。

      盡管圖基因組并不像傳統(tǒng)線性基因組那樣直觀,但其最大程度壓縮了冗余信息,并且保留了有義信息。此外圖基因組可以靈活地進行數(shù)據(jù)組合與還原,保證了組學數(shù)據(jù)的可讀性。對于基因組較大,變異復雜的真核生物,圖基因組是更適合的方法,也成為現(xiàn)在的趨勢[24~28]。此外,圖基因組更兼容計算機的I/O形式,能夠更快、更有效地進行基于二代測序數(shù)據(jù)的比對和結(jié)構(gòu)變異檢測。目前,圖基因組是泛基因組數(shù)據(jù)存儲、調(diào)用、展示等綜合性能最佳的形式,越來越多的基因組分析工具開始向該方向發(fā)展,如vg (Variation Graph toolkit)[26]、GraphTyper2[25]、Giraffe[29]、odgi (Optimized Dynamic Genome/Graph Implementation)[30]、pggb (PanGenome Graph Builder)[31]等。一些經(jīng)典的工具,如HISAT2[32]也有此方面功能的拓展。圖基因組在泛基因組,尤其是植物泛基因組學領(lǐng)域,目前已經(jīng)有了很多實踐,逐漸成為研究的主流方法。

      2.4 作物泛基因組研究

      2011年,Gan等[33]對擬南芥()自然群體材料的基因組比較是植物泛基因組研究的開端。該工作從頭組裝了18個擬南芥的單拷貝序列基因組,通過比較發(fā)現(xiàn)了相對參考基因組共有28.3 Mb非冗余變異序列,平均每個樣品4.5~7.6 Mb。此后泛基因組研究逐漸在植物中興起,并且在近10年間高速發(fā)展。目前許多植物,特別是作物都完成了從單一參考基因組到泛基因組的整合與跨越[20,22,34~39]。早期植物泛基因組多采用從頭組裝/比對組裝的策略進行構(gòu)建,部分研究采用了迭代組裝方式(表1)。在近期的研究中,從頭組裝結(jié)合圖泛基因組已經(jīng)成為主流的泛基因組研究策略(表1)。泛基因組研究在一定程度上揭示了作物物種內(nèi)或近緣種間的基因組變異規(guī)模。對比一些研究結(jié)果可以得出,在不同植物類群的泛基因組中,核心基因家族占總基因家族數(shù)量的40%~70%,表明30%~60%的基因家族在物種內(nèi)發(fā)生了獲得/丟失的變異[16,17,19~22,40,41]。

      泛基因組是深度挖掘農(nóng)藝性狀與基因組變異,尤其是染色體結(jié)構(gòu)變異關(guān)聯(lián)性的有效手段。一方面,對于已知基因或位點,泛基因組能夠提供更新、更全面的變異認知。野生大豆()的泛基因組研究比較了大豆開花途徑基因的變異,發(fā)現(xiàn)、、、、、等基因在野生及栽培大豆基因組間均存在蛋白差異,并且在野生大豆中存在一個參考基因組WM82中沒有的亞型[17]。這些變異可能導致了野生和栽培大豆開花特征的分化。66份野生和栽培水稻的泛基因組研究充分挖掘了、等位點的多種單倍型,涉及SNP和Indel的多種組合,加深了對水稻品質(zhì)、花期等復雜農(nóng)藝性狀的理解[42]。谷子()泛基因組研究表明,種質(zhì)間落粒性、籽粒大小差異與染色體結(jié)構(gòu)變異相關(guān)。其中,在其他谷物中被平行選擇的基因,在谷子中也發(fā)生了一個855 bp的存在/缺失變異(presence and absence variation,PAV),造成基因的獲得/缺失,進而控制落粒性的變化[40]。這也體現(xiàn)出在谷物中功能的保守性和利用改造價值。另一方面,群體結(jié)構(gòu)變異數(shù)據(jù)可以用作關(guān)聯(lián)分析,發(fā)揮和SNP相當或者互補的效力。Song等[43]在油菜()泛基因組研究中使用PAV數(shù)據(jù)進行種子重量的全基因組關(guān)聯(lián)分析(genome wide associated study,GWAS),其信號區(qū)間和使用SNP的計算結(jié)果重疊,而其中一個3.6 kb的PAV位于信號峰值。該變異為轉(zhuǎn)座元件(transposable element,TE)插入,統(tǒng)計NAM群體的表型發(fā)現(xiàn)該變異的存在/缺失和角果長度和種子重量都顯著相關(guān)。而該TE下游為基因,推測變異影響了該基因的表達,從而造成性狀的變化。谷子泛基因組研究中對千粒重、粒寬的SV-GWAS分析找到一個控制相關(guān)表型的基因及變異位點[40]。該基因啟動子區(qū)發(fā)生了366 bp的PAV。實驗表明,該序列變異導致基因表達量改變,相關(guān)過表達株系也表現(xiàn)出粒寬的顯著下降。水稻中對于產(chǎn)量的分析發(fā)現(xiàn),使用結(jié)構(gòu)變異進行GWAS分析能夠檢測到比SNP更為顯著的關(guān)聯(lián)位點,其中位于基因上游的一個1.4 kb序列存在/缺失與產(chǎn)量表型密切關(guān)聯(lián)[44]。

      表1 植物泛基因組研究實例匯總

      3 大豆泛基因組研究

      3.1 大豆屬泛基因組組成

      2014年野生大豆的泛基因組研究是植物中第一項明確泛基因組概念的工作[17]。然而其數(shù)據(jù)質(zhì)量、全面性和挖掘深度都受到了時代和技術(shù)的制約。2020年一項包含大豆屬亞屬的野生、栽培大豆在內(nèi),26個大豆種質(zhì)材料基因組、轉(zhuǎn)錄組及近3000份種質(zhì)材料重測序的工作則更精準地描繪了大豆的遺傳變異圖譜,系統(tǒng)闡述了染色體結(jié)構(gòu)變異在大豆演化/馴化中發(fā)揮的作用[39]。該研究從2898份來自世界大豆主要栽植區(qū)的種質(zhì)資源中共檢測到約3千萬個單核苷酸變異位點。根據(jù)系統(tǒng)發(fā)育關(guān)系,挑選出26個代表性的種質(zhì),進行基因組從頭組裝和泛基因組構(gòu)建。這26個種質(zhì)按類群劃分包括野生、農(nóng)家種、栽培品種,按用途劃分包括骨干親本及區(qū)域主栽品種等,從頭組裝基因組大小在992.3~1059.8 Mb之間,樣品序列錨定在染色體上的比率平均為99.0%,二代測序比對回自身基因組的比對率平均在99.4%?;蚪M重復序列注釋檢測到大豆基因組的平均重復序列比例為54.4%,蛋白編碼基因注釋表明大豆泛基因組樣品平均注釋基因數(shù)量為56,522,BUSCO檢驗平均達到95.6%。以上結(jié)果符合大豆基因組的基本特征,說明基因組組裝注釋質(zhì)量達到高水平。

      對26個大豆從頭組裝基因組,連同已經(jīng)報道的ZH13的基因組進行基因家族聚類,所有基因被分入57,492個基因家族,這與之前野生大豆中報道的數(shù)量接近[17]。對不同品種數(shù)量構(gòu)建的泛基因、核心基因家族數(shù)目的抽樣統(tǒng)計顯示,泛基因組的數(shù)量在25個樣品時到達了平臺期,意味著該研究的取樣對于大豆基因組已具有足夠的代表性。將基因家族按樣品出現(xiàn)的頻數(shù)作為劃分,得到大豆的核心基因家族(頻數(shù)為27) 20,623個,松弛核心基因家族(頻數(shù)為25、26) 8163個,非必需基因家族(頻數(shù)為2~24) 28,679個,私有基因家族(頻數(shù)為1) 27個。由此得出,大豆泛基因組中核心(及松弛核心)基因家族占總基因家族的50.1%,非必需及私有家族(可變家族)的數(shù)量占49.9%。該結(jié)果符合以往研究得出的植物中30%~ 60%的基因家族為可變家族的認知[16,17,19~22,40,41]。

      3.2 大豆屬泛基因組變異

      泛基因組包含的變異是否能反應物種群體水平的變異,是值得探討的問題。以ZH13基因組作為參考,結(jié)合26個泛基因組樣品和已報道的WM82及W05的基因組數(shù)據(jù),在29個大豆基因組上檢測到14,604,953個SNP和12,716,823個Indel (≤50 bp)[39]。該數(shù)據(jù)與2898份重測序的變異數(shù)據(jù)進行比較,盡管SNP數(shù)量比2898份重測序要少,但是二者分布特征相似。以500 kb區(qū)間為窗口進行全基因組掃描,過濾2898份重測序中次等位基因頻率(minor allele frequency,MAF)<0.01的位點后,其與29個基因組中SNP數(shù)量的皮爾森相關(guān)性系數(shù)為0.553。此外π、d/d等群體遺傳學特征值在29個基因組與2898份重測序數(shù)據(jù)間同樣具有很高的相關(guān)性。這表明泛基因組對于變異的檢測具有群體水平的代表性。

      大尺度結(jié)構(gòu)變異(>50 bp)采用短序列測序方式往往很難鑒定。通過基因組比對的方式,以ZH13為參考在28個大豆基因組中檢測到共計776,399個結(jié)構(gòu)變異,其中723,862個PAV、27,531個拷貝數(shù)變異(copy number variation,CNV)、21,886個易位事件、3120個倒位事件[39]。PAV的長度主要分布在1~2 kb,易位長度主要分布在10~30 kb,倒位長度主要分布在100~200 kb。CNV的變化倍數(shù)主要在2~3倍。泛基因組中檢測到的723,862個PAV共計4.71 Gb序列長度,平均每個樣品167.09 Mb,占基因組大小約16%。比較每個樣品的獲得與缺失序列長度之差,及其與ZH13基因組大小之差,發(fā)現(xiàn)二者具有很高的相關(guān)性,說明PAV是造成樣品間基因組大小差異的主要來源。在大豆中結(jié)構(gòu)變異在基因組重復序列區(qū)域顯著富集,其中78.5%的PAV來自于DNA重復。對番茄()泛基因組研究發(fā)現(xiàn)84%的序列缺失與76%的序列插入變異與重復序列重合(>100 bp)[45]。對黍()的泛基因組研究發(fā)現(xiàn)PAV與TE的重合比例在70%左右[46]。這些結(jié)果暗示一些植物中序列重復事件可能是結(jié)構(gòu)變異發(fā)生的重要驅(qū)動力,進而導致物種內(nèi)基因組大小的波動。

      3.3 大豆屬圖泛基因組構(gòu)建

      大豆是首個實踐了圖泛基因組構(gòu)建的植物,為后續(xù)作物的泛基因組研究開拓了新思路(圖1A)。構(gòu)建圖泛基因組,需要對結(jié)構(gòu)變異數(shù)進行合并和過濾,一方面降低構(gòu)建圖基因組的計算負擔,另一方面減少最終圖基因組的復雜度和假陽性。在29個大豆基因組中檢測到776,399個結(jié)構(gòu)變異,根據(jù)位點和類型進行合并,非冗余結(jié)構(gòu)變異總數(shù)隨樣品增加而增加,最終趨于穩(wěn)定,得到共計124,222個非冗余結(jié)構(gòu)變異位點[39]。與此同時,共有的結(jié)構(gòu)變異最終收斂到130個。野生大豆相較于栽培大豆,私有結(jié)構(gòu)變異所占的比例更大。

      圖1 作物泛基因組研究策略及認知

      A:圖泛基因組研究基本流程,包括群體測序篩選代表性樣品、結(jié)構(gòu)變異分析、圖泛基因組構(gòu)建、群體結(jié)構(gòu)變異檢測等;B~E:泛基因組視角下的大豆農(nóng)藝性狀、演化歷程遺傳機制認知,包括基因獲得/缺失與種皮亮度(B)、基因融合與基因多態(tài)性(C)、染色體重排與種皮顏色(D)、結(jié)構(gòu)變異對基因表達調(diào)控與種質(zhì)分布(E);F:異源多倍體大豆的冗余基因丟失與亞基因組偏好性。

      此外,研究表明將結(jié)構(gòu)變異中重復序列占總長度90%的條目過濾,是有效的數(shù)據(jù)壓縮、降低錯誤率的策略。Liu等[39]采用vg工具,以過濾后的結(jié)構(gòu)變異數(shù)據(jù)為輸入,ZH13基因組為底盤基因組,構(gòu)建可用于檢索和二代數(shù)據(jù)比對的大豆圖泛基因組索引文件。將2898個大豆樣品重測序數(shù)據(jù)比對到圖泛基因組上,共計檢測到55,402個結(jié)構(gòu)變異。采用圖泛基因組檢測結(jié)構(gòu)變異的精確率、召回率及F-score分別為0.94、0.75和0.83,表明圖泛基因組結(jié)合群體二代測序數(shù)據(jù)是作物中進行大規(guī)模結(jié)構(gòu)變異檢測的可行方法。圖泛基因組流程檢測的結(jié)構(gòu)變異N50為659/595 bp(缺失/插入),遠高于GATK流程的3/3 bp,說明圖泛基因組流程對于大尺度結(jié)構(gòu)變異檢測具有很好的效力。相對于28個基因組中檢測到的變異,在約3000份群體水平找到3584個新的結(jié)構(gòu)變異,占總變異數(shù)的6.5%,并且這些變異的出現(xiàn)頻率較低。野生大豆中檢測到的已有和新結(jié)構(gòu)變異的數(shù)量均明顯高于農(nóng)家種和栽培大豆。水稻中相似研究檢測到的新結(jié)構(gòu)變異占總變異數(shù)的16.4%[34],但該研究的圖泛基因組構(gòu)建僅針對栽培稻進行。這也側(cè)面反應出作物的野生種可能持有更豐富的變異類型,在作物泛基因組研究中加入野生類群可以很好地提升遺傳變異的覆蓋度。

      3.4 泛基因組助力大豆演化/馴化遺傳基礎

      GWAS分析是檢測與表型關(guān)聯(lián)的遺傳變異的有效手段,而群體水平檢測的結(jié)構(gòu)變異同樣能夠輔助農(nóng)藝性狀相關(guān)位點的挖掘(圖1B)。大豆種皮亮度是一個重要的性狀,以往研究報道其與一種大豆疏水性蛋白(HPS)的積累有關(guān)[47],但具體相關(guān)的基因仍未明確。Liu等[39]以圖泛基因組檢測的結(jié)構(gòu)變異為基因型,對種皮亮度表型進行了GWAS分析,在15號染色體上定位到一個信號區(qū)間。其中一個10 kb的PAV包含了一個編碼HPS結(jié)構(gòu)域的基因,并造成該基因在品種間的獲得/缺失。表型統(tǒng)計發(fā)現(xiàn),存在該10 kb序列的樣品種皮光亮的比例更高,說明該PAV是控制大豆種皮亮度的遺傳位點之一。

      位于基因區(qū)的結(jié)構(gòu)變異可能造成基因開放閱讀框(open reading frame,ORF)的改變,進而導致功能的丟失或分化。其中結(jié)構(gòu)變異造成的轉(zhuǎn)錄本通讀是一種較為特殊的情況,即由于序列丟失導致原本獨立轉(zhuǎn)錄的基因融合為一個轉(zhuǎn)錄本。轉(zhuǎn)錄本通讀引起的基因融合在基因進化過程中起到重要作用[48]。依賴大規(guī)模的泛基因組數(shù)據(jù),不僅能確認已有報道的等位基因,也能鑒定包括融合基因在內(nèi)的基因新結(jié)構(gòu)(圖1C),例如大豆開花相關(guān)的主效基因[49]。自然狀態(tài)下,以復等位基因的形式存在[50]。26個從頭組裝基因組的注釋基因與ZH13的進行比較,可以找到一個從第3個內(nèi)含子開始的13.3 kb缺失。該變異造成了其中一個基因()的完全丟失[39]。RNAseq數(shù)據(jù)顯示該變異除了導致的最后一個外顯子及的缺失外,還造成了和的轉(zhuǎn)錄本讀通。此外,該變異還造成了在缺失最后一個外顯子后獲得了一個額外的外顯子。PCR片段測序驗證了與的基因融合事件,以及外顯子改變事件是真實存在且相互獨立的。泛基因組挖掘并驗證了基因由結(jié)構(gòu)變異產(chǎn)生的大量多態(tài)性,包括基因融合與ORF改變等,這可能是塑造大豆區(qū)域適應性分化的重要原因。

      大豆的許多性狀控制遺傳位點,由于變異類型復雜、涉及基因多而難以被克隆[17,51~54]。大規(guī)模從頭組裝的基因組使得這類解析變得可能(圖1D)。大豆種皮顏色相關(guān)的位點是受馴化位點[54,55],使大豆種皮從黑色轉(zhuǎn)變?yōu)辄S色。該位點為一系列異黃酮代謝途徑中查爾斯酮合成酶()基因組成的基因簇,存在同源依賴的基因沉默(homology dependent gene silencing,HDGS)機制,調(diào)控基因的表達[56~58]。Liu等[39]在29個大豆基因組中調(diào)查種皮顏色的表型以及位點,發(fā)現(xiàn)4個野生大豆和農(nóng)家種SoyL02表現(xiàn)為黑色種皮,其余栽培大豆均為黃色種皮。位點及周邊的SNP構(gòu)建系統(tǒng)發(fā)育樹發(fā)現(xiàn)黑或黃種皮的樣品各自聚類在一起。結(jié)構(gòu)變異分析表明,相對于黑種皮類型基因組,一部分黃種皮樣品的基因組上存在一個約100 kb的倒位以及序列單元的重復,這與之前的報道相符[59]。然而另一部分樣品中,雖然這個約100 kb的倒位變異不存在,仍然表現(xiàn)出黃色種皮。盡管如此,其上有一段約23 kb的序列發(fā)生了重復,并且插入到其后的反向重復基因簇中,而這很可能導致了雙交換事件并造成周圍單元的假基因化。因此,位點周圍的染色體變異得到完整的解析,而調(diào)控機制有待于進一步探索。

      基因表達可能受到基因附近調(diào)控區(qū)序列變異的影響,進而導致農(nóng)藝性狀的變化。泛基因組結(jié)合轉(zhuǎn)錄組的研究策略能夠深入挖掘由染色體結(jié)構(gòu)變異導致的表達量差異,從而定位農(nóng)藝性狀的候選基因和變異(圖1E)。缺鐵萎黃是大豆在石灰土中種植時常見的病癥。Lin等[60]的研究已定位到若干與鐵離子利用效率相關(guān)的QTL位點,其中一個位于14號染色體。該QTL中存在一個注釋為鐵/鋅離子調(diào)控轉(zhuǎn)運蛋白的基因,其5′啟動子區(qū)在泛基因組中檢測到一個1.4 kb的PAV[39]。該PAV滿足轉(zhuǎn)座子DNA的序列特征[61],并且可以將26個大豆種質(zhì)分成兩組:未發(fā)生序列缺失和發(fā)生序列缺失的類型。RNA-seq數(shù)據(jù)表明,后者相對前者具有更高的表達量。結(jié)合群體基因型數(shù)據(jù)和樣品信息記錄發(fā)現(xiàn),1.4 kb序列缺失的樣品主要分布在緯度更高的種植區(qū),而未發(fā)生序列缺失樣品分布在緯度較低的地理區(qū)域。中國不同地理區(qū)域的土壤pH不同,進而影響鐵離子濃度。因此,區(qū)域差異可能是造成遺傳分化的誘因。

      3.5 多年生大豆泛基因組研究

      大豆屬除了分布于東亞地區(qū)的一年生大豆(亞屬)之外,還有約30個分布于澳大利亞的多年生大豆物種(亞屬)。該類群雖然和栽培大豆分化較大,但是部分物種染色體數(shù)目與栽培大豆相同,可能是栽培大豆?jié)撛诘倪z傳改良基因資源庫,具有研究價值。2022年,一項針對亞屬6個物種(5個二倍體和1個四倍體)的泛基因組研究系統(tǒng)地揭示了多年生大豆的基因組演化特征[62]。二倍體物種基因組大小為935.6~1373.8 Mb,平均大小1105 Mb左右,與亞屬大致接近,而基因組預測的蛋白質(zhì)編碼基因有70%在一年生大豆中缺失。多年生大豆相對栽培大豆而言,整體基因組變異幅度較大,遺傳資源應用可能更側(cè)重于定向基因改造或替換而非遠源雜交。

      以菜豆()為參考的比較基因組發(fā)現(xiàn),多年生大豆相對于一年生大豆,基因組重排事件更少,染色體更為穩(wěn)定。Zhuang等[62]研究計算了同源基因家族在一年生、多年生大豆中的Ka/Ks,發(fā)現(xiàn)52個家族在兩個亞屬中發(fā)生了凈化選擇;其中、等是與開花、植株發(fā)育相關(guān)的基因,在兩個亞屬內(nèi)計算Ka/Ks值低,但是在亞屬間計算則有較高的Ka/Ks值,暗示這些基因可能參與了亞屬間生活史策略的分化。

      物種多倍化后,往往會發(fā)生冗余基因的丟失,導致亞基因組的分化,這種分化通常具有偏好性[63,64]。Zhuang等[62]分別比較四倍體多年生大豆的兩套亞基因組(AtAtDtDt),發(fā)現(xiàn)多倍化前后兩套對應基因組間染色體序列重排少相對保守,而多倍化后的基因組上發(fā)生了不同程度的基因丟失;在中,Dt基因組上丟失了4019個基因,顯著多于At基因組上丟失的3242個基因;且相較于丟失的基因,保留的基因在原基因組上的表達量更高。這些跡象表明,A亞基因組相對于D亞基因組具有明顯的基因組優(yōu)勢(圖1F)。

      4 結(jié)語與展望

      4.1 未來泛基因組發(fā)展

      測序技術(shù)在過去的40年間飛速發(fā)展,積累了海量的數(shù)據(jù),包括大規(guī)模群體測序和從頭組裝基因組。在此基礎上,泛基因組學應運而生,并且受到學界越來越多的重視[4,14,65~70],成為作物遺傳育種研究的“利器”[35,40,71]。水稻、玉米、大豆、番茄等作物中不斷有泛基因組研究涌現(xiàn),這些結(jié)果或展示了不同研究類群框架下的基因組差異特征,或隨著研究技術(shù)的提升給出了更高質(zhì)量的組學參考數(shù)據(jù)。泛基因組作為一種基于比較基因組的研究方式,研究對象的選擇尤為關(guān)鍵。應根據(jù)研究目的劃定適合的類群范圍,挑選代表性個體。泛基因組構(gòu)建策略的選擇應根據(jù)樣品數(shù)量、測序成本以及最終期望呈現(xiàn)的數(shù)據(jù)結(jié)果綜合考慮。圖泛基因組作為當下泛基因組研究的前沿和熱點,整合構(gòu)建圖泛基因組的算法和軟件逐漸多樣成熟,但這些算法軟件多針對人類泛基因組的研究開發(fā)。目前植物研究中主要的泛基因組構(gòu)建策略多是通過三代測序獲得高質(zhì)量的從頭組裝染色體水平基因組,再借由比較基因組分析結(jié)構(gòu)變異構(gòu)建圖泛基因組。而圖泛基因組本身并不依賴除底盤基因組外其他樣品的染色體水平基因組組裝,因此,三代測序直接檢測結(jié)構(gòu)變異結(jié)合底盤基因組構(gòu)建圖泛基因組的方法可能是更低成本及更便利的一種方式。此外,針對植物基因組特征,開發(fā)解決重復序列比例大、染色體結(jié)構(gòu)變異復雜、基因組大小差異顯著的算法和軟件,將能夠有效提升植物圖泛基因組的精度和構(gòu)建效率。

      未來,對單一物種構(gòu)建泛基因組或許不是最終的目標,目前已有許多探索正在朝此發(fā)展。地球生物基因組計劃(Earth BioGenome Project)旨在組裝所有已知真核生物的代表性基因組[72]。類似的還有萬種植物基因組計劃(The Plant 10000 Genomes Project)等,該項目計劃對所有有胚植物、綠藻、原生生物的主要支系的代表性基因組進行測序并展開特征化描述[73]。此外,泛組學概念并不局限于經(jīng)典的基因組,泛三維基因組、泛轉(zhuǎn)錄組等多層次泛組學是今后值得嘗試的方向。

      4.2 多維組學數(shù)據(jù)應用

      大數(shù)據(jù)時代下,新的數(shù)據(jù)類型不斷涌現(xiàn),其應用和處理場景也日趨復雜。泛基因組研究通常會在一個物種/類群內(nèi)產(chǎn)生多套參考基因組數(shù)據(jù)。建立這些基因組間的關(guān)聯(lián),高效地進行多基因組的聯(lián)合檢索和調(diào)用,是后基因組時代迫切的數(shù)據(jù)需求。圖泛基因組是對這類問題很好的回答,但也帶來了新的挑戰(zhàn)。首先圖基因組是與以往不同的數(shù)據(jù)形式,針對這類數(shù)據(jù)開發(fā)的數(shù)據(jù)庫和前端應用目前仍然有限。如何將這些數(shù)據(jù)高效地服務于更多研究者,是值得探索的方向。大豆多維組學數(shù)據(jù)庫SoyOmics對圖泛基因組的單倍型檢索和數(shù)據(jù)可視化提供了實踐參考[74]。此外,全景多維組學的發(fā)展,對于當下數(shù)據(jù)的提煉和整合能力有了更深的要求。通過多維組學數(shù)據(jù)的聯(lián)合應用,提升生物信息學分析結(jié)果的精度和可信度,從而提高作物遺傳解析效率,最終服務于分子設計育種[75]。在此過程中,針對多層次組學信號的聯(lián)合處理與評估,以及多層次組學數(shù)據(jù)網(wǎng)絡的構(gòu)建,應該成為未來探索的重要方向。

      在后基因組時代,泛基因組能夠起到對傳統(tǒng)基因組的補充和發(fā)展作用,其價值和必要性已被證實。在大豆中,泛基因組、變異組、轉(zhuǎn)錄組、表觀組、表型組等多維度數(shù)據(jù)已有充分的積累。未來的遺傳育種研究應當利用好這些多維組學數(shù)據(jù),深度解析重要農(nóng)藝性狀的遺傳網(wǎng)絡,為分子設計育種提供有力指導,這也是提升大豆產(chǎn)量、改善大豆品質(zhì)的重要路徑。

      [1] Clark JW, Donoghue PCJ. Whole-genome duplication and plant macroevolution, 2018, 23(10): 933–945.

      [2] Danilevicz MF, Tay Fernandez CG, Marsh JI, Bayer PE, Edwards D. Plant pangenomics: approaches, applications and advancements, 2020, 54: 18–25.

      [3] Saxena RK, Edwards D, Varshney RK. Structural variations in plant genomes, 2014, 13(4): 296–307.

      [4] Golicz AA, Batley J, Edwards D. Towards plant pangenomics, 2016, 14(4): 1099–1105.

      [5] Tao YF, Zhao XR, Mace E, Henry R, Jordan D. Exploring and exploiting pan-genomics for crop improvement, 2019, 12(2): 156–169.

      [6] Tettelin H, Masignani V, Cieslewicz MJ, Donati C, Medini D, Ward NL, Angiuoli SV, Crabtree J, Jones AL, Durkin AS, Deboy RT, Davidsen TM, Mora M, Scarselli M, Margarit y Ros I, Peterson JD, Hauser CR, Sundaram JP, Nelson WC, Madupu R, Brinkac LM, Dodson RJ, Rosovitz MJ, Sullivan SA, Daugherty SC, Haft DH, Selengut J, Gwinn ML, Zhou LW, Zafar N, Khouri H, Radune D, Dimitrov G, Watkins K, O'Connor KJB, Smith S, Utterback TR, White O, Rubens CE, Grandi G, Madoff LC, Kasper DL, Telford JL, Wessels MR, Rappuoli R, Fraser CM. Genome analysis of multiple pathogenic isolates of: implications for the microbial “pan-genome”, 2005, 102(39): 13950–13955.

      [7] Baker M.genome assembly: what every biologist should know, 2012, 9(4): 333–337.

      [8] Edger PP, Poorten TJ, VanBuren R, Hardigan MA, Colle M, McKain MR, Smith RD, Teresi SJ, Nelson ADL, Wai CM, Alger EI, Bird KA, Yocca AE, Pumplin N, Ou SJ, Ben-Zvi G, Brodt A, Baruch K, Swale T, Shiue L, Acharya CB, Cole GS, Mower JP, Childs KL, Jiang N, Lyons E, Freeling M, Puzey JR, Knapp SJ. Origin and evolution of the octoploid strawberry genome, 2019, 51(3): 541–547.

      [9] Huang SF, Kang MJ, Xu AL. HaploMerger2: rebuilding both haploid sub-assemblies from high-heterozygosity diploid genome assembly, 2017, 33(16): 2577–2579.

      [10] Zhang JS, Zhang XT, Tang HB, Zhang Q, Hua XT, Ma XK, Zhu F, Jones T, Zhu XG, Bowers J, Wai CM, Zheng CF, Shi Y, Chen S, Xu XM, Yue JJ, Nelson DR, Huang LX, Li Z, Xu HM, Zhou D, Wang YJ, Hu WC, Lin JS, Deng YJ, Pandey N, Mancini M, Zerpa D, Nguyen JK, Wang LM, Yu L, Xin YH, Ge LF, Arro J, Han JO, Chakrabarty S, Pushko M, Zhang WP, Ma YH, Ma PP, Lv MJ, Chen FM, Zheng GY, Xu JS, Yang ZH, Deng F, Chen XQ, Liao ZY, Zhang XX, Lin ZC, Lin H, Yan HS, Kuang Z, Zhong WM, Liang PP, Wang GF, Yuan Y, Shi JX, Hou JX, Lin JX, Jin JJ, Cao PJ, Shen QC, Jiang Q, Zhou P, Ma YY, Zhang XD, Xu RR, Liu J, Zhou YM, Jia HF, Ma Q, Qi R, Zhang ZL, Fang JP, Fang HK, Song JJ, Wang MJ, Dong GR, Wang G, Chen Z, Ma T, Liu H, Dhungana SR, Huss SE, Yang XP, Sharma A, Trujillo JH, Martinez MC, Hudson M, Riascos JJ, Schuler M, Chen LQ, Braun DM, Li L, Yu QY, Wang JP, Wang K, Schatz MC, Heckerman D, Van Sluys MA, Souza GM, Moore PH, Sankoff D, VanBuren R, Paterson AH, Nagai C, Ming R. Allele-defined genome of the autopolyploid sugarcaneL, 2018, 50(11): 1565–1573.

      [11] Sherman RM, Salzberg SL. Pan-genomics in the human genome era, 2020, 21(4): 243–254.

      [12] Ni LB, Liu YC, Ma X, Liu TF, Yang XY, Wang Z, Liang QJ, Liu SL, Zhang M, Wang Z, Shen YT, Tian ZX. Pan-3D genome analysis reveals structural and functional differentiation of soybean genomes, 2023, 24(1): 12.

      [13] Hirsch CN, Foerster JM, Johnson JM, Sekhon RS, Muttoni G, Vaillancourt B, Pe?agaricano F, Lindquist E, Pedraza MA, Barry K, de Leon N, Kaeppler SM, Buell CR. Insights into the maize pan-genome and pan-transcriptome, 2014, 26(1): 121–135.

      [14] Vernikos G, Medini D, Riley DR, Tettelin H. Ten years of pan-genome analyses, 2015, 23: 148–154.

      [15] De Coster W, Weissensteiner MH, Sedlazeck FJ. Towards population-scale long-read sequencing, 2021, 22(9): 572–587.

      [16] Gordon SP, Contreras-Moreira B, Woods DP, Des Marais DL, Burgess D, Shu SQ, Stritt C, Roulin AC, Schackwitz W, Tyler L, Martin J, Lipzen A, Dochy N, Phillips J, Barry K, Geuten K, Budak H, Juenger TE, Amasino R, Caicedo AL, Goodstein D, Davidson P, Mur LAJ, Figueroa M, Freeling M, Catalan P, Vogel JP. Extensive gene content variation in thepan-genome correlates with population structure, 2017, 8(1): 2184.

      [17] Li YH, Zhou GY, Ma JX, Jiang WK, Jin LG, Zhang ZH, Guo Y, Zhang JB, Sui Y, Zheng LT, Zhang SS, Zuo QY, Shi XH, Li YF, Zhang WK, Hu YY, Kong GY, Hong HL, Tan B, Song J, Liu ZX, Wang YS, Ruan H, Yeung CKL, Liu J, Wang HL, Zhang LJ, Guan RX, Wang KJ, Li WB, Chen SY, Chang RZ, Jiang Z, Jackson SA, Li RQ, Qiu LJ.assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits, 2014, 32(10): 1045–1052.

      [18] Stein JC, Yu Y, Copetti D, Zwickl DJ, Zhang L, Zhang CJ, Chougule K, Gao DY, Iwata A, Goicoechea JL, Wei SR, Wang J, Liao Y, Wang MH, Jacquemin J, Becker C, Kudrna D, Zhang JW, Londono CEM, Song X, Lee S, Sanchez P, Zuccolo A, Ammiraju JSS, Talag J, Danowitz A, Rivera LF, Gschwend AR, Noutsos C, Wu CC, Kao SM, Zeng JW, Wei FJ, Zhao Q, Feng Q, El Baidouri M, Carpentier MC, Lasserre E, Cooke R, da Rosa Farias D, da Maia LC, Dos Santos RS, Nyberg KG, McNally KL, Mauleon R, Alexandrov N, Schmutz J, Flowers D, Fan CZ, Weigel D, Jena KK, Wicker T, Chen MS, Han B, Henry R, Hsing YC, Kurata N, de Oliveira AC, Panaud O, Jackson SA, Machado CA, Sanderson MJ, Long MY, Ware D, Wing RA. Genomes of 13 domesticated and wild rice relatives highlight genetic conservation, turnover and innovation across the genus, 2018, 50(2): 285–296.

      [19] Gao L, Gonda I, Sun HH, Ma QY, Bao K, Tieman DM, Burzynski-Chang EA, Fish TL, Stromberg KA, Sacks GL, Thannhauser TW, Foolad MR, Diez MJ, Blanca J, Canizares J, Xu YM, van der Knaap E, Huang SW, Klee HJ, Giovannoni JJ, Fei ZQ. The tomato pan-genome uncovers new genes and a rare allele regulating fruit flavor, 2019, 51(6): 1044–1051.

      [20] Hübner S, Bercovich N, Todesco M, Mandel JR, Odenheimer J, Ziegler E, Lee JS, Baute GJ, Owens GL, Grassa CJ, Ebert DP, Ostevik KL, Moyers BT, Yakimowski S, Masalia RR, Gao LX, ?ali? I, Bowers JE, Kane NC, Swanevelder DZH, Kubach T, Mu?os S, Langlade NB, Burke JM, Rieseberg LH. Sunflower pan-genome analysis shows that hybridization altered gene content and disease resistance, 2019, 5(1): 54–62.

      [21] Wang WS, Mauleon R, Hu ZQ, Chebotarov D, Tai SS, Wu ZC, Li M, Zheng TQ, Fuentes RR, Zhang F, Mansueto L, Copetti D, Sanciangco M, Palis KC, Xu JL, Sun C, Fu BY, Zhang HL, Gao YM, Zhao XQ, Shen F, Cui X, Yu H, Li ZC, Chen ML, Detras J, Zhou YL, Zhang XY, Zhao Y, Kudrna D, Wang CC, Li R, Jia B, Lu JY, He XC, Dong ZT, Xu JB, Li YH, Wang M, Shi JX, Li J, Zhang DB, Lee S, Hu WS, Poliakov A, Dubchak I, Ulat VJ, Borja FN, Mendoza JR, Ali J, Li J, Gao Q, Niu YC, Yue Z, Naredo MEB, Talag J, Wang XQ, Li JJ, Fang XD, Yin Y, Glaszmann JC, Zhang JW, Li JY, Hamilton RS, Wing RA, Ruan J, Zhang GY, Wei CC, Alexandrov N, McNally KL, Li ZK, Leung H. Genomic variation in 3,010 diverse accessions of Asian cultivated rice, 2018, 557(7703): 43–49.

      [22] Golicz AA, Bayer PE, Barker GC, Edger PP, Kim H, Martinez PA, Chan CKK, Severn-Ellis A, McCombie WR, Parkin IAP, Paterson AH, Pires JC, Sharpe AG, Tang HB, Teakle GR, Town CD, Batley J, Edwards D. The pangenome of an agronomically important crop plant, 2016, 7: 13390.

      [23] Iqbal Z, Caccamo M, Turner I, Flicek P, McVean G.assembly and genotyping of variants using coloredgraphs, 2012, 44(2): 226–232.

      [24] Audano PA, Sulovari A, Graves-Lindsay TA, Cantsilieris S, Sorensen M, Welch AE, Dougherty ML, Nelson BJ, Shah A, Dutcher SK, Warren WC, Magrini V, McGrath SD, Li YI, Wilson RK, Eichler EE. Characterizing the major structural variant alleles of the human genome, 2019, 176(3): 663–675.

      [25] Eggertsson HP, Kristmundsdottir S, Beyter D, Jonsson H, Skuladottir A, Hardarson MT, Gudbjartsson DF, Stefansson K, Halldorsson BV, Melsted P. GraphTyper2 enables population-scale genotyping of structural variation using pangenome graphs, 2019, 10(1): 5402.

      [26] Garrison E, Sirén J, Novak AM, Hickey G, Eizenga JM, Dawson ET, Jones W, Garg S, Markello C, Lin MF, Paten B, Durbin R. Variation graph toolkit improves read mapping by representing genetic variation in the reference, 2018, 36(9): 875–879.

      [27] Marcus S, Lee H, Schatz MC. SplitMEM: a graphical algorithm for pan-genome analysis with suffix skips, 2014, 30(24): 3476–3483.

      [28] Zhao YB, Jia XM, Yang JH, Ling YC, Zhang Z, Yu J, Wu JY, Xiao JF. PanGP: a tool for quickly analyzing bacterial pan-genome profile, 2014, 30(9): 1297–1299.

      [29] Sirén J, Monlong J, Chang X, Novak AM, Eizenga JM, Markello C, Sibbesen JA, Hickey G, Chang PC, Carroll A, Gupta N, Gabriel S, Blackwell TW, Ratan A, Taylor KD, Rich SS, Rotter JI, Haussler D, Garrison E, Paten B. Pangenomics enables genotyping of known structural variants in 5202 diverse genomes, 2021, 374(6574): abg8871.

      [30] Guarracino A, Heumos S, Nahnsen S, Prins P, Garrison E. ODGI: understanding pangenome graphs, 2022, 38(13): 3319–3326.

      [31] Garrison E, Guarracino A, Heumos S, Villani F, Bao ZG, Tattini L, Hagmann J, Vorbrugg S, Marco-Sola S, Kubica C, Ashbrook DG, Thorell K, Rusholme-Pilcher RL, Liti G, Rudbeck E, Nahnsen S, Yang ZY, Moses MN, Nobrega FL, Wu Y, Chen H, de Ligt J, Sudmant PH, Soranzo N, Colonna V, Williams RW, Prins P. Building pangenome graphs, 2023.

      [32] Kim D, Paggi JM, Park C, Bennett C, Salzberg SL. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype, 2019, 37(8): 907–915.

      [33] Gan XC, Stegle O, Behr J, Steffen JG, Drewe P, Hildebrand KL, Lyngsoe R, Schultheiss SJ, Osborne EJ, Sreedharan VT, Kahles A, Bohnert R, Jean G, Derwent P, Kersey P, Belfield EJ, Harberd NP, Kemen E, Toomajian C, Kover PX, Clark RM, Ratsch G, Mott R. Multiple reference genomes and transcriptomes for, 2011, 477(7365): 419–423.

      [34] Qin P, Lu HW, Du HL, Wang H, Chen WL, Chen Z, He Q, Ou SJ, Zhang HY, Li XZ, Li XX, Li Y, Liao Y, Gao Q, Tu B, Yuan H, Ma BT, Wang YP, Qian YW, Fan SJ, Li WT, Wang J, He M, Yin JJ, Li T, Jiang N, Chen XW, Liang CZ, Li SG. Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations, 2021, 184(13): 3542–3558.

      [35] Zhou Y, Zhang ZY, Bao ZG, Li HB, Lyu YQ, Zan YJ, Wu YY, Cheng L, Fang YH, Wu K, Zhang JZ, Lyu HJ, Lin T, Gao Q, Saha S, Mueller L, Fei ZJ, St?dler T, Xu SZ, Zhang ZW, Speed D, Huang SW. Graph pangenome captures missing heritability and empowers tomato breeding, 2022, 606(7914): 527–534.

      [36] Huang Y, He JX, Xu YT, Zheng WK, Wang SH, Chen P, Zeng B, Yang SZ, Jiang XL, Liu ZS, Wang L, Wang X, Liu SJ, Lu ZH, Liu Z, Yu HW, Yue JQ, Gao JY, Zhou XY, Long CR, Zeng XL, Guo YJ, Zhang WF, Xie ZZ, Li CL, Ma ZC, Jiao WB, Zhang F, Larkin RM, Krueger RR, Smith MW, Ming R, Deng XX, Xu Q. Pangenome analysis provides insight into the evolution of the orange subfamily and a key gene for citric acid accumulation infruits, 2023, 55(11): 1964–1975.

      [37] Jin SK, Han ZG, Hu Y, Si ZF, Dai F, He L, Cheng Y, Li YQ, Zhao T, Fang L, Zhang TZ. Structural variation (SV)-based pan-genome and GWAS reveal the impacts of SVs on the speciation and diversification of allotetraploid cottons, 2023, 16(4): 678–693.

      [38] Li HB, Wang SH, Chai S, Yang ZQ, Zhang QQ, Xin HJ, Xu YC, Lin SG, Chen XX, Yao ZW, Yang QY, Fei ZJ, Huang SW, Zhang ZH. Graph-based pan-genome reveals structural and sequence variations related to agronomic traits and domestication in cucumber, 2022, 13(1): 682.

      [39] Liu YC, Du HL, Li PC, Shen YT, Peng H, Liu SL, Zhou G-A, Zhang HK, Liu Z, Shi M, Huang XH, Li Y, Zhang M, Wang Z, Zhu BG, Han B, Liang CZ, Tian ZX. Pan-genome of wild and cultivated soybeans, 2020, 182(1): 162–176.

      [40] He Q, Tang S, Zhi H, Chen JF, Zhang J, Liang HK, Alam O, Li HB, Zhang H, Xing LH, Li XK, Zhang W, Wang HL, Shi JP, Du HL, Wu HP, Wang LW, Yang P, Xing L, Yan HS, Song ZQ, Liu JR, Wang HG, Tian X, Qiao ZJ, Feng GJ, Guo RF, Zhu WJ, Ren YM, Hao HB, Li MZ, Zhang AY, Guo EH, Yan F, Li QQ, Liu YL, Tian BH, Zhao XQ, Jia RL, Feng BL, Zhang JW, Wei JH, Lai JS, Jia GQ, Purugganan M, Diao XM. A graph-based genome and pan-genome variation of the model plant, 2023, 55(7): 1232–1242.

      [41] Chen S, Wang PJ, Kong WL, Chai K, Zhang SC, Yu JX, Wang YB, Jiang MW, Lei WL, Chen X, Wang WL, Gao YY, Qu SY, Wang F, Wang YH, Zhang Q, Gu MY, Fang KX, Ma CL, Sun WJ, Ye NX, Wu HL, Zhang XT. Gene mining and genomics-assisted breeding empowered by the pangenome of tea plant, 2023, 9(12): 1986–1999.

      [42] Zhao Q, Feng Q, Lu HY, Li Y, Wang AH, Tian QL, Zhan QL, Lu YQ, Zhang L, Huang T, Wang YC, Fan DL, Zhao Y, Wang ZQ, Zhou CC, Chen JY, Zhu CR, Li WJ, Weng QJ, Xu Q, Wang ZX, Wei XH, Han B, Huang XH. Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice, 2018, 50(2): 278–284.

      [43] Song JM, Guan ZL, Hu JL, Guo CC, Yang ZQ, Wang S, Liu DX, Wang B, Lu SP, Zhou R, Xie WZ, Cheng YF, Zhang YT, Liu KD, Yang QY, Chen LL, Guo L. Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of, 2020, 6(1): 34–45.

      [44] Shang LG, Li XX, He HY, Yuan QL, Song YN, Wei ZR, Lin H, Hu M, Zhao FL, Zhang C, Li YH, Gao HS, Wang TY, Liu XP, Zhang H, Zhang Y, Cao SM, Yu XM, Zhang BT, Zhang Y, Tan YQ, Qin M, Ai C, Yang YX, Zhang B, Hu ZQ, Wang HR, Lv Y, Wang YX, Ma J, Wang Q, Lu HW, Wu Z, Liu SL, Sun ZY, Zhang HL, Guo LB, Li ZC, Zhou YF, Li JY, Zhu ZF, Xiong GS, Ruan J, Qian Q. A super pan-genomic landscape of rice, 2022, 32(10): 878–896.

      [45] Alonge M, Wang XG, Benoit M, Soyk S, Pereira L, Zhang L, Suresh H, Ramakrishnan S, Maumus F, Ciren D, Levy Y, Harel TH, Shalev-Schlosser G, Amsellem Z, Razifard H, Caicedo AL, Tieman DM, Klee H, Kirsche M, Aganezov S, Ranallo-Benavidez TR, Lemmon ZH, Kim J, Robitaille G, Kramer M, Goodwin S, McCombie WR, Hutton S, Van Eck J, Gillis J, Eshed Y, Sedlazeck FJ, van der Knaap E, Schatz MC, Lippman ZB. Major impacts of widespread structural variation on gene expression and crop improvement in tomato, 2020, 182(1): 145–161.

      [46] Chen JF, Liu Y, Liu MX, Guo WL, Wang YQ, He Q, Chen WY, Liao Y, Zhang W, Gao YZ, Dong KJ, Ren RY, Yang TY, Zhang LY, Qi MY, Li ZG, Zhao M, Wang HG, Wang JJ, Qiao ZJ, Li HQ, Jiang YM, Liu GQ, Song XQ, Deng YR, Li H, Yan F, Dong Y, Li QQ, Li T, Yang WY, Cui JH, Wang HR, Zhou YF, Zhang XM, Jia GQ, Lu P, Zhi H, Tang S, Diao XM. Pangenome analysis reveals genomic variations associated with domestication traits in broomcorn millet, 2023, 55(12): 2243–2254.

      [47] Gijzen M, Weng CR, Kuflu K, Woodrow L, Yu KF, Poysa V. Soybean seed lustre phenotype and surface protein cosegregate and map to linkage group E, 2003, 46(4): 659–664.

      [48] Jones CD, Begun DJ. Parallel evolution of chimeric fusion genes, 2005, 102(32): 11373–11378.

      [49] Watanabe S, Hideshima R, Xia ZJ, Tsubokura Y, Sato S, Nakamoto Y, Yamanaka N, Takahashi R, Ishimoto M, Anai T, Tabata S, Harada K. Map-based cloning of the gene associated with the soybean maturity locus, 2009, 182(4): 1251–1262.

      [50] Tsubokura Y, Watanabe S, Xia ZJ, Kanamori H, Yamagata H, Kaga A, Katayose Y, Abe J, Ishimoto M, Harada K. Natural variation in the genes responsible for maturity loci,,andin soybean, 2014, 113(3): 429–441.

      [51] Lam HM, Xu X, Liu X, Chen WB, Yang GH, Wong FL, Li MW, He WM, Qin N, Wang B, Li J, Jian M, Wang J, Shao GH, Wang J, Sun SSM, Zhang GY. Resequencing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection, 2010, 42(12): 1053–1059.

      [52] Lu SJ, Zhao XH, Hu YL, Liu SL, Nan HY, Li XM, Fang C, Cao D, Shi XY, Kong LP, Su T, Zhang FG, Li SC, Wang Z, Yuan XH, Cober ER, Weller JL, Liu BH, Hou XL, Tian ZX, Kong FJ. Natural variation at the soybeanlocus improves adaptation to the tropics and enhances yield, 2017, 49(5): 773–779.

      [53] Torkamaneh D, Laroche J, Tardivel A, O'Donoughue L, Cober E, Rajcan I, Belzile F. Comprehensive description of genomewide nucleotide and structural variation in short-season soya bean, 2018, 16(3): 749–759.

      [54] Zhou ZK, Jiang Y, Wang Z, Gou ZH, Lyu J, Li WY, Yu YJ, Shu LP, Zhao YJ, Ma YM, Fang C, Shen YT, Liu TF, Li CC, Li Q, Wu M, Wang M, Wu YS, Dong Y, Wan WT, Wang X, Ding ZL, Gao YD, Xiang H, Zhu BG, Lee SH, Wang W, Tian ZX. Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean, 2015, 33(4): 408–414.

      [55] Woodworth CM. Inheritance of cotyledon, seed-coat, hilum and pubescence colors in soy-beans, 1921, 6(6): 487–553.

      [56] Tuteja JH, Clough SJ, Chan WC, Vodkin LO. Tissue- specific gene silencing mediated by a naturally occurring chalcone synthase gene cluster in, 2004, 16(4): 819–835.

      [57] Tuteja JH, Zabala G, Varala K, Hudson M, Vodkin LO. Endogenous, tissue-specific short interfering RNAs silence the chalcone synthase gene family inseed coats, 2009, 21(10): 3063–3077.

      [58] Wang CS, Todd JJ, Vodkin LO. Chalcone synthase mRNA and activity are reduced in yellow soybean seed coats with dominantalleles, 1994, 105(2): 739–748.

      [59] Xie M, Chung CYL, Li MW, Wong FL, Wang X, Liu AL, Wang ZL, Leung AKY, Wong TH, Tong SW, Xiao ZX, Fan KJ, Ng MS, Qi XP, Yang LF, Deng TQ, He LJ, Chen L, Fu AS, Ding Q, He JX, Chung G, Isobe S, Tanabata T, Valliyodan B, Nguyen HT, Cannon SB, Foyer CH, Chan TF, Lam HM. A reference-grade wild soybean genome, 2019, 10(1): 1216.

      [60] Lin S, Cianzio S, Shoemaker R. Mapping genetic loci for iron deficiency chlorosis in soybean, 1997, 3(3): 219–229.

      [61] Wicker T, Sabot F, Hua-Van A, Bennetzen JL, Capy P, Chalhoub B, Flavell A, Leroy P, Morgante M, Panaud O, Paux E, SanMiguel P, Schulman AH. A unified classification system for eukaryotic transposable elements, 2007, 8(12): 973–982.

      [62] Zhuang YB, Wang XT, Li XC, Hu JM, Fan LC, Landis JB, Cannon SB, Grimwood J, Schmutz J, Jackson SA, Doyle JJ, Zhang XS, Zhang DJ, Ma JX. Phylogenomics of the genussheds light on polyploid evolution and life-strategy transition, 2022, 8(3): 233–244.

      [63] Wendel JF. The wondrous cycles of polyploidy in plants, 2015, 102(11): 1753–1756.

      [64] Zhao MX, Zhang B, Lisch D, Ma JX. Patterns and consequences of subgenome differentiation provide insights into the nature of paleopolyploidy in plants, 2017, 29(12): 2974–2994.

      [65] Ameur A. Goodbye reference, hello genome graphs, 2019, 37(8): 866–868.

      [66] Bayer PE, Golicz AA, Scheben A, Batley J, Edwards D. Plant pan-genomes are the new reference, 2020, 6: 914–920.

      [67] Lappalainen T, Scott AJ, Brandt M, Hall IM. Genomic analysis in the age of human genome sequencing, 2019, 177(1): 70–84.

      [68] Huang XH, Huang SW, Han B, Li JY. The integrated genomics of crop domestication and breeding, 2022, 185(15): 2828–2839.

      [69] Shi JP, Tian ZX, Lai JS, Huang XH. Plant pan-genomics and its applications, 2023, 16(1): 168–186.

      [70] Lei L, Goltsman E, Goodstein D, Wu GA, Rokhsar DS, Vogel JP. Plant pan-genomics comes of age, 2021, 72: 411–435.

      [71] Yu H, Lin T, Meng XB, Du HL, Zhang JK, Liu GF, Chen MJ, Jing YH, Kou LQ, Li XX, Gao Q, Liang Y, Liu XD, Fan ZL, Liang YT, Cheng ZK, Chen MS, Tian ZX, Wang YH, Chu CC, Zuo JR, Wan JM, Qian Q, Han B, Zuccolo A, Wing RA, Gao CX, Liang CZ, Li JY. A route todomestication of wild allotetraploid rice, 2021, 184(5): 1156–1170. e14.

      [72] Lewin HA, Robinson GE, Kress WJ, Baker WJ, Coddington JA, Crandall KA, Durbin R, Edwards SV, Forest F, Gilbert MTP, Goldstein MM, Grigoriev IV, Hackett KJ, Haussler D, Jarvis ED, Johnson WE, Patrinos A, Richards S, Castilla-Rubio JC, van Sluys MA, Soltis PS, Xu X, Yang HM. Earth BioGenome Project: sequencing life for the future of life, 2018, 115(17): 4325–4333.

      [73] Cheng S, Melkonian M, Smith SA, Brockington SF, Archibald JM, Delaux PM, Li F, Melkonian B, Mavrodiev EV, Sun WJ, Fu Y, Yang HM, Soltis DE, Graham SW, Soltis PS, Liu X, Xu X, Wong GKS. 10KP: a phylodiverse genome sequencing plan, 2018, 7(3): 1–9.

      [74] Liu YC, Zhang Y, Liu XN, Shen YT, Tian DM, Yang XY, Liu SL, Ni LB, Zhang Z, Song SH, Tian ZX. SoyOmics: a deeply integrated database on soybean multi-omics, 2023, 16(5): 794–797.

      [75] Han LQ, Zhong WS, Qian J, Jin ML, Tian P, Zhu WC, Zhang HW, Sun YH, Feng JW, Liu XG, Chen G, Farid B, Li RN, Xiong ZM, Tian ZH, Li J, Luo Z, Du DX, Chen SJ, Jin QX, Li JX, Li Z, Liang Y, Jin XM, Peng Y, Zheng C, Ye XN, Yin YJ, Chen H, Li WF, Chen LL, Li Q, Yan JB, Yang F, Li L. A multi-omics integrative network map of maize, 2023, 55(1): 144–153.

      [76] Zhou P, Silverstein KAT, Ramaraj T, Guhlin J, Denny R, Liu JQ, Farmer AD, Steele KP, Stupar RM, Miller JR, Tiffin P, Mudge J, Young ND. Exploring structural variation and gene family architecture withassemblies of 15genomes, 2017, 18(1): 261.

      [77] Ou LJ, Li D, Lv JH, Chen WC, Zhang ZQ, Li XF, Yang BZ, Zhou SD, Yang S, Li WG, Gao HZ, Zeng Q, Yu HY, Ouyang B, Li F, Liu F, Zheng JY, Liu YH, Wang J, Wang BB, Dai XZ, Ma YQ, Zou XX. Pan-genome of cultivated pepper () and its use in gene presence-absence variation analyses, 2018, 220(2): 360–363.

      [78] Yu JY, Golicz AA, Lu K, Dossa K, Zhang YX, Chen JF, Wang LH, You J, Fan DD, Edwards D, Zhang XR. Insight into the evolution and functional characteristics of the pan-genome assembly from sesame landraces and modern cultivars, 2019, 17(5): 881–892.

      [79] Jayakodi M, Padmarasu S, Haberer G, Bonthala VS, Gundlach H, Monat C, Lux T, Kamal N, Lang D, Himmelbach A, Ens J, Zhang XQ, Angessa TT, Zhou GF, Tan C, Hill C, Wang PH, Schreiber M, Boston LB, Plott C, Jenkins J, Guo Y, Fiebig A, Budak H, Xu DD, Zhang J, Wang CC, Grimwood J, Schmutz J, Guo GG, Zhang GP, Mochida K, Hirayama T, Sato K, Chalmers KJ, Langridge P, Waugh R, Pozniak CJ, Scholz U, Mayer KFX, Spannagl M, Li C, Mascher M, Stein N. The barley pan-genome reveals the hidden legacy of mutation breeding, 2020, 588(7837): 284–289.

      [80] Varshney RK, Roorkiwal M, Sun S, Bajaj P, Chitikineni A, Thudi M, Singh NP, Du X, Upadhyaya HD, Khan AW, Wang Y, Garg V, Fan Gy, Cowling WA, Crossa J, Gentzbittel L, Voss-Fels KP, Valluri VK, Sinha P, Singh VK, Ben C, Rathore A, Punna R, Singh MK, Tar'an B, Bharadwaj C, Yasin M, Pithia MS, Singh S, Soren KR, Kudapa H, Jarquín D, Cubry P, Hickey LT, Dixit GP, Thuillet AC, Hamwieh A, Kumar S, Deokar AA, Chaturvedi SK, Francis A, Howard R, Chattopadhyay D, Edwards D, Lyons E, Vigouroux Y, Hayes BJ, von Wettberg E, Datta SK, Yang HM, Nguyen HT, Wang J, Siddique KHM, Mohapatra T, Bennetzen JL, Xu X, Liu X. A chickpea genetic variation map based on the sequencing of 3,366 genomes, 2021, 599(7886): 622–627.

      [81] Li JY, Yuan DJ, Wang PC, Wang QQ, Sun ML, Liu ZP, Si H, Xu ZP, Ma YZ, Zhang BY, Pei LL, Tu LL, Zhu LF, Chen LL, Lindsey K, Zhang XL, Jin SX, Wang MJ. Cotton pan-genome retrieves the lost sequences and genes during domestication and selection, 2021, 22(1): 119.

      [82] Tao YF, Luo H, Xu JB, Cruickshank A, Zhao XR, Teng F, Hathorn A, Wu XY, Liu YM, Shatte T, Jordan D, Jing HC, Mace E. Extensive variation within the pan-genome of cultivated and wild sorghum, 2021, 7(6): 766–773.

      [83] Hufford MB, Seetharam AS, Woodhouse MR, Chougule KM, Ou SJ, Liu JN, Ricci WA, Guo TT, Olson A, Qiu YJ, Della Coletta R, Tittes S, Hudson AI, Marand AP, Wei SR, Lu ZY, Wang B, Tello-Ruiz MK, Piri RD, Wang N, Kim DW, Zeng YB, O'Connor CH, Li XR, Gilbert AM, Baggs E, Krasileva KV, Portwood JL, 2nd, Cannon EKS, Andorf CM, Manchanda N, Snodgrass SJ, Hufnagel DE, Jiang QH, Pedersen S, Syring ML, Kudrna DA, Llaca V, Fengler K, Schmitz RJ, Ross-Ibarra J, Yu JM, Gent JI, Hirsch CN, Ware D, Dawe RK.assembly, annotation, and comparative analysis of 26 diverse maize genomes, 2021, 373(6555): 655–662.

      [84] Zhang XH, Liu TJ, Wang JL, Wang P, Qiu Y, Zhao W, Pang S, Li XM, Wang HP, Song JP, Zhang WL, Yang WL, Sun YY, Li XX. Pan-genome ofhighlights genetic variation and introgression among domesticated, wild, and weedy radishes, 2021, 14(12): 2032–2055.

      [85] Li N, He Q, Wang J, Wang BK, Zhao JT, Huang SY, Yang T, Tang YP, Yang SB, Aisimutuola P, Xu RQ, Hu JH, Jia CP, Ma K, Li ZQ, Jiang FL, Gao J, Lan HY, Zhou YF, Zhang XY, Huang SW, Fei ZJ, Wang H, Li HB, Yu QH. Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species, 2023, 55(5): 852–860.

      [86] Wang MJ, Li JY, Qi ZY, Long YX, Pei LL, Huang XH, Grover CE, Du XM, Xia CJ, Wang PC, Liu ZP, You JQ, Tian XH, Ma YZ, Wang RP, Chen XY, He X, Fang DD, Sun YQ, Tu LL, Jin SX, Zhu LF, Wendel JF, Zhang XL. Genomic innovation and regulatory rewiring during evolution of the cotton genus, 2022, 54(12): 1959–1971.

      [87] Tang D, Jia YX, Zhang JZ, Li HB, Cheng L, Wang P, Bao ZG, Liu ZH, Feng SS, Zhu XJ, Li DW, Zhu GT, Wang HR, Zhou Y, Zhou YF, Bryan GJ, Buell CR, Zhang CZ, Huang SW. Genome evolution and diversity of wild and cultivated potatoes, 2022, 606(7914): 535–541.

      [88] Wang BB, Hou M, Shi JP, Ku LX, Song W, Li CH, Ning Q, Li X, Li CY, Zhao BB, Zhang RY, Xu H, Bai ZJ, Xia ZC, Wang H, Kong DX, Wei HB, Jing YF, Dai ZY, Wang HHL, Zhu XY, Li CH, Sun X, Wang SS, Yao W, Hou GG, Qi Z, Dai H, Li XM, Zheng HK, Zhang ZX, Li Y, Wang TY, Jiang TJ, Wan ZM, Chen YH, Zhao JR, Lai JS, Wang HY.genome assembly and analyses of 12 founder inbred lines provide insights into maize heterosis, 2023, 55(2): 312–323.

      Frontiers of soybean pan-genome studies

      Yucheng Liu1, Yanting Shen1, Zhixi Tian1,2

      Artificial domestication provided the original motivation to the blooming of agriculture, following with the dramatic change of the genetic background of crops and livestock. According to theory and technology upgradation that contributing to the omics, we appreciate using the pan-genome instead of single reference genome for crop study. By comparison and integration of multiple genomes under the guidance of pan-genome theory, we can estimate the genomic information range of a species, leading to a global understanding of its genetic diversity. Combining pan-genome with large size chromosomal structural variations, high throughput population resequencing, and multi-omics data, we can profoundly study the genetic basis behind species traits we focus on. Soybean is one of the most important commercial crops over the world. It is also essential to our food security. Dissecting the formation of genetic diversity and the causal loci of key agricultural traits of soybean will make the modern soybean breeding more efficiently. In this review, we summarize the core idea of pan-genome and clarified the characteristics of construction strategies of pan-genome such as/mapping assembly, iterative assembly and graph-based genome. Then we used the soybean pan-genome work as a case study to introduce the general way to study pan-genome. We highlighted the contribution of structural variation (SV) to the evolution/domestication of soybean and its value in understanding the genetic bases of agronomy traits. By those, we approved the value of graph-based pan-genome for data integration and SV calculation. Future research directions are also discussed for crop genomics and data science.

      soybean; pan-genome; structural variation; evolution; domestication

      2023-12-29;

      2024-02-09;

      2024-02-22

      國家自然科學基金項目(編號:32201775,U22A20473)和中國科學院穩(wěn)定支持青年團隊計劃(編號:YSBR-078)資助[Supported by the National Natural Science Foundation of China (Nos.32201775, U22A20473) and CAS Project for Young Scientists in Basic Research (No. YSBR-078)]

      劉羽誠,副研究員,研究方向:大豆比較基因組學。E-mail: ychliu@genetics.ac.cn

      田志喜,研究員,博士生導師,研究方向:大豆種質(zhì)資源基因組演化與分子遺傳解析。E-mail: zxtian@genetics.ac.cn

      10.16288/j.yczz.23-321

      劉羽誠,2016—2020年就讀于中國科學院遺傳與發(fā)育生物學研究所,在田志喜課題組攻讀博士學位;2021—2023年在該課題組開展博士后工作;2023年至今任中國科學院遺傳與發(fā)育生物學研究所副研究員,從事大豆功能基因組學、比較基因組學、大數(shù)據(jù)挖掘與數(shù)據(jù)庫開發(fā)相關(guān)研究。博士期間,開展大豆泛基因組工作,完成26個大豆種質(zhì)的高質(zhì)量參考基因組,在植物中創(chuàng)造性實踐了圖泛基因組構(gòu)建策略,系統(tǒng)闡釋了染色體結(jié)構(gòu)變異在大豆演化/馴化過程中的作用,為后續(xù)泛基因組研究提供了經(jīng)典的思路和范例。獲得“博士后創(chuàng)新人才計劃”、“中國科學院穩(wěn)定支持青年團隊”項目資助;主持國家自然科學基金委青年科學基金項目。博士論文《大豆泛基因組研究》榮獲2023年中國科學院優(yōu)秀博士生論文。

      (責任編委: 孔凡江)

      猜你喜歡
      基因組研究變異基因組
      CRISPR/Cas9技術(shù)在藥用植物功能基因組研究中的應用和展望
      牛參考基因組中發(fā)現(xiàn)被忽視基因
      棘皮動物線粒體基因組研究進展
      海洋通報(2021年1期)2021-07-23 01:55:14
      變異危機
      變異
      支部建設(2020年15期)2020-07-08 12:34:32
      變異的蚊子
      百科知識(2015年18期)2015-09-10 07:22:44
      我國農(nóng)業(yè)基因組研究躍居世界前列
      中國蔬菜(2015年12期)2015-01-28 22:34:21
      ENCODE計劃和功能基因組研究
      遺傳(2014年3期)2014-02-28 20:59:09
      基因組DNA甲基化及組蛋白甲基化
      遺傳(2014年3期)2014-02-28 20:58:49
      有趣的植物基因組
      世界科學(2014年8期)2014-02-28 14:58:31
      威海市| 田林县| 晋城| 青海省| 会同县| 洪江市| 咸丰县| 营口市| 积石山| 浪卡子县| 上蔡县| 呼玛县| 会理县| 梁山县| 伊吾县| 新田县| 和龙市| 朝阳区| 清镇市| 宁陕县| 广西| 余姚市| 洛南县| 土默特右旗| 永平县| 南宫市| 和平县| 新和县| 江口县| 衡阳市| 台北市| 乐清市| 旺苍县| 巨野县| 临泉县| 福泉市| 五家渠市| 怀安县| 阿巴嘎旗| 农安县| 合肥市|