徐紀(jì)明,朱建樹(shù),李夢(mèng)真,胡晗,毛傳澡
側(cè)翼序列獲取技術(shù)研究進(jìn)展
徐紀(jì)明,朱建樹(shù),李夢(mèng)真,胡晗,毛傳澡
浙江大學(xué)生命科學(xué)學(xué)院植物生物學(xué)研究所,杭州 310058
側(cè)翼序列是指染色體中特定位點(diǎn)兩側(cè)的DNA序列,包含著候選基因、轉(zhuǎn)錄調(diào)控、染色體結(jié)構(gòu)、生物安全等信息,在基因組學(xué)研究中具有重要的作用。側(cè)翼序列獲取技術(shù)主要應(yīng)用于啟動(dòng)子和增強(qiáng)子等調(diào)控序列的克隆、鑒定T-DNA或轉(zhuǎn)座子插入位點(diǎn)、染色體步移、全基因組空隙填補(bǔ)等,是結(jié)構(gòu)基因組研究以及功能基因組研究的重要手段,在轉(zhuǎn)基因動(dòng)植物鑒定及安全管理等方面具有重要應(yīng)用。隨著分子生物學(xué)的發(fā)展,目前已經(jīng)建立了許多側(cè)翼序列的獲取方法,依據(jù)技術(shù)原理可以分為質(zhì)粒拯救法、反向PCR法、外源接頭介導(dǎo)PCR法、半隨機(jī)引物PCR法和基因組重測(cè)序法等5大類。本文系統(tǒng)總結(jié)了近年來(lái)側(cè)翼序列獲取技術(shù)的研究進(jìn)展,并對(duì)這些技術(shù)的原理以及應(yīng)用情況進(jìn)行了較為系統(tǒng)的綜述,為側(cè)翼序列信息的獲取提供參考。
側(cè)翼序列;質(zhì)粒拯救;反向PCR;外源接頭PCR;半隨機(jī)引物PCR;基因組重測(cè)序
側(cè)翼序列是指染色體中特定DNA序列位點(diǎn)兩側(cè)的未知DNA序列。側(cè)翼序列包括目的基因的啟動(dòng)子、增強(qiáng)子等調(diào)控序列、T-DNA或轉(zhuǎn)座子插入位點(diǎn)等,在許多植物及動(dòng)物功能基因組學(xué)研究中,確定側(cè)翼序列是開(kāi)展后續(xù)研究的前提。例如在篩選鑒定T-DNA激活標(biāo)簽群體及T-DNA插入失活群體時(shí),最關(guān)鍵的步驟是通過(guò)分析T-DNA插入位點(diǎn)信息,鎖定目標(biāo)基因;在轉(zhuǎn)基因研究中特別是轉(zhuǎn)基因應(yīng)用方面,外源序列插入位點(diǎn)是每個(gè)轉(zhuǎn)基因新材料的特定標(biāo)簽,在進(jìn)行轉(zhuǎn)基因材料安全性評(píng)估及環(huán)境釋放申請(qǐng)時(shí),必須按要求提供每個(gè)轉(zhuǎn)基因材料的T-DNA插入位點(diǎn)精確信息[1]。另外側(cè)翼序列獲取技術(shù)還應(yīng)用于染色體步移、全基因組空隙填補(bǔ)等,在現(xiàn)代分子生物學(xué)研究方法中占有舉足輕重的地位,是結(jié)構(gòu)基因組研究以及功能基因組研究的重要手段[2]。
目前有多種方法可獲得側(cè)翼序列,其基本原理都是基于已知外源或者內(nèi)源序列信息,通過(guò)PCR擴(kuò)增來(lái)獲得未知的側(cè)翼序列。根據(jù)是否需要酶切處理可以分為兩類:第一類方法先使用合適的限制性內(nèi)切酶酶切處理基因組DNA,進(jìn)行回收連接后再通過(guò)PCR擴(kuò)增、測(cè)序獲得目標(biāo)序列,如質(zhì)粒拯救法、反向PCR法、外源接頭介導(dǎo)PCR法屬于這類方法;另一類方法無(wú)需酶切處理,直接通過(guò)PCR擴(kuò)增側(cè)翼序列,如半隨機(jī)引物PCR法。近年來(lái),隨著高質(zhì)量基因組重測(cè)序技術(shù)的快速發(fā)展和成本的降低,使用基因組重測(cè)序技術(shù)獲得DNA側(cè)翼序列已成為基因組較小的物種獲得側(cè)翼未知序列的主要手段。然而,基因組較大的物種側(cè)翼序列的獲得仍以前述技術(shù)為主。本文系統(tǒng)總結(jié)了不同側(cè)翼序列獲取技術(shù)的原理,對(duì)各種方法進(jìn)行了深入的分析比較,同時(shí)結(jié)合目前的技術(shù),進(jìn)一步探討并展望該技術(shù)領(lǐng)域的未來(lái)發(fā)展趨勢(shì)。
質(zhì)粒拯救法是一種獲取側(cè)翼序列的經(jīng)典分子生物學(xué)方法,由Perucho[3]在1980年首創(chuàng)。其基本原理是利用合適的限制性內(nèi)切酶消化基因組DNA后,連入克隆載體并轉(zhuǎn)化大腸桿菌(),利用已知序列設(shè)計(jì)引物,通過(guò)PCR篩選陽(yáng)性克隆后測(cè)序獲得側(cè)翼序列。質(zhì)粒拯救法比較直接,不受分離側(cè)翼序列長(zhǎng)短的制約,其目的性和準(zhǔn)確性都很強(qiáng),但是酶切位點(diǎn)的選擇受到載體與已知序列的限制,需要大量的連接、轉(zhuǎn)化和后期目標(biāo)克隆的篩選等工作,實(shí)驗(yàn)操作流程繁瑣、假陽(yáng)性高,限制因素較多。為克服該缺點(diǎn),在轉(zhuǎn)基因載體中加入大腸桿菌的復(fù)制起始位點(diǎn)和抗性位點(diǎn),將基因組DNA酶切后自身連接環(huán)化,轉(zhuǎn)化大腸桿菌,使用抗性位點(diǎn)篩選陽(yáng)性克隆后進(jìn)行測(cè)序,大大提高了該方法的成功率[4](圖1)。早期擬南芥()、水稻(L.)等模式植物T-DNA插入突變體側(cè)翼序列的獲得大都是基于質(zhì)粒拯救法來(lái)實(shí)現(xiàn)。如李志邈等[5]通過(guò)質(zhì)粒拯救法獲得了擬南芥激活標(biāo)記突變體庫(kù)的T-DNA插入位點(diǎn);Li等[6]通過(guò)質(zhì)粒拯救法分離到了水稻T-DNA插入突變體庫(kù)的插入位點(diǎn)序列。質(zhì)粒拯救法在動(dòng)物中也有應(yīng)用,如Mizobuchi等[7]通過(guò)質(zhì)粒拯救法擴(kuò)增了小鼠()下丘腦和胎盤的生長(zhǎng)釋放激素基因5′側(cè)翼序列。
反向PCR法應(yīng)用于克隆側(cè)翼序列可追溯到1988年,Ochman等[8]利用該方法首次成功克隆了已知序列的側(cè)翼序列,并報(bào)道了具體研究方法。其原理是使用一種在已知序列中沒(méi)有識(shí)別序列的限制性內(nèi)切酶消化基因組DNA后,進(jìn)行片段自身環(huán)化連接,然后用環(huán)化的DNA作為模板,利用PCR的方法向已知序列的外側(cè)進(jìn)行擴(kuò)增。由于環(huán)化后的片段在PCR退火過(guò)程中難以解鏈,研究者在經(jīng)典的反向PCR方法的基礎(chǔ)上,對(duì)環(huán)化序列在已知序列的位置進(jìn)行一步酶切,使片段線性化,從而提高了PCR效率。另外通過(guò)優(yōu)化PCR反應(yīng)體系,提高了PCR的靈敏度并降低了非特異性(圖2)。為解決反向PCR得到的側(cè)翼序列較短的問(wèn)題,Kohda和Taira[9]發(fā)展出Bridged inverse PCR方法,該方法使用一段已知序列的“bridge DNA”與DNA連接環(huán)化,再用已知序列和橋式序列設(shè)計(jì)的引物進(jìn)行PCR,部分解決了限制性酶切位點(diǎn)和已知序列距離過(guò)大無(wú)法擴(kuò)增的問(wèn)題。
圖1 質(zhì)粒拯救法原理
根據(jù)參考文獻(xiàn)[4]總結(jié)繪制。
反向PCR法是基于PCR技術(shù)克隆側(cè)翼序列的基礎(chǔ)。與質(zhì)粒拯救法相比,反向PCR省去了載體連接、克隆等操作步驟。但是在具體實(shí)施過(guò)程中,除目標(biāo)片段環(huán)化外,其他不同片段之間也存在隨機(jī)連接而形成多連體,導(dǎo)致PCR假陽(yáng)性的產(chǎn)生,需要通過(guò)后續(xù)繁瑣的Southern blot技術(shù)進(jìn)一步鑒定[8],這在一定程度上限制了反向PCR的發(fā)展與應(yīng)用。
利用反向PCR法在不同物種中獲得側(cè)翼序列信息的實(shí)例很多。例如Chen等[10]克隆了小麥(L.)花粉特異性基因啟動(dòng)子序列;Forester等[11]克隆了豌豆()種子脂肪加氧酶基因啟動(dòng)子約800 bp片段;韓志勇等[12]克隆了轉(zhuǎn)基因水稻的T-DNA側(cè)翼序列;Ohshima等[13]成功克隆了人() T淋巴病毒(human T-cell lymphotropic virus, HTLV)的插入位點(diǎn)。
圖2 反向PCR方法原理
根據(jù)參考文獻(xiàn)[8, 11]總結(jié)繪制。
外源接頭PCR法利用酶切消化基因組DNA后,使用連接酶在片段末端加入接頭,根據(jù)接頭序列和已知序列設(shè)計(jì)引物進(jìn)行PCR擴(kuò)增來(lái)獲得未知序列。外源接頭既可以是單鏈接頭,也可以是雙鏈接頭,根據(jù)接頭的不同,后續(xù)的實(shí)驗(yàn)方法也有很大的不同。
為解決反向PCR法擴(kuò)增片段太短的問(wèn)題,Jones[14]報(bào)道了單鏈接頭PCR-鍋柄PCR法(panhan-dle PCR):在消化后的基因組DNA的3′端連上與已知序列反向互補(bǔ)的單鏈寡核苷序列,在后續(xù)實(shí)驗(yàn)中只有含有已知序列的片段才能與寡核苷酸序列退火形成一個(gè)鍋柄狀結(jié)構(gòu),使用酶將鍋柄狀結(jié)構(gòu)末端補(bǔ)平后,利用已知序列設(shè)計(jì)巢式引物通過(guò)PCR得到側(cè)翼序列。該方法中要形成合適的鍋柄狀結(jié)構(gòu)難度較大,實(shí)驗(yàn)成功率低。Myrick和Gelbart[15]報(bào)道了改進(jìn)的Universal fast walking (UFW)方法,該方法無(wú)需酶切、連接反應(yīng),先用特異性引物序列進(jìn)行線性擴(kuò)增得到產(chǎn)物后,使用5′端與已知序列反向互補(bǔ),3′端帶有簡(jiǎn)并核苷酸N10的簡(jiǎn)并引物進(jìn)行第二輪線性擴(kuò)增,擴(kuò)增產(chǎn)物補(bǔ)平、變性后簡(jiǎn)并引物與已知序列形成鍋柄結(jié)構(gòu),再通過(guò)巢式PCR得到側(cè)翼序列(圖3)。該方法速度、可靠性提高,但是簡(jiǎn)并引物的PCR擴(kuò)增效率不高。Wang等[16]報(bào)道了Self-formed ada-ptor PCR (SEFA PCR)方法,使用低溫(35℃)促進(jìn)簡(jiǎn)并引物與模板結(jié)合,特異性引物擴(kuò)增時(shí)使用高溫條件(70℃),然后再使用較低退火溫度(55℃),經(jīng)過(guò)幾輪擴(kuò)增,形成鍋柄狀的莖環(huán)結(jié)構(gòu),從而擴(kuò)增出未知側(cè)翼序列??傊?,單鏈接頭受限于鍋柄狀的莖環(huán)結(jié)構(gòu)的形成,限制了該方法的應(yīng)用。
雙鏈接頭PCR法用能夠產(chǎn)生粘性末端的限制性內(nèi)切酶切割基因組DNA,通過(guò)DNA連接酶將與末端配對(duì)的接頭與DNA片段相連,最后通過(guò)一條特異性引物和一條根據(jù)接頭序列設(shè)計(jì)的引物進(jìn)行PCR擴(kuò)增,即可得到包含側(cè)翼序列的片段。由于基因組DNA兩端都會(huì)與接頭相連,因此PCR過(guò)程中與接頭配對(duì)的引物會(huì)產(chǎn)生大量非特異性擴(kuò)增,如何排除接頭引物PCR產(chǎn)物污染成為該類方法主要解決的問(wèn)題。Shyamala等[17]使用兩個(gè)限制性內(nèi)切酶切割后的載體作為接頭,與經(jīng)過(guò)相同雙酶切的基因組DNA片段連接,用載體通用引物和根據(jù)已知片段設(shè)計(jì)的特異引物進(jìn)行擴(kuò)增,得到了已知序列的側(cè)翼序列。該方法由于通用引物只與載體一側(cè)結(jié)合,特異性較好,但實(shí)驗(yàn)操作步驟繁瑣,成功率低,而且用合適的人工接頭替代載體,使得該方法應(yīng)用較窄。Lagerstrom等[18]使用根據(jù)已知序列設(shè)計(jì)的生物素標(biāo)記特異引物,進(jìn)行PCR單鏈擴(kuò)增,通過(guò)鏈霉親和素包被的磁珠分離捕捉帶有生物素標(biāo)記的單鏈產(chǎn)物來(lái)提高特異性;對(duì)接頭末端進(jìn)行修飾或者去磷酸化,抑制第一輪PCR過(guò)程中與接頭配對(duì)的引物與模板的結(jié)合,也能夠達(dá)到提高特異性的目的[19,20]。Siebert等[21]提出了抑制PCR法(suppression PCR),該方法將接頭設(shè)計(jì)成一種反向互補(bǔ)序列,在Touch-down PCR過(guò)程中,較低退火溫度下,接頭引物PCR形成的非特異性產(chǎn)物會(huì)因?yàn)榉聪蚧パa(bǔ)序列而形成類似反向PCR的鍋柄狀結(jié)構(gòu)無(wú)法繼續(xù)擴(kuò)增,只有包含有目標(biāo)片段的連接產(chǎn)物(一端是特異性引物序列,另一端是接頭序列的片段) PCR反應(yīng)才能正常進(jìn)行,從而達(dá)到提高特異性的目的。Tan等[22]對(duì)該方法進(jìn)行了改良,利用簡(jiǎn)并引物PCR代替基因組酶切連接過(guò)程,低溫條件下簡(jiǎn)并引物和目標(biāo)片段特異性引物進(jìn)行PCR擴(kuò)增,接著進(jìn)行巢式PCR反應(yīng),非特異擴(kuò)增由于莖環(huán)結(jié)構(gòu)的形成被抑制,從而得到目標(biāo)片段。Wang等[23]在此原理基礎(chǔ)上,設(shè)計(jì)了Fusion primer and nested integrated PCR (FPNI-PCR),開(kāi)發(fā)了一套包含有巢式引物的簡(jiǎn)并引物。具體方法如下:在第一輪PCR反應(yīng)中,先高退火溫度下對(duì)目標(biāo)片段進(jìn)行線性擴(kuò)增,提高目標(biāo)片段模板量,然后低退火溫度下簡(jiǎn)并引物和特異性引物進(jìn)行指數(shù)擴(kuò)增得到的PCR產(chǎn)物進(jìn)行二輪巢式PCR,擴(kuò)增出所需的側(cè)翼序列。該方法具有擴(kuò)增片段長(zhǎng)、耗時(shí)短、特異性高等優(yōu)點(diǎn)。另外對(duì)接頭連接過(guò)程進(jìn)行控制,只有包含目標(biāo)片段的PCR產(chǎn)物才能與接頭連接,如T接頭連接的PCR等,也能達(dá)到提高特異性的目的。
圖3 Universal fast walking(UFW)方法原理
根據(jù)參考文獻(xiàn)[15]總結(jié)繪制。
外源接頭介導(dǎo)PCR法在分離基因啟動(dòng)子與T-DNA插入位點(diǎn)等研究上得到廣泛應(yīng)用。Garcia- Cerdan等[24]利用外源接頭PCR成功克隆了衣藻()葉綠體發(fā)育異常T-DNA突變體的插入位點(diǎn)。Hsu等[25]篩選到1個(gè)擬南芥發(fā)育異常T-DNA突變體,并利用抑制PCR技術(shù)克隆了其突變基因。Currall等[26]通過(guò)抑制PCR技術(shù)確認(rèn)了1個(gè)與人前列腺癌和聽(tīng)力相關(guān)的基因,并對(duì)該基因功能進(jìn)行了研究。Liu等[27]使用FPNI-PCR分離得到蒲公英()基因啟動(dòng)子。
依賴限制性酶切消化基因組DNA的方法在獲得側(cè)翼序列過(guò)程中得到了廣泛的應(yīng)用,但受到限制性內(nèi)切酶種類和酶切效率的限制,使得實(shí)驗(yàn)步驟復(fù)雜而且成功率不高,半隨機(jī)引物PCR法的發(fā)明克服了上述問(wèn)題。
Parker等[28]提出可以通過(guò)已知序列的特異引物與一系列隨機(jī)引物來(lái)獲得T-DNA側(cè)翼序列。理論上只要隨機(jī)引物足夠多,就能夠與特異引物一起擴(kuò)增出需要的產(chǎn)物序列,但是不可避免的是該方法會(huì)產(chǎn)生大量的假陽(yáng)性片段,如何在得到需要的片段的同時(shí)盡可能的降低假陽(yáng)性是該方法首先要解決的問(wèn)題。Liu和Whittier[29]報(bào)道了一種利用引物退火溫度不同來(lái)減少非特異擴(kuò)增,并利用位于已知序列片段的巢式引物來(lái)提高產(chǎn)物特異性的方法,即:熱不對(duì)稱交錯(cuò)PCR法(TAIL-PCR)。由于特異引物與隨機(jī)引物的退火溫度不同,因此在PCR的前幾個(gè)循環(huán)使用高的退火溫度時(shí),只有特異引物退火延伸,如該特異片段可以在PCR的前期得到富集,在經(jīng)過(guò)幾輪低特異性循環(huán)和較低特異性循環(huán)得到的PCR產(chǎn)物后,經(jīng)過(guò)稀釋,再使用巢式引物進(jìn)行第二輪、第三輪PCR擴(kuò)增,從而達(dá)到特異性擴(kuò)增的目的(圖4)。該方法由于操作簡(jiǎn)單、成功率高,在啟動(dòng)子、T-DNA插入位點(diǎn)擴(kuò)增方面得到了廣泛應(yīng)用。Gong等[30]成功克隆了2個(gè)水稻轉(zhuǎn)基因群體的T-DNA插入位點(diǎn);Jaser等[31]成功得到了鯉魚(yú)()基因5′端873 bp啟動(dòng)子序列;Feng等[32]通過(guò)該方法獲得家蠶()蠶繭異常突變體的外源序列插入位點(diǎn),成功克隆了蠶絲合成關(guān)鍵基因;Guan等[33]成功獲得了煙曲霉() T-DNA插入突變體的側(cè)翼序列。
由于TAIL-PCR使用短的隨機(jī)引物,隨機(jī)引物自身會(huì)產(chǎn)生大量的非特異性擴(kuò)增,而且TAIL-PCR產(chǎn)生的產(chǎn)物一般小于500 bp,難以實(shí)現(xiàn)大片段擴(kuò)增。為此,Liu等[34]對(duì)TAIL-PCR方法進(jìn)行了改進(jìn),產(chǎn)生了(hi) TAIL-PCR法(high-efficiency (hi) TAIL-PCR)。該方法重新設(shè)計(jì)了隨機(jī)引物,在隨機(jī)引物3′端加入4個(gè)固定的堿基,使得隨機(jī)引物在染色體上的匹配隨機(jī)性降低,增加了PCR的產(chǎn)物長(zhǎng)度,并利用抑制PCR的原理,在隨機(jī)引物5′端加入16 bp與特異引物5′端一致的序列,在第二輪PCR的過(guò)程中,短片段由于自身環(huán)化無(wú)法得到擴(kuò)增。使用該方法,侯娜等[35]獲得了抗蟲(chóng)棉() 06N-119的外源DNA插入位點(diǎn)的側(cè)翼序列;Chen等[36]從大豆()基因組中分離出了干旱應(yīng)答元件結(jié)合蛋白基因的啟動(dòng)子序列。
圖4 TAIL-PCR方法原理
根據(jù)參考文獻(xiàn)[29]總結(jié)繪制。
基于PCR技術(shù)獲得側(cè)翼序列的方法由于步驟多、效率低,對(duì)實(shí)驗(yàn)操作人員的技術(shù)和熟練程度要求較高,并且無(wú)法批量獲取側(cè)翼未知DNA序列。此外,由于轉(zhuǎn)基因過(guò)程中T-DNA序列有一定概率發(fā)生缺失,可能導(dǎo)致無(wú)法基于已知序列信息獲得插入位點(diǎn)側(cè)翼序列[37]。因此,迫切需要應(yīng)用新的技術(shù)來(lái)克服上述技術(shù)體系的不足。近年來(lái),隨著高通量測(cè)序技術(shù)的發(fā)展,測(cè)序通量提高、成本大幅降低,使得全基因組測(cè)序成為了常規(guī)的技術(shù),于是利用全基因組重測(cè)序技術(shù)獲得側(cè)翼序列的方法應(yīng)運(yùn)而生并得到廣泛應(yīng)用。
轉(zhuǎn)基因株系基因組DNA經(jīng)超聲破碎后,建庫(kù)進(jìn)行全基因組雙端測(cè)序。含有插入位點(diǎn)側(cè)翼信息的序列經(jīng)測(cè)序,以基因組序列和載體序列作為參照,使用常規(guī)的基因組比對(duì)軟件如BWA(Burrows-Wheeler Aligner)MEM軟件[38]等進(jìn)行比對(duì)。可以將測(cè)序產(chǎn)生的pair read分成3種類型:基因組/基因組,T-DNA/ T-DNA,基因組/T-DNA,T-DNA側(cè)翼序列信息存在于第三種類型中。利用基因組/T-DNA序列信息,通過(guò)PCR驗(yàn)證和一代測(cè)序即可得到插入位點(diǎn)信息(圖5)。該方法步驟簡(jiǎn)單,只需要提取DNA,后續(xù)的生物信息學(xué)分析算法也已成熟,而且可以批量獲取,大大提高了研究效率。Guo等[39]對(duì)2個(gè)轉(zhuǎn)基因大豆株系分別進(jìn)行重測(cè)序,測(cè)序深度為21×,經(jīng)過(guò)分析成功獲得了2個(gè)株系的插入位點(diǎn),并使用PCR技術(shù)進(jìn)行了確認(rèn)。Polko等[40]將4個(gè)不同擬南芥轉(zhuǎn)基因株系DNA混合后,進(jìn)行全基因組重測(cè)序,由于測(cè)序深度不夠,只得到了其中3個(gè)株系的插入位點(diǎn),作者認(rèn)為測(cè)序深度是影響實(shí)驗(yàn)結(jié)果的重要因素。徐紀(jì)明等[41]對(duì)該方法進(jìn)行了改良,將3份水稻轉(zhuǎn)基因材料基因組DNA混池重測(cè)序后,直接使用載體序列作為參照序列,并對(duì)軟件參數(shù)進(jìn)行了優(yōu)化,成功獲得了3份轉(zhuǎn)基因材料的全部T-DNA插入位點(diǎn),而且發(fā)現(xiàn)其中1份材料為2拷貝插入。由于載體序列很小(10 kb左右),序列結(jié)構(gòu)簡(jiǎn)單,分析時(shí)間大大減少,準(zhǔn)確度也得到提高。Sun等[42]首先用載體序列作為參考基因組進(jìn)行分析篩選,得到的reads再用轉(zhuǎn)化體基因組參考序列進(jìn)行第二輪分析,根據(jù)比對(duì)結(jié)果確定插入位點(diǎn)的側(cè)翼序列和位置信息,并對(duì)位置信息進(jìn)行了注釋,最后將分析軟件封裝做成了可以一站式分析插入位點(diǎn)側(cè)翼序列的軟件——TDNAscan,并使用該軟件成功得到了一系列擬南芥T-DNA突變體的插入位點(diǎn)。
圖5 基因組重測(cè)序確定側(cè)翼序列方法原理
根據(jù)參考文獻(xiàn)[39~41]總結(jié)繪制。
除了測(cè)序深度對(duì)插入位點(diǎn)側(cè)翼序列獲得有一定影響外,雙向二代測(cè)序長(zhǎng)度的限制(雙向測(cè)序長(zhǎng)度一般為300 bp左右)會(huì)對(duì)插入位點(diǎn)的獲得造成極大困難(如果插入位點(diǎn)位于基因組中的長(zhǎng)重復(fù)序列區(qū))。Peng等[43]使用TAIL-PCR和二代測(cè)序技術(shù)對(duì)轉(zhuǎn)基因玉米(L.)SK12-5的插入位點(diǎn)進(jìn)行了分析,雖然得到了T-DNA側(cè)翼序列,但是由于該序列位于長(zhǎng)重復(fù)序列區(qū),無(wú)法確定插入位點(diǎn)的染色體位置。三代測(cè)序方法雖然準(zhǔn)確率較低,但是測(cè)序長(zhǎng)度最長(zhǎng)可以達(dá)到100 kb,在確定長(zhǎng)重復(fù)序列區(qū)位置時(shí)具有很大的優(yōu)勢(shì)。Peng等[43]使用Nanopore測(cè)序技術(shù)順利得到了SK12-5的插入位點(diǎn)位于9號(hào)染色體82,329,568~82,379,296 bp之間。Li等[44]先純化不同轉(zhuǎn)基因大豆株系基因組中含有插入序列的片段,PCR擴(kuò)增后混合,使用一次三代測(cè)序成功獲得了所有株系的插入位點(diǎn)。Nicholls等[45]也利用Nanopore測(cè)序技術(shù)成功得到了鼠生殖細(xì)胞系中Oct4:EGFP在基因組上的插入位點(diǎn),并對(duì)轉(zhuǎn)基因拷貝數(shù)和轉(zhuǎn)基因產(chǎn)生的基因組結(jié)構(gòu)變異進(jìn)行了分析。
隨著分子生物學(xué)的發(fā)展,側(cè)翼序列的獲取方法也不斷進(jìn)步,且效率越來(lái)越高,但不同方法各有優(yōu)勢(shì)和不足,不同方法的比較見(jiàn)表1。質(zhì)粒拯救、反向PCR、接頭PCR等方法在發(fā)明之初在側(cè)翼序列獲取方面發(fā)揮了關(guān)鍵作用,但是由于這些方法操作復(fù)雜,非特異性產(chǎn)物較多,獲取片段長(zhǎng)度有限等問(wèn)題,應(yīng)用范圍越來(lái)越?。话腚S機(jī)引物PCR法自動(dòng)化程度高,操作簡(jiǎn)單,特異性高,需要時(shí)間短等特點(diǎn),在一些復(fù)雜基因組或無(wú)參考基因組物種側(cè)翼序列獲取中仍具有無(wú)可替代的作用;基因組重測(cè)序方法由于門檻低、成本低、成功率高,逐漸成為獲得側(cè)翼序列的主要方法,并在相關(guān)研究中發(fā)揮越來(lái)越重要的作用[39,40,41]。
表1 側(cè)翼序列獲取技術(shù)比較
隨著基因組學(xué)的發(fā)展和測(cè)序技術(shù)的進(jìn)步,基因組重測(cè)序方法在側(cè)翼序列獲取上體現(xiàn)出了極大的優(yōu)勢(shì),但仍有許多方面需要改進(jìn)。首先,已有研究證明水稻T-DNA插入位點(diǎn)可以只使用載體序列作為參考序列分析得到[41],暗示無(wú)參考基因組物種的T-DNA插入位點(diǎn)也可以使用基因組重測(cè)序方法得到,但仍需要進(jìn)一步實(shí)驗(yàn)驗(yàn)證。其次,流程化的分析軟件或網(wǎng)站的使用極大方便了側(cè)翼序列的獲取,但是到目前為止,使用基因組重測(cè)序獲取側(cè)翼序列的方法仍缺乏相關(guān)的分析軟件或網(wǎng)站,TDNAscan僅可用于模式植物擬南芥[42],因此其他物種相關(guān)的軟件或網(wǎng)站應(yīng)是未來(lái)研究的方向。最后,使用基因組重測(cè)序方法獲取側(cè)翼序列的實(shí)例中未發(fā)現(xiàn)有基因組重排、大片段缺失及載體骨架序列信息等報(bào)道,可能目前的分析方法無(wú)法獲得這些類型的插入位點(diǎn),需要開(kāi)發(fā)新的生物信息學(xué)算法,以更精確、全面的獲取插入位點(diǎn)信息。
[1] Wei Q, Ao Y, Yang MM, Chen T, Han H, Zhang XJ, Wang R, Xia QJ, Jiang FF, Li Y. Identification of genomic insertion of dominant-negativemutation transgenes in Wuzhishan pig using whole genome sequencing method., 2021, 43(12): 1149–1158.
魏強(qiáng), 奧巖, 楊漫漫, 陳濤, 韓虎, 張興舉, 王然, 夏秋菊, 姜芳芳, 李勇. 利用全基因組重測(cè)序技術(shù)鑒定五指山豬突變體轉(zhuǎn)基因插入位點(diǎn). 遺傳, 2021, 43(12): 1149–1158.
[2] Liu B, Su Q, Tang MQ, Yuan XD, An LJ. Progress of the PCR amplification techniques for chromosome walking., 2006, 28(5): 587–595.
劉博, 蘇喬, 湯敏謙, 袁曉東, 安利佳. 應(yīng)用于染色體步移的PCR擴(kuò)增技術(shù)的研究進(jìn)展. 遺傳, 2006, 28(5): 587–595.
[3] Perucho M, Hanahan D, Lipsich L, Wigler M. Isolation of the chicken thymidine kinase gene by plasmid rescue., 1980, 285(5762): 207–210.
[4] Zhang JC, Zhang XW, Dai XZ. Construction of rescue plasmid with T-DNA tag., 2007, 35(34): 11016–11018.
張金諶, 張學(xué)文, 戴雄澤. 質(zhì)粒拯救型T-DNA標(biāo)簽質(zhì)粒的構(gòu)建. 安徽農(nóng)業(yè)科學(xué), 2007, 35(34): 11016–11018.
[5] Li ZM, Zhang HK, Cao JS, He ZH. Construction of an activation tagging library ofand cloning for mutant genes., 2005, 31(5): 499–506.
李志邈, 張海擴(kuò), 曹家樹(shù), 何祖華. 擬南芥激活標(biāo)記突變體庫(kù)的構(gòu)建及突變體基因的克隆. 植物生理與分子生物學(xué)學(xué)報(bào), 2005, 31(5): 499–506.
[6] Li AH, Zhang YF, Wu CY, Tang W, Wu R, Dai ZY, Liu GQ, Zhang HX, Pan XB. Screening for and genetic analysis on T-DNA-inserted mutant pool in rice., 2006, 33(4): 319–329.
[7] Mizobuchi M, Frohman LA. Rapid amplification of genomic DNA ends., 1993, 15(2): 214–216.
[8] Ochman H, Gerber AS, Hartl DL. Genetic applications of an inverse polymerase chain reaction., 1988, 120(3): 621–623.
[9] Kohda T, Taira K. A simple and efficient method to determine the terminal sequences of restriction fragments containing known sequences., 2000, 7(2): 151–155.
[10] Chen L, Tu ZM, Hussain J, Cong L, Yan YJ, Jin L, Yang GX, He GY. Isolation and heterologous transformation analysis of a pollen-specific promoter from wheat (L.)., 2010, 37(2): 737–744.
[11] Forster C, Arthur E, Crespi S, Hobbs SL, Mullineaux P, Casey R. Isolation of a pea () seed lipoxygenase promoter by inverse polymerase chain reaction and characterization of its expression in transgenic tobacco., 1994, 26(1): 235–248.
[12] Han ZY, Wang XQ, Shen GZ. Cloning of foreign gene's flanking sequences in transgenic rice by inverse PCR., 2001, 17(2): 27–32.
韓志勇, 王新其, 沈革志. 反向PCR克隆轉(zhuǎn)基因水稻的外源基因旁側(cè)序列. 上海農(nóng)業(yè)學(xué)報(bào), 2001, 17(2): 27–32.
[13] Ohshima K, Mukai Y, Shiraki H, Suzumiya J, Tashiro K, Kikuchi M. Clonal integration and expression of human T-cell lymphotropic virus type I in carriers detected by polymerase chain reaction and inverse PCR., 1997, 54(4): 306–312.
[14] Jones DH. Panhandle PCR., 1995, 4(5): S195–S201.
[15] Myrick KV, Gelbart WM. Universal fast walking for direct and versatile determination of flanking sequence., 2002, 284(1–2): 125–131.
[16] Wang SM, He J, Cui ZL, Li SP. Self-formed adaptor PCR: A simple and efficient method for chromosome walking., 2007, 73(15): 5048–5051.
[17] Shyamala V, Ames GF. Genome walking by single- specific-primer polymerase chain reaction: SSP-PCR., 1989, 84(1): 1–8.
[18] Lagerstr?m M, Parik J, Malmgren H, Stewart J, Pettersson U, Landegren U. Capture PCR: efficient amplification of DNA fragments adjacent to a known sequence in human and YAC DNA., 1991, 1(2): 111–119.
[19] Arnold C, Hodgson IJ. Vectorette PCR: a novel approach to genomic walking., 1991, 1(1): 39–42.
[20] Kilstrup M, Kristiansen KN. Rapid genome walking: a simplified oligo-cassette mediated polymerase chain reaction using a single genome-specific primer., 2000, 28(11): E55.
[21] Siebert PD, Chenchik A, Kellogg DE, Lukyanov KA, Lukyanov SA. An improved PCR method for walking in uncloned genomic DNA., 1995, 23(6): 1087–1088.
[22] Tan GH, Gao Y, Shi M, Zhang XY, He SP, Chen ZL, An CC. SiteFinding-PCR: a simple and efficient PCR method for chromosome walking., 2005, 33(13): e122.
[23] Wang Z, Ye SF, Li JJ, Zheng B, Bao MZ, Ning GG. Fusion primer and nested integrated PCR (FPNI-PCR): a new high-efficiency strategy for rapid chromosome walking or flanking sequence cloning., 2011, 11: 109.
[24] García-Cerdán JG, Schmid EM, Takeuchi T, McRae I, McDonald KL, Yordduangjun N, Hassan AM, Grob P, Xu CS, Hess HF, Fletcher DA, Nogales E, Niyogi KK. Chloroplast Sec14-like 1 (CPSFL1) is essential for normal chloroplast development and affects carotenoid accumula-tion in., 2020, 117(22): 12452–12463.
[25] Hsu PJ, Tan MC, Shen HL, Chen YH, Wang YY, Hwang SG, Chiang MH, Le QV, Kuo WS, Chou YC, Lin SY, Jauh GY, Cheng WH. The nucleolar protein SAHY1 is involved in pre-rRNA processing and normal plant growth., 2021, 185(3): 1039–1058.
[26] Currall BB, Chen M, Sallari RC, Cotter M, Wong KE, Robertson NG, Penney KL, Lunardi A, Reschke M, Hickox AE, Yin YB, Wong GT, Fung J, Brown KK, Williamson RE, Sinnott-Armstrong NA, Kammin T, Ivanov A, Zepeda-Mendoza CJ, Shen J, Quade BJ, Signoretti S, Arnos KS, Banks AS, Patsopoulos N, Liberman MC, Kellis M, Pandolfi PP, Morton CC. Loss of LDAH associated with prostate cancer and hearing loss., 2018, 27(24): 4194–4203.
[27] Liu Q, Li L, Cheng HT, Yao LX, Wu J, Huang H, Ning W, Kai GY. The basic helix-loop-helix transcription factor TabHLH1 increases chlorogenic acid and luteolin biosynthesis inKitag., 2021, 8(1): 195.
[28] Parker JD, Rabinovitch PS, Burmer GC. Targeted gene walking polymerase chain reaction., 1991, 19(11): 3055–3060.
[29] Liu YG, Whittier RF. Thermal asymmetric interlaced PCR: automatable amplification and sequencing of insert end fragments from P1 and YAC clones for chromosome walking., 1995, 25(3): 674–681.
[30] Gong WK, Zhou Y, Wang R, Wei XL, Zhang L, Dai Y, Zhu Z. Analysis of T-DNA integration events in transgenic rice., 2021, 266: 153527.
[31] Jaser SKK, Perazza CA, Fávaro LCL, Goto MA, de Oliveira AM, Hallerman E, Hilsdorf AWS. Identification and analysis of a novel microsatellite marker within the growth hormone gene promoter of(Characiformes: Characidae) detected by TAIL-PCR., 2021, 37(3): 439–448.
[32] Feng XB, Zheng ZW, Zhang X, Gu J, Feng QL, Huang LH. Discovering genes responsible for silk synthesis inby piggyBac-based random insertional mutagenesis., 2019, 26(5): 821–830.
[33] Guan LY, Lu RY, Wu ZJ, Zhong GW, Zhang SZ. Precise expression ofis crucial for asexual development, virulence, and survival of aspergillus fumigatus., 2020, 5(5): e00771–20.
[34] Liu YG, Chen YL. High-efficiency thermal asymmetric interlaced PCR for amplification of unknown flanking sequences., 2007, 43(5): 649–650, 652, 654 passim.
[35] Hou N, He HQ, Dong M, Xu RQ, Wan YS, Jin WJ, Liu HB. The exogenous gene integrated structure and event-specific detection of insect resistant transgenic cotton., 2012, 10(3): 317–323.
侯娜, 賀輝群, 董美, 徐榮旗, 宛煜嵩, 金蕪軍, 劉好寶. 轉(zhuǎn)基因抗蟲(chóng)棉外源DNA插入整合結(jié)構(gòu)分析和轉(zhuǎn)化事件特異性檢測(cè)方法的建立. 分子植物育種, 2012, 10(3): 317–323.
[36] Chen M, Xu ZS, Xia LQ, Li LC, Cheng XG, Dong JH, Wang QY, Ma YZ. Cold-induced modulation and functional analyses of the DRE-binding transcription factor gene,, in soybean (L.)., 2009, 60(1): 121–135.
[37] Schouten HJ, Vande Geest H, Papadimitriou S, Bemer M, Schaart JG, Smulders MJM, Perez GS, Schijlen E. Re-sequencing transgenic plants revealed rearrangements at T-DNA inserts, and integration of a short T-DNA fragment, but no increase of small mutations elsewhere., 2017, 36(3): 493–504.
[38] Li H, Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform., 2009, 25(14): 1754–1760.
[39] Guo BF, Guo Y, Hong HL, Qiu LJ. Identification of genomic insertion and flanking sequence ofandtransgenes in soybean using whole genome sequencing method., 2016, 7: 1009.
[40] Polko JK, Temanni MR, van Zanten M, van Workum W, Iburg S, Pierik R, Voesenek LACJ, Peeters AJM. Illumina sequencing technology as a method of identifying T-DNA insertion loci in activation-taggedplants., 2012, 5(4): 948–950.
[41] Xu JM, Hu H, Mao WX, Mao CZ. Identifying T-DNA insertion site(s) of transgenic plants by whole-genome resequencing., 2018, 40(8): 676–682.
徐紀(jì)明, 胡晗, 毛文軒, 毛傳澡. 利用重測(cè)序技術(shù)獲取轉(zhuǎn)基因植物T-DNA插入位點(diǎn). 遺傳, 2018, 40(8): 676–682.
[42] Sun L, Ge YB, Sparks JA, Robinson ZT, Cheng XF, Wen JQ. TDNAscan: a software to identify complete and truncated T-DNA insertions., 2019, 10: 685.
[43] Peng C, Mei YT, Ding L, Wang XF, Chen XY, Wang JM, Xu JF. Using combined methods of genetic mapping and nanopore-based sequencing technology to analyze the insertion positions ofandtransgenes in maize., 2021, 12: 690951.
[44] Li SJ, Jia SG, Hou LL, Nguyen H, Sato S, Holding D, Cahoon E, Zhang C, Clemente T, Yu B. Mapping of transgenic alleles in soybean using a nanopore-based sequencing strategy., 2019, 70(15): 3825–3833.
[45] Nicholls PK, Bellott DW, Cho TJ, Pyntikova T, Page DC. Locating and characterizing a transgene integration site by Nanopore sequencing., 2019, 9(5): 1481– 1486.
Progress on methods for acquiring flanking genomic sequence
Jiming Xu, Jianshu Zhu, Mengzhen Li, Han Hu, Chuanzao Mao
Flanking genomic sequences refer to the DNA sequences flanking specific sites of known sequences in chromosome, which contain information such as candidate genes, transcriptional regulation, chromosome structure, and biosafety, and play an important role in genomics research. Flanking sequence acquisition technologies are mainly used in the cloning of regulatory sequences such as promoters and enhancers, identification of T-DNA or transposon insertion sites, chromosome walking, genome-wide gap filling, etc. It is an important means of structural genomics research and functional genomics research. It is applied in the identification of transgenic plants and animals and their safety management. With the development of molecular biology, many methods for obtaining flanking sequences have been established, including plasmid rescue, inverse PCR, ligation-mediated PCR, semi-random primer PCR, whole-genome resequencing etc. In this review, wesummarize and compared different methods for acquiring flanking genomic sequence. The principles and research progress of each approach are discussed.
flanking sequence; plasmid rescue; inverse PCR; ligation-mediated PCR; semi-random primer PCR; whole-genome resequencing
2021-12-02;
2022-03-08;
2022-03-25
國(guó)家自然科學(xué)基金項(xiàng)目(編號(hào):32002121)資助[Supported by the National Natural Science Foundation of China (No. 32002121)]
徐紀(jì)明,博士,助理研究員,研究方向:作物磷高效分子機(jī)制。E-mail: xujiming@zju.edu.cn
毛傳澡,博士,教授,博士生導(dǎo)師,研究方向:作物養(yǎng)分高效利用的生理及分子機(jī)制。E-mail: mcz@zju.edu.cn
10.16288/j.yczz.21-415
(責(zé)任編委: 宿振起)