華命生物目前已成功完成50+物種的T2T基因組組裝,物種涵蓋動(dòng)物、植物、昆蟲及同源和異源多倍體等疑難物種,已有多個(gè)合作項(xiàng)目在頂級(jí)期刊發(fā)表和接收,歡迎有需要的老師垂詢。聯(lián)系方式:18371456025。
著絲粒是真核生物基因組中高度保守的功能區(qū)域,但其DNA序列卻高度可變,主要由轉(zhuǎn)座元件(TEs)和串聯(lián)重復(fù)序列構(gòu)成。這些重復(fù)序列快速進(jìn)化,導(dǎo)致近緣物種間著絲粒DNA差異顯著。由于高度重復(fù)和復(fù)雜的結(jié)構(gòu),著絲粒區(qū)域難以組裝,多倍體基因組的端粒到端粒(T2T)組裝尤為困難,導(dǎo)致多倍化過程中著絲粒的進(jìn)化動(dòng)態(tài)研究有限。
近日,浙江大學(xué)張?zhí)煺娼淌趫F(tuán)隊(duì)與南通大學(xué)王凱老師團(tuán)隊(duì)合作,在《Nature Genetics》發(fā)表題為《Post-polyploidization centromere evolution in cotton》的研究論文,成功組裝了四倍體陸地棉的T2T基因組(T2T-TM-1),揭示了多倍體植物著絲粒的動(dòng)態(tài)演化規(guī)律。
一、T2T-TM-1基因組組裝
研究團(tuán)隊(duì)通過69.6×ONT超長(zhǎng)讀長(zhǎng)、49.6×PacBio HiFi和Hi-C數(shù)據(jù),成功組裝了2.30 Gb的無(wú)缺口T2T-TM-1基因組,BUSCO評(píng)估完整性達(dá)99.50%。共注釋了79,642個(gè)高置信度蛋白質(zhì)編碼基因,比之前版本多出2,699–6,881個(gè)。
T2T-TM-1與之前的TM-1相比,新增14.4–612.0 Mb序列,填補(bǔ)了所有缺口,并鑒定了26條染色體的著絲粒區(qū)域和47個(gè)端粒。全基因組比對(duì)顯示,T2T-TM-1與之前版本共線性良好,但TM-1_ZJU_V2.1存在四個(gè)大倒位,經(jīng)Hi-C和長(zhǎng)讀長(zhǎng)數(shù)據(jù)確認(rèn)為組裝錯(cuò)誤。FISH實(shí)驗(yàn)進(jìn)一步驗(yàn)證了T2T-TM-1的組裝準(zhǔn)確性。
另外基于T2T-TM-1的GWAS分析發(fā)現(xiàn),與TM-1_ZJU版本相比,可以將額外的495,707條reads比對(duì)到T2T-TM-1。而且基于T2T-TM-1的GWAS分析鑒定出19個(gè)與纖維長(zhǎng)度相關(guān)的位點(diǎn),高于TM-1_ZJU的11個(gè),表明T2T-TM-1顯著提升了群體遺傳分析效率。
圖1:完整的T2T-TM-1組裝
二、TM-1著絲粒解析和CenD08獨(dú)特演化
作者通過CENH3 ChIP-seq驗(yàn)證了T2T-TM-1的著絲粒區(qū)域,每條染色體僅有一個(gè)CENH3富集區(qū)域,長(zhǎng)度1.1–5.6 Mb。著絲粒主要由重復(fù)元件組成(>92%),Gypsy家族的LTR-RTs占比超過80%,但CenD08其93.44%為串聯(lián)重復(fù)序列。通過從頭聚類分析,鑒定出17個(gè)顯著富集的重復(fù)序列,其中9個(gè)經(jīng)FISH驗(yàn)證與著絲粒相關(guān)。這些重復(fù)序列主要為Ty3或Gypsy LTR-RTs,表明著絲粒主要由Gypsy樣反轉(zhuǎn)錄元件主導(dǎo)。
CenD08富含194 bp單體的Gh149串聯(lián)重復(fù)序列,缺乏典型著絲粒反轉(zhuǎn)錄轉(zhuǎn)座子(CRs)。研究發(fā)現(xiàn),一個(gè)富含CRs的3.44 Mb區(qū)域位于Chr. D08上,距離CenD08約3.5 Mb,推測(cè)其為CenD08的前身。比較分析支持CenD08在多倍化后向Gh149區(qū)域轉(zhuǎn)移。Gh149在TM-1中的長(zhǎng)度顯著高于G. raimondii(Gr),且TM-1中Gh149形成高階重復(fù)(HORs),而Gr中未檢測(cè)到HORs,表明Gh149擴(kuò)增可能為著絲粒功能提供了結(jié)構(gòu)基礎(chǔ)。
表1:TM-1,Ga和Gr著絲粒區(qū)域鑒定
圖2:TM-1著絲粒區(qū)域鑒定和解析
圖3:Gh149重復(fù)序列鑒定
三、亞基因組著絲粒差異和多倍化演化
作者發(fā)現(xiàn),17個(gè)著絲粒重復(fù)序列中有6個(gè)在A亞基因組和D亞基因組間富集差異顯著,其中5個(gè)在D亞基因組中富集,1個(gè)(Gh202)在A亞基因組中特異性富集。這表明大多數(shù)著絲粒重復(fù)序列在拷貝數(shù)上保持平衡,但部分重復(fù)序列在進(jìn)化中經(jīng)歷了顯著富集。
通過CENH3 ChIP-seq和聚類分析,研究發(fā)現(xiàn)Ga著絲粒中僅5個(gè)重復(fù)序列高度富集,而Gr的10個(gè)重復(fù)序列中有4個(gè)與TM-1的6個(gè)重復(fù)序列同源,表明多倍化過程中著絲粒重復(fù)序列的演化動(dòng)態(tài)復(fù)雜。進(jìn)一步分析顯示,TM-1的D亞基因組著絲粒重復(fù)序列拷貝數(shù)顯著高于Gr,支持D亞基因組重復(fù)序列在多倍化后擴(kuò)增并侵入A亞基因組的假說。
圖4:Ga、G基因組和對(duì)應(yīng)四倍體亞基因組比較
四、著絲粒大小和結(jié)構(gòu)演化
TM-1著絲粒平均大小為1.43 Mb,顯著大于Gr(0.57 Mb)和Ga(1.01 Mb),支持多倍化后著絲粒出現(xiàn)擴(kuò)增的觀點(diǎn)。染色體共線性分析顯示,TM-1與二倍體祖先間的著絲粒區(qū)域發(fā)生了高頻重排,如CenA06、CenA10和CenA13的著絲粒周邊倒位,以及CenD03的片段倒位和缺失。另外作者將Ga和Gr的CENH3 ChIP-seq數(shù)據(jù)比對(duì)到T2T-TM-1組裝中,觀察到一些TM-1著絲粒的位置偏移。這些發(fā)現(xiàn)揭示了著絲粒序列在多倍化過程中可能因結(jié)構(gòu)重排而發(fā)生顯著變化。
此外作者在T2T-TM-1基因組中鑒定出25個(gè)非轉(zhuǎn)座子基因,分布在14個(gè)著絲粒中。其中14個(gè)位于CENH3富集亞結(jié)構(gòu)域,在各組織中表達(dá)水平極低;11個(gè)位于H3亞結(jié)構(gòu)域,部分基因在多個(gè)組織中高表達(dá)。這表明功能性著絲粒中存在與H3核小體相關(guān)的表達(dá)基因。
圖5:四倍體棉花著絲粒演化模型
結(jié)語(yǔ)
本文通過多種測(cè)序手段結(jié)合,組裝了完整的四倍體棉花T2T基因組,作為理解多倍體植物著絲粒進(jìn)化的范例,本研究揭示了多倍化過程中著絲粒的復(fù)雜動(dòng)態(tài)。除了推進(jìn)我們對(duì)棉花進(jìn)化的理解外,這項(xiàng)研究也為研究多倍體著絲粒進(jìn)化的共性和差異奠定了基礎(chǔ)。
參考文獻(xiàn)
Yan, H., Han, J., Jin, S. et al. Post-polyploidization centromere evolution in cotton. Nat Genet (2025). https://doi.org/10.1038/s41588-025-02115-3
華命生物產(chǎn)品服務(wù)一覽