完整的遺傳變異數(shù)據(jù)集是生物多樣性基因組學(xué)研究的關(guān)鍵。長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)的快速發(fā)展,使組裝高質(zhì)量單倍型解析的參考基因組成為可能。然而,即使是單個(gè)個(gè)體完整的T2T基因組,因?yàn)闊o(wú)法充分代表一個(gè)種群或物種內(nèi)的遺傳多樣性,仍可能會(huì)使下游分析產(chǎn)生偏差。通過(guò)將來(lái)自同一種群、物種或?qū)俚亩鄠€(gè)高質(zhì)量基因組序列信息整合到單個(gè)參考基因組上,這些基因組比對(duì)集合組裝而成的泛基因組能夠克服代表性偏差問(wèn)題。
近日,來(lái)自美國(guó)和意大利等多國(guó)的科學(xué)家團(tuán)隊(duì),在著名期刊Nature Genetics上撰文發(fā)表了名為《Pangenome graphs and their applications in biodiversity genomics》的綜述文章,文章既回顧了現(xiàn)有的用于構(gòu)建泛基因組圖譜和可視化處理的工具及數(shù)據(jù)結(jié)構(gòu),同時(shí)結(jié)合實(shí)際案例,探討了泛基因組在整個(gè)生命之樹(shù)的生物多樣性與保護(hù)基因組學(xué)中的重要應(yīng)用。
一、泛基因組變異圖譜
作者主要聚焦由組裝序列全基因組比對(duì)構(gòu)建而成的泛基因組圖譜。變異圖譜通過(guò)存儲(chǔ)完整的基因組序列及其變異情況,更全面地呈現(xiàn)動(dòng)植物基因組所有信息。線性基因組通過(guò)圖譜的明確路徑存儲(chǔ),而序列變異由 “氣泡”或“繩結(jié)”的子圖譜表示。人類泛基因組參考聯(lián)盟(HPRC)生成了首個(gè)人類泛基因組變異圖譜。一些模式生物(雞等)和非模式物種(家燕、家朱雀等)的泛基因組圖譜也已組裝完成。一些具有重要經(jīng)濟(jì)價(jià)值的物種,如番茄、葡萄和牛等的超級(jí)泛基因組圖譜也正在構(gòu)建之中。
圖1:泛基因組圖譜
二、泛基因組采樣和測(cè)序
為了最大程度獲得物種的遺傳多樣性,合適的采樣和測(cè)序策略對(duì)于構(gòu)建泛基因組圖譜尤為重要。
1. 合適的采樣策略
采樣策略對(duì)于生物多樣性泛基因組研究的成功至關(guān)重要。采樣應(yīng)最大限度地涵蓋自然種群內(nèi)的基因組和生物地理多樣性,理想情況是在平衡性別代表性的同時(shí),對(duì)整個(gè)地理范圍進(jìn)行采樣。理想樣本量是在分析中逐步添加一定數(shù)量的代表性基因組,直至捕獲到完整的基因集,且再添加個(gè)體也無(wú)法發(fā)現(xiàn)新基因。泛基因組圖譜有助于明確非核心基因組區(qū)域的功能和適應(yīng)性作用,以及它們?cè)诓煌乩矸N群和亞種間的差異。這些非核心基因組區(qū)域?yàn)榉N群分化和物種形成提供熱點(diǎn)區(qū)域。研究在經(jīng)歷雜交的種群和物種中,這些區(qū)域受基因滲入的影響程度,有助于深入了解基因流動(dòng)態(tài)和物種形成過(guò)程 。
2. 基因組測(cè)序策略
對(duì)于選定個(gè)體的測(cè)序,作者更加推薦通過(guò)將 PacBio HiFi 、ONT超長(zhǎng)和HiC數(shù)據(jù)相結(jié)合,生成完整的端粒到端粒的單倍型基因組(T2T)。T2T基因組還能更好地呈現(xiàn)難以測(cè)序和組裝的區(qū)域,如著絲粒、可變數(shù)目串聯(lián)重復(fù)序列以及其他復(fù)雜重復(fù)序列。高度重復(fù)區(qū)域也可能是調(diào)控復(fù)雜行為表型(如遷徙行為)的基礎(chǔ) 。
低質(zhì)量基因組構(gòu)建的泛基因組,會(huì)因復(fù)雜區(qū)域的不完整性而限制對(duì)遺傳多樣性的研究。作者建議,泛基因組圖譜應(yīng)至少包含一個(gè)T2T水平的高質(zhì)量組裝基因組作為圖譜構(gòu)建的主干,為下游分析提供一個(gè)可靠的坐標(biāo)。
三、泛基因組圖譜構(gòu)建
1. 泛基因組構(gòu)建流程
人類泛基因組參考聯(lián)盟(HPRC)開(kāi)發(fā)了兩條主要的泛基因組圖譜構(gòu)建流程:Minigraph-Cactus(MC)和PanGenome Graph Builder(PGGB)。
MC將minigraph用作圖譜構(gòu)建工具。用戶選定的參考基因組被用作初始主干,隨后逐步添加來(lái)自其他基因組的結(jié)構(gòu)變異。所有組裝結(jié)果會(huì)使用類似minimap2的算法回比到圖譜上,為每條參考染色體生成堿基層面的比對(duì)。MC采用了無(wú)參考比對(duì)工具Progressive Cactus的改良版本,將這些比對(duì)結(jié)果整合為包含各種大小變異的堿基層面泛基因組圖譜,然后將染色體圖譜合并,通過(guò)折疊冗余序列來(lái)降低路徑復(fù)雜度。除了選定的參考基因組,用戶還可以指定其他帶有坐標(biāo)的組裝結(jié)果,這些結(jié)果在下游分析中可作為參考 。
與MC不同,PGGB 不使用初始參考基因組,而是利用wfmash進(jìn)行全基因組兩兩比對(duì)。seqwish作為序列到圖譜的比對(duì)工具,它從全基因組兩兩比對(duì)開(kāi)始,生成一個(gè)完整的泛基因組圖譜,能夠呈現(xiàn)所有類型和大小的變異。隨后,該圖譜會(huì)經(jīng)過(guò)平滑和歸一化的后處理步驟。在PGGB生成的泛基因組圖譜中,圖譜內(nèi)包含的每個(gè)基因組都可作為下游分析的參考。
泛基因組圖譜可以使用變異圖譜工具包(vg)與轉(zhuǎn)錄本注釋相結(jié)合,vg 是一種用于變異圖譜構(gòu)建、處理和分析的軟件,可將其轉(zhuǎn)化為剪接感知圖譜,其中通過(guò)節(jié)點(diǎn)(外顯子)和邊(剪接連接點(diǎn))的路徑代表mRNA轉(zhuǎn)錄本的結(jié)構(gòu)。通過(guò)將一組單倍型特異性轉(zhuǎn)錄本投影到一組已知單倍型上,構(gòu)建泛轉(zhuǎn)錄組也是可行的 。
泛基因組圖譜的大小取決于相應(yīng)物種的基因組大小,但因?yàn)檎狭似渌麄€(gè)體的輔助序列所以會(huì)比單個(gè)參考基因組更大,同時(shí)也受到個(gè)體數(shù)量、多樣性以及構(gòu)建流程的影響。MC圖譜的大小相對(duì)接近物種的基因組大小。相比之下,PGGB圖譜的大小可能會(huì)顯著超過(guò)基因組大小以及MC圖譜。PGGB圖譜較大的原因在于它能夠捕捉高度分化的衛(wèi)星區(qū)域、著絲粒區(qū)域和異染色質(zhì)區(qū)域,而 MC圖譜將這些區(qū)域排除在外。PGGB還有將復(fù)雜區(qū)域(如拷貝數(shù)多態(tài)性位點(diǎn))壓縮為單拷貝的傾向,從而在圖譜中產(chǎn)生環(huán),增加了圖譜的復(fù)雜性。鑒于 PGGB圖譜更大且更復(fù)雜,與MC圖譜相比,它需要更多的計(jì)算資源。最近發(fā)布了PGGB流程的Nextflow實(shí)現(xiàn)版本,以提高集群的可擴(kuò)展性。不過(guò)也有項(xiàng)目表明,PGGB可能會(huì)導(dǎo)致對(duì)序列變異性的高估。
鑒于存在這些差異,謹(jǐn)慎選擇泛基因組圖譜構(gòu)建流程至關(guān)重要??偟膩?lái)說(shuō),MC推薦應(yīng)用于重測(cè)序項(xiàng)目作為參考,而當(dāng)重點(diǎn)關(guān)注特定區(qū)域時(shí),PGGB就更適合選擇??傮w而言,泛基因組圖譜面臨概念和計(jì)算方面的挑戰(zhàn),目前其構(gòu)建、存儲(chǔ)和分析所需的資源比線性基因組要多得多。但這些限制因素正在逐步被解決。
2. 提高泛基因組信息的可獲取性
泛基因組圖譜蘊(yùn)含著廣泛而復(fù)雜的生物信息,包括個(gè)體間的基因組關(guān)系和多樣性。其錯(cuò)綜復(fù)雜的結(jié)構(gòu)產(chǎn)生了海量數(shù)據(jù),在瀏覽和解讀時(shí)頗具挑戰(zhàn)。為改善下游分析軟件對(duì)圖譜的可訪問(wèn)性,進(jìn)而便于從泛基因組圖譜中提取生物信息,目前開(kāi)發(fā)了泛基因組圖譜多種處理工具包。主要包括排序、索引、修剪和子采樣等。排序可優(yōu)化圖譜節(jié)點(diǎn)的順序,路徑索引能更快速地訪問(wèn)圖譜的特定區(qū)域,修剪可以進(jìn)一步加快計(jì)算速度,可以通過(guò)修剪復(fù)雜或不可靠的區(qū)域,或?qū)ψ訕颖居脩舳x的坐標(biāo),來(lái)簡(jiǎn)化圖譜拓?fù)浣Y(jié)構(gòu)。當(dāng)計(jì)算資源不足以覆蓋整個(gè)圖譜,或想要梳理特定感興趣區(qū)域的復(fù)雜性時(shí),子采樣也非常重要。
目前主要有兩個(gè)用于處理泛基因組圖譜的軟件包:vg 和泛基因組分析工具包ODGI。vg依賴于.vg格式,是首個(gè)可擴(kuò)展到千兆堿基規(guī)模圖譜的工具。ODGI基于以節(jié)點(diǎn)為中心的對(duì)象(.og)運(yùn)行,針對(duì)包含數(shù)百個(gè)單倍型解析基因組的泛基因組圖譜進(jìn)行了優(yōu)化。比較注釋工具包(CAT)也可以通過(guò)將參考基因注釋投射到每個(gè)基因組上,對(duì)泛基因組圖譜中的單倍型進(jìn)行注釋,這有助于簡(jiǎn)化物種內(nèi)的注釋工作。
3. 泛基因組可視化
泛基因組圖譜可視化能夠?qū)徱暬蚪M之間的同源關(guān)系和變異情況,為潛在的生物學(xué)數(shù)據(jù)提供深刻見(jiàn)解。有多種工具可用于泛基因組圖譜可視化。Bandage和GfaViz最初是為可視化組裝圖譜而創(chuàng)建的,它們可以生成二維圖譜布局,允許以交互方式查看節(jié)點(diǎn)和邊,變異在布局中以氣泡形式呈現(xiàn)。vg viz 可以可視化節(jié)點(diǎn)、邊、路徑以及序列之間的堿基變異。SequenceTubeMap以一維 “管狀圖譜” 模型呈現(xiàn)這些元素,其中代表基因組的路徑從左到右在圖譜的序列節(jié)點(diǎn)間串聯(lián)。
為了適用于千兆堿基規(guī)模的泛基因組,如人泛基因組,MoMI-G 將 SequenceTubeMap 的堿基層面可視化與Circos的染色體圈圖相結(jié)合,以便高效瀏覽基因組之間的結(jié)構(gòu)變異(SVs)和比對(duì)數(shù)據(jù)。ODGI 可以以二維或一維形式呈現(xiàn)圖譜拓?fù)浣Y(jié)構(gòu)。Waragraph 是ODGI的交互式版本,目前正在開(kāi)發(fā)中,旨在實(shí)現(xiàn)一維和二維可視化的查看。
圖2:泛基因組圖譜構(gòu)建流程
四、泛基因組下游分析與應(yīng)用
1. 泛基因組展示變異
泛基因組圖譜中的變異位點(diǎn)(單核苷酸多態(tài)性(SNPs)、插入-缺失(indels)和結(jié)構(gòu)變異(SVs))可通過(guò)圖譜分解來(lái)提取,圖譜分解是將泛基因組圖譜分解為更小、更易于處理的子圖譜或元件(纏結(jié)或氣泡)的過(guò)程 。圖譜分解可使用vg snarl和gfatools bubble完成。在 MC和PGGB流程中實(shí)現(xiàn)的vg deconstruct,可以處理vg snarls的輸出結(jié)果,或自動(dòng)計(jì)算生成一個(gè)VCF文件。
結(jié)構(gòu)變異可通過(guò)改變基因表達(dá)和塑造染色體重排等來(lái)影響適應(yīng)性。完整呈現(xiàn)結(jié)構(gòu)變異有助于分析基因組內(nèi)的同線性和共線性。同時(shí)這可能為染色體進(jìn)化提供見(jiàn)解,尤其是性染色體和微小染色體通常含有更多的結(jié)構(gòu)變異,并且由于高重復(fù)序列和高GC而難以解析。人類泛基因組圖譜能夠識(shí)別異源近端著絲粒染色體之間的重組事件,尤其是在羅伯遜易位的斷點(diǎn)處。這些易位是人類中最常見(jiàn)的染色體重排,而全面的泛基因組圖譜極大地提高了對(duì)涉及SV的序列和形成機(jī)制的識(shí)別能力。
2. 群體基因組與轉(zhuǎn)錄組學(xué)數(shù)據(jù)分析
泛基因組圖譜可在重測(cè)序項(xiàng)目中用作參考,以減少映射偏差。當(dāng)參考圖譜中呈現(xiàn)更多基因組序列,且嵌入已知變異時(shí),短讀長(zhǎng)測(cè)序的映射可信度更高。由于標(biāo)準(zhǔn)算法無(wú)法直接應(yīng)用于泛基因組圖譜,需要開(kāi)發(fā)新工具用于序列與圖譜的比對(duì)。vg工具包中vg map適用于大型復(fù)雜變異圖譜,vg giraffe目前正在擴(kuò)展以支持長(zhǎng)讀長(zhǎng)測(cè)序,它采用Burrows - Wheeler變換,支持從泛基因組圖譜中高效查詢和檢索序列及變異。長(zhǎng)讀長(zhǎng)測(cè)序也可使用GraphAligner進(jìn)行比對(duì)。
提高短讀長(zhǎng)數(shù)據(jù)的比對(duì)率有助于重測(cè)序項(xiàng)目分析,尤其是在古DNA研究中。古DNA研究面臨著污染、降解、內(nèi)源性DNA量少、讀長(zhǎng)短等問(wèn)題,因而比對(duì)率較低。將古DNA與變異圖譜進(jìn)行比對(duì),與單個(gè)參考基因組相比,能夠通過(guò)改善多態(tài)性位點(diǎn)的等位基因平衡來(lái)減輕參考偏差。
vg還支持將RNA-seq數(shù)據(jù)比對(duì)到可識(shí)別剪接的圖譜上,生成的比對(duì)結(jié)果可用于量化單倍型特異性轉(zhuǎn)錄本的表達(dá)。泛轉(zhuǎn)錄組學(xué)有希望通過(guò)利用泛基因組參考圖譜中嵌入的群體變異,高效量化單倍型特異性的差異基因表達(dá)。作者認(rèn)為,將 RNA-seq 數(shù)據(jù)與泛基因組圖譜參考相結(jié)合的泛轉(zhuǎn)錄組測(cè)序項(xiàng)目,將闡明基因流的影響,檢測(cè)適應(yīng)性遺傳變異。染色質(zhì)可及性分析,如ChIP-seq或ATAC-seq,也得益于泛基因組學(xué),將它們與RNA-seq 數(shù)據(jù)相結(jié)合,提供了一種多組學(xué)方法,有助于解讀對(duì)多種生物學(xué)過(guò)程和表型至關(guān)重要的調(diào)控事件。這些方法將推動(dòng)未來(lái)在非模式生物中的泛表觀基因組學(xué)研究,克服當(dāng)前處理大型多組學(xué)數(shù)據(jù)集的局限。
3. 變異檢測(cè)和基因分型
由于讀長(zhǎng)比對(duì)能力的提升,泛基因組圖譜能夠提高重測(cè)序研究中變異檢測(cè)和基因分型的準(zhǔn)確性。vg可用于從圖譜中提取變異,并計(jì)算比對(duì)數(shù)據(jù)的覆蓋度和比對(duì)質(zhì)量,以準(zhǔn)確識(shí)別已知變異。通過(guò)計(jì)算每個(gè)節(jié)點(diǎn)的數(shù)據(jù)覆蓋度,可對(duì)較大的SVs進(jìn)行基因分型。
PanGenie 中實(shí)現(xiàn)了一種用于已知變異基因分型的替代方法,速度更快,且無(wú)需數(shù)據(jù)比對(duì)。該算法結(jié)合了圖譜中嵌入的長(zhǎng)讀長(zhǎng)單倍型信息和短讀長(zhǎng)數(shù)據(jù)中的 k - mer,對(duì)未表征樣本中的 SNP、indel 和 SV 進(jìn)行聯(lián)合基因分型。如果給定的變異區(qū)域被短讀長(zhǎng)k - mer覆蓋較差,圖譜中存在的單倍型可基于相鄰變異來(lái)支持基因型推斷。
在群體研究中,基于泛基因組的變異檢測(cè)提高了準(zhǔn)確性,并降低了每個(gè)樣本的數(shù)據(jù)要求,有可能擴(kuò)大可評(píng)估隊(duì)列的規(guī)模。確定準(zhǔn)確且全面的變異集可提高對(duì)種群歷史、連鎖不平衡和全基因組選擇掃描分析的分辨率。這在有效種群規(guī)模較大的物種中非常有用,因?yàn)樵谶@些物種中連鎖不平衡程度較低。通過(guò)改進(jìn)結(jié)構(gòu)變異的基因分型,泛基因組圖譜還有助于將結(jié)構(gòu)變異整合到GWAS分析中,特別是現(xiàn)在越來(lái)越多的重測(cè)序項(xiàng)目采用三代長(zhǎng)讀長(zhǎng)測(cè)序。因此,對(duì)基于泛基因組的SNP和結(jié)構(gòu)變異數(shù)據(jù)集進(jìn)行全基因組關(guān)聯(lián)研究,能夠增進(jìn)研究人員對(duì)復(fù)雜多基因性狀遺傳基礎(chǔ)的理解,揭示自然選擇以及基因-環(huán)境相互作用和相關(guān)性的作用。
圖3:泛基因組下游分析
結(jié)論與未來(lái)展望
在過(guò)去幾年里,為生物多樣性研究生成高質(zhì)量參考基因組的大型項(xiàng)目計(jì)劃如雨后春筍般涌現(xiàn),包括脊椎動(dòng)物基因組計(jì)劃、達(dá)爾文生命之樹(shù)計(jì)劃以及歐洲參考基因組圖譜計(jì)劃等。地球生物基因組計(jì)劃于2020年啟動(dòng),提議在未來(lái)10年內(nèi)對(duì)所有已命名的真核生物物種進(jìn)行基因組測(cè)序。雖然目前僅有少數(shù)物種擁有泛基因組圖譜,但泛基因組測(cè)序和組裝方面的最新進(jìn)展有可能將這一方法推廣到大多數(shù)真核生物物種,有助于減少生物多樣性、其演化及保護(hù)等所有相關(guān)分析中的代表性偏差。
由于成本和樣本獲取的限制,對(duì)許多物種而言,從多個(gè)個(gè)體收集、測(cè)序和組裝泛基因組可能并不現(xiàn)實(shí)。在這種情況下,來(lái)自少數(shù)個(gè)體的泛基因組仍能提高代表性并減少參考偏差,尤其是對(duì)于高度雜合的種群,單個(gè)個(gè)體可能攜帶大量的等位基因多樣性。泛基因組圖譜可廣泛應(yīng)用于生物多樣性的多個(gè)領(lǐng)域,從群體基因組學(xué)、系統(tǒng)發(fā)育基因組學(xué)、雜交與物種形成研究到保護(hù)基因組學(xué),并且有望在未來(lái)成為此類研究的標(biāo)準(zhǔn)參考系統(tǒng)。目前,許多新方向正在探索之中。例如,泛線粒體基因組已被證明能改進(jìn)個(gè)體的單倍型分析 ,并正被考慮用于從異質(zhì)樣本中進(jìn)行物種鑒定。另一個(gè)有前景的新方向是超級(jí)泛基因組圖譜,它將變異研究擴(kuò)展到物種以上的分類等級(jí),為研究物種分化、選擇和重組過(guò)程背后的分子和進(jìn)化機(jī)制,以及對(duì)快速氣候變化的適應(yīng)性開(kāi)辟了新的可能性,特別是由于超級(jí)泛基因組圖譜能夠整合所有類型的基因組變異,它們有潛力闡明大型、隨機(jī)交配且高度重組的野生種群復(fù)雜的進(jìn)化歷史和種系地理關(guān)系,以及改進(jìn)諸如不完全譜系分選等事件的系統(tǒng)發(fā)育重建。超級(jí)泛基因組還可以協(xié)助研究發(fā)生雜交的復(fù)雜生態(tài)系統(tǒng)中的生物多樣性。在泛基因組圖譜中納入兩個(gè)雜交物種,將減輕因使用任一物種的參考基因組而產(chǎn)生的偏差,泛基因組還有助于揭示分化島的起源,這些高度分化的基因組區(qū)域可能與生殖隔離相關(guān),進(jìn)而與物種形成過(guò)程相關(guān)。即使在同一物種內(nèi),一個(gè)包含所有亞種組裝的全面泛基因組圖譜,也能最大限度地識(shí)別特定亞種獨(dú)有的結(jié)構(gòu)變異。作者預(yù)測(cè),隨著未來(lái)用于比對(duì)不同物種泛基因組的工具的發(fā)展,物種水平的泛基因組也將在系統(tǒng)發(fā)育比較基因組學(xué)研究中取代線性基因組。
泛基因組圖譜通過(guò)更全面地捕捉遺傳多樣性,也可能有效地指導(dǎo)旨在最大限度保護(hù)遺傳變異的保護(hù)策略,特別值得關(guān)注的是與適應(yīng)和應(yīng)對(duì)環(huán)境壓力相關(guān)的結(jié)構(gòu)和功能基因組變異,這將改善在受威脅和瀕危物種種群間重新引入和遷移個(gè)體的選擇標(biāo)準(zhǔn),更好地呈現(xiàn)結(jié)構(gòu)元件,如結(jié)構(gòu)變異、著絲粒和端粒、拷貝數(shù)變異以及單核苷酸多態(tài)性,連同非編碼調(diào)控元件,可為近親繁殖、遠(yuǎn)親繁殖、有害突變、基因滲入和局部適應(yīng)等提供全面的保護(hù)相關(guān)信息。泛基因組還可以幫助識(shí)別隱秘物種中的不同基因組區(qū)域,進(jìn)而開(kāi)發(fā)多基因座探針來(lái)區(qū)分隱秘分類群,簡(jiǎn)化保護(hù)管理工作。此外,作者設(shè)想泛基因組學(xué)能夠通過(guò)提高古代DNA與近緣物種泛基因組的比對(duì)能力,幫助重建已滅絕生物多樣性的基因組藍(lán)圖。對(duì)滅絕物種與其現(xiàn)存近親進(jìn)行更全面的比較,將有助于識(shí)別導(dǎo)致已喪失性狀和生態(tài)系統(tǒng)功能的遺傳變異,這些信息對(duì)于任何復(fù)活滅絕物種和恢復(fù)生態(tài)系統(tǒng)的努力都至關(guān)重要。
總之,隨著組裝、可視化、注釋和分析泛基因組圖譜的方法不斷改進(jìn),作者建議生物多樣性基因組學(xué)領(lǐng)域的研究人員都能接受泛基因組圖譜這一研究新范式。
參考文獻(xiàn)
"Pangenome graphs and their applications in biodiversity genomics“ Nature Genetics;https://doi.org/10.1038/s41588-024-02029-6
華命生物產(chǎn)品服務(wù)一覽