テロメア
Jun 26, 2023
Nature Genetics volume 55、pages 1390–1399 (2023)この記事を引用
6669 アクセス
58 オルトメトリック
メトリクスの詳細
パンゲノムは、配列多型と構造変異体 (SV) の両方の観点から、種の遺伝的多様性を正確に表現するためのアクセスを提供します。 ここで我々は、種の系統学的および生態学的多様性を表す 142 株の基準品質のゲノムを含む Saccharomyces cerevisiae Reference Assembly Panel (ScRAP) を作成しました。 ScRAP には、いくつかのヘテロ接合性二倍体および倍数体分離株の段階的ハプロタイプ アセンブリが含まれています。 我々は、テロメア長や転移因子の動態など、ゲノム多様性の広範な視点を提供する約 4,800 個の非重複 SV を同定しました。 私たちは、大きな染色体が大きな欠失や転座を起こした複雑な異数性の頻繁な症例を発見しました。 私たちは、SV がブレークポイント付近の遺伝子発現に影響を与え、遺伝子レパートリーの進化に大きく寄与する可能性があることを発見しました。 また、水平に獲得された領域が染色体の末端に挿入され、新しいテロメアを生成できることも発見しました。 全体として、ScRAP は、集団規模でのゲノム進化を理解する上でのパンゲノムの利点を示しています。
単一分子ロングリードシークエンシングは、以前の技術では一般的に組み立てられないままである反復染色体領域を含む、ギャップのないゲノムアセンブリへのアクセスを提供します。 これは、特にオックスフォード ナノポア テクノロジー (ONT) 2 による超長時間読み取りのおかげで、ヒトゲノム 1 の連続性が急速に増加していることで最もよく例証されています。 最近、テロメア対テロメア (T2T) コンソーシアムは、2 本のヒト染色体の最初の完全な「T2T」アセンブリを公開しました 3,4,5 。続いて、ほぼ 200 Mb の新しい配列を含む、最初のギャップのないヒトゲノムが公開されました 6。 複雑な植物ゲノムや古典的なモデル生物でも、ロングリード技術のおかげでアセンブリの連続性が向上しています7、8、9、10、11。
これらの進歩により、少数の種が参照のような連続した複数のゲノムを持つことが可能になりました。これにはモデル生物や、大腸菌 12、ショウジョウバエ 10,13、ナス 14、グリシン マックス 15、イネ 8,16、カイコ 17、ヒト 18,19 などの人間中心的に重要な種が含まれます。 、20。 パン酵母 Saccharomyces cerevisiae は、非参照株のロングリード ゲノム アセンブリを合計 68 個持っています 21、22、23、24、25、26、27、28、29、30。 これらのデータは、ショートリードデータに対する連続性の改善の定量化 25、転移因子 (TE) のゲノム全体のマップの作成 22、24、25、サブテロメア領域の特徴付け 29、位相ハプロタイプの解析、および大きな構造変異体 (SV) の検出 22、25 に使用されています。 26、29、30。 ただし、利用可能なゲノム アセンブリの連続性は S. cerevisiae で大きく異なり、染色体レベルの連続性に達したのはそのうちの小さなサブセットのみでした。 さらに、代表的な参照ゲノムを欠く多くのクレードによりサンプリングは依然として限られており、倍数体ゲノムは豊富に存在するにもかかわらず (分離株の 11.5%) 含まれていません 31。 最後に、二倍体ゲノムおよび倍数体ゲノムのハプロタイプを段階的に評価することは困難であり、ハプロタイプの推論やヘテロ接合性の測定が妨げられます。
ここで我々は、種のゲノム空間をサンプリングする 142 の分離株の T2T ゲノム アセンブリを含む S. cerevisiae 参照アセンブリ パネル (ScRAP) を生成しました。 これらのゲノムの品質は参照ゴールドスタンダードを超えており、他の種ではまだ達成されていないスケールでSVと複雑な領域を正確に特徴付けることができます。
ScRAPには、種の地理的および生態学的分布とその倍数性およびヘテロ接合性レベルをカバーする142の株が含まれています(図1a、bおよび補足表1)。 このパネルは、197 個の核ゲノム アセンブリと 136 個のミトコンドリア ゲノム アセンブリで構成され、100 個の新たに配列決定されたゲノムが含まれており、その中でハプロタイプが解決されたアセンブリは二倍体ゲノムと倍数体ゲノムの両方で利用できます (表 1 および補足表 1 ~ 3)。 ゲノムメトリクスは、すべてのアセンブリにわたる高い連続性と完全性レベルを明らかにします(補足注1)。 ScRAP は、すべての主要系統分岐群にわたる参照品質のゲノムを提供します 31,32 (図 1c および補足注 2)。 T2Tハプロタイプ解決二倍体アセンブリは、姉妹ハプロタイプ(HP、ハプロタイプ1(HP1)およびハプロタイプ2(HP2))が常にツリー内でグループ化され、同じ混合プロファイルを共有していることを示します(図1c、d)。 最も顕著な違いは、ワイン/ヨーロッパ MC9 (AIS) 株の 2 つの HP 間で観察され、HP2 (AIS_HP2) の分岐長が他のすべての末端分岐と比較して不釣り合いに長く、染色体によって駆動されます (図 1c)。高度に分岐した種からの染色体 VI および VII の規模の遺伝子移入 (全染色体遺伝子移入を参照)。
50 bp, including deletions, insertions, duplications and contractions of repetitive sequences and copy-neutral rearrangements including inversions (>1 kb) and translocations (>10 kb). They originated from 4,809 nonredundant large-scale rearrangements that are shared at varying frequencies across the 141 nonreference strains (Table 1 and Supplementary Table 5). This nonredundant SV catalog covers ca. 80% of the estimated whole species structural diversity that we predicted to contain approximately 6,000 SVs (Fig. 2b and Table 1)./p>10 kb (Fig. 2f). This distribution shows two clear peaks around 300 bp and 6 kb for deletions, insertions and inversions corresponding to solo-long terminal repeats (LTRs) and full-length Ty elements. The mobility of Ty elements directly accounts for 59% of all insertions (1,571 events) and 16% of deletions through inter-LTR recombination (218 events). This unbalance is explained by the limited number of Ty elements in the reference genome that can be interpreted as a deletion when absent from other genomes. Interestingly, 19% and 8% of all duplications and contractions (representing 74 and seven cases, respectively), also resulted from tandem Ty movements. Altogether 39% of all SVs result from the insertion and deletion of Ty elements./p>50 bp) per genome, which represents an average density of 1 SV every 50 kb. By comparison, each human genome would contain >20,000 SVs46, which corresponds to approximately 1 SV/150 kb, that is, three times lower than in S. cerevisiae. In other eukaryotes that benefit from pangenome data, the SV density scales from 1 SV/90 kb in Drosophila47 (likely underestimated because only >100 bp euchromatic SVs were considered), 1 SV/38 kb in soybean15, 1 SV/17 kb in rice8 and up to 1 SV/4 kb in silkworm17. We also found a clear positive correlation between the numbers of SVs and SNVs/indels accumulating within genomes. It has been proposed that a genomic clock would coordinate the pace of fixation between amino acid substitutions and large-scale rearrangements in bacteria and yeast48,49. However, this clock seems to tick at a different pace depending on the ploidy and zygosity levels of the genome. SVs preferentially accumulate in heterozygous and higher ploidy genomes (Fig. 2c). One possibility would be that SVs are better tolerated in higher ploidy genomes as their deleterious effects (for example, gene deletion and dosage imbalance) are more efficiently buffered. Alternatively, the rate of SV formation might increase with ploidy, as was suggested for aneuploidies37./p>100 kb (that is, a the CR does not cover region/s summing to 100 kb or more) were labeled as complex and the rest as simple/p>100 kb that are present within a strain containing an aneuploidy detected above. Label as complex aneuploidy-related and use in the less conservative estimate of complex aneuploidy count./p>