Séquence complète du génome humain publiée dans une réalisation marquante :

Partager sur Pinterest :
Des chercheurs ont publié une séquence sans interruption du génome humain. John Niklasson/Getty Images :
  • Des chercheurs du consortium Telomere-to-Telomere (T2T) ont publié la séquence complète du génome humain, comblant les lacunes présentes dans les versions précédentes.
  • Les séquences précédemment publiées représentaient 92 % du génome humain et étaient incomplètes en raison de limitations technologiques :.
  • Le consortium de chercheurs T2T a déployé des technologies de séquençage avancées pour séquencer les 8 % restants du génome humain, ajoutant 3 milliards de paires de bases de nouvelles séquences.
  • La publication de la séquence complète aidera les scientifiques à comprendre le rôle des régions précédemment non séquencées dans le développement, l’évolution et les maladies humaines.

Bien que le: Projet du génome humain: a annoncé l’achèvement du séquençage du génome humain en 2003, il y avait des régions non séquencées dans le génome en raison de limitations techniques.

Les scientifiques du consortium Telomere-to-Telomere (T2T) ont maintenant séquencé le génome humain complet, qui comprend 8 % du génome non séquencé jusqu’à présent.

Le génome humain récemment publié comprend des assemblages sans interruption de tous les chromosomes du génome humain à l’exception de Y, est appelé T2T-CHM13 et servira de génome de référence. Cela signifie que ce sera un modèle auquel d’autres génomes pourront être comparés par les chercheurs et les cliniciens.

Le génome T2T-CHM13 comprend la séquence de près de 200 millions de paires de bases qui manquait dans le génome de référence précédemment utilisé, GRCh38, publié par le Consortium de référence du génome :. En plus de combler les lacunes du génome, le génome T2T-CHM13 a également corrigé les erreurs présentes dans le GRCh38.

Dr. Karen Miga, co-responsable du consortium T2T et professeur à l’Université de Californie à Santa Cruz, a déclaré à Medical News Today : « La disponibilité d’une séquence complète du génome fera progresser notre compréhension des plus difficiles à séquencer et à répéter. parties riches du génome humain. »

“À l’avenir, lorsqu’une personne verra son génome séquencé, les chercheurs et les cliniciens pourront identifier toutes les variantes de leur ADN et utiliser ces informations pour mieux guider leurs soins de santé. Connaître la séquence complète du génome humain fournira un cadre complet aux scientifiques pour étudier la variation, la maladie et l’évolution du génome humain. »

-Dr. Miga :

L’étude décrivant le séquençage du génome humain complet paraît dans la revue : Science:. Cinq études complémentaires menées par des scientifiques du consortium T2T accompagnent le manuscrit. Dans ceux-ci, les scientifiques étudient plus avant la structure et la fonction des régions du génome précédemment non séquencées.

Lors de la préparation des premières ébauches du génome humain, les scientifiques ont utilisé une approche impliquant le séquençage d’un grand nombre de courts fragments d’ADN se chevauchant couvrant l’ensemble du chromosome. Ces fragments de gène ont ensuite été alignés ensemble sur la base d’une séquence qui se chevauche, permettant aux chercheurs de reconstruire la séquence de chaque chromosome.

Les scientifiques ont adopté une telle approche parce que la technologie de séquençage de l’ADN disponible à l’époque n’était capable de séquencer que des fragments d’ADN, ou lectures, d’environ 500 paires de bases de long.

L’information génétique portée par l’ADN se présente sous la forme d’une séquence spécifique de quatre bases azotées : adénine (A), thymine (T), guanine (G) et cytosine (C). Certaines régions du génome sont constituées de séquences répétitives, qui comprennent des copies similaires ou identiques d’une séquence d’ADN spécifique.

Ces séquences répétitives peuvent être présentes sur le même chromosome ou sur des chromosomes différents. Par exemple, télomères :les régions à chaque extrémité du chromosome, ont tendance à être constituées de la séquence TTAGGG répétée plusieurs fois sur une étendue de 2 000 à 50 000 paires de bases.

Dans le cas de régions du génome contenant des séquences répétitives, les chercheurs n’ont pas pu reconstruire la séquence des chromosomes en raison de multiples fragments d’ADN se chevauchant. De plus, les chercheurs n’ont pas été en mesure de déterminer le nombre de copies de ces séquences répétitives présentes sur les chromosomes.

Les progrès technologiques ont permis de séquencer de plus gros fragments d’ADN. Les technologies de séquençage actuelles sont capables de séquencer des fragments d’ADN dont la longueur varie de quelques paires de kilobases (1 000 bases) à plus de 100 paires de kilobases.

Ces technologies sont utiles pour séquencer de grands fragments d’ADN avec des séquences répétitives mais ont un taux d’erreur relativement élevé. Pour garantir un haut niveau de précision, les chercheurs du consortium T2T ont combiné ces technologies de séquençage à lecture longue avec une technologie de séquençage différente possédant une longueur de lecture de 20 paires de kilobases et des taux d’erreur faibles.

Les individus ont tendance à montrer des différences dans le nombre de copies ou l’orientation des séquences d’ADN répétitives, ce qui peut avoir des implications pour la santé. Le génome de référence GRCh38 a été généré à partir de matériel génétique obtenu à partir de plusieurs individus différents et ne représente pas un ensemble complet de chromosomes d’un seul individu.

Pour combler cette lacune, les chercheurs du consortium T2T ont utilisé une lignée cellulaire appelée CHM13 dérivée d’un : môle hydatiforme complète. Une taupe hydatiforme complète est une forme de grossesse non viable impliquant la formation d’une masse de cellules généralement composée de deux ensembles de chromosomes identiques, dont 2 chromosomes X, issus du parent mâle.

L’utilisation de cette lignée cellulaire dans la présente étude a facilité le séquençage du génome et a fourni une séquence complète d’un seul ensemble de chromosomes.

Une région majeure du chromosome avec des séquences manquantes dans le génome GRCh38 était la : centromère :qui contient un grand nombre de séquences d’ADN répétées.

Le centromère est une région resserrée du chromosome qui divise le chromosome en un bras court et un bras long. Les centromères jouent un rôle important dans la ségrégation des chromosomes entre les cellules filles lors de la division cellulaire.

En utilisant les technologies de séquençage avancées, les chercheurs du consortium T2T ont pu séquencer les centromères et les régions entourant les centromères, qui représentent 6,2 % de l’ensemble du génome.

Dans une étude complémentaire, des chercheurs de T2T dirigés par le Dr. Miga a utilisé le génome T2T-CHM13 pour caractériser les séquences d’ADN dans les centromères qui interagissent avec les kinétochores, un complexe protéique qui facilite la séparation des chromosomes lors de la division cellulaire. Ils ont également pu mieux comprendre comment ces séquences d’ADN de centromère auraient pu évoluer.

De plus, en utilisant le T2T-CHM13 comme référence, les chercheurs ont comparé les séquences du centromère des chromosomes X d’individus aux origines génétiques diverses. Ils ont trouvé une variation considérable dans la séquence d’ADN des centromères chez ces individus, ce qui pourrait potentiellement aider à comprendre l’impact de cette variation génétique sur la fonction des centromères.

Dr. Steven Henikoff, biologiste moléculaire au Fred Hutchinson Cancer Center, a déclaré : MNT :« Malgré le rôle central : [of centromeres] en biologie, les chercheurs ne savent toujours pas ce qu’il y a en eux qui rend la séquence d’ADN qui spécifie un centromère si différente de celle du reste du chromosome. »

Comprendre le centromère en tant qu’unité est nécessaire pour comprendre pleinement les erreurs de mouvement des chromosomes lorsque les cellules se divisent, ce qui est considéré comme un moteur du cancer et de certaines autres maladies humaines, y compris les malformations congénitales. “Ainsi, terminer le travail de séquençage du génome humain est important non seulement parce qu’il fallait comprendre pleinement un problème central de la génétique, mais aussi en raison de l’importance des centromères dans la santé et la maladie humaines”, a ajouté le Dr. Hénikoff.

En plus des centromères, le génome T2T-CHM13 comprend également la séquence du bras court de cinq chromosomes qui étaient, dans une large mesure, non séquencés. Ces cinq chromosomes sont acrocentriques, leurs bras courts étant disproportionnellement plus courts que leur bras long.

En plus de contenir des séquences répétitives, il existe un degré de similitude important entre les séquences des bras courts des cinq chromosomes acrocentriques, expliquant la difficulté à séquencer ces régions.

Les bras courts des chromosomes acrocentriques codent pour : ARN ribosomal : molécules, qui ne codent pas pour les protéines mais sont des composants des ribosomes. Les ribosomes sont des sites où se produit la synthèse des protéines, soulignant l’importance du séquençage de ces chromosomes acrocentriques pour comprendre la régulation de la synthèse des protéines. Dans la présente étude, les chercheurs ont séquencé 9,9 paires de mégabases d’ADN qui codent pour l’ARN ribosomique.

Dr. Brian McStay, professeur à l’Université nationale d’Irlande, Galway, a déclaré : MNT :: Les bras courts des cinq chromosomes acrocentriques humains sont essentiels à la construction des nucléoles, les plus grandes structures présentes dans le noyau humain. Les nucléoles sont les usines où sont construits les ribosomes, les machines biologiques qui fabriquent les protéines. Une séquence complète de ces bras chromosomiques lancera une nouvelle ère de recherche sur le fonctionnement des nucléoles dans les cellules humaines normales, malades et vieillissantes. »

Les chercheurs du consortium T2T ont également utilisé plus de 3000 échantillons de génomes d’individus du monde entier et ont comparé ces échantillons de génomes avec les génomes de référence T2T-CHM13 et GRCh38. Ils ont identifié un certain nombre de variantes de gènes associées à la santé humaine et aux maladies dans les régions qui manquaient dans le génome de référence GRCH38 et ont pu supprimer les variantes incorrectement identifiées par GRCh38.

De manière significative, le T2T-CHM13 a aidé à identifier ces variantes de ces gènes médicalement pertinents avec une précision 12 fois supérieure à celle du génome GRCh38. Cela comprenait des gènes pour une grande variété de conditions, y compris le cancer, les troubles immunitaires, la dystrophie musculaire et la perte auditive.

Cependant, des recherches supplémentaires sont nécessaires pour identifier des variantes supplémentaires de gènes médicalement pertinents dans les régions précédemment non séquencées.

Le co-auteur de l’étude, le Dr. Justin Zook, ingénieur biomédical au National Institute of Standards and Technology, déclare :

« Ce que nous avons constaté, c’est que cette nouvelle référence améliorait la précision à tous les niveaux. Ainsi, quelle que soit l’ascendance de l’individu, qu’il soit africain, caucasien ou asiatique, la nouvelle référence a amélioré les résultats pour lui. »

Dans des études complémentaires, les chercheurs du consortium T2T ont également utilisé des méthodes informatiques pour caractériser le profil d’expression des gènes dans les régions précédemment non séquencées et la manière dont ces gènes peuvent être régulés. Ces efforts permettront d’améliorer encore la compréhension de la régulation de l’expression génique dans ces régions non séquencées dans diverses populations et dans diverses conditions médicales.

Dr. Miga a noté que « le génome T2T-CHM13 ne capture pas toute la diversité de la variation génétique humaine. Pour remédier à ce biais, le Consortium de référence du pangénome humain s’est associé au Consortium T2T pour constituer une collection de génomes de référence de haute qualité provenant de diverses populations. Ce sera un axe critique dans les années à venir. »

Dr. Miga a également ajouté que le chromosome Y n’est pas exprimé par la lignée cellulaire CHM13 et doit être séquencé à l’aide de cellules provenant d’une source différente.

Leave a Comment