scTEM-seq : Analyse unicellulaire de la méthylation des éléments transposables pour lier l’hétérogénéité épigénétique globale aux programmes transcriptionnels

Lignées cellulaires et échantillons de patients :

Des cellules KG1a (ATCC, catalogue # CCL-246.1) ont été cultivées dans le milieu de Dulbecco modifié d’Iscove (IMDM) (Sigma-Aldrich, catalogue # I3390) avec 10 % de sérum bovin fœtal (FBS). Des cellules HL60 (ATCC, catalogue # CCL-240) ont été cultivées dans le milieu de Dulbecco modifié d’Iscove (IMDM) (Sigma-Aldrich, catalogue # I3390) avec 10 % de sérum bovin fœtal (FBS) et 4 mM de glutamax (Life Technologies, catalogue # 35050061 ) ). Les tests de mycoplasme de routine ont été effectués à l’aide du kit de détection de mycoplasmes MycoAlert (Lonza, catalogue # LT07-318), et la validation de la lignée cellulaire a été effectuée par l’Australian Genome Research Facility à l’aide d’une analyse microsatellite personnalisée. Les lignées cellulaires ont été traitées avec 100 nM de 5-aza-2′-désoxycitidine (décitabine, DAC) toutes les 24 h (0, 24 et 48 h) et récoltées à 72 h.

Les expériences impliquant des échantillons humains ont été approuvées par les comités d’éthique humaine du service de santé Hunter New England Area et de l’Université de Newcastle, et toutes les méthodes ont été réalisées conformément aux directives et réglementations en vigueur. Le patient AML inclus dans cette étude (AML01) a été recruté au moment du diagnostic par le Calvary Mater Newcastle Hospital, avec un consentement éclairé écrit. Le patient était un homme de 60 ans, diagnostiqué avec une LAM secondaire à la suite d’une leucémie myélomonocytaire chronique. L’évaluation clinique a révélé un caryotype complexe comprenant un isochromosome 17q et des mutations dans : ASXL1 :, SETBP1 : et: SRSF2 : gènes. Les cellules mononucléaires enrichies ont été purifiées à partir de sang périphérique à l’aide d’un milieu à gradient de densité Lymphoprep (StemCell, catalogue n° 7851) et de tubes SepMate (StemCell, catalogue n° 85450) et cryoconservées.

Tri cellulaire :

Les cellules KG1a ont été colorées à l’aide du kit de détection d’apoptose PE Annexin V (BD Life Science, catalogue # 559763). Cellules vivantes (Annexine V :/ 7-AAD :) ont été triés dans des puits individuels d’une plaque à 96 puits contenant du tampon de lyse 2,5 μL RLT Plus Lysis Buffer (QIAGEN, catalogue # 1053393) avec 1U / μL SUPERase-In (ThermoFisher, catalogue # AM2696). Avant le tri, des échantillons en vrac de KG1a de 1 000 000 de cellules ont été prélevés à la fois dans les populations non traitées et traitées pour comparaison avec des cellules individuelles. Les cellules HL60 ont été colorées avec de l’iodure de propinium (PI) (ThermoFisher, catalogue # P1304MP) et des cellules vivantes (PI)) ont été triés dans une plaque à 96 puits contenant du tampon de lyse 2,5 μL RLT Plus Lysis Buffer avec 1U / μL SUPERase-In.

Des cellules humaines primaires cryoconservées ont été remises en suspension dans un milieu de décongélation (IMDM, 20 % de FBS), lavées deux fois et remises en suspension. Les cellules ont ensuite été laissées au repos pendant 1h à 37°C avant préparation pour la cytométrie en flux. Cellules (1 × 10 :6 :/ 100 μl) ont été colorées avec 1,5 μg/mL d’iodure de propidium (PI, Sigma-Aldrich, P1304MP), 1:20 CD45-PECy7 (2D1, Life Technologies, catalogue # 25-9459-42), 1:20 CD33-FITC (WM-53, Life Technologies, catalogue # 11-0338-42) et 1:20 CD19-BV711 (SJ25C1, BD Biosciences, catalogue # 563036). Explosions uniques (PI :/ CD45 :faible:) ont été recueillis dans 2,5 μL de tampon de lyse RLT Plus contenant 1U/μL de SUPERase-In dans des plaques à 96 puits.

Préparation de la bibliothèque :

Nous avons utilisé le protocole G&T-seq pour séparer l’ADN génomique et l’ARN des échantillons unicellulaires :45 :. L’ADN génomique de chaque cellule a été purifié et la conversion au bisulfite a été effectuée comme décrit :17:, avec des modifications mineures. La conversion au bisulfite a été réalisée en utilisant le kit EZ-96 DNA Methylation-Direct MagPrep (Integrated Sciences, catalogue # D5054) avec des demi-volumes des instructions du fabricant. L’ADN converti au bisulfite a été élué directement des MagBeads dans le mélange PCR, et l’amplification des TE a été réalisée avec les MagBeads toujours dans le puits. Les conditions de cyclage PCR utilisées étaient de 95°C pendant 5 min (1 cycle), 98°C pendant 20 s, 53°C pendant 15 s, 72°C pendant 1 min (35 cycles), et 72°C pendant 10 min (1 cycle). Mélange PCR utilisé 7,5 1 l 1 × KAPA HiFi hotStart Uracil + ReadyMix (Millennium, catalogue # ROC-07959079001) et 0,3 µM de mélange d’amorces. Les amorces ont été ciblées sur les séquences consensus SINE Alu et LINE-1 et comprenaient une séquence adaptatrice partielle à l’extrémité 5 ‘pour permettre une indexation ultérieure avec les oligos à double indice NEBNext (Fig. S2A supplémentaire, tableaux supplémentaires S1 et S2). Les amorces de deuxième génération comprenaient également un espaceur de 0 à 5 N et une séquence d’indice de 8 pb entre l’adaptateur et la séquence d’amorçage SINE Alu. Après amplification, les bibliothèques ont été purifiées à l’aide d’un volume de 1,2 × de billes AMPure XP (Beckman Coulter, catalogue # A63881). Toutes les bibliothèques ont ensuite été quantifiées à l’aide du kit Qubit dsDNA HS (Life Technologies), normalisées et regroupées dans un seul tube. Des pools ont ensuite été ajoutés à 0,8 oligos à double index NEM NEBNext (Genesearch, catalogue # E7780S) et 14,5 1l 1 × KAPA HiFi HotStart ReadyMix (Millennium, catalogue # ROC-07958935001) pour l’indexation et l’ajout d’adaptateurs. Les conditions de cyclage PCR utilisées étaient de 98°C pendant 45 s (1 cycle), 98°C pendant 15 s, 65°C pendant 30 s, 72°C pendant 30 s (5 cycles), et 72°C pendant 5 min (1 cycle). Les pools ont ensuite été purifiés à l’aide de 0,9 × volume de billes Ampure XP, normalisés et combinés pour le séquençage. Des bibliothèques de scRNA-seq appariées ont été préparées comme décrit :9h17 :. Pour AML01, 4 colonnes (30 échantillons et 2 contrôles négatifs) ont été exclues avant le séquençage en raison de la faible qualité de la bibliothèque après une erreur dans la préparation de la bibliothèque.

Une approche post-bisulfite adapter tagging (PBAT) :46 : a été utilisé pour préparer des bibliothèques de séquençage à l’échelle du génome en vrac à partir de populations de cellules appariées. Les bibliothèques ont été préparées comme décrit :47:, avec des modifications mineures. L’oligo adaptateur 6NR 2 utilisé lors de la synthèse du second brin a été modifié (5′-CAGACGTGTGCTCTTCCGATCTNNNNNN-3 ‘) pour être compatible avec les oligos à double indice NEBNext qui ont été utilisés pour l’amplification de la bibliothèque.

Séquençage :

Le séquençage des lectures de bisulfite a été réalisé à l’aide de la plateforme Illumina MiSeq. Une faible profondeur de lecture est requise, donc pour les données de ce papier, des kits de séquençage avec seulement 4 millions de lectures ont été utilisés pour 192 cellules. Des concentrations de chargement de bibliothèque de 8 à 10 pM ont été utilisées avec un pic de 1 % PhiX. Nous avons atteint en moyenne 23 000 paires de lectures par échantillon.

Les bibliothèques scRNA-seq ont été séquencées à l’aide de la plate-forme NextSeq avec une concentration de chargement de 1,5 pM et un pic de 1 % PhiX. Nous avons exclu toutes les cellules avec des taux d’alignement inférieurs à 80 %. Avec environ 1 000 000 lectures par cellule, nous avons mesuré entre 6 300 et 15 000 gènes dans toutes nos bibliothèques de scRNA-seq KG1a à cellule unique (tableau supplémentaire S5). Le nombre de gènes mesurés dans les cellules AML01 était plus modeste, avec entre 2800 et 5200 gènes dans les cellules passant le contrôle de qualité (tableau supplémentaire S6).

Les bibliothèques PBAT ont été séquencées à l’aide de la plateforme MiSeq. Ces bibliothèques ont été préparées dans le but de mesurer les niveaux globaux de méthylation de l’ADN et, en tant que telles, ont également été séquencées avec une faible profondeur de lecture (~ 100 000 lectures par échantillon en vrac).

Traitement et analyse des données (scTEM-seq)

Après le démultiplexage initial des index primaires Illumina, Cutadapt (v2.10)48: a été utilisé pour démultiplexer les pools en fonction d’index secondaires personnalisés (tableau supplémentaire S1). Les commandes –g et -G ont été utilisées pour transmettre des listes d’index avant et arrière nommées sous forme de fichier .fasta à Cutadapt. Les lectures de bisulfite ont été coupées à l’aide de Trim Galore (v0.6.5)49:. 10 pb ont été coupés des extrémités 5 ‘et 3’ pour éliminer les séquences d’adaptateur restantes des lectures. Les lectures ont été mappées sur Bowtie2 (v 2.4.1)50 : génome humain indexé (GRCh38) utilisant Bismark (v0.22.3) en mode non directionnel et apparié51 :. Le module d’extraction de la méthylation de Bismark a ensuite été utilisé pour produire des fichiers de couverture pour l’analyse de la méthylation.

La couverture des éléments transposables annotés a été mesurée dans les données scTEM-seq à l’aide de SeqMonk (v1.46.0)52 :. Nous avons exclu les cellules avec une couverture de moins de 1000 sites TE annotés (ou 500 pour les cellules HL60) en utilisant les annotations Repbase. Les niveaux de méthylation ont été calculés à partir de fichiers .cov en utilisant la moyenne de tous les sites CpG couverts (Figs. 1C, D, 2B, 3 et Figs. Supplémentaires S7 et S8).

Traitement et analyse des données (PBAT)

Les bibliothèques PBAT ont été découpées à l’aide de Trim Galore pour supprimer 9 pb de l’extrémité 5 ‘de toutes les lectures. Les lectures ont été cartographiées à l’aide de Bismark en mode non directionnel et apparié. Les lectures non mappées ont été réalignées en mode single-end pour tenir compte des lectures chimériques observées dans les bibliothèques PBAT :53 :. Après avoir produit des fichiers de couverture avec le module d’extraction de méthylation Bismark, les alignements appariés et simples pour chaque échantillon ont été fusionnés en un seul fichier à l’aide de la commande cat (concaténer). L’analyse en aval a été réalisée à l’aide de SeqMonk. Les niveaux de méthylation de la cytosine à l’échelle du génome ont été moyennés sur des tuiles de 3000 bp. Les niveaux de méthylation SINE Alu ont été mesurés sur des sites Alu annotés à l’aide d’annotations Repbase.

Traitement et analyse des données (scRNA-seq)

Les données scRNA-seq ont été coupées à l’aide de Trim Galore, avec le réglage par défaut en mode apparié. Hisat2 :54 : (v2.1.0) et Samtools :55 : (v1.10) ont été utilisés pour convertir, cartographier et aligner des lectures uniques et ambiguës sur la construction du génome de référence humain GRCh38 à partir de lectures fastq brutes au format bam. Transcriptions TE :56 : a été utilisé pour obtenir le nombre brut de gènes et d’éléments transposables à partir des lectures uniques et alignées de manière ambiguë à l’aide des fichiers GTF pour 1) les ET (http://labshare.cshl.edu/shares/mhammelllab/www-data/TEtranscripts/TE_GTF/) et 2) gènes (https://asia.ensembl.org/info/data/index.html; version 101 du serveur FTP) au format GRCh38 ensembl. TEtranscripts a été exécuté dans un Conda :57: configuration de l’environnement avec Python (v3.7.7)58:Pysam (v0.16.0.1)59:R-base (v4.0.3) et Bioconductor-Deseq2 (v1.28.0)60 :.

La corrélation de l’expression du gène et de la TE avec la méthylation de l’ADN (Fig. 2, Fig. S6 supplémentaire) a été réalisée à l’aide de R61:. Les transcriptions avec au moins 2 lectures dans 10 cellules ont été incluses dans l’analyse. Le nombre de lectures pour les données scRNA-seq a été normalisé par million de lectures pour chaque échantillon et log transformé. La fonction Cor.test utilisant la méthode de Pearson a été utilisée pour corréler le nombre de gènes et de transcrits TE avec les niveaux de méthylation de l’ADN. Les valeurs P pour la signification de la corrélation ont été ajustées pour les taux de fausse découverte à l’aide de la fonction p.adjust et de la méthode fdr. L’ontologie des gènes a été réalisée sur les gènes d’intérêt à partir d’une analyse de corrélation à l’aide de Panther :62 : analyse statistique de la surreprésentation. L’ensemble de données complet du processus biologique GO de Panther a été utilisé pour l’annotation des gènes, et les gènes exprimés (au moins 10 lectures dans 2 cellules) ont été utilisés comme liste de référence pour l’analyse de la surreprésentation statistique. Les résultats de la corrélation, des boîtes à moustaches et de l’ontologie des gènes ont été tracés à l’aide de ggplot2 (v3.3.5)63:.

L’analyse de l’expression différentielle a été réalisée dans R à l’aide de DESeq2 (v1.32.0)60 : sur les gènes et les TE au niveau de la famille (somme des nombres d’éléments TE) sur les cellules passant le CQ initial de la bibliothèque et excluant les caractéristiques (gènes et TE) avec moins de 5 lectures dans au moins 3 cellules. Les paramètres par défaut ont été utilisés dans DESeq2 avec le seuil de signification fixé à p ajusté <0,05. Une cartographie thermique a été réalisée sur tous les éléments TE appartenant aux familles TE « exprimées de manière significativement différentielle ». Les gènes et le nombre de TE (au niveau de l'élément) ont été normalisés par transformation de stabilité de la variance (vst) (DESeq2), et le sous-ensemble d'éléments TE a été extrait, centré sur la moyenne et pheatmap (v1.0.12) 64: a été utilisé pour produire les cartes thermiques avec regroupement par distance euclidienne sur les lignes (TE) et les colonnes (cellules), avec des étiquettes supplémentaires pour le traitement, les niveaux de méthylation globaux correspondants et la “famille” TE à laquelle chaque “élément” appartient.

Leave a Comment