Remarque : Article écrit par Kihoon Yoon du laboratoire d’innovation HPC et IA en décembre 2019
Le nouveau matériel et les opportunités mises à jour augmentent le débit 3 fois plus que la précédente solution Ready Solution.
Aperçu
L’analyse de l’expression génique est aussi importante que l’identification du polymorphisme nucléotidique unique (SNP), l’insertion/délétion (indel) ou la restructuration chromosomique. Finalement, l’ensemble des événements physiologiques et biochimiques dépendent des produits finaux de l’expression des gènes, les protéines. Bien que la plupart des mammifères aient une couche de contrôle supplémentaire avant l’expression des protéines, savoir combien de transcrits existent dans un système aide à caractériser l’état biochimique d’une cellule. Idéalement, une technologie nous permet de quantifier l’ensemble des protéines d’une cellule qui pourrait exceller de manière significative dans les progrès des sciences de la vie ; Cependant, nous sommes loin d’y parvenir.
Ici, dans ce blog, nous testons un pipeline d’analyse de données RNA-Seq populaire connu sous le nom de pipeline Tuxedo (1). La suite de pipelines Tuxedo offre un ensemble d’outils pour l’analyse d’une variété de données de séquençage de l’ARN, y compris le mappage à lecture courte, l’identification des jonctions d’épissage, la détection de transcrits et d’isoformes, l’expression différentielle, les visualisations et les mesures de contrôle de la qualité. Les étapes détaillées du pipeline sont illustrées sur la Figure 1. Cette version mise à jour du pipeline Tuxedo inclut Cuffquant step par rapport à l’ancienne version testée dans le blog précédent (2).
Figure 1 Mise à jour de Tuxedo Pipeline avec Cuffquant Step
Les configurations du cluster d’essai sont résumées dans le Tableau 1.
Tableau 1 Configuration testée des nœuds de calcul |
|
Dell EMC PowerEdge C6420 |
|
Processeur |
2 processeurs Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake) |
RAM |
12 x 16 Go @2 933 MT/s |
Système d'exploitation |
RHEL 7.6 |
Interconnexion |
Intel® Omni-Path |
Profil système BIOS |
Performances optimisées |
Processeur logique |
Désactivé |
Technologie de virtualisation |
Désactivé |
Chapeau haut de forme |
2.1.1 |
noeud papillon2 |
2.2.5 |
R |
3.6 |
bioconducteur-ceinture |
2.26.0 |
Les nœuds de calcul testés ont été connectés à Dell EMC Ready Solution for Lustre Storage via Intel® Omni-Path (3). La configuration récapitulative du stockage est répertoriée dans le Tableau 2.
Tableau 2 Caractéristiques matérielles et logicielles de la solution Lustre Storage Solution |
|
Dell EMC Ready Solution for Lustre Storage |
|
Nombre de nœuds |
1 serveur Dell EMC PowerEdge R640 avec Integrated Manager for Lustre (IML) |
Processeurs |
Serveur IML : Deux processeurs Intel Xeon Gold 5118 @ 2,3 GHz |
Mémoire |
Serveur IML : 12 RDIMM DDR4 de 8 Go, 2 666 MT/s |
Stockage |
2 adaptateurs HBA SAS Dell 12 Gbit/s (sur chaque MDS) |
Stockage en |
4 ME4084 avec un total de 336 disques durs SAS NL 7200tr/min de 8To |
Stockage des |
1 ME4024 avec 24 disques SSD SAS de 960 Go. Prend en charge jusqu’à 4 688 milliards de fichiers/inodes |
Contrôleurs RAID |
RAID duplex dans les boîtiers ME4084 et ME4024 |
Système d’exploitation |
CentOS 7.5 x86_64 |
Version du noyau |
3.10.0-862.el7.x86_64 |
Version du BIOS |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Système de fichiers |
2.10.4 |
Version IML |
4.0.7.0 |
Une étude des performances du pipeline RNA-Seq n’est pas triviale car le flux de travail de la nature nécessite des fichiers d’entrée non identiques. 185 données de lecture d’extrémité appariée RNA-Seq sont collectées à partir d’un référentiel de données public. Tous les fichiers de données de lecture contiennent environ 25 millions de fragments (MF) et ont des longueurs de lecture similaires. Échantillons d’un test sélectionnés de manière aléatoire dans le pool de 185 fichiers de lecture appariés. Bien que ces données sélectionnées au hasard n’aient aucune signification biologique, il est certain que ces données avec un niveau de bruit élevé placeront les tests dans le pire des cas.
Évaluation
des performancesTest
à deux échantillonsLa Figure 2 présente le runtime de chaque étape. Le test a été exécuté dans deux nœuds de calcul avec deux échantillons contenant environ 25 millions de données de séquençage de l’ARN en lecture. L’étape Tophat démarre pour chaque exemple sur un nœud de calcul en parallèle. Par la suite, Cufflinks commence à l’achèvement de Tophat. L’étape Cuffmerge combine les résultats des deux séries de boutons de manchette. L’étape de Cuffquant est ajoutée pour quantifier l’expression des gènes dans chaque échantillon, et les résultats sont examinés plus en détail dans les étapes de Cuffdiff et de Cuffnorm. Dernière étape, CummeRbund est une étape d’analyse statistique de CummeRbund R-package, et il génère un rapport visualisé comme le montre la figure 2.
Figure 2 Temps d’exécution total du pipeline Tuxedo avec deux échantillons : SRR1608490 et SRR934809.
La figure 3 montre les gènes exprimés de manière différentielle à partir de 8 échantillons (chaque échantillon se compose de 4 doublons) en rouge avec des valeurs p (axe Y) significativement plus faibles par rapport aux autres expressions géniques illustrées en noir1. L’axe X représente les changements de plis dans la base logarithmique de 2, et ces changements de plis de chaque gène sont tracés par rapport aux valeurs de p. Un plus grand nombre d’échantillons permettra une meilleure estimation de l’expression des gènes. Le graphique supérieur droit montre l’expression des gènes dans l’échantillon 2 en comparaison avec l’échantillon 1, tandis que le graphique inférieur à gauche montre les expressions géniques dans l’échantillon 1 par rapport à l’échantillon 2. L’expression des gènes dans les points noirs n’est pas significativement différente dans les deux échantillons.
Figure 3 : Tracé du volcan des résultats
de CuffdiffTest de débit – Pipeline unique avec plus de deux échantillons
, doublons biologiques et techniquesLes études de séquençage de l’ARN typiques consistent en plusieurs échantillons, parfois des centaines d’échantillons différents, des échantillons normaux par rapport à la maladie ou des échantillons non traités par rapport aux échantillons traités. Ces échantillons ont tendance à avoir un niveau de bruit élevé en raison de leurs raisons biologiques ; Par conséquent, l’analyse nécessite une procédure de prétraitement des données vigoureuse.
Nous avons testé différentes quantités d’échantillons (toutes différentes données de séquençage de l’ARN sélectionnées dans 185 jeux de données de lectures appariées) pour évaluer la quantité de données que 8 nœuds d’un cluster PowerEdge C6420 peuvent traiter. Comme le montre la Figure 4, les périodes d’exécution avec 2, 4, 8, 16, 32 et 64 échantillons augmentent de façon exponentielle lorsque le nombre d’échantillons augmente. Le nombre de milliards de fragments/jour a presque été multiplié par trois avec le stockage Cascade Lake 6248/LustreME4 et la mise à jour du pipeline.
Figure 4 Comparaisons de débit avec 8 C6420 entre Cascade Lake 6248/LustreME4 et Skylake 6148/H600
L’étape de Cuffmerge ne ralentit pas à mesure que le nombre d’échantillons augmente, tandis que les étapes de Cuffdiff et de Cuffnorm ralentissent de manière significative. En particulier, l’étape Cuffdiff devient un goulot d’étranglement pour le pipeline, car le temps d’exécution augmente de manière exponentielle (Figure 5). Bien que le temps d’exécution de Cuffnorm augmente de manière exponentielle comme Cuffdiff, il est ignoré car le temps d’exécution de Cuffnorm est limité par le temps d’exécution de Cuffdiff. L’ajout de l’étape Cuffquant a considérablement amélioré le runtime de Cuffdiff. 30 heures de réduction du temps d’exécution sur l’étape Cuffdiff, et Cuffnorm a été complétée 20 heures plus rapidement avec l’étape Cuffquant. Bien que le gain de performance de Cuffnorm ne soit pas visible puisque Cuffdiff et Cuffnorm démarrent en même temps.
Figure 5 Incrément d’exécution sur Cuffdiff et Cuffnorm
Conclusion
Les résultats du test de débit montrent que les serveurs PowerEdge C6420 à 8 nœuds avec le stockage Lustre peuvent traiter environ 2,7 milliards de fragments provenant de 64 échantillons avec ~50 millions de lectures appariées chacune (25 MF) via le pipeline Tuxedo illustré dans la Figure 1. Étant donné que le pipeline Tuxedo est relativement plus rapide que les autres pipelines populaires, il est difficile de généraliser ou d’utiliser ces résultats pour dimensionner un système HPC avec précision. Toutefois, les résultats peuvent vous aider à faire une estimation approximative de la taille du système HPC.
Ressources
1. Expression génique différentielle de séquençage de l’ARN : Tutoriel de base. [En ligne] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
deux. Point de référence du pipeline RNA-Seq avec Dell EMC Ready Bundle for HPC Life Sciences. [En ligne] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Solution Dell EMC Ready pour stockage HPC Lustre. [Lien mort à compter du 07/2024]
Remarque : ceux-ci sont choisis au hasard à partir d’un ensemble d’échantillons sans aucune association significative entre eux.