Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Accélération de l’analyse de données génomique avec NVIDIA Clara Parabricks avec le serveur Dell EMC DSS 8440 et les processeurs graphiques NVIDIA T4

Summary: Cet article fournit des informations sur l’accélération de l’analyse de données génomiques avec NVIDIA Parabricks sur Dell EMC DSS 8440 avec les processeurs graphiques NVIDIA T4.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

Présentation

La première étape du traitement des données de séquençage nouvelle génération (NGS) s’appelle l’analyse primaire. Cette étape est spécifique à l’instrument de séquençage et génère plusieurs fichiers FASTQ contenant des relevés de séquençage. À l’étape suivante, appelée analyse secondaire, les relevés de séquençage FASTQ sont mappées à un génome ou à un transcriptome de référence. Le traitement supplémentaire identifie les variantes, ou les différences, entre l’échantillon d’intérêt et une référence. Les variantes sont annotées et interprétées dans les étapes suivantes en aval. Le temps d’analyse secondaire d’un échantillon varie de plusieurs heures à plusieurs jours, selon la taille des données, les ressources de calcul disponibles, les logiciels et le workflow analytique. 

L’analyse secondaire est un processus gourmand en calcul et en stockage, en particulier lors du traitement de centaines et de milliers de génomes. Il existe de nombreuses stratégies pour éviter les goulots d’étranglement dans les analyses secondaires. Jusqu’à récemment, l’adoption de l’accélération matérielle à l’aide des processeurs graphiques ou des FPGA restait faible en raison des logiciels personnalisés requis par des accélérateurs matériels. Le logiciel de génomique de Parabricks, acquis par NVIDIA en 2019, est le pionnier de l’utilisation d’une pile logicielle pouvant effectuer divers workflows d’analyse génomique avec des processeurs graphiques. Nous avons testé Parabricks avec Dell EMC PowerEdge C4140/4 processeurs graphiques NVIDIA® Tesla® V100 il y a environ deux ans. Dell a introduit de nombreuses avancées technologiques dans ses serveurs et solutions de stockage et l’environnement NVIDIA Clara Parabricks a été décliné dans des versions robustes avec l’accélération améliorée et l’ajout d’appelants de variantes. Par exemple, une conception de serveur à plusieurs processeurs graphiques basée sur le serveur Dell EMC DSS 8440 avec des processeurs graphiques NVIDIA® Tesla® T4 semble prometteuse pour accélérer l’analyse secondaire tout en offrant un équilibre attractif entre prix et performances.  Ce blog présente une nouvelle architecture de référence et des résultats de référence pour l’analyse secondaire NVIDIA Clara Parabricks, sur un serveur DSS 8440 à plusieurs processeurs graphiques Tesla® T4 avec le stockage Dell EMC Isilon F800.

Architecture de référence

La figure 1 illustre l’architecture de référence testée. L’architecture est modulaire et facile à mettre à l’échelle. Le logiciel applicatif NVIDIA Clara Parabricks utilise un ou plusieurs processeurs graphiques qui simplifient le scale-out comme jamais. Les blocs de construction matériels se composent du Dell EMC PowerEdge R640 qui sert de nœud de gestion, du serveur DSS 8440 pour l’informatique du processeur graphique et du stockage Dell EMC Isilon F800.


Figure 1 Architecture de référence testée


Le serveur 4U DSS 8440 à 2 sockets peut compter jusqu’à 10 processeurs graphiques Tensor Core NVIDIA® Tesla® V100S, jusqu’à 10 processeurs graphiques NVIDIA® Quadro RTX™, ou jusqu’à 16 processeurs graphiques NVIDIA Tesla T4, ce qui offre une puissance extrêmement élevée. La configuration détaillée du DSS 8440 est répertoriée dans le tableau 1.

 
Dell EMC DSS 8440
Processeur 2 processeurs Xeon® Gold 6248R 24 cœurs 3,0 GHz
RAM 24 x 64 Go à 2 933 MTps
Système d'exploitation Red Hat Enterprise Linux Server version 7.4 (Maipo)
Profil système BIOS Performances optimisées
Processeur logique Désactivé
Technologie de virtualisation Désactivé
Accélérateurs 16 processeurs graphiques NVIDIA® Tesla® T4
Parabricks v3.0.0.05

Deux commutateurs Z9100-ON ont fourni l’interconnexion entre le nœud de calcul et le cluster de stockage Isilon F800. Un commutateur supplémentaire N2248X-ON est utilisé pour la gestion.

NGS Data (Données de l’unité de gestion à distance)

Les données de runtime de l’analyse comparative secondaire comportaient trois jeux de données de séquençage de l’ensemble du génome (WGS) humain, ERR091571, SRR3124837 et ERR194161, qui représentent une couverture d’échantillons de 10x, 30x et 50x, respectivement. Ces jeux de données sont disponibles sur l’European Nucleotide Archive (ENA).

Évaluation des performances

Les améliorations logicielles réduisent le runtime
NVIDIA continuent d’introduire des améliorations logicielles pour NVIDIA Clara Parabricks. La figure 2 présente la réduction du runtime entre deux versions de Parabricks qui exécutent des lignées germinales à l’aide du serveur Dell PowerEdge C4140 avec un environnement de test à 4 processeurs graphiques V100. Le passage de la version v2.1.0 à la version v3.0.0 a réduit le runtime de 42 %.


Figure 2 Dernière version de la variante de lignée germinale Parabricks appelant le runtime de pipeline.

Performances du DSS 8440 avec 16 T4

Le runtime d’une analyse secondaire NVIDIA Clara Parabricks à l’aide d’un seul processeur graphique T4 est environ 30 % plus lent qu’avec l’utilisation d’un processeur graphique V100. Toutefois, deux (2) processeurs graphiques T4 fournissent environ 10 % de TFLOPS de plus qu’un (1) processeur graphique V100 pour environ la moitié du prix. Le DSS 8440 fournit jusqu’à 16 logements PCIe, ce qui permet de concevoir un serveur basé sur un processeur graphique T4 qui offre des performances de runtime similaires à celles d’un système C4140 doté de quatre processeurs graphiques V100, mais à un coût inférieur.
L’analyse de lignée germinale de Parabricks a été effectuée à l’aide d’un PowerEdge DSS 8440 avec 16 processeurs graphiques T4. Pour chaque échantillon de jeu de données WGS décrit précédemment, le runtime a été enregistré à l’aide de 1, 2, 4, 8 et 16 processeurs graphiques T4 par analyse secondaire. Les résultats sont indiqués dans les figures 3 à 5. En général, le runtime n’évolue pas de manière linéaire à mesure que le nombre de processeurs graphiques par analyse augmente. Le modèle de mise à l’échelle est similaire à la quantité de données par échantillon, avec une couverture de 10x à 50x. 
Bien qu’elle ne soit pas présentée ici, une procédure d’enquête Dell EMC antérieure a montré que les résultats de runtime de Parabricks avec au moins huit processeurs graphiques V100 par analyse ont une plus faible mise à l’échelle que les processeurs graphiques T4. Des tests supplémentaires montrent que 6 processeurs graphiques T4 ont généré des résultats de runtime presque identiques à ceux de 4 processeurs graphiques V100.


Figure 3 Comparaisons de performances avec 10 WGS


Figure 4 Comparaisons de performances avec 30 WGS


Figure 5 Comparaisons de performances avec 50 WGS


Conclusion

Un DSS 8440 avec seize processeurs graphiques T4 est capable de traiter trente génomes humains de type 50x par jour. Un débit d’analyse quotidienne similaire utilisant une architecture de processeur x86 traditionnelle nécessite dix nœuds de calcul PowerEdge C6420. L’architecture totale est décrite dans une publication Dell précédente.
Toutefois, le fait de dédier l’ensemble des 16 processeurs graphiques T4 au traitement d’un échantillon offre peu d’avantages puisque l’utilisation de 16 processeurs graphiques par analyse est, au mieux, 10 % plus rapide que l’utilisation de 8 processeurs graphiques. La conception du DSS 8440 permet plusieurs analyses secondaires en parallèle. En affectant huit processeurs graphiques T4 par échantillon, le traitement de l’analyse quotidienne augmente jusqu’à environ 50 génomes par jour. L’utilisation de quatre processeurs graphiques par échantillon augmente le traitement de l’analyse quotidienne jusqu’à environ 70 génomes par jour. Plus important encore, ce résultat quotidien à l’aide des processeurs graphiques T4 est inférieur à la moitié du coût de l’utilisation d’une conception de processeur graphique V100.
En plus de la vitesse, la compatibilité avec les autres outils d’analyse est essentielle pour la comparabilité des résultats. Les résultats de l’analyse des lignes germinales Parabricks sont quasiment identiques à ceux de l’analyse de l’appelant BWA-GATK Haplotype bien connue du test préalable.  Nous souhaitons également comparer les résultats de l’appel des variantes de Parabricks aux autres ensembles d’outils tels que samtools/mpileup.  Ces deux outils complètement distincts atteignent un accord global de 90 % pour les variantes identifiées, et les variantes de nombreuses régions génomiques bien connues contenant des gènes importants s’accordent sur plus de 99 %.

Article Properties


Affected Product

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640

Last Published Date

03 Dec 2020

Version

1

Article Type

How To