La configuration à 64 nœuds de calcul de Dell EMC Ready Solutions for HPC Life Sciences peut traiter 194 génomes par jour (50 fois la profondeur de couverture).
Présentation
Appel de variante est un processus par lequel nous identifions les variantes à partir des données de séquence. Ce processus permet de déterminer s’il existe des polymorphismes uniques (SPN), des insertions et des suppressions (indels) et ou des variantes structurelles (VS) à une position donnée dans un génome ou transcriptome individuel. L’objectif principal de l’identification des variations génomiques est le lien avec les maladies humaines. Bien que toutes les maladies humaines ne soient pas associées à des variations génétiques, les appels de variante peuvent fournir des instructions précieuses aux généticiens travaillant sur une maladie particulière causée par des variations génétiques. BWA-GATK est l’un des outils de calcul de séquençage de nouvelle génération (NGS) conçus pour identifier les mutations à la volée et somatiques à partir des données NGS humaines. Il existe quelques outils d’identification de variantes, et nous comprenons qu’il n’y a pas un seul outil qui fonctionne parfaitement (1). Toutefois, nous avons choisi GATK, l’un des outils les plus populaires, comme outil d’analyse comparative, pour démontrer à quel point les solutions Dell EMC Ready Solutions for HPC Life Sciences peuvent traiter des charges applicatives NGS complexes et massives.
L’objectif de ce blog est de fournir des informations précieuses sur les performances du processeur Intel® Xeon® Gold 6248 pour le benchmark de pipeline BWA-GATK avec dell EMC Ready Solutions for HPC Lustre Storage (actualisation de la série ME4) (2). Le processeur Xeon® Gold 6248 comporte 20 cœurs physiques ou 40 cœurs logiques lors de l’utilisation de l’hyper-threading. Les configurations de cluster de test sont résumées dans le Tableau 1.
Dell EMC PowerEdge C6420 | |
---|---|
Processeur | 2 x Xeon® Gold 6248 20 cœurs 2,5 GHz (Cascade Lake) |
RAM | 12 x 16 Go à 2 933 MTp |
Système d'exploitation | RHEL 7.6 |
Interconnexion | Intel® Omni-Path |
Profil système BIOS | Performances optimisées |
Processeur logique | Désactivé |
Technologie de virtualisation | Désactivé |
BWA | 0,7.15-r1140 |
Outils Samtools | 1.6 |
GATK | 3,6-0-g89b7209 |
Solution Dell EMC Ready pour le stockage Lustre | |
---|---|
Nombre de nœuds | 1 serveur Dell EMC PowerEdge R640 en tant que Gestionnaire intégré pour Lustre (IML) 2 serveurs Dell EMC PowerEdge R740 en tant que serveur de métadonnées (MDS) 2 serveurs Dell EMC PowerEdge R740 en tant que serveur de stockage en mode objet (OSS) |
Processeurs | Serveur IML : Deux serveurs MDS et OSS Intel Xeon Gold 5118 à 2,3 GHz : Deux processeurs Intel Xeon Gold 6136 à 3 GHz |
Mémoire | Serveur IML : 12 x 8 Go 2 666 MT/s Serveurs RDIMM DDR4 MDS et OSS : 24 barrettes RDIMM DDR4 de 16 Gio à 2 666 MT/s |
Contrôleurs de stockage externes |
2 adaptateurs HBA SAS Dell 12 Gbit/s (sur chaque MDS) 4 adaptateurs HBA SAS Dell 12 Gbit/s (sur chaque OSS) |
Boîtiers de stockage en mode objet |
4 ME4084 avec un total de 336 disques durs SAS NL de 8 To à 7 200 tr/min |
Boîtier de stockage de métadonnées |
1 me4024 avec 24 disques SSD SAS de 960 Go. Prend en charge jusqu’à 4,68 inodes B |
Contrôleurs RAID | Contrôleurs RAID SAS duplex dans les boîtiers ME4084 et ME4024 |
Système d’exploitation | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
Version du BIOS | 1.4.5 |
Version INTEL Omni-Path IFS |
10.8.0.0 |
Version du système de fichiers Lustre |
2.10.4 |
Version IML | 4.0.7.0 |