メイン コンテンツに進む

Solution Dell EMC Ready pour les sciences de la vie HPC : Pipeline Tuxedo avec actualisation des processeurs Cascade Lake et Lustre/ME4

概要: Cet article couvre le livre blanc intitulé « Dell EMC Ready solution for HPC Life Sciences: Tuxedo Pipeline with Cascade Lake CPU and Lustre/ME4 Refresh ».

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Remarque : Article écrit en décembre 2019 par Kihoon Yoon, membre du laboratoire d’innovation HPC et IA
Grâce au nouveau matériel et à un pipeline mis à jour, le débit est désormais trois fois supérieur à celui de la Ready Solution précédente.

Présentation
L’analyse de l’expression génique est tout aussi importante que l’identification du polymorphisme d’un seul nucléotide (PSN), de l’insertion/délétion (indel) ou de la restructuration chromosomique. En fin de compte, l’ensemble des événements physiologiques et biochimiques dépend des produits d’expression génique finaux, les protéines. Bien que la plupart des mammifères possèdent une couche de régulation supplémentaire avant l’expression des protéines, connaître le nombre de transcrits présents dans un système aide à caractériser l’état biochimique d’une cellule. Dans l’idéal, une technologie qui nous permettrait de quantifier l’ensemble des protéines d’une cellule pourrait considérablement faire avancer les sciences de la vie ; cependant, nous sommes encore loin d’y parvenir. 
Dans ce blog, nous testons un pipeline d’analyse de données ARN-SEQ populaire appelé pipeline Tuxedo (1). La suite de pipeline TuxedoCe lien hypertexte renvoie à un site Web extérieur à Dell Technologies. offre un ensemble d’outils pour l’analyse de divers types de données RNA-Seq, telles que le mappage de lectures courtes, l’identification des jonctions d’épissage, la détection de transcrits et d’isoformes, l’expression différentielle, les visualisations et les indicateurs de contrôle qualité. La figure 1 illustre les étapes détaillées du pipeline. Cette version mise à jour du pipeline Tuxedo inclut l’étape Cuffquant par rapport à l’ancienne version testée dans le blog précédent (2).

Figure 1 Pipeline Tuxedo mis à jour avec l’étape CuffquantFigure 1 Pipeline Tuxedo mis à jour avec l’étape Cuffquant

Les configurations du cluster de test sont résumées dans le Tableau 1.

Tableau 1 Test de la configuration du nœud de calcul

Dell EMC PowerEdge C6420

Processeur

2 processeurs Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)

RAM

12x 16 Go à 2 933 MT/s

Système d'exploitation

RHEL 7.6

Interconnexion

Intel® Omni-Path

Profil système BIOS

Performances optimisées

Processeur logique

Désactivé

Technologie de virtualisation

Désactivé

tophat

2.1.1

bowtie2

2.2.5

R

3.6

bioconductor-cummerbund

2.26.0


Les nœuds de calcul testés ont été connectés à Dell EMC Ready Solution pour le stockage Lustre via Intel® Omni-Path (3). Le récapitulatif de la configuration du stockage est répertorié dans le Tableau 2.

Tableau 2 Caractéristiques matérielles et logicielles de la solution de stockage Lustre

Dell EMC Ready Solution pour le stockage Lustre

Nombre de nœuds

1x Dell EMC PowerEdge R640 as Integrated Manager for Lustre (IML)
2x Dell EMC PowerEdge R740 as Metadata Server (MDS)
2x Dell EMC PowerEdge R740 as Object Storage Server (OSS)

Processeurs

Serveur IML : Double processeur Intel Xeon Gold 5118 à 2,3 GHz
Serveurs MDS et OSS : Double processeur Intel Xeon Gold 6136 à 3,00 GHz

Mémoire

Serveur IML : 12 x modules RDIMM DDR4 8 Go 2 666 MT/s
Serveurs MDS et OSS : 24x RDIMM DDR4 16 Go à 2666 MT/s


Contrôleurs de stockage externes

2 adaptateurs HBA SAS Dell 12 Gbit/s (sur chaque MDS)
4 adaptateurs HBA SAS Dell 12 Gbit/s (sur chaque OSS)


Boîtiers de stockage en mode objet

4x ME4084 avec un total de 336 disques durs SAS 8 To NL 7 200 tr/min.


Boîtier de stockage de métadonnées

1 ME4024 avec 24 disques SSD SAS de 960 Go. Prise en charge de fichiers/inodes jusqu’à 4 688 B

Contrôleurs RAID

RAID duplex dans les boîtiers ME4084 et ME4024

Système d’exploitation

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Version du noyau

3.10.0-862.el7.x86_64

Version du BIOS

1.4.5


Version IFS Intel Omni-Path

10.8.0.0

Version du système de fichiers Lustre

2.10.4

Version de IML

4.0.7.0


L’étude des performances du pipeline ARN-SEQ n’est pas une tâche facile, car la nature du flux de travail nécessite l’utilisation de fichiers d’entrée qui ne sont pas identiques les uns aux autres. 185 données de lecture appariées RNA-Seq sont collectées à partir d’un référentiel de données publicCe lien hypertexte renvoie à un site Web extérieur à Dell Technologies.. Tous les fichiers de données de lecture contiennent environ 25 millions de fragments (MF) et ont des longueurs de lecture similaires. Échantillons pour un test sélectionnés aléatoirement dans le pool de 185 fichiers de données de lecture appariées. Bien que ces données sélectionnées aléatoirement n’aient pas de signification biologique, elles mettront certainement les tests à l’épreuve dans le pire des scénarios en raison de leur niveau élevé de bruit.
Évaluation des performances
Test à deux échantillons
Le runtime de chaque étape est représenté graphiquement dans la Figure 2. Le test a été exécuté sur deux nœuds de calcul avec deux échantillons contenant environ 25 millions de données de lecture ARN-Seq. L’étape Tophat démarre pour chaque échantillon sur un nœud de calcul en parallèle. L’étape Cufflinks commence une fois que Tophat est terminée. L’étape CuffMerge combine les résultats obtenus lors des deux exécutions de l’étape Cufflinks. L’étape Cuffquant est ajoutée pour quantifier les expressions géniques dans chaque échantillon, puis les résultats sont examinés plus en détail dans les étapes Cuffdiff et Cuffnorm. La dernière étape, CummeRbund, effectue une analyse statistique au moyen du package R CummeRbund. Elle génère un rapport visuel, comme illustré dans la Figure 2.

Figure 2 Runtime total pour le pipeline Tuxedo avec deux exemples : SRR1608490 et SRR934809.Figure 2 Durée totale d’exécution du pipeline Tuxedo avec deux échantillons : SRR1608490 et SRR934809.

Dans la Figure 3, les gènes exprimés différemment sont indiqués en rouge pour huit échantillons (chaque échantillon comportant quatre duplicatas), avec des valeurs p nettement inférieures (axe Y) par rapport aux autres expressions géniques représentées en noir1. L’axe X représente les variations de repliement en base logarithmique 2, et ces variations pour chaque gène sont tracées par rapport aux valeurs p. Un plus grand nombre d’échantillons permet d’obtenir une meilleure estimation de l’expression génique. La courbe supérieure droite représente les expressions géniques de l’échantillon 2 par rapport à l’échantillon 1, tandis que la courbe inférieure gauche représente les expressions géniques de l’échantillon 1 par rapport à l’échantillon 2. L’expression génique dans les points noirs n’est pas significativement différente dans les deux échantillons.


Figure 3 Diagramme en volcan des résultats de l’étape CuffdiffFigure 3 Diagramme en volcan des résultats de l’étape Cuffdiff
Test de débit : pipeline unique avec plus de deux échantillons, données biologiques et duplicatas techniques
Les études typiques de séquençage RNA-Seq comprennent de nombreux échantillons, parfois des centaines, afin de comparer des échantillons normaux à ceux présentant une maladie, ou des échantillons non traités à ceux ayant reçu un traitement. Ces échantillons ont tendance à présenter un niveau de bruit élevé en raison de leurs raisons biologiques. Par conséquent, l’analyse nécessite une procédure de prétraitement des données rigoureuse.
 
Nous avons testé plusieurs quantités d’échantillons (tous issus de données RNA-Seq différentes sélectionnées à partir d’un ensemble de données de 185 lectures appariées) pour évaluer la capacité de traitement de 8 nœuds dans un cluster PowerEdge C6420. Comme le montre la Figure 4, les runtimes augmentent de manière exponentielle avec 2, 4, 8, 16, 32 et 64 échantillons à mesure que le nombre d’échantillons croît. Avec le stockage Cascade Lake 6248/LustreME4 et le pipeline mis à jour, le nombre de milliards de fragments par jour a presque triplé.

Figure 4 Comparaisons de débit avec 8 nœuds C6420 entre Cascade Lake 6248/LustreME4 et Skylake 6148/H600Figure 4 Comparaisons de débit avec 8 nœuds C6420 entre Cascade Lake 6248/LustreME4 et Skylake 6148/H600

L’étape Cuffmerge ne ralentit pas avec l’augmentation du nombre d’échantillons, tandis que les étapes Cuffdiff et Cuffnorm ralentissent de manière significative. En particulier, l’étape Cuffdiff constitue un goulot d’étranglement pour le pipeline, car son runtime croît de manière exponentielle (Figure 5). Bien que le runtime de Cuffnorm augmente également de façon exponentielle comme celui de Cuffdiff, il reste négligeable car il est limité par le runtime de Cuffdiff.  L’ajout de l’étape Cuffquant a considérablement amélioré le runtime de Cuffdiff : une réduction de la durée de 30 heures pour l’étape Cuffdiff, et Cuffnorm a terminé 20 heures plus tôt grâce à l’étape Cuffquant. Le gain de performance de Cuffnorm n’est pas apparent puisque Cuffdiff et Cuffnorm débutent en même temps.


Figure 5 Augmentation du runtime pour Cuffdiff et Cuffnorm
Figure 5 Augmentation du runtime pour Cuffdiff et Cuffnorm
Conclusion
Les résultats des tests de débit montrent que 8 nœuds PowerEdge C6420 avec le stockage Lustre peuvent traiter environ 2,7 milliards de fragments provenant de 64 échantillons avec environ 50 millions de lectures appariées chacun (25 MF) via le pipeline Tuxedo illustré dans la Figure 1. Comme le pipeline Tuxedo est relativement plus rapide que d’autres pipelines populaires, il est difficile de généraliser ou d’utiliser ces résultats pour dimensionner un système HPC avec précision. Toutefois, les résultats peuvent vous aider à faire une estimation approximative de la taille du système HPC.
 
Ressources
 1. Expression génique différentielle ARN-SEQ : Tutoriel de base. [En ligne] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Ce lien hypertexte renvoie à un site Web extérieur à Dell Technologies.
2. Point de référence du pipeline RNA-Seq avec l’offre groupée Dell EMC Ready pour HPC Life Sciences. [En ligne] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Ce lien hypertexte renvoie à un site Web extérieur à Dell Technologies.
3. Dell EMC Ready Solution pour le stockage HPC Lustre. [Lien mort, 07/2024]

Remarque : ces échantillons sont sélectionnés au hasard à partir d’un ensemble, sans associations significatives entre eux.

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
文書のプロパティ
文書番号: 000124142
文書の種類: How To
最終更新: 25 7月 2024
バージョン:  3
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。