Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Dell EMC Ready Solution für HPC Life Sciences: BWA-GATK Pipeline-Durchsatztests mit Cascade Lake CPU und Lustre ME4 Refresh

Summary: Dell EMC Ready Solution für HPC Life Sciences: BWA-GATK Pipeline-Durchsatztests mit Cascade Lake CPU und Lustre ME4 Refresh

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Die Konfiguration mit 64 Rechner-Nodes von Dell EMC Ready Solutions für HPC Life Sciences kann 194 Genome pro Tag verarbeiten (50-fache Abdeckung).

Übersicht

VariantenaufrufDieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies. ist ein Prozess, bei dem wir Varianten aus Sequenzdaten identifizieren. Dieser Prozess hilft festzustellen, ob einzelne Nucleotide-Polymorphismen (SNPs), Einfügungen und Löschungen (Indels) und oder Strukturvarianten (SVs) an einer bestimmten Position in einem einzelnen Genom oder Transkriptom vorhanden sind. Das Hauptziel der Identifizierung von Genomvariationen ist die Verknüpfung mit menschlichen Krankheiten. Obwohl nicht alle menschlichen Krankheiten mit genbedingten Variationen verknüpft sind, kann der Aufruf von Varianten eine wertvolle Richtlinie für Genetiker sein, die an einer bestimmten Krankheit arbeiten, die durch genetische Variationen verursacht wird. BWA-GATK ist eines der NGS-Rechentools (Next Generation Sequencing), mit dem Sie Diebline- und somatische Variationen aus menschlichen NGS-Daten identifizieren können. Es gibt eine Handvoll Variantenerkennungstools und wir wissen, dass es kein einziges Tool gibt, das perfekt funktioniert (1). Wir haben uns jedoch für GATK entschieden, eines der beliebtesten Tools als Benchmarking-Tool, um zu demonstrieren, wie gut die Dell EMC Ready Solutions für HPC Life Sciences komplexe und massive NGS-Workloads verarbeiten können. 
Dieser Blog soll wertvolle Leistungsinformationen über den Intel® Xeon® Gold 6248 Prozessor für BWA-GATK Pipeline Benchmark mit Dell EMC Ready Solutions for HPC Lustre Storage (Me4 Series Refresh) (2) bereitstellen. Die Xeon® Gold 6248 CPU verfügt über 20 physische Cores oder 40 logische Kerne bei Verwendung von Hyper-Threading. Die Testclusterkonfigurationen sind in Tabelle 1 zusammengefasst.

Tabelle 1 Getestete Rechner-Node-Konfiguration
 
Dell EMC PowerEdge C6420
CPU 2 x Xeon® Gold 6248, 20 Cores, 2,5 GHz (Cascade Lake)
RAM 12 x 16 GB bei 2933 MTps
Betriebssystem RHEL 7.6
Interconnect Intel® Omni-Path
BIOS-Systemprofil Performance-optimiert
Logischer Prozessor Deaktiviert
Virtualisierungstechnologie Deaktiviert
BWA 0.7.15–r1140
Samtools 1.6
GATK (GATK) 3,6-0-g89b7209

Die getesteten Rechner-Nodes wurden über Intel® Omni-Path mit Dell EMC Ready Solutions for HPC Lustre Storage verbunden. Die zusammenfassende Konfiguration des Speichers ist in Tabelle 2 aufgeführt.
Tabelle 2: Hardware- und Softwarespezifikationen der Lösung
 
Dell EMC Ready Solution für Lustre-Speicher
Anzahl der Nodes 1 x Dell EMC PowerEdge R640 als Integrated Manager für Lustre (IML)
2 x Dell EMC PowerEdge R740 als Metadatenserver (MDS)
2 x Dell EMC PowerEdge R740 als Objektspeicherserver (OSS)
Prozessoren IML-Server: Dual Intel Xeon Gold 5118 mit 2,3 GHz
MDS- und OSS-Servern: Dual Intel Xeon Gold 6136 bei 3,00 GHz
Arbeitsspeicher IML-Server: 12 x 8 GB DDR4 RDIMMs
MDS- und OSS-Server mit 2.666 MT/s: DDR4-RDIMMs mit 24 x 16 GiB und 2.666 MT/s
Externe Speicher-Controller
2 x Dell 12-Gbit/s-SAS-HBAs (auf jedem MDS)
4 x Dell 12-Gbit/s-SAS-HBAs (auf jedem OSS)
Objektspeichergehäuse
4 x ME4084 mit insgesamt 336 NL-SAS-HDDs mit 7.200 1/min und 8 TB
Metadatenspeichergehäuse
1 x ME4024 mit 24 SAS-SSDs mit 960 GB. Unterstützt bis zu 4,68 B-Inodes
RAID-Controller Duplex-SAS-RAID-Controller in den ME4084- und ME4024-Gehäusen
Betriebssystem CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
BIOS-Version 1.4.5
Intel Omni-Path
IFS-Version
10.8.0.0
Lustre-Dateisystemversion
2.10.4
IML-Version 4.0.7.0

Die Testdaten wurden aus einem der Platinum-Genome von Illumina ausgewählt. ERR194161 wurde mit Illumina HiSeq 2000 verarbeitet, die von Illumina übermittelt wurde, und kann von EMBL-EBI abgerufen werden. Die DNA-Kennung für diese Person ist NA12878. Die Beschreibung der Daten von der verknüpften Website zeigt, dass dieses Beispiel eine >30-fache Abdeckung hat.

Performance-Bewertung

Performance mehrerer Nodes mit einem Einzigen Beispiel

In Abbildung 1 wird die Laufzeit in verschiedenen Stichproben und Rechner-Nodes mit 50-fachen WGS-Daten (Whole Genome Sequencing) zusammengefasst. Die hier durchgeführten Tests sind darauf ausgelegt, die Performance auf Serverebene zu demonstrieren, nicht für Vergleiche einzelner Komponenten. Die Datenpunkte in Abbildung 1 werden basierend auf der Gesamtzahl der Stichproben berechnet, also einem Beispiel pro Rechner-Node (X-Achse in der Abbildung), die gleichzeitig verarbeitet werden. Die Details der BWA-GATK-Pipeline-Informationen finden Sie auf der Broad Institute-Website (3). Die maximale Anzahl der für die Tests verwendeten Rechner-Nodes beträgt 64 C6420s. C6420s mit Lustre ME4 zeigen ein besseres Skalierungsverhalten als Lustre MD3.

  Leistungsvergleiche zwischen Lustre MD3 und Lustre ME4
Abbildung 1: Leistungsvergleiche zwischen Lustre MD3 und Lustre ME4

Performance mehrerer Nodes mit mehreren Beispielen

Eine typische Methode zur Ausführung einer NGS-Pipeline besteht darin, mehrere Muster auf einem Rechner-Node auszuführen und mehrere Compute-Nodes zu verwenden, um den Durchsatz des NGS-Datenprozesses zu maximieren. Die Anzahl der für die Tests verwendeten Rechner-Nodes beträgt 64 von C6420-Rechner-Nodes und die Anzahl der Beispiele pro Node beträgt fünf Beispiele. Bis zu 320 Proben werden gleichzeitig verarbeitet, um die maximale Anzahl von Genomen pro Tag ohne Jobfehler zu schätzen.
Wie in Abbildung 2 gezeigt, kann ein einziger C6420-Rechner-Node 3,24 von 50-fachen gesamten menschlichen Genomen pro Tag verarbeiten, wenn 5 Proben gleichzeitig verarbeitet werden. Für jedes Beispiel werden 7 Cores und 30 GB Arbeitsspeicher zugewiesen. 

  Durchsatztests mit bis zu 64 C6420s und Lustre ME4
Abbildung 2: Durchsatztests mit bis zu 64 C6420s und Lustre ME4

320 der 50-fachen gesamten menschlichen Genome können mit 64 C6420-Rechnerknoten in 40 Stunden verarbeitet werden.  Mit anderen Worten, die Leistung der Testkonfiguration fasst 194 Genome pro Tag für das gesamte menschliche Genom mit einer 50-fachen Abdeckung zusammen.

Entscheidung

Die Datengröße von WGS ist stetig gestiegen. Die aktuelle durchschnittliche Größe von WGS beträgt das 50-Fache. Dies ist 5-mal größer als bei einem typischen WGS vor 4 Jahren, als wir begannen, eine Benchmark der BWA-GATK-Pipeline durchzuführen. Die zunehmenden Daten belasten die Speicherkapazität nicht, da die meisten Anwendungen in der Pipeline auch an die CPU-Taktrate gebunden sind. Daher läuft die Pipeline bei wachsender Datengröße länger, anstatt mehr Schreibvorgänge zu erzeugen.
Es gibt jedoch eine größere Anzahl temporärer Dateien, die während des Prozesses erzeugt werden, da mehr Daten parallelisiert werden müssen, und diese erhöhte Anzahl von temporären Dateien, die gleichzeitig geöffnet werden, erschöpft das Limit für geöffnete Dateien in einem Linux-Betriebssystem. Eine der Anwendungen kann im Hintergrund nicht abgeschlossen werden, indem die Maximale Anzahl der geöffneten Dateien erreicht wird. Eine einfache Lösung besteht darin, die Grenze auf 150.000 zu >erhöhen. 
Dennoch bietet die Ready Solution mit Lustre ME4 als Scratch-Bereich eine bessere Durchsatzkapazität als die vorherige Version. Mit Ready Solution mit 64 Nodes werden 194 Genome pro Tag für 50 WGS verarbeitet.

Ressourcen 

1. Eine Umfrage unter Tools für die Variantenanalyse von Genomsequenzierungsdaten der nächsten Generation. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Laufwerkmova M, Krabirow B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Übersicht bioinform, 2014 März, Vol. 15 (2). 10.1093/bib/bbs086.
2. Dell EMC Ready Solution für HPC Lustre-Speicher.  (Artikel nicht mehr als Referenz verfügbar, abgerufen vom HPC-Team)
3. Genomanalyse-Toolkit. https://software.broadinstitute.org/gatk/ Dieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies.

Affected Products

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 11 Jan 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.