Beschleunigung von Genom-Datenanalysen mit NVIDIA Clara Parabricks, Dell EMC DSS 8440-Server und NVIDIA T4-GPUs

Summary: Dieser Artikel enthält Informationen zur Beschleunigung von Genom-Datenanalysen mithilfe von NVIDIA Parabricks auf einem Dell EMC DSS 8440-Server mit NVIDIA T4-GPUs.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Übersicht

Der erste Schritt zur Verarbeitung von NGS-Daten (Next Generation Sequencing) wird als Primäranalyse bezeichnet. Dieser Schritt ist spezifisch für das jeweilige Sequenzierungsinstrument und erzeugt mehrere FASTQ-Dateien, die Sequenzierungslesungen enthalten. Im nächsten Schritt, der als Sekundäranalyse bezeichnet wird, werden die FASTQ-Sequenzierungslesungen einem Referenzgenom oder einem Referenztranskriptom zugeordnet. Bei der weiteren Verarbeitung werden Varianten, bzw. Unterschiede, zwischen der Stichprobe und einer Referenz identifiziert. Die Varianten werden in den nachfolgenden Downstream-Schritten annotiert und interpretiert. Die Zeit für die Sekundäranalyse einer einzelnen Probe reicht von Stunden bis hin zu Tagen, abhängig von der Datengröße, den verfügbaren Rechenressourcen, der Software und dem Analyse-Workflow.

Die Sekundäranalyse ist ein rechen- und speicherintensiver Vorgang, insbesondere bei der Verarbeitung von Hunderten bis Tausenden von Genomen. Es gibt viele Strategien, um Engpässe bei der Sekundäranalyse zu vermeiden. Bis vor Kurzem war der Einsatz von Hardwarebeschleunigung mithilfe von GPUs oder FPGAs eher gering, da für Hardware-Accelerator benutzerdefinierte Software erforderlich ist. Die Genomsoftware Parabricks, die 2019 von NVIDIA erworben wurde, bietet einen neuartigen Software-Stack, der verschiedene Genomanalyse-Workflows mithilfe GPUs durchführt. Wir haben Parabricks mit Dell EMC PowerEdge C4140 und 4 NVIDIA® Tesla® V100-GPUs vor etwa zwei Jahren getestet. Dell hat zahlreiche technologische Fortschritte in seine Server und Storage-Lösungen integriert, während NVIDIA Clara Parabricks robuste Versionen mit verbesserter Beschleunigung und der Möglichkeit von Variantenaufrufen veröffentlicht hat. So sah beispielsweise ein Serverdesign mit mehreren GPUs auf Basis des Dell EMC DSS 8440-Servers mit NVIDIA® Tesla® T4-GPUs vielversprechend für die Beschleunigung der Sekundäranalyse aus und bot zudem ein attraktives Preis-Leistungs-Verhältnis. In diesem Blog werden eine neue Referenzarchitektur und Benchmark-Ergebnisse für die Sekundäranalyse mit NVIDIA Clara Parabricks auf einem DSS 8440-Server mit mehreren Tesla® T4-GPUs und Dell EMC Isilon F800-Storage vorgestellt.

Referenzarchitektur

Abbildung 1 zeigt die getestete Referenzarchitektur. Die Architektur ist modular und einfach zu skalieren. Die NVIDIA Clara Parabricks-Anwendungssoftware verwendet einen oder mehrere GPUs, sodass das Scale-Out so einfach wie möglich ist. Die Hardwarebausteine bestehen aus einem Dell EMC PowerEdge R640 als Management-Node, einem DSS 8440-Server für das GPU-Computing und Dell EMC Isilon F800-Storage.

Abbildung 1: Getestete Referenzarchitektur

Ein DSS 8440-4-HE-Server mit 2 Sockeln kann bis zu 10 branchenführende NVIDIA® Tesla® V100S Tensor Core-GPUs, bis zu 10 NVIDIA® Quadro RTX™ GPUs oder bis zu 16 NVIDIA Tesla T4-GPUs aufnehmen und damit eine enorme Leistung bereitstellen. Die detaillierte Konfiguration des DSS 8440 ist in Tabelle 1 aufgeführt.

Dell EMC DSS 8440
CPU	2x Xeon® Gold 6248R 24 Cores 3.0 GHz
RAM	24x 64 GB bei 2933 MT/s
Betriebssystem	Red Hat Enterprise Linux Server-Version 7.4 (Maipo)
BIOS-Systemprofil	Performance-optimiert
Logischer Prozessor	Deaktiviert
Virtualisierungstechnologie	Deaktiviert
Accelerator	16x NVIDIA® Tesla® T4-GPUs
Parabricks	Version 3.0.0.05

Zwei Z9100-ON-Switches stellten die Verbindung zwischen dem Rechen-Node und dem Isilon F800-Storage-Cluster bereit. Ein zusätzlicher Switch (N2248X-ON) wurde für das Management verwendet.

NGS-Daten

Die Daten für das Laufzeit-Benchmarking der Sekundäranalyse umfassten drei Human-WGS-Datensätze (Whole-Genome-Sequencing), ERR091571, SRR3124837 und ERR194161, die eine 10x-, 30x- bzw. 50x-Probenabdeckung darstellen. Diese Datensätze sind im European Nucleotide Archive (ENA) verfügbar.

Performance-Bewertung

Softwareverbesserungen reduzieren Laufzeit
NVIDIA nimmt kontinuierlich Softwareverbesserungen für NVIDIA Clara Parabricks vor. Abbildung 2 zeigt die Laufzeit-Reduzierung zwischen zwei Versionen von Parabricks, die die Keimbahn-Pipeline unter Verwendung der Dell PowerEdge C4140-Server-Testumgebung mit vier V100-GPUs ausführen. Der Wechsel von Version 2.1.0 auf Version 3.0.0 reduzierte die Laufzeit um 42 %.

Abbildung 2: Laufzeit der neuesten Version von Parabricks für die Keimbahn-Variantenaufruf-Pipeline

Performance des DSS 8440 mit 16 T4-GPUs

Die Laufzeit der Sekundäranalyse mit NVIDIA Clara Parabricks mit einer einzigen T4-GPU ist ca. 30 % langsamer als bei Verwendung einer V100-GPU. Allerdings bieten zwei (2) T4-GPUs ca. 10 % mehr TFLOPS als eine (1) V100-GPU für rund die Hälfte der Kosten. Der DSS 8440 bietet bis zu 16 PCIe-Steckplätze, was die Möglichkeit bietet, einen T4-GPU-basierten Server zu entwerfen, der eine ähnliche Laufzeitperformance wie ein C4140-System mit vier V100-GPUs bietet, jedoch zu niedrigeren Kosten.
Die Parabricks-Keimbahnanalyse wurde unter Verwendung eines PowerEdge DSS 8440 mit 16 T4-GPUs durchgeführt. Für jeden der zuvor beschriebenen Probendatensätze wurde die Laufzeit mithilfe von 1, 2, 4, 8 und 16 T4-GPUs pro Sekundäranalyse aufgezeichnet. Die Ergebnisse sind in den Abbildungen 3 bis 5 dargestellt. Insgesamt skaliert die Laufzeit nicht linear mit der Anzahl der pro Analyse verwendeten GPUs. Das Skalierungsmuster entspricht ungefähr der Menge an Daten pro Probe, die von 10x- auf 50x-Abdeckung ansteigt.
Obwohl hier nicht dargestellt, fand im Rahmen eines früheren Dell EMC Tests der Parabricks-Laufzeitergebnisse mit acht oder mehr V100-GPUs pro Analyse keine so effiziente Skalierung wie mit den T4-GPUs statt. Zusätzliche Tests zeigten, dass mit 6 T4-GPUs fast identische Laufzeitergebnisse wie mit 4 V100-GPUs erzielt wurden.

Abbildung 3: Performance-Vergleich bei 10x-WGS

Abbildung 4: Performance-Vergleich bei 30x-WGS

Abbildung 5: Performance-Vergleich bei 50x-WGS

Entscheidung

Ein DSS 8440 mit 16 T4-GPUs ist in der Lage, dreißig 50x-Humangenome pro Tag zu verarbeiten. Ein ähnlicher täglicher Analysedurchsatz mit einer herkömmlichen x86-CPU-Architektur erfordert zehn PowerEdge C6420-Rechen-Nodes. Die vollständige Architektur wird in einer vorherigen Dell Veröffentlichungbeschrieben.
Allerdings bietet die Zuweisung aller 16 T4-GPUs für die Verarbeitung einer Probe kaum Vorteile, da die Verwendung von 16 GPUs pro Analyse bestenfalls 10 % schneller ist als die Verwendung von 8 GPUs. Das Design des DSS 8440 ermöglicht die parallele Ausführung mehrerer Sekundäranalysen. Durch die Zuweisung von acht T4-GPUs pro Probe steigt der tägliche Analysedurchsatz auf ca. 50 Genome pro Tag. Die Verwendung von vier GPUs pro Probe erhöht den Analysedurchsatz auf ca. 70 Genome pro Tag. Noch wichtiger ist, dass dieser tägliche Durchsatz mit T4-GPUs für weniger als die Hälfte der Kosten als bei Verwendung eines V100-GPU-Designs erzielt wird.
Neben der Geschwindigkeit ist auch die Kompatibilität mit anderen Analysetools unerlässlich für die Vergleichbarkeit von Ergebnissen. Die Ergebnisse der Parabricks-Keimbahnanalyse sind nahezu identisch mit denen der bekannten BWA-GATK-Haplotyp-Aufrufanalyse vorheriger Tests. Außerdem wollten wir die Variantenaufruf-Ergebnisse von Parabricks mit anderen Toolsets wie samtools/mpileup vergleichen. Diese beiden vollständig unterschiedlichen Tools erreichen eine allgemeine Übereinstimmung für die identifizierten Varianten von ca. 90 %, wobei für Variationen in vielen bekannten Genomabschnitten mit wichtigen Genen eine Übereinstimmung von mehr als 99 % erreicht wurde.

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640

Article Number: 000180441

Article Type: How To

Last Modified: 22 Feb 2025

Version: 3

Check if your device is covered by Support Services.

Beschleunigung von Genom-Datenanalysen mit NVIDIA Clara Parabricks, Dell EMC DSS 8440-Server und NVIDIA T4-GPUs

Summary: Dieser Artikel enthält Informationen zur Beschleunigung von Genom-Datenanalysen mithilfe von NVIDIA Parabricks auf einem Dell EMC DSS 8440-Server mit NVIDIA T4-GPUs.

Instructions

Übersicht

Referenzarchitektur

NGS-Daten

Performance-Bewertung

Entscheidung

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Beschleunigung von Genom-Datenanalysen mit NVIDIA Clara Parabricks, Dell EMC DSS 8440-Server und NVIDIA T4-GPUs

Summary: Dieser Artikel enthält Informationen zur Beschleunigung von Genom-Datenanalysen mithilfe von NVIDIA Parabricks auf einem Dell EMC DSS 8440-Server mit NVIDIA T4-GPUs.

Detailed Article

Instructions

Affected Products

Instructions

Übersicht

Referenzarchitektur

NGS-Daten

Performance-Bewertung

Entscheidung

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services