Übersicht
Der erste Schritt zur Verarbeitung von NGS-Daten (Next Generation Sequencing) wird als Primäranalyse bezeichnet. Dieser Schritt ist spezifisch für das jeweilige Sequenzierungsinstrument und erzeugt mehrere FASTQ-Dateien, die Sequenzierungslesungen enthalten. Im nächsten Schritt, der als Sekundäranalyse bezeichnet wird, werden die FASTQ-Sequenzierungslesungen einem Referenzgenom oder einem Referenztranskriptom zugeordnet. Bei der weiteren Verarbeitung werden Varianten, bzw. Unterschiede, zwischen der Stichprobe und einer Referenz identifiziert. Die Varianten werden in den nachfolgenden Downstream-Schritten annotiert und interpretiert. Die Zeit für die Sekundäranalyse einer einzelnen Probe reicht von Stunden bis hin zu Tagen, abhängig von der Datengröße, den verfügbaren Rechenressourcen, der Software und dem Analyse-Workflow.
Die Sekundäranalyse ist ein rechen- und speicherintensiver Vorgang, insbesondere bei der Verarbeitung von Hunderten bis Tausenden von Genomen. Es gibt viele Strategien, um Engpässe bei der Sekundäranalyse zu vermeiden. Bis vor Kurzem war der Einsatz von Hardwarebeschleunigung mithilfe von GPUs oder FPGAs eher gering, da für Hardware-Accelerator benutzerdefinierte Software erforderlich ist. Die Genomsoftware Parabricks, die 2019 von NVIDIA erworben wurde, bietet einen neuartigen Software-Stack, der verschiedene Genomanalyse-Workflows mithilfe GPUs durchführt. Wir haben Parabricks mit
Dell EMC PowerEdge C4140 und 4 NVIDIA® Tesla® V100-GPUs vor etwa zwei Jahren getestet. Dell hat zahlreiche technologische Fortschritte in seine Server und Storage-Lösungen integriert, während
NVIDIA Clara Parabricks robuste Versionen mit verbesserter Beschleunigung und der Möglichkeit von Variantenaufrufen veröffentlicht hat. So sah beispielsweise ein Serverdesign mit mehreren GPUs auf Basis des
Dell EMC DSS 8440-Servers mit NVIDIA® Tesla® T4-GPUs vielversprechend für die Beschleunigung der Sekundäranalyse aus und bot zudem ein attraktives Preis-Leistungs-Verhältnis. In diesem Blog werden eine neue Referenzarchitektur und Benchmark-Ergebnisse für die Sekundäranalyse mit NVIDIA Clara Parabricks auf einem DSS 8440-Server mit mehreren Tesla® T4-GPUs und
Dell EMC Isilon F800-Storage vorgestellt.
Referenzarchitektur
Abbildung 1 zeigt die getestete Referenzarchitektur. Die Architektur ist modular und einfach zu skalieren. Die NVIDIA Clara Parabricks-Anwendungssoftware verwendet einen oder mehrere GPUs, sodass das Scale-Out so einfach wie möglich ist. Die Hardwarebausteine bestehen aus einem
Dell EMC PowerEdge R640 als Management-Node, einem DSS 8440-Server für das GPU-Computing und Dell EMC Isilon F800-Storage.
Abbildung 1: Getestete Referenzarchitektur
Ein DSS 8440-4-HE-Server mit 2 Sockeln kann bis zu 10 branchenführende NVIDIA® Tesla® V100S Tensor Core-GPUs, bis zu 10 NVIDIA® Quadro RTX™ GPUs oder bis zu 16 NVIDIA Tesla T4-GPUs aufnehmen und damit eine enorme Leistung bereitstellen. Die detaillierte Konfiguration des DSS 8440 ist in Tabelle 1 aufgeführt.
Dell EMC DSS 8440 |
CPU |
2x Xeon® Gold 6248R 24 Cores 3.0 GHz |
RAM |
24x 64 GB bei 2933 MT/s |
Betriebssystem |
Red Hat Enterprise Linux Server-Version 7.4 (Maipo) |
BIOS-Systemprofil |
Performance-optimiert |
Logischer Prozessor |
Deaktiviert |
Virtualisierungstechnologie |
Deaktiviert |
Accelerator |
16x NVIDIA® Tesla® T4-GPUs |
Parabricks |
Version 3.0.0.05 |
Zwei Z9100-ON-Switches stellten die Verbindung zwischen dem Rechen-Node und dem Isilon F800-Storage-Cluster bereit. Ein zusätzlicher Switch (N2248X-ON) wurde für das Management verwendet.
NGS-Daten
Die Daten für das Laufzeit-Benchmarking der Sekundäranalyse umfassten drei Human-WGS-Datensätze (Whole-Genome-Sequencing),
ERR091571,
SRR3124837 und
ERR194161, die eine 10x-, 30x- bzw. 50x-Probenabdeckung darstellen. Diese Datensätze sind im
European Nucleotide Archive (ENA) verfügbar.
Performance-Bewertung
Softwareverbesserungen reduzieren Laufzeit
NVIDIA nimmt kontinuierlich Softwareverbesserungen für NVIDIA Clara Parabricks vor. Abbildung 2 zeigt die Laufzeit-Reduzierung zwischen zwei Versionen von Parabricks, die die Keimbahn-Pipeline unter Verwendung der Dell PowerEdge C4140-Server-Testumgebung mit vier V100-GPUs ausführen. Der Wechsel von Version 2.1.0 auf Version 3.0.0 reduzierte die Laufzeit um 42 %.
Abbildung 2: Laufzeit der neuesten Version von Parabricks für die Keimbahn-Variantenaufruf-Pipeline
Performance des DSS 8440 mit 16 T4-GPUs
Die Laufzeit der Sekundäranalyse mit
NVIDIA Clara Parabricks mit einer einzigen T4-GPU ist ca. 30 % langsamer als bei Verwendung einer V100-GPU. Allerdings bieten zwei (2) T4-GPUs ca. 10 % mehr TFLOPS als eine (1) V100-GPU für rund die Hälfte der Kosten. Der DSS 8440 bietet bis zu 16 PCIe-Steckplätze, was die Möglichkeit bietet, einen T4-GPU-basierten Server zu entwerfen, der eine ähnliche Laufzeitperformance wie ein C4140-System mit vier V100-GPUs bietet, jedoch zu niedrigeren Kosten.
Die Parabricks-Keimbahnanalyse wurde unter Verwendung eines PowerEdge DSS 8440 mit 16 T4-GPUs durchgeführt. Für jeden der zuvor beschriebenen Probendatensätze wurde die Laufzeit mithilfe von 1, 2, 4, 8 und 16 T4-GPUs pro Sekundäranalyse aufgezeichnet. Die Ergebnisse sind in den Abbildungen 3 bis 5 dargestellt. Insgesamt skaliert die Laufzeit nicht linear mit der Anzahl der pro Analyse verwendeten GPUs. Das Skalierungsmuster entspricht ungefähr der Menge an Daten pro Probe, die von 10x- auf 50x-Abdeckung ansteigt.
Obwohl hier nicht dargestellt, fand im Rahmen eines
früheren Dell EMC Tests der Parabricks-Laufzeitergebnisse mit acht oder mehr V100-GPUs pro Analyse keine so effiziente Skalierung wie mit den T4-GPUs statt. Zusätzliche Tests zeigten, dass mit 6 T4-GPUs fast identische Laufzeitergebnisse wie mit 4 V100-GPUs erzielt wurden.
Abbildung 3: Performance-Vergleich bei 10x-WGS
Abbildung 4: Performance-Vergleich bei 30x-WGS
Abbildung 5: Performance-Vergleich bei 50x-WGS
Entscheidung
Ein DSS 8440 mit 16 T4-GPUs ist in der Lage, dreißig 50x-Humangenome pro Tag zu verarbeiten. Ein ähnlicher täglicher Analysedurchsatz mit einer herkömmlichen x86-CPU-Architektur erfordert zehn PowerEdge C6420-Rechen-Nodes. Die vollständige Architektur wird in einer
vorherigen Dell Veröffentlichungbeschrieben.
Allerdings bietet die Zuweisung aller 16 T4-GPUs für die Verarbeitung einer Probe kaum Vorteile, da die Verwendung von 16 GPUs pro Analyse bestenfalls 10 % schneller ist als die Verwendung von 8 GPUs. Das Design des DSS 8440 ermöglicht die parallele Ausführung mehrerer Sekundäranalysen. Durch die Zuweisung von acht T4-GPUs pro Probe steigt der tägliche Analysedurchsatz auf ca. 50 Genome pro Tag. Die Verwendung von vier GPUs pro Probe erhöht den Analysedurchsatz auf ca. 70 Genome pro Tag. Noch wichtiger ist, dass dieser tägliche Durchsatz mit T4-GPUs für weniger als die Hälfte der Kosten als bei Verwendung eines V100-GPU-Designs erzielt wird.
Neben der Geschwindigkeit ist auch die Kompatibilität mit anderen Analysetools unerlässlich für die Vergleichbarkeit von Ergebnissen. Die Ergebnisse der Parabricks-Keimbahnanalyse sind nahezu identisch mit denen der bekannten BWA-GATK-Haplotyp-Aufrufanalyse vorheriger Tests. Außerdem wollten wir die Variantenaufruf-Ergebnisse von Parabricks mit anderen Toolsets wie samtools/mpileup vergleichen. Diese beiden vollständig unterschiedlichen Tools erreichen eine allgemeine Übereinstimmung für die identifizierten Varianten von ca. 90 %, wobei für Variationen in vielen bekannten Genomabschnitten mit wichtigen Genen eine Übereinstimmung von mehr als 99 % erreicht wurde.