Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Genoomdata-analyse versnellen met NVIDIA Clara Parabricks met de Dell EMC DSS 8440 server en NVIDIA T4 GPU's

Summary: Dit artikel bevat informatie over het versnellen van de genoomdata-analyse met NVIDIA Parabricks op Dell EMC DSS 8440 met NVIDIA T4 GPU's.

This article applies to   This article does not apply to 

Instructions

Overzicht

De eerste stap voor het verwerken van Next Generation Sequencing (NGS)-data wordt primaire analyse genoemd. Deze stap is specifiek voor het sequencing-instrument en genereert meerdere FASTQ-bestanden met sequencing-leesbewerkingen. In de volgende stap, die bekend staat als secundaire analyse, worden de FASTQ-sequencing-uitlezingen toegewezen aan een referentiegenoom of een referentietranscriptoom. Aanvullende verwerking identificeert varianten, of verschillen, tussen de betreffende steekproef en een referentie. De varianten worden voorzien van commentaar en geïnterpreteerd in volgende downstream-stappen. De secundaire analysetijd voor een enkel monster varieert van uren tot dagen, afhankelijk van de datagrootte, de beschikbare computerbronnen, software en analytische workflow. 

Secundaire analyse is een computer- en storage-intensief proces, vooral bij het verwerken van honderden tot duizenden genomen. Er bestaan veel strategieën om knelpunten bij secundaire analyse te vermijden. Tot voor kort bleef het gebruik van hardwareversnelling met behulp van GPU's of FPGA's laag vanwege aangepaste software die nodig is voor hardwareversnellers. In de genoomsoftware van Parabricks die door NVIDIA in 2019 is aangeschaft, is een softwarestack geïntroduceerd die verschillende workflows voor genoomanalyse uitvoert met GPU's. Ongeveer twee jaar geleden hebben we Parabricks getest met Dell EMC PowerEdge C4140/4x NVIDIA® Tesla® V100 GPU's. Dell heeft talrijke technologische ontwikkelingen in zijn servers en storageoplossingen geïntroduceerd en NVIDIA Clara Parabricks heeft robuuste versies uitgebracht met verbeterde versnelling en de toevoeging van 'variant callers'. Bijvoorbeeld een multi-GPU-serverontwerp op basis van de Dell EMC DSS 8440 server met NVIDIA® Tesla® T4 GPU's zag er veelbelovend uit voor het versnellen van secundaire analyse, terwijl het een aantrekkelijke balans bood tussen prijs en prestaties.  Deze blog rapporteert een nieuwe referentiearchitectuur en benchmarkresultaten voor NVIDIA Clara Parabricks secundaire analyse op een multi-Tesla® T4 GPU, DSS 8440 server met Dell EMC Isilon F800 storage.

Referentiearchitectuur

Afbeelding 1 illustreert de geteste referentiearchitectuur. De architectuur is modulair en eenvoudig schaalbaar. De NVIDIA Clara Parabricks-applicatiesoftware gebruikt een of meer GPU's om scale-out zo eenvoudig mogelijk te maken. De hardwarebouwstenen bestaan uit Dell EMC PowerEdge R640 als beheerknooppunt, DSS 8440 server voor GPU-computing en Dell EMC Isilon F800 storage.


Afbeelding 1 Geteste referentiearchitectuur


DSS 8440, 2 sockets, 4U server kan maximaal 10 toonaangevende NVIDIA® Tesla® V100S Tensor Core GPU's, maximaal 10 NVIDIA® Quadro RTX™ GPU's of maximaal 16 NVIDIA Tesla T4 GPU's verwerken, wat een enorm vermogen is. De gedetailleerde configuratie van DSS 8440 wordt vermeld in tabel 1.

 
Dell EMC DSS 8440
CPU 2x Xeon® Gold 6248R 24 cores 3,0 GHz
RAM 24x64GB bij 2933 MTps
Besturingssysteem Red Hat Enterprise Linux Server release 7.4 (Maipo)
BIOS-systeemprofiel Prestaties geoptimaliseerd
Logische processor Uitgeschakeld
Virtualisatietechnologie Uitgeschakeld
Versnellers 16x NVIDIA® Tesla® T4 GPU's
Parabricks v3.0.0.05

Twee Z9100-ON switches zorgden voor de verbinding tussen het rekenknooppunt en het Isilon F800 storagecluster. Er wordt een extra switch voor het beheer van N2248X gebruikt.

NGS-data

Data voor het benchmarken van secundaire analyse-runtime bestonden uit drie menselijke, whole-genome sequencing WGS-datasets, ERR091571, SRR3124837 en ERR194161, die respectievelijk 10x, 30x en 50x sample-dekking vertegenwoordigen. Deze datasets zijn beschikbaar in het European Nucleotide Archive (ENA).

Prestatie-evaluatie

Softwareverbeteringen verlagen de runtime
NVIDIA blijft doorgaan met het aanbrengen van softwareverbeteringen voor NVIDIA Clara Parabricks. Afbeelding 2 toont de runtime-reductie tussen twee versies van de Parabricks die de kiembaan-pipeline uitvoeren met behulp van de Dell PowerEdge C4140 server met 4x V100 GPU's testomgeving. De overstap van v2.1.0 naar v3.0.0 verminderde de runtime met 42%.


Afbeelding 2 De nieuwste versie van de Parabricks kiembaanvariant die pipeline-runtime aanroept.

Prestaties van DSS 8440 met 16x T4's

De runtime voor een NVIDIA Clara Parabricks secundaire analyse met een enkele T4 GPU is ongeveer 30% langzamer dan met een V100 GPU. Twee (2) T4 GPU's bieden echter ongeveer 10% meer TFLOPS dan één (1) V100 GPU tegen ongeveer de helft van de kosten. De DSS 8440 biedt maximaal 16 PCIe-slots, waarmee de mogelijkheid wordt geboden om een op T4 GPU gebaseerde server te ontwerpen die vergelijkbare runtime-prestaties levert als een C4140-systeem met vier V100 GPU's, maar tegen lagere kosten.
De Parabricks kiembaananalyse is uitgevoerd met behulp van een PowerEdge DSS 8440 met 16 T4 GPU's. Voor elke eerder beschreven WGS-sampledataset, werd de runtime geregistreerd met 1, 2, 4, 8 en 16 T4 GPU's per secundaire analyse. De resultaten zijn uitgezet in de afbeeldingen 3 tot en met 5. Over het algemeen daalt de runtime niet lineair met het toenemende aantal GPU's per analyse. Het schaalbaarheidspatroon is vergelijkbaar met de hoeveelheid data die per monster wordt verhoogd van 10x tot 50x-dekking. 
Hoewel hier niet gepresenteerd, was een eerder Dell EMC onderzoek van Parabricks runtime-resultaten met gebruik van acht of meer V100 PGU's per analyse niet zo efficiënt geschaald als de T4 GPU's. Aanvullende tests hebben aangetoond dat zes T4 GPU's runtime-resultaten genereerden die vrijwel identiek zijn aan 4 V100 GPU's.


Afbeelding 3 Prestatievergelijkingen met 10x WGS


Afbeelding 4 Prestatievergelijkingen met 30x WGS


Afbeelding 5 Prestatievergelijkingen met 50x WGS


Conclusie

Een DSS 8440 met zestien T4 GPU's kan dertig 50x menselijke genomen per dag verwerken. Voor een soortgelijke dagelijkse analysedoorvoer met een traditionele x86 CPU-architectuur zijn tien PowerEdge C6420 rekenknooppunten vereist. De volledige architectuur wordt besproken in een eerdere Dell publicatie.
Het gebruik van alle 16 T4 GPU's om één monster te verwerken biedt echter weinig voordeel, aangezien het gebruik van 16 GPU's per analyse op zijn best 10% sneller is dan het gebruik van 8 GPU's. Het ontwerp van de DSS 8440 biedt de mogelijkheid om meerdere secundaire analyses parallel uit te voeren. Door acht T4 GPU's per monster toe te wijzen, neemt de dagelijkse analysedoorvoer toe tot ~50 genomen per dag. Het gebruik van vier GPU's per monster verhoogt de analysedoorvoer tot ~70 genomen per dag. Wat nog belangrijker is, is dat deze dagelijkse output met T4 GPU's minder dan de helft kost van het gebruik van een V100 GPU-ontwerp.
Naast snelheid is compatibiliteit met andere analysetools essentieel voor de vergelijkbaarheid van de resultaten. De resultaten van de Parabricks kiembaananalyse zijn vrijwel identiek met de bekende BWA-GATK Haplotype caller-analyse van eerdere tests.  We wilden ook de Parabricks variant-aanroepende resultaten vergelijken met andere toolsets zoals samtools/mpileup.  Deze twee totaal verschillende tools bereiken ~90% algemene overeenstemming voor geïdentificeerde varianten, en variaties in veel bekende genoomgebieden die belangrijke genen bevatten, komen meer dan 99% overeen.

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640