Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Akselerasjon av genomdataanalyse ved hjelp av NVIDIA Parabricks på Dell EMC DSS 8440 med NVIDIA T4 GPU-er

Summary: Denne artikkelen inneholder informasjon om akselerasjon av genomdataanalyse ved hjelp av NVIDIA Parabricks på Dell EMC DSS 8440 med NVIDIA T4 GPU-er.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Oversikt

Det første trinnet for behandling av Next Generation Sequencing-data (NGS) kalles primæranalyse. Dette trinnet gjelder for sekvensinstrumentet og genererer flere FASTQ-filer som inneholder sekvenslesinger. I det neste trinnet, kjent som sekundæranalyse, vil FASTQ-sekvensene leses inn i et referansegenom eller et referansetranskriptom. Ytterligere behandling identifiserer varianter, eller forskjeller, mellom den aktuelle prøven og en referanse. Variantene er kommentert og tolkes i påfølgende trinn. Det sekundære analysetidspunktet for ett enkelt eksempel strekker seg fra timer til dager, avhengig av datastørrelse, tilgjengelige dataressurser, programvare og analytisk arbeidsflyt. 

Sekundæranalyse er en databehandlings- og lagringsintensiv prosess, særlig ved behandling av hundrevis til tusenvis av genomer. Det finnes mange strategier for å unngå flaskehalsene for sekundæranalyse. Inntil nylig har benyttelsen av maskinvareakselerasjon som bruker GPU-er eller FPGA-er forblitt lav på grunn av tilpasset programvare. Parabricks’ genomforskningsprogramvare, som ble anskaffet av NVIDIA i 2019, har beredt grunnen for en programvarestack som utfører forskjellige genomanalysearbeidsflyter med GPU-er. Vi har testet Parabricks med Dell EMC PowerEdge C4140/4X NVIDIA® Tesla® V100 GPU-er for to år siden. Dell innførte mange teknologiske fremskritt hos sine servere og lagringsløsninger, og NVIDIA Clara Parabricks har utgitt robuste versjoner med forbedret akselerasjon og variant-anrop. For eksempel så en multi-GPU-server basert på Dell EMC DSS 8440-serveren med NVIDIA® Tesla® T4 GPU-er lovende ut for akselerasjon av sekundæranalyse, samtidig som den tilbød en attraktiv balanse mellom pris og ytelse.  Denne bloggen rapporterer en ny referansearkitektur og benchmark-resultater for NVIDIA Clara Parabricks Secondary Analysis på en multi-Tesla® T4 GPU, DSS 8440-server med Dell EMC Isilon F800-lagring.

Referansearkitektur

Figuren 1 illustrerer den testede referansearkitekturen. Arkitekturen er modulær og enkel å skalere. Programvaren til NVIDIA Clara Parabricks-programmet bruker én eller flere GPU-er som gjør at det er enkelt å skalere. Maskinvarebyggeblokkene består av Dell EMC PowerEdge R640 som en administrasjonsnode, DSS 8440-server for GPU-data og Dell EMC Isilon F800-lagring.


Figur 1Referansearkitektur blir testet


DSS 8440, 2 kontakter, 4U-server kan ta opptil 10 bransjeledende NVIDIA® Tesla® V100S Tensor-kjerne GPU-er, opptil 10 NVIDIA® Quadro RTX™ GPU-er eller opptil 16 NVIDIA Tesla T4 GPU-er, som leverer enorme hestekrefter. Den detaljerte konfigurasjonen av DSS 8440 er oppført i tabell 1.

 
Dell EMC DSS 8440
CPU 2 x Xeon® gull 6248 24 kjerner 3,0 GHz
RAM 24 x 64 GB ved 2933 MTps
Operativsystem Red Hat Enterprise Linux Server utgave 7.4 (Maipo)
BIOS-systemprofil Optimert ytelse
Logisk prosessor Deaktivert
Virtualiserings-teknologi Deaktivert
Akselleratorer 16x NVIDIA® Tesla® T4 GPU-er
Parabricks v3.0.0.05

To Z9100-switcher leverte sammenkoblingen mellom compute-noden og Isilon F800 Storage-klyngen. En ekstra bryter, N2248X-ON, brukes for administrasjon.

NGS-data

Data for benchmarking av sekundær runtimeanalyse består av tre datasett med humane helgenomsekvenser (WGS), ERR091571, SRR3124837og ERR194161, som representerer henholdsvis 10x, 30x og 50x prøvedekning. Disse datasettene er tilgjengelige i det europeiske nukleotide-arkivet (ENA).

Ytelsesevaluering

Programvareforbedringer reduserer kjøretid
NVIDIA fortsetter å introdusere programvareforbedringer til NVIDIA Clara Parabricks. Figur 2 viser kjøretidsreduksjonen mellom to versjoner av Parabricks som utfører germline pipeline ved hjelp av Dell PowerEdge C4140-serveren med 4X V100 GPU-test-miljø. Flytting fra v2.1.0 til v3.0.0 reduserte kjøretiden med 42 %.


Figur 2 Siste versjon av Parabricks germlinevariant som kaller pipeline runtime.

Ytelse for DSS 8440 med 16x T4s

Kjøretiden for en NVIDIA Clara Parabricks-sekundæranalyse som bruker én enkelt T4 GPU, er omtrent 30 % lavere enn bruk av en V100 GPU. To (2) T4 GPU-er gir imidlertid omtrent 10 % flere TFLOPS enn én (1) V100 GPU med omtrent halvparten av kostnadene. DSS 8440 inneholder opptil 16 PCIe-spor som åpner en T4 GPU-basert server som gir samme kjøretidsytelse som et C4140-system med fire V100 GPU-er, men med lavere kostnader.
Parabricks germline-analyse ble utført ved hjelp av en PowerEdge DSS 8440 med 16 T4 GPU-er. For hvert WGS-eksempeldatasett beskrevet tidligere ble kjøretiden registrert med 1, 2, 4, 8, og 16 T4 GPU-er per sekundær analyse. Resultatene tegnes inn i figurene 3 til 5. Generelt skal kjøretiden ikke skaleres lineært etterhvert som antallet GPU-er for hver analyse øker. Skaleringsmønsteret ligner på mengden av data per samplingsøkning fra 10x- til 50x-dekning. 
Selv om dette ikke vises her, viste en tidligere Dell EMC-undersøkelse av Parabricks Runtime-resultater ved hjelp av åtte eller flere V100 GPU-er per analyse at den ikke skalerte like effektivt som T4-GPU-er. Ytterligere testing har vist at 6 T4 GPU-er genererte kjøretidsresultater nesten identiske med 4 V100 GPU-er.


Figur 3 Ytelsessammenligninger med 10X WGS


Figur 4 Ytelsessammenligning med 30X WGS


Figur 5 Ytelsessammenligning med 50X WGS


Konklusjon

En DSS 8440 med seksten T4 GPU-er er i stand til å behandle 30 50x menneskelige genomer per dag. En lignende daglig analyse av gjennomstrømming ved hjelp av en tradisjonell x86 CPU-arkitektur krever ti PowerEdge C6420e Compute-noder. Den komplette arkitekturen diskuteres i en tidligere Dell-publikasjon.
Dedikasjon av alle 16 T4 GPU-er for å behandle ett utvalg gir imidlertid få fordeler, siden bruk av 16 GPU-er per analyse i beste fall er 10 % raskere enn bruk av 8 GPU-er. Utformingen av DSS 8440 tillater flere sekundære analyser parallelt. Ved å tildele åtte T4 GPU-er for hver prøve øker den daglige analysegjennomstrømningen til ~50 genomer per dag. Bruk av fire GPU-er for hvert av eksemplene øker analysegjennomstrømmingen til ~70 genomer per dag. Viktigere er denne daglige produksjonen ved hjelp av T4 GPU-er mindre enn halve kostnaden ved bruk av V100 GPU-design.
I tillegg til hastigheten, er kompatibilitet med andre analyseverktøy viktig for sammenlignbare resultater. Resultatene av Parabricks germline-analyse er nesten identiske med den velkjente BWA-GATK haplotype-kalleranalysen fra før testing.  Vi ville også sammenligne Parabricks-variantene som kaller resultater til andre verktøyprogrammer som samtools/mpileup.  Disse to forskjellige verktøyene når ~90 % samlet enighet for identifiserte varianter, og variasjoner i mange velkjente genomregioner som inneholder viktige gener har mer enn 99 % enighet.

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640
Article Properties
Article Number: 000180441
Article Type: How To
Last Modified: 03 Dec 2020
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.