Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Akselerasjon av genomdataanalyse ved hjelp av NVIDIA Parabricks på Dell EMC DSS 8440 med NVIDIA T4 GPU-er

Summary: Denne artikkelen inneholder informasjon om akselerasjon av genomdataanalyse ved hjelp av NVIDIA Parabricks på Dell EMC DSS 8440 med NVIDIA T4 GPU-er.

This article applies to   This article does not apply to 

Instructions

Oversikt

Det første trinnet for behandling av Next Generation Sequencing-data (NGS) kalles primæranalyse. Dette trinnet gjelder for sekvensinstrumentet og genererer flere FASTQ-filer som inneholder sekvenslesinger. I det neste trinnet, kjent som sekundæranalyse, vil FASTQ-sekvensene leses inn i et referansegenom eller et referansetranskriptom. Ytterligere behandling identifiserer varianter, eller forskjeller, mellom den aktuelle prøven og en referanse. Variantene er kommentert og tolkes i påfølgende trinn. Det sekundære analysetidspunktet for ett enkelt eksempel strekker seg fra timer til dager, avhengig av datastørrelse, tilgjengelige dataressurser, programvare og analytisk arbeidsflyt. 

Sekundæranalyse er en databehandlings- og lagringsintensiv prosess, særlig ved behandling av hundrevis til tusenvis av genomer. Det finnes mange strategier for å unngå flaskehalsene for sekundæranalyse. Inntil nylig har benyttelsen av maskinvareakselerasjon som bruker GPU-er eller FPGA-er forblitt lav på grunn av tilpasset programvare. Parabricks’ genomforskningsprogramvare, som ble anskaffet av NVIDIA i 2019, har beredt grunnen for en programvarestack som utfører forskjellige genomanalysearbeidsflyter med GPU-er. Vi har testet Parabricks med Dell EMC PowerEdge C4140/4X NVIDIA® Tesla® V100 GPU-er for to år siden. Dell innførte mange teknologiske fremskritt hos sine servere og lagringsløsninger, og NVIDIA Clara Parabricks har utgitt robuste versjoner med forbedret akselerasjon og variant-anrop. For eksempel så en multi-GPU-server basert på Dell EMC DSS 8440-serveren med NVIDIA® Tesla® T4 GPU-er lovende ut for akselerasjon av sekundæranalyse, samtidig som den tilbød en attraktiv balanse mellom pris og ytelse.  Denne bloggen rapporterer en ny referansearkitektur og benchmark-resultater for NVIDIA Clara Parabricks Secondary Analysis på en multi-Tesla® T4 GPU, DSS 8440-server med Dell EMC Isilon F800-lagring.

Referansearkitektur

Figuren 1 illustrerer den testede referansearkitekturen. Arkitekturen er modulær og enkel å skalere. Programvaren til NVIDIA Clara Parabricks-programmet bruker én eller flere GPU-er som gjør at det er enkelt å skalere. Maskinvarebyggeblokkene består av Dell EMC PowerEdge R640 som en administrasjonsnode, DSS 8440-server for GPU-data og Dell EMC Isilon F800-lagring.


Figur 1Referansearkitektur blir testet


DSS 8440, 2 kontakter, 4U-server kan ta opptil 10 bransjeledende NVIDIA® Tesla® V100S Tensor-kjerne GPU-er, opptil 10 NVIDIA® Quadro RTX™ GPU-er eller opptil 16 NVIDIA Tesla T4 GPU-er, som leverer enorme hestekrefter. Den detaljerte konfigurasjonen av DSS 8440 er oppført i tabell 1.

 
Dell EMC DSS 8440
CPU 2 x Xeon® gull 6248 24 kjerner 3,0 GHz
RAM 24 x 64 GB ved 2933 MTps
Operativsystem Red Hat Enterprise Linux Server utgave 7.4 (Maipo)
BIOS-systemprofil Optimert ytelse
Logisk prosessor Deaktivert
Virtualiserings-teknologi Deaktivert
Akselleratorer 16x NVIDIA® Tesla® T4 GPU-er
Parabricks v3.0.0.05

To Z9100-switcher leverte sammenkoblingen mellom compute-noden og Isilon F800 Storage-klyngen. En ekstra bryter, N2248X-ON, brukes for administrasjon.

NGS-data

Data for benchmarking av sekundær runtimeanalyse består av tre datasett med humane helgenomsekvenser (WGS), ERR091571, SRR3124837og ERR194161, som representerer henholdsvis 10x, 30x og 50x prøvedekning. Disse datasettene er tilgjengelige i det europeiske nukleotide-arkivet (ENA).

Ytelsesevaluering

Programvareforbedringer reduserer kjøretid
NVIDIA fortsetter å introdusere programvareforbedringer til NVIDIA Clara Parabricks. Figur 2 viser kjøretidsreduksjonen mellom to versjoner av Parabricks som utfører germline pipeline ved hjelp av Dell PowerEdge C4140-serveren med 4X V100 GPU-test-miljø. Flytting fra v2.1.0 til v3.0.0 reduserte kjøretiden med 42 %.


Figur 2 Siste versjon av Parabricks germlinevariant som kaller pipeline runtime.

Ytelse for DSS 8440 med 16x T4s

Kjøretiden for en NVIDIA Clara Parabricks-sekundæranalyse som bruker én enkelt T4 GPU, er omtrent 30 % lavere enn bruk av en V100 GPU. To (2) T4 GPU-er gir imidlertid omtrent 10 % flere TFLOPS enn én (1) V100 GPU med omtrent halvparten av kostnadene. DSS 8440 inneholder opptil 16 PCIe-spor som åpner en T4 GPU-basert server som gir samme kjøretidsytelse som et C4140-system med fire V100 GPU-er, men med lavere kostnader.
Parabricks germline-analyse ble utført ved hjelp av en PowerEdge DSS 8440 med 16 T4 GPU-er. For hvert WGS-eksempeldatasett beskrevet tidligere ble kjøretiden registrert med 1, 2, 4, 8, og 16 T4 GPU-er per sekundær analyse. Resultatene tegnes inn i figurene 3 til 5. Generelt skal kjøretiden ikke skaleres lineært etterhvert som antallet GPU-er for hver analyse øker. Skaleringsmønsteret ligner på mengden av data per samplingsøkning fra 10x- til 50x-dekning. 
Selv om dette ikke vises her, viste en tidligere Dell EMC-undersøkelse av Parabricks Runtime-resultater ved hjelp av åtte eller flere V100 GPU-er per analyse at den ikke skalerte like effektivt som T4-GPU-er. Ytterligere testing har vist at 6 T4 GPU-er genererte kjøretidsresultater nesten identiske med 4 V100 GPU-er.


Figur 3 Ytelsessammenligninger med 10X WGS


Figur 4 Ytelsessammenligning med 30X WGS


Figur 5 Ytelsessammenligning med 50X WGS


Konklusjon

En DSS 8440 med seksten T4 GPU-er er i stand til å behandle 30 50x menneskelige genomer per dag. En lignende daglig analyse av gjennomstrømming ved hjelp av en tradisjonell x86 CPU-arkitektur krever ti PowerEdge C6420e Compute-noder. Den komplette arkitekturen diskuteres i en tidligere Dell-publikasjon.
Dedikasjon av alle 16 T4 GPU-er for å behandle ett utvalg gir imidlertid få fordeler, siden bruk av 16 GPU-er per analyse i beste fall er 10 % raskere enn bruk av 8 GPU-er. Utformingen av DSS 8440 tillater flere sekundære analyser parallelt. Ved å tildele åtte T4 GPU-er for hver prøve øker den daglige analysegjennomstrømningen til ~50 genomer per dag. Bruk av fire GPU-er for hvert av eksemplene øker analysegjennomstrømmingen til ~70 genomer per dag. Viktigere er denne daglige produksjonen ved hjelp av T4 GPU-er mindre enn halve kostnaden ved bruk av V100 GPU-design.
I tillegg til hastigheten, er kompatibilitet med andre analyseverktøy viktig for sammenlignbare resultater. Resultatene av Parabricks germline-analyse er nesten identiske med den velkjente BWA-GATK haplotype-kalleranalysen fra før testing.  Vi ville også sammenligne Parabricks-variantene som kaller resultater til andre verktøyprogrammer som samtools/mpileup.  Disse to forskjellige verktøyene når ~90 % samlet enighet for identifiserte varianter, og variasjoner i mange velkjente genomregioner som inneholder viktige gener har mer enn 99 % enighet.

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640