Oversikt
Det første trinnet for behandling av Next Generation Sequencing-data (NGS) kalles primæranalyse. Dette trinnet gjelder for sekvensinstrumentet og genererer flere FASTQ-filer som inneholder sekvenslesinger. I det neste trinnet, kjent som sekundæranalyse, vil FASTQ-sekvensene leses inn i et referansegenom eller et referansetranskriptom. Ytterligere behandling identifiserer varianter, eller forskjeller, mellom den aktuelle prøven og en referanse. Variantene er kommentert og tolkes i påfølgende trinn. Det sekundære analysetidspunktet for ett enkelt eksempel strekker seg fra timer til dager, avhengig av datastørrelse, tilgjengelige dataressurser, programvare og analytisk arbeidsflyt.
Sekundæranalyse er en databehandlings- og lagringsintensiv prosess, særlig ved behandling av hundrevis til tusenvis av genomer. Det finnes mange strategier for å unngå flaskehalsene for sekundæranalyse. Inntil nylig har benyttelsen av maskinvareakselerasjon som bruker GPU-er eller FPGA-er forblitt lav på grunn av tilpasset programvare. Parabricks’ genomforskningsprogramvare, som ble anskaffet av NVIDIA i 2019, har beredt grunnen for en programvarestack som utfører forskjellige genomanalysearbeidsflyter med GPU-er. Vi har testet Parabricks med
Dell EMC PowerEdge C4140/4X NVIDIA® Tesla® V100 GPU-er for to år siden. Dell innførte mange teknologiske fremskritt hos sine servere og lagringsløsninger, og
NVIDIA Clara Parabricks har utgitt robuste versjoner med forbedret akselerasjon og variant-anrop. For eksempel så en multi-GPU-server basert på
Dell EMC DSS 8440-serveren med NVIDIA® Tesla® T4 GPU-er lovende ut for akselerasjon av sekundæranalyse, samtidig som den tilbød en attraktiv balanse mellom pris og ytelse. Denne bloggen rapporterer en ny referansearkitektur og benchmark-resultater for NVIDIA Clara Parabricks Secondary Analysis på en multi-Tesla® T4 GPU, DSS 8440-server med
Dell EMC Isilon F800-lagring.
Referansearkitektur
Figuren 1 illustrerer den testede referansearkitekturen. Arkitekturen er modulær og enkel å skalere. Programvaren til NVIDIA Clara Parabricks-programmet bruker én eller flere GPU-er som gjør at det er enkelt å skalere. Maskinvarebyggeblokkene består av
Dell EMC PowerEdge R640 som en administrasjonsnode, DSS 8440-server for GPU-data og Dell EMC Isilon F800-lagring.
Figur 1Referansearkitektur blir testet
DSS 8440, 2 kontakter, 4U-server kan ta opptil 10 bransjeledende NVIDIA® Tesla® V100S Tensor-kjerne GPU-er, opptil 10 NVIDIA® Quadro RTX™ GPU-er eller opptil 16 NVIDIA Tesla T4 GPU-er, som leverer enorme hestekrefter. Den detaljerte konfigurasjonen av DSS 8440 er oppført i tabell 1.
Dell EMC DSS 8440 |
CPU |
2 x Xeon® gull 6248 24 kjerner 3,0 GHz |
RAM |
24 x 64 GB ved 2933 MTps |
Operativsystem |
Red Hat Enterprise Linux Server utgave 7.4 (Maipo) |
BIOS-systemprofil |
Optimert ytelse |
Logisk prosessor |
Deaktivert |
Virtualiserings-teknologi |
Deaktivert |
Akselleratorer |
16x NVIDIA® Tesla® T4 GPU-er |
Parabricks |
v3.0.0.05 |
To Z9100-switcher leverte sammenkoblingen mellom compute-noden og Isilon F800 Storage-klyngen. En ekstra bryter, N2248X-ON, brukes for administrasjon.
NGS-data
Data for benchmarking av sekundær runtimeanalyse består av tre datasett med humane helgenomsekvenser (WGS),
ERR091571,
SRR3124837og
ERR194161, som representerer henholdsvis 10x, 30x og 50x prøvedekning. Disse datasettene er tilgjengelige i det
europeiske nukleotide-arkivet (ENA).
Ytelsesevaluering
Programvareforbedringer reduserer kjøretid
NVIDIA fortsetter å introdusere programvareforbedringer til NVIDIA Clara Parabricks. Figur 2 viser kjøretidsreduksjonen mellom to versjoner av Parabricks som utfører germline pipeline ved hjelp av Dell PowerEdge C4140-serveren med 4X V100 GPU-test-miljø. Flytting fra v2.1.0 til v3.0.0 reduserte kjøretiden med 42 %.
Figur 2 Siste versjon av Parabricks germlinevariant som kaller pipeline runtime.
Ytelse for DSS 8440 med 16x T4s
Kjøretiden for en
NVIDIA Clara Parabricks-sekundæranalyse som bruker én enkelt T4 GPU, er omtrent 30 % lavere enn bruk av en V100 GPU. To (2) T4 GPU-er gir imidlertid omtrent 10 % flere TFLOPS enn én (1) V100 GPU med omtrent halvparten av kostnadene. DSS 8440 inneholder opptil 16 PCIe-spor som åpner en T4 GPU-basert server som gir samme kjøretidsytelse som et C4140-system med fire V100 GPU-er, men med lavere kostnader.
Parabricks germline-analyse ble utført ved hjelp av en PowerEdge DSS 8440 med 16 T4 GPU-er. For hvert WGS-eksempeldatasett beskrevet tidligere ble kjøretiden registrert med 1, 2, 4, 8, og 16 T4 GPU-er per sekundær analyse. Resultatene tegnes inn i figurene 3 til 5. Generelt skal kjøretiden ikke skaleres lineært etterhvert som antallet GPU-er for hver analyse øker. Skaleringsmønsteret ligner på mengden av data per samplingsøkning fra 10x- til 50x-dekning.
Selv om dette ikke vises her, viste en
tidligere Dell EMC-undersøkelse av Parabricks Runtime-resultater ved hjelp av åtte eller flere V100 GPU-er per analyse at den ikke skalerte like effektivt som T4-GPU-er. Ytterligere testing har vist at 6 T4 GPU-er genererte kjøretidsresultater nesten identiske med 4 V100 GPU-er.
Figur 3 Ytelsessammenligninger med 10X WGS
Figur 4 Ytelsessammenligning med 30X WGS
Figur 5 Ytelsessammenligning med 50X WGS
Konklusjon
En DSS 8440 med seksten T4 GPU-er er i stand til å behandle 30 50x menneskelige genomer per dag. En lignende daglig analyse av gjennomstrømming ved hjelp av en tradisjonell x86 CPU-arkitektur krever ti PowerEdge C6420e Compute-noder. Den komplette arkitekturen diskuteres i en
tidligere Dell-publikasjon.
Dedikasjon av alle 16 T4 GPU-er for å behandle ett utvalg gir imidlertid få fordeler, siden bruk av 16 GPU-er per analyse i beste fall er 10 % raskere enn bruk av 8 GPU-er. Utformingen av DSS 8440 tillater flere sekundære analyser parallelt. Ved å tildele åtte T4 GPU-er for hver prøve øker den daglige analysegjennomstrømningen til ~50 genomer per dag. Bruk av fire GPU-er for hvert av eksemplene øker analysegjennomstrømmingen til ~70 genomer per dag. Viktigere er denne daglige produksjonen ved hjelp av T4 GPU-er mindre enn halve kostnaden ved bruk av V100 GPU-design.
I tillegg til hastigheten, er kompatibilitet med andre analyseverktøy viktig for sammenlignbare resultater. Resultatene av Parabricks germline-analyse er nesten identiske med den velkjente BWA-GATK haplotype-kalleranalysen fra før testing. Vi ville også sammenligne Parabricks-variantene som kaller resultater til andre verktøyprogrammer som samtools/mpileup. Disse to forskjellige verktøyene når ~90 % samlet enighet for identifiserte varianter, og variasjoner i mange velkjente genomregioner som inneholder viktige gener har mer enn 99 % enighet.