Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Snabbare analys av genomiska data med NVIDIA Clara Parabricks med Dell EMC DSS 8440-servern och NVIDIA T4-grafikprocessorer

Summary: Den här artikeln innehåller information om hur analys av genomiska data kan accelereras med hjälp av NVIDIA Parabricks på Dell EMC DSS 8440 med NVIDIA T4-grafikprocessorer.

This article applies to   This article does not apply to 

Instructions

Översikt

Det första steget för bearbetning av NGS-data (Next Generation Sequencing) kallas primäranalys. Det här steget är specifikt för sekvenseringsinstrumentet och genererar flera FASTQ-filer som innehåller sekvenseringsläsningar. I nästa steg, som kallas sekundäranalys, mappas FASTQ-sekvenseringsläsningarna till ett referensgenom eller ett referenstranskriptom. Vid ytterligare bearbetning identifieras varianter eller skillnader mellan provet och en referens. Varianterna annoteras och tolkas i efterföljande steg. Tiden för sekundäranalysen för ett enskilt prov sträcker sig från timmar till dagar, beroende på datastorlek, tillgängliga datorresurser, programvara och analytiskt arbetsflöde. 

Sekundäranalys är en beräknings- och lagringsintensiv process, särskilt vid bearbetning av hundra till tusentals genom. Det finns många strategier för att undvika flaskhalsar i sekundäranalysen. Tills nyligen var införandet av maskinvaruacceleration med hjälp av GPU:er eller FPGA:er lågt på grund av anpassad programvara som krävs av maskinvaruacceleratorer. Parabricks genomiska programvara, som förvärvades av NVIDIA under 2019, har banat väg för en programvarustack som utför olika genomiska analysarbetsflöden med grafikprocessorer. Vi testade Parabricks med Dell EMC PowerEdge C4140/4x NVIDIA® Tesla® V100-grafikprocessorer för ungefär två år sedan. Dell har introducerat många tekniska framsteg i sina servrar och lagringslösningar, och NVIDIA Clara Parabricks har släppt robusta versioner med utökad acceleration och lagt till variantanalysprogramvara. Till exempel har en serverdesign med flera grafikprocessorer baserad på Dell EMC DSS 8440-servern med NVIDIA® Tesla® T4-grafikprocessorer sett lovande ut för snabbare sekundäranalys samtidigt som den har en attraktiv balans mellan pris och prestanda.  Den här bloggen rapporterar om en ny referensarkitektur och resultat för prestandatester för NVIDIA Clara Parabricks-sekundäranalys på en mulit-Tesla® T4-grafikprocessor, DSS 8440-server med Dell EMC Isilon F800-lagring.

Referensarkitektur

Bild 1 illustrerar den testade referensarkitekturen. Arkitekturen är modulär och enkel att skala. Programmet NVIDIA Clara Parabricks använder en eller flera grafikprocessorer för att göra det så enkelt som möjligt att skala ut. Maskinvarans byggelement består av Dell EMC PowerEdge R640 som en hanteringsnod, DSS 8440-server för grafikprocessorberäkning och Dell EMC Isilon F800-lagring.


Bild 1: Testad referensarkitektur


DSS 8440, 2 socklar, 4U-server har plats för upp till 10 branschledande NVIDIA® Tesla® V100S Tensor Core GPU:er, upp till 10 NVIDIA® Quadro RTX™ GPU:er eller upp till 16 NVIDIA Tesla T4 GPU:er som ger en otrolig kraft. Den detaljerade konfigurationen av DSS 8440 visas i tabell 1.

 
Dell EMC DSS 8440
Processor 2x Xeon® Gold 6248R 24 kärnor 3,0 GHz
RAM 24x 64 GB vid 2 933 MTps
Operativsystem Red Hat Enterprise Linux Server release 7.4 (Maipo)
BIOS-systemprofil Prestandaoptimerad
Logisk processor Disabled (avaktiverad)
Virtualiseringsteknik Disabled (avaktiverad)
Acceleratorer 16x NVIDIA® Tesla® T4 GPU:er
Parabricks version 3.0.0.05

Två Z9100-ON-switchar skapade sammankopplingen mellan beräkningsnoden och Isilon F800-lagringsklustret. En extra switch, N2248X-ON, används för hantering.

NGS-data

Data för prestandatest av körtid för sekundäranalys bestod av WGS-data (helgenomsekvensering) från tre humana prov, ERR091571, SRR3124837 och ERR194161, som representerar 10x, 30x respektive 50x täckning. Dessa data är tillgängliga i European Nucleotid Archive (ENA).

Prestandautvärdering

Programvaruförbättringar minskar körtiden
NVIDIA fortsätter att införa programvaruförbättringar för NVIDIA Clara Parabricks. Bild 2 visar minskningen i körtid mellan två versioner av Parabricks som utför germline pipeline med hjälp av Dell PowerEdge C4140-servern i testmiljön med 4x V100-grafikprocessorer. Genom att flytta från version 2.1.0 till version 3.0.0 minskade körtiden med 42 %.


Bild 2: Senaste versionen av Parabricks körtid för germline-variantanalys.

Prestanda för DSS 8440 med 16x T4s

Körtiden för en NVIDIA Clara Parabricks-sekundäranalys med en enda T4-grafikprocessor är cirka 30 % långsammare än vid användning av en V100-grafikprocessor. Men två (2) T4-grafikprocessorer ger ungefär 10 % mer TFLOPS än en (1) V100-grafikprocessor till ungefär halva kostnaden. DSS 8440 har upp till 16 PCIe-kortplatser, vilket ger möjlighet att utforma en T4-grafikprocessorbaserad server som ger liknande körtidsprestanda som ett C4140-system med fyra V100-grafikprocessorer, men till en lägre kostnad.
Parabricks germline-analysen utfördes med en PowerEdge DSS 8440 med 16 T4-grafikprocessorer. För varje WGS-provdata som beskrivits tidigare registrerades körtiden med 1, 2, 4, 8 och 16 T4-grafikprocessorer per sekundäranalys. Resultaten visas i bild 3 till 5. Generellt sett skalas inte körtiden linjärt när antalet grafikprocessorer per analys ökar. Skalningsmönstret liknar mängden data per prov som ökar från 10x till 50x täckning. 
Det presenteras inte här, men en tidigare Dell EMC-undersökning av Parabricks körtidsresultat med åtta eller fler V100-grafikprocessorer skalade inte lika effektivt som T4-grafikprocessorerna. Ytterligare tester visade att 6 T4-grafikprocessorer genererade körtidsresultat som var nästan identiska med 4 V100-grafikprocessorer.


Bild 3: Prestandajämförelser med 10x WGS


Bild 4: Prestandajämförelser med 30x WGS


Bild 5: Prestandajämförelser med 50x WGS


Slutsats

En DSS 8440 med sexton T4-grafikprocessorer kan bearbeta trettio stycken 50x humana genom per dag. En liknande daglig genomströmning av analyser med en traditionell x86-processorarkitektur kräver tio PowerEdge C6420-beräkningsnoder. Den fullständiga arkitekturen diskuteras i en tidigare Dell-publikation.
Att dedikera alla 16 T4-grafikprocessorer för att bearbeta ett prov gör inte så stor nytta eftersom 16 grafikprocessorer per analys som bäst är 10 % snabbare än med 8 grafikprocessorer. Designen av DSS 8440 möjliggör flera sekundäranalyser parallellt. Genom att tilldela åtta T4-grafikprocessorer per prov ökar den dagliga genomströmningen av analyser till ~50 genom per dag. Med fyra grafikprocessorer per prov ökar genomströmningen av analyser till ~70 genom per dag. Ännu viktigare är att den här dagliga produktionen med T4-grafikprocessorer görs till mindre än halva kostnaden jämfört med om en V100-grafikprocessordesign används.
Förutom hastigheten är kompatibilitet med andra analysverktyg avgörande för resultatjämförelser. Resultaten från Parabricks germline-analysen är nästan identiska med den välkända BWA-GATK Haplotype caller-analysen från tidigare tester.  Vi ville också jämföra Parabricks variantanalysresultat med andra verktyg, t.ex. samtools/mpileup.  De här två helt olika verktygen uppnår ~90 % allmän överensstämmelse för identifierade varianter, och variationer i många välkända genomiska regioner som innehåller viktiga gener överensstämmer med mer än 99 %.

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640