Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Accelerazione dell'analisi dei dati genomici con NVIDIA Clara Parabricks e un server Dell EMC DSS 8440 con GPU NVIDIA T4

Summary: questo articolo fornisce informazioni sull'accelerazione dell'analisi dei dati genomici utilizzando NVIDIA Parabricks su Dell EMC DSS 8440 con GPU NVIDIA T4.

This article applies to   This article does not apply to 

Instructions

Panoramica

Il primo passaggio per l'elaborazione dei dati NGS (Next Generation Sequencing) è quello dell'analisi primaria. Questo passaggio è specifico dello strumento di sequenziamento e genera più file FASTQ contenenti letture di sequenziamento. Al passaggio successivo, denominato analisi secondaria, le letture di sequenziamento dei file FASTQ vengono mappate a un genoma di riferimento o a un trascrittoma di riferimento. L'ulteriore elaborazione identifica le varianti o differenze tra il campione d'interesse e un riferimento. Le varianti vengono annotate e interpretate in successive passaggi downstream. La durata dell'analisi secondaria per un singolo campione varia da ore a giorni, a seconda delle dimensioni dei dati, delle risorse di elaborazione disponibili, del software e del flusso di lavoro analitico. 

L'analisi secondaria è un processo di elaborazione e storage di grandi volumi di dati, in particolare quando si elaborano centinaia di migliaia di genomi. Esistono molte strategie per evitare i colli di bottiglia dell'analisi secondaria. Fino a poco tempo fa, l'adozione dell'accelerazione hardware tramite GPU o FPGA era scarsa a causa del software personalizzato richiesto dagli acceleratori hardware. Il software per la genomica di Parabricks, acquisito da NVIDIA nel 2019, ha aperto la strada a uno stack software in grado di eseguire vari flussi di lavoro di analisi genomica tramite GPU. Abbiamo testato Parabricks con Dell EMC PowerEdge C4140/4 GPU NVIDIA® Tesla® V100 (in inglese) circa due anni fa. Dell ha introdotto numerosi progressi tecnologici nei suoi server e nelle sue soluzioni di storage e NVIDIA Clara Parabricks ha rilasciato versioni robuste con accelerazione avanzata e l'aggiunta di chiamanti di varianti. Ad esempio, una progettazione multi-GPU basata sul server Dell EMC DSS 8440 con GPU NVIDIA® Tesla® T4 è sembrata promettente per accelerare l'analisi secondaria e al tempo stesso offrire un bilanciamento interessante tra prezzo e prestazioni.  Questo blog illustra una nuova architettura di riferimento e i risultati dei benchmark per l'analisi secondaria con NVIDIA Clara Parabricks su un server DSS 8440 con più GPU Tesla® T4 e unità di storage Dell EMC Isilon F800.

Architettura di riferimento

La figura 1 illustra l'architettura di riferimento testata. L'architettura è modulare e di facile scalabilità. Il software applicativo NVIDIA Clara Parabricks utilizza una o più GPU per una scalabilità orizzontale quanto più semplice possibile. I componenti hardware sono costituiti da Dell EMC PowerEdge R640 come nodo di gestione, un server DSS 8440 per il GPU computing e storage Dell EMC Isilon F800.


Figura 1. Architettura di riferimento testata


Il server 4U a 2 socket DSS 8440 può accogliere fino a 10 GPU NVIDIA® Tesla® V100S Tensor Core leader del settore, fino a 10 GPU NVIDIA® Quadro RTX™ o fino a 16 GPU NVIDIA Tesla T4 di straordinaria potenza. La configurazione dettagliata del server DSS 8440 è riportata nella Tabella 1.

 
Dell EMC DSS 8440
CPU 2 Xeon® Gold 6248R a 24 core da 3,0 GHz
RAM 24 64 GB da 2.933 MTps
Sistema operativo Red Hat Enterprise Linux Server versione 7.4 (Maipo)
Profilo di sistema nel BIOS Performance Optimized
Processore logico Disabilitato
Tecnologia di virtualizzazione Disabilitata
Acceleratori 16 GPU NVIDIA® Tesla® T4
Parabricks versione 3.0.0.05

Due switch Z9100-ON hanno fornito l'interconnessione tra il nodo di elaborazione e lo storage cluster Isilon F800. Per la gestione è stato utilizzato un ulteriore switch N2248X-ON.

Dati NGS

I dati per il benchmarking del runtime di analisi secondaria sono stati tre data set WGS (Whole-Genome Sequencing, sequenziamento del genoma intero): ERR091571, SRR3124837 ed ERR194161, che rappresentavano rispettivamente una copertura del campione pari a 10x, 30x e 50x. Questi data set sono disponibili nello European Nucleotide Archive (ENA).

Valutazione delle prestazioni

I miglioramenti software riducono il runtime
NVIDIA continua a introdurre miglioramenti software in NVIDIA Clara Parabricks. La Figura 2 mostra la riduzione del runtime tra due versioni di Parabricks che eseguono la pipeline di analisi della linea germinale utilizzando il server Dell PowerEdge C4140 con 4 GPU V100 come ambiente di test. Il passaggio dalla versione 2.1.0 alla versione 3.0.0 ha ridotto il runtime del 42%.


Figura 2. Runtime della pipeline di chiamata varianti della linea germinale con l'ultima versione di Parabricks

Prestazioni del server DSS 8440 con 16 T4

Il runtime per un'analisi secondaria con NVIDIA Clara Parabricks con una singola GPU T4 è più lento di circa il 30% rispetto all'utilizzo di una GPU V100. Tuttavia, due (2) GPU T4 forniscono approssimativamente il 10% in più di TFLOPS di una (1) GPU V100 a circa la metà del costo. Il server DSS 8440 consente fino a 16 slot PCIe, offrendo la possibilità di progettare un server basato su GPU T4 con prestazioni di runtime simili a un sistema C4140 con quattro GPU V100, ma a un costo inferiore.
L'analisi della linea germinale con Parabricks è stata eseguita utilizzando un server PowerEdge DSS 8440 con 16 GPU T4. Per ciascun data set WGS descritto in precedenza, il runtime è stato registrato utilizzando 1, 2, 4, 8 e 16 GPU T4 per analisi secondaria. I risultati sono illustrati nelle Figure da 3 a 5. In generale, il runtime non presenta una scalabilità lineare con l'aumento del numero di GPU per analisi. Il modello di scalabilità è simile alla quantità di dati per incrementi del campione da una copertura 10x a 50x. 
Anche se non è riportato qui, una precedente indagine di Dell EMC sui risultati di runtime di Parabricks con otto o più GPU V100 per analisi non ha determinato una scalabilità così efficiente come con le GPU T4. Ulteriori test hanno dimostrano che 6 GPU T4 generano risultati di runtime quasi identici a 4 GPU V100.


Figura 3. Confronto delle prestazioni con WGS 10x


Figura 4. Confronto delle prestazioni con WGS 30x


Figura 5 Confronto delle prestazioni con WGS 50x


Conclusione

Un server DSS 8440 con sedici GPU T4 è in grado di elaborare trenta genomi umani 50x al giorno. Un throughput di analisi giornaliero simile con un'architettura tradizionale di CPU x86 richiede dieci nodi di elaborazione PowerEdge C6420. L'architettura completa è illustrata in una precedente pubblicazione Dell.
Tuttavia, dedicare tutte le 16 GPU T4 all'elaborazione di un solo campione offre scarso vantaggio, poiché l'utilizzo di 16 GPU per analisi è al massimo del 10% più veloce rispetto all'utilizzo di 8 GPU. La progettazione del server DSS 8440 permette l'esecuzione di più analisi secondarie in parallelo. Assegnando otto GPU T4 per campione, il throughput di analisi giornaliero aumenta a circa 50 genomi al giorno. L'utilizzo di quattro GPU per campione aumenta il throughput di analisi a circa 70 genomi al giorno. Ancora più importante, questo risultato giornaliero con GPU T4 ha un costo inferiore alla metà di quello relativo a una progettazione con GPU V100.
Oltre alla velocità, la compatibilità con altri strumenti di analisi è essenziale per la comparabilità dei risultati. I risultati dell'analisi della linea germinale con Parabricks sono quasi identici alla ben nota analisi con chiamante BWA-GATK Haplotype di test precedenti.  Abbiamo anche confrontato i risultati della chiamata varianti di Parabricks con altri set di strumenti come samtools/mpileup.  Questi due strumenti completamente diversi raggiungono un accordo complessivo di circa il 90% per le varianti identificate; inoltre le variazioni in molte ben note regioni genomiche contenenti geni importanti concordano per oltre il 99%.

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640