Falcon Accelerated Genomics Pipeline con una singola scheda di accelerazione programmabile Intel FPGA è in grado di elaborare 50 volte interi genomi umani in meno di 3 ore tramite variant calling pipeline alternativa.
Panoramica, sfida del mercato (necessità), soluzione Falcon risponde alle esigenze
La medicina di precisione, la genomica e le genomica utilizzano il sequenziamento genomico per condurre ricerche, migliorare la diagnosi, sviluppare prodotti farmaceutici, aumentare la qualità dell'assistenza sanitaria agli operatori sanitari e ottimizzare la produzione di raccolti. Per le scienze biologiche, l'analisi del genoma è ora un'applicazione chiave, in parte a causa dell'elevata riduzione dei costi della raccolta dei dati derivante dai progressi nel sequenziamento di nuova generazione (NGS). Oltre all'aumento della data collection, c'è stata anche una crescita significativa nella gamma di applicazioni genomica utilizzate nelle università, nei centri di ricerca genomica, nelle aziende farmaceutiche e nelle organizzazioni sanitarie.
Ogni sette mesi la quantità di dati genomica raddoppia (1). Di conseguenza, l'elaborazione dei dati in modo efficiente e a costi contenuti è diventata fondamentale. La potenza di elaborazione delle soluzioni solo processori non è sufficientemente veloce da tenere il passo con la crescita dei dati genomici. Ciò ha portato alla necessità di accelerazione hardware. Gli accelerator come gli FPGA stanno diventando fondamentali per soddisfare le esigenze di elaborazione di questa esplosione di dati genomici. Rispetto ad altre soluzioni con accelerazione hardware, Falcon Accelerated Genomics Pipeline (FAGP) offre flessibilità, throughput elevato e un costo inferiore per campione.
Che cos'è FPGA, offerta Intel PAC & Advantage
Gli FPGA sono dispositivi in silicio che possono essere riprogrammati dinamicamente con un percorso dati che corrisponda esattamente ai carichi di lavoro, come il sequenziamento genomico, l'analisi dei dati o la compressione, come illustrato nella Figura 1. Questa versatilità consente il provisioning di un'elaborazione più rapida, un calcolo più efficiente in termini di alimentazione e un servizio di latenza inferiore, riducendo i costi complessivi di gestione e ottimizzando la capacità di elaborazione all'interno dei vincoli di alimentazione, spazio e raffreddamento dei data center.
Tradizionalmente, gli FPGA richiedono una profonda competenza di dominio per programmare. Per semplificare il flusso di sviluppo e consentire un deployment rapido in tutto il data center, Intel offre una piattaforma di accelerazione che include Schede di accelerazione programmabili Intel FPGA (Intel FPGA PAC) basate su PCI Express* (PCIe*) e Intel® Acceleration Stack per CPU Intel Xeon® con FPGA. Queste piattaforme Intel sono qualificate, validate e implementate tramite Dell EMC. Insieme ai partner dell'ecosistema come Falcon Computing, Intel Acceleration Platform offre una soluzione affidabile e pronta all'uso con hardware trasparente all'interno.
Figura 1 Maggiore precisione e velocità sulla pipeline PIPELINE PIPELINE STANDARD
Dettagli di Falcon Solution:
Genome Analysis Toolkit (GAPK) è lo standard di riferimento per l'elaborazione dei dati genomico accettata dalla community di genomica (2). Il suo flusso di lavoro best practice (BPW) è noto per la sua lentezza nel calcolo per generare risultati per campioni di grandi dimensioni come Whole-Genome (WGS). Per risolvere questo problema, Falcon Computing Solutions ha sviluppato un pacchetto software flessibile di strumenti che segue il BPW e può essere facilmente implementato in più piattaforme e architetture. È veloce di diversi ordini di grandezza rispetto alle pipeline SOCKETK basate su CPU.
FAGP fornisce una soluzione end-to-end per analizzare i dati genomici a costi contenuti utilizzando la pipeline LAKEK con prestazioni elevate, precisione e riproducibilità. La soluzione offre velocità fino a 15 volte superiori con la stessa precisione di SAMEK (3). Ciò significa che un'analisi che in genere richiede da 50 a 60 ore può essere condotta in meno di 4 ore (3). FAGP offre livelli eccezionali di accelerazione e precisione in combinazione con FPGA Intel Arria 10 e Intel® Xeon® affidabili e a prestazioni elevate.
FAGP segue RACINGK BPW. Implementa l'accelerazione in molti componenti delle pipeline dall'allineamento (BWA) alla variant calling (HaplotypeCaller) (4). Oltre alla BWA accelerata, include anche una versione accelerata dell'aligner Minimap2 che fa parte della pipeline genomica alternativa di Falcon (5). La pipeline alternativa offre una soluzione ancora più veloce. Può completare il sequenziamento di tutto il genoma 50 volte in 3 ore. Entrambi gli allineatori dispongono della funzione per generare duplicati contrassegnati e letture ordinate senza la necessità di utilizzare strumenti aggiuntivi.
FAGP raggiunge prestazioni/throughput elevati accelerando il calcolo intensivo nella pipeline WRITEK utilizzando le piattaforme Pac Intel FPGA. Ciò è diverso dalle soluzioni scale-out che raggiungono un throughput elevato aggiungendo più risorse CPU. Tali soluzioni scale-out hanno una capacità limitata di ridurre i costi o la latenza per campione.
Un altro vantaggio della soluzione Falcon è che si tratta di una pipeline aperta come KILLK. Gli utenti possono controllare i singoli passaggi nelle pipeline. I dati intermedi vengono salvati e sono accessibili.
Tabella 1 Vantaggi di Falcon Accelerated Genomics Pipeline
Vantaggi di Falcon Accelerated Genomics Pipeline (FAGP) |
True CONK |
Supporto per più versioni TIPOK, inclusa la versione 4.0 |
Scalabilità di settore |
Esecuzione di cinque genomi interi o 24 esome interi in un giorno |
Variante alternativa |
< Tempo di risposta di 3 ore on-premise per WGS (50 volte) |
Velocità |
Esecuzione della pipeline delle best practice INTRAPRENDK fino a >15 volte più veloce |
Utilizzo ottimale dei sistemi esistenti |
Non è necessario riscrivere gli algoritmi di lavoro |
Configurazione hardware Dell
Tabella 2. Dell EMC PowerEdge R740xd come banco di prova
Dell EMC PowerEdge R740xd |
Processore |
2 CPU Intel(R) Xeon(R) Gold 6148 a 2,4 GHz |
Memoria |
384 GB a 32 RDIMM da 16 GB, 2.666 MT/s, dual rank |
Storage |
4 dischi rigidi hot-plug SAS da 1,2 TB e 10.000 rpm a 12 Gbps e 512n da 2,5 pollici in RAID 0, 2 INTEL SSDPEDMD020T4 DC P3700 1,8 T in software RAID 0 |
FPGA |
Scheda di accelerazione programmabile Intel con FPGA Intel Arria® 10 GX (Intel Acceleration Stack 1.1) |
Profilo di sistema |
Prestazioni |
Versione del BIOS |
2.1.3 |
Hyperthreading |
Enabled |
OS |
Red Hat Enterprise Linux Server versione 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Valutazione delle prestazioni
Nei nostri test di benchmark, abbiamo utilizzato tutti i dati di sequenziamento del genoma umano con una profondità di copertura di 10x, 30x e 50x.
Tabella 3 Dati testati per il sequenziamento dell'intero genoma
Risultati:
La Tabella 4 riepiloga il tempo impiegato per completare la pipeline delle best practice SOCKETK 4.0 in tre cicli di test utilizzando FAGP e il PAC Intel FPGA ospitato nel server DELL EMC PowerEdge R740xd.
Tabella 4 Runtime totali da Best Practice Pipeline versione 2.1.1
Esempio |
Profondità della copertura |
Test 1 |
Runtime (minuti) Test 2 |
Test 3 |
ERR091571 |
10 volte |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30 volte |
160.00 |
162.77 |
161.38 |
ERR194161 |
50 volte |
242.97 |
250.65 |
247.18 |
La Tabella 5 riepiloga il tempo (in minuti) impiegato per completare la pipeline alternativa: Falcono in tre cicli di test con FAGP e intel FPGA PAC alloggiato nel server Dell EMC PowerEdge R740xd.
Tabella 5 Runtime totali dalla pipeline di chiamata di varianti alternative
Esempio |
Profondità della copertura |
Test 1 |
Runtime (minuti) Test 2 |
Test 3 |
ERR091571 |
10 volte |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30 volte |
130.38 |
129.90 |
129.95 |
ERR194161 |
50 volte |
171.52 |
171.87 |
171.37 |
Riepilogo della soluzione Falcon Genomic
Falcon Accelerated Genomics Pipeline offre un throughput elevato e vantaggi a basso costo/campione/giorno. Insieme alla scheda di accelerazione programmabile Intel FPGA e al server DELL certificato, FAGP offre una soluzione completa che può essere facilmente adottata per le applicazioni di sequenziamento genomico.
" In TCGB, forniamo servizi di sequenziamento genomico ai nostri clienti a livello nazionale. Falcon Accelerated Genomics Pipeline* ci ha permesso di ridurre i tempi di esecuzione da giorni a poche ore, mantenendo al contempo l'accuratezza delle pipeline KILLK standard di settore."
- Dr Tensmin Li, Director of Technology Center for Genomics & Bioinformatics (TCGB) LL
Risorse
1. Il sequenziamento del genoma crea una quantità così grande di dati che non sappiamo come utilizzarlo. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don-don-t-know-what-to-do-with-it.
2. La versione in GATAK. [Online]
https://software.broadinstitute.org/gatk/3. Genomica accelerata. [Online]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online]
https://github.com/lh3/minimap2
Incrementare il sequenziamento genomico con Falcon Accelerated Genomics Pipeline (FAGP) in Intel FPGA PAC (in inglese)
Falcon Accelerated Genomics Pipeline con una singola scheda di accelerazione programmabile Intel FPGA è in grado di elaborare 50 volte interi genomi umani in meno di 3 ore tramite variant calling pipeline alternativa.