メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能

Incrementare il sequenziamento genomico con Falcon Accelerated Genomics Pipeline (FAGP) in Intel FPGA PAC (in inglese)

概要: Falcon Accelerated Genomics Pipeline con una singola scheda di accelerazione programmabile Intel FPGA è in grado di elaborare 50 volte interi genomi umani in meno di 3 ore tramite variant calling pipeline alternativa. ...

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

Falcon Accelerated Genomics Pipeline con una singola scheda di accelerazione programmabile Intel FPGA è in grado di elaborare 50 volte interi genomi umani in meno di 3 ore tramite variant calling pipeline alternativa. 

 



Panoramica, sfida del mercato (necessità), soluzione Falcon risponde alle esigenze

La medicina di precisione, la genomica e le genomica utilizzano il sequenziamento genomico per condurre ricerche, migliorare la diagnosi, sviluppare prodotti farmaceutici, aumentare la qualità dell'assistenza sanitaria agli operatori sanitari e ottimizzare la produzione di raccolti. Per le scienze biologiche, l'analisi del genoma è ora un'applicazione chiave, in parte a causa dell'elevata riduzione dei costi della raccolta dei dati derivante dai progressi nel sequenziamento di nuova generazione (NGS). Oltre all'aumento della data collection, c'è stata anche una crescita significativa nella gamma di applicazioni genomica utilizzate nelle università, nei centri di ricerca genomica, nelle aziende farmaceutiche e nelle organizzazioni sanitarie. 
Ogni sette mesi la quantità di dati genomica raddoppia (1). Di conseguenza, l'elaborazione dei dati in modo efficiente e a costi contenuti è diventata fondamentale. La potenza di elaborazione delle soluzioni solo processori non è sufficientemente veloce da tenere il passo con la crescita dei dati genomici. Ciò ha portato alla necessità di accelerazione hardware. Gli accelerator come gli FPGA stanno diventando fondamentali per soddisfare le esigenze di elaborazione di questa esplosione di dati genomici. Rispetto ad altre soluzioni con accelerazione hardware, Falcon Accelerated Genomics Pipeline (FAGP) offre flessibilità, throughput elevato e un costo inferiore per campione.
 



Che cos'è FPGA, offerta Intel PAC & Advantage

Gli FPGA sono dispositivi in silicio che possono essere riprogrammati dinamicamente con un percorso dati che corrisponda esattamente ai carichi di lavoro, come il sequenziamento genomico, l'analisi dei dati o la compressione, come illustrato nella Figura 1. Questa versatilità consente il provisioning di un'elaborazione più rapida, un calcolo più efficiente in termini di alimentazione e un servizio di latenza inferiore, riducendo i costi complessivi di gestione e ottimizzando la capacità di elaborazione all'interno dei vincoli di alimentazione, spazio e raffreddamento dei data center. 
Tradizionalmente, gli FPGA richiedono una profonda competenza di dominio per programmare. Per semplificare il flusso di sviluppo e consentire un deployment rapido in tutto il data center, Intel offre una piattaforma di accelerazione che include Schede di accelerazione programmabili Intel FPGA (Intel FPGA PAC) basate su PCI Express* (PCIe*) e Intel® Acceleration Stack per CPU Intel Xeon® con FPGA. Queste piattaforme Intel sono qualificate, validate e implementate tramite Dell EMC. Insieme ai partner dell'ecosistema come Falcon Computing, Intel Acceleration Platform offre una soluzione affidabile e pronta all'uso con hardware trasparente all'interno.



SLN319291_en_US__1image (12669)
Figura 1 Maggiore precisione e velocità sulla pipeline PIPELINE PIPELINE STANDARD
 



Dettagli di Falcon Solution:

Genome Analysis Toolkit (GAPK) è lo standard di riferimento per l'elaborazione dei dati genomico accettata dalla community di genomica (2). Il suo flusso di lavoro best practice (BPW) è noto per la sua lentezza nel calcolo per generare risultati per campioni di grandi dimensioni come Whole-Genome (WGS). Per risolvere questo problema, Falcon Computing Solutions ha sviluppato un pacchetto software flessibile di strumenti che segue il BPW e può essere facilmente implementato in più piattaforme e architetture.  È veloce di diversi ordini di grandezza rispetto alle pipeline SOCKETK basate su CPU.
FAGP fornisce una soluzione end-to-end per analizzare i dati genomici a costi contenuti utilizzando la pipeline LAKEK con prestazioni elevate, precisione e riproducibilità. La soluzione offre velocità fino a 15 volte superiori con la stessa precisione di SAMEK (3). Ciò significa che un'analisi che in genere richiede da 50 a 60 ore può essere condotta in meno di 4 ore (3). FAGP offre livelli eccezionali di accelerazione e precisione in combinazione con FPGA Intel Arria 10 e Intel® Xeon® affidabili e a prestazioni elevate. 
FAGP segue RACINGK BPW. Implementa l'accelerazione in molti componenti delle pipeline dall'allineamento (BWA) alla variant calling (HaplotypeCaller) (4). Oltre alla BWA accelerata, include anche una versione accelerata dell'aligner Minimap2 che fa parte della pipeline genomica alternativa di Falcon (5).  La pipeline alternativa offre una soluzione ancora più veloce. Può completare il sequenziamento di tutto il genoma 50 volte in 3 ore. Entrambi gli allineatori dispongono della funzione per generare duplicati contrassegnati e letture ordinate senza la necessità di utilizzare strumenti aggiuntivi. 
FAGP raggiunge prestazioni/throughput elevati accelerando il calcolo intensivo nella pipeline WRITEK utilizzando le piattaforme Pac Intel FPGA. Ciò è diverso dalle soluzioni scale-out che raggiungono un throughput elevato aggiungendo più risorse CPU. Tali soluzioni scale-out hanno una capacità limitata di ridurre i costi o la latenza per campione.
Un altro vantaggio della soluzione Falcon è che si tratta di una pipeline aperta come KILLK. Gli utenti possono controllare i singoli passaggi nelle pipeline. I dati intermedi vengono salvati e sono accessibili.


Tabella 1 Vantaggi di Falcon Accelerated Genomics Pipeline

 
Vantaggi di Falcon Accelerated Genomics Pipeline (FAGP)
True CONK Supporto per più versioni TIPOK, inclusa la versione 4.0
Scalabilità di settore Esecuzione di cinque genomi interi o 24 esome interi in un giorno
Variante alternativa < Tempo di risposta di 3 ore on-premise per WGS (50 volte)
Velocità Esecuzione della pipeline delle best practice INTRAPRENDK fino a >15 volte più veloce
Utilizzo ottimale dei sistemi esistenti Non è necessario riscrivere gli algoritmi di lavoro
 



Configurazione hardware Dell

Tabella 2. Dell EMC PowerEdge R740xd come banco di prova

Dell EMC PowerEdge R740xd
Processore 2 CPU Intel(R) Xeon(R) Gold 6148 a 2,4 GHz
Memoria 384 GB a 32 RDIMM da 16 GB, 2.666 MT/s, dual rank
Storage 4 dischi rigidi hot-plug SAS da 1,2 TB e 10.000 rpm a 12 Gbps e 512n da 2,5 pollici in RAID 0, 2 INTEL SSDPEDMD020T4 DC P3700 1,8 T in software RAID 0
FPGA Scheda di accelerazione programmabile Intel con FPGA Intel Arria® 10 GX (Intel Acceleration Stack 1.1)
Profilo di sistema Prestazioni
Versione del BIOS 2.1.3
Hyperthreading Enabled
OS Red Hat Enterprise Linux Server versione 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Valutazione delle prestazioni

Nei nostri test di benchmark, abbiamo utilizzato tutti i dati di sequenziamento del genoma umano con una profondità di copertura di 10x, 30x e 50x.


Tabella 3 Dati testati per il sequenziamento dell'intero genoma

 
Esegui un'avasione Profondità della copertura Link dati
ERR091571 10 volte https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30 volte https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50 volte https://www.ebi.ac.uk/ena/data/view/ERR194161


 

Risultati:

La Tabella 4 riepiloga il tempo impiegato per completare la pipeline delle best practice SOCKETK 4.0 in tre cicli di test utilizzando FAGP e il PAC Intel FPGA ospitato nel server DELL EMC PowerEdge R740xd.


Tabella 4 Runtime totali da Best Practice Pipeline versione 2.1.1
Esempio Profondità della copertura Test 1 Runtime (minuti)
Test 2
Test 3
ERR091571 10 volte 75.63 76.67 76.38
SRR3124837 30 volte 160.00 162.77 161.38
ERR194161 50 volte 242.97 250.65 247.18

La Tabella 5 riepiloga il tempo (in minuti) impiegato per completare la pipeline alternativa: Falcono in tre cicli di test con FAGP e intel FPGA PAC alloggiato nel server Dell EMC PowerEdge R740xd.


Tabella 5 Runtime totali dalla pipeline di chiamata di varianti alternative
Esempio Profondità della copertura Test 1 Runtime (minuti)
Test 2
Test 3
ERR091571 10 volte 62.70 58.21 59.80
SRR3124837 30 volte 130.38 129.90 129.95
ERR194161 50 volte 171.52 171.87 171.37
 



Riepilogo della soluzione Falcon Genomic

Falcon Accelerated Genomics Pipeline offre un throughput elevato e vantaggi a basso costo/campione/giorno. Insieme alla scheda di accelerazione programmabile Intel FPGA e al server DELL certificato, FAGP offre una soluzione completa che può essere facilmente adottata per le applicazioni di sequenziamento genomico.
" In TCGB, forniamo servizi di sequenziamento genomico ai nostri clienti a livello nazionale. Falcon Accelerated Genomics Pipeline* ci ha permesso di ridurre i tempi di esecuzione da giorni a poche ore, mantenendo al contempo l'accuratezza delle pipeline KILLK standard di settore."
- Dr Tensmin Li, Director of Technology Center for Genomics & Bioinformatics (TCGB) LL



Risorse 

1. Il sequenziamento del genoma crea una quantità così grande di dati che non sappiamo come utilizzarlo. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don-don-t-know-what-to-do-with-it.
2. La versione in GATAK. [Online]
https://software.broadinstitute.org/gatk/3. Genomica accelerata. [Online]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online] https://github.com/lh3/minimap2


原因

Incrementare il sequenziamento genomico con Falcon Accelerated Genomics Pipeline (FAGP) in Intel FPGA PAC (in inglese)

解決方法

Falcon Accelerated Genomics Pipeline con una singola scheda di accelerazione programmabile Intel FPGA è in grado di elaborare 50 volte interi genomi umani in meno di 3 ore tramite variant calling pipeline alternativa.

対象製品

Dell EMC Ready Solution Resources, PowerEdge R740XD
文書のプロパティ
文書番号: 000136278
文書の種類: Solution
最終更新: 03 10月 2023
バージョン:  4
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。