Kanál Falcon Accelerated Genomics s jednou programovatelnou akcelerační kartou Intel FPGA zvládne 50x celý genom za méně než 3 hodiny prostřednictvím alternativní varianty volání pipeline.
Přehled, Market Challenge (potřeba), Falcon solution odpovídá na potřeby
Precision, genomiky a epigenetiky používají sekvenování genomu k provádění výzkumu, zlepšení diagnostiky, vývoj farmaceutický průmysl, zvýšení kvality péče o poskytovatele zdravotní péče a optimalizaci výroby obilí. Pro přírodní vědy je nyní analýza genomu klíčovou aplikací, která je částečně odpovědná za velké snížení nákladů na sběr dat od pokroků v sekvenčním (NGS) nové generace. Kromě zvýšení sběru dat došlo také k významnému růstu řady genomických aplikací používaných napříč univerzity, genomickými výzkumnými centry, farmaceutickými firmami a zdravotnickými organizacemi.
Každých sedm měsíců se množství dat genomu zdvojnásobuje (1). Proto je nutné zajistit efektivní a cenově výhodné zpracování dat. Výpočetní výkon řešení pouze pro procesor není dostatečně rychlý na to, aby se zachoval růst genomických dat. To vedlo k potřebě hardwarové akcelerace. Akcelerátory, jako jsou FPGA, se stávají klíčové pro splnění výpočetních požadavků této genomické výbuchu dat. Ve srovnání s jinými hardwarově akcelerovanými řešeními nabízí kanál FAGP (Falcon Accelerated Genomics Pipeline) flexibilitu, vysokou propustnost a nižší náklady na vzorek.
Co je FPGA, nabídka Intel PAC & Advantage
FPGA jsou silikonová zařízení, která lze dynamicky přeprogramovat pomocí datové cesty, která přesně odpovídá vašim pracovním úlohám, jako je genomické sekvenování, analýza dat nebo komprese, jak je znázorněno na obrázku 1. Tato všestrannost umožňuje zajistit rychlejší zpracování, výkonnější výpočetní výkon a službu nízké latence a snižuje tak celkové náklady na vlastnictví a maximalizuje výpočetní kapacitu v rámci omezení výkonu, prostoru a chlazení vašich datových center.
Karty FPGA tradičně vyžadují k programování odborné znalosti hluboké domény. Za účelem zjednodušení průběhu vývoje a rychlého nasazení v datovém centru nabízí společnost Intel akcelerační platformu, která zahrnuje karty Intel FPGA Programmable Acceleration Card (Intel FPGA PAC) a Intel® Acceleration Stack pro procesory Intel Xeon® s FPGA. Tyto platformy Intel jsou kvalifikované, prověřené a nasazené prostřednictvím společnosti Dell EMC. Akcelerační platforma Intel společně s partnery ekosystému, jako je Falcon Computing, nabízí spolehlivé a připravené řešení s transparentním hardwarem pod schůdkem.
Obrázek 1: Lepší přesnost a rychlost u standardního kanálu GATK
Podrobnosti o řešení Falcon Solution:
Genome Analysis Toolkit (GATK) je zlatý standard pro zpracování genomických dat přijímaný komunitou genomů (2). Jeho vzorový postup (BPW) je známý svou pomalostí ve výpočetním výpočtu a vytváří výsledky pro velké vzorky, jako je celý genom (WGS). Řešení Falcon Computing Solutions vyvinula flexibilní softwarový balíček nástrojů, které sledují BPW a lze je snadno implementovat v několika platformách a architekturách. Je rychlá o několik řádů ve srovnání s kanálu GATK založeným na procesoru.
FAGP poskytuje komplexní řešení pro cenově výhodnou analýzu genomických dat pomocí kanálu GATK s vysokým výkonem, přesností a reprodukovatelností. Řešení přináší až 15násobnou rychlost se stejnou přesností jako GATK (3). To znamená, že analýza, která obvykle trvá 50 až 60 hodin, lze provést za méně než 4 hodiny (3). Protokol FAGP poskytuje výjimečnou úroveň zrychlení a přesnosti ve spojení s vysoce výkonnými, spolehlivými fpgami Intel Arria 10 a procesory Intel® Xeon®.
FAGP následuje GATK BPW. Implementuje zrychlení v mnoha komponentách kanálu od zarovnání (BWA) po variantní volání (Haplotype Nfcer) (4). Kromě akcelerované technologie BWA obsahuje také zrychlenou verzi aligneru Minimap2, která je součástí alternativního genomického kanálu od společnosti Falcon (5). Alternativní kanál poskytuje ještě rychlejší řešení. Je možné dokončit 50násobné sekvenování celého genomu během 3 hodin. Oba zarovnávací nástroje mají funkci, která generuje označené dupliky a řazené čtení, aniž by bylo nutné používat další nástroje.
Technologie FAGP dosahuje vysokého výkonu/propustnosti urychlením intenzivního výpočtu v kanálu GATK pomocí platforem Intel FPGA PAC. To se liší od řešení s horizontálním škálováním, která dosáhněte vysoké propustnosti přidáním dalších zdrojů procesoru. Tato řešení s horizontálním škálováním mají omezenou schopnost snížit náklady nebo latenci podle jednotlivých ukázek.
Další výhodou řešení Falcon je, že jde o otevřený marketingový kanál jako GATK. Uživatelé mohou řídit jednotlivé kroky v kanálu. Mezilehlé data jsou uložena a lze k vám přistupovat.
Tabulka 1 Výhody kanálu genomika Falcon Accelerated
Výhody kanálu FAGP (Falcon Accelerated Genomics Pipeline) |
True GATK |
Podpora více verzí GATK, včetně verze 4.0 |
Oborové škálování |
Spusťte pět celých genomů nebo 24 celých exomů za jeden den. |
Alternativní varianta |
< Tříhodinová služba na pracovišti pro WGS (50x) |
Rychlost |
Spustit kanál nejlepších postupů GATK až >15x rychleji |
Využít stávající |
U funkčních algoritmů není nutné přepisovat |
Konfigurace hardwaru Dell
Tabulka 2: Dell EMC PowerEdge R740xd jako testbed
Dell EMC PowerEdge R740xd |
Procesor |
2x procesor Intel(R) Xeon(R) Gold 6148 s frekvencí 2,40 GHz |
Paměť |
384 GB při 32 × 16 GB paměti RDIMM, 2 666 MT/s, dvojnásobné uspořádání |
Úložiště |
4x 1,2TB 2,5" pevný disk SAS připojitelný za provozu, 10 000 ot./min., 12 Gb/s, 512n, v poli RAID 0, 2× intel SSDPEDMD020T4 DC P3700, 1,8T, v softwarovém poli RAID 0 |
FPGA |
Programovatelná akcelerační karta Intel s kartou Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
Profil systému |
Performance |
Verze systému BIOS |
2.1.3 |
Hyperthreading |
Enabled |
Operační systém |
Red Hat Enterprise Linux Server verze 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Vyhodnocení výkonu
V našem srovnávacím testování jsme používali sekvenční data celého lidského genomu s 10x, 30x a 50násobnou hloubkou pokrytí.
Tabulka 3 Otestovaná sekvenční data celého genomu
Výsledky:
Tabulka 4 shrnuje čas potřebný k dokončení kanálu vzorových postupů GATK 4.0 během tří testovacích cyklů s využitím FAGP a karty Intel FPGA PAC umístěné v serveru DELL EMC PowerEdge R740xd.
Tabulka 4: Celková doba provozu z kanálu vzorových postupů verze 2.1.1
Ukázka |
Hloubka pokrytí |
Test 1 |
Test doby provozu (minuty) 2 |
Test 3 |
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
Tabulka 5 shrnuje čas (v několika minutách) potřebný k dokončení alternativní strategie: Falcon Germline přes tři testovací cykly s využitím FAGP a karty Intel FPGA PAC umístěné v serveru DELL EMC PowerEdge R740xd.
Tabulka 5: Celková doba provozu z alternativní varianty telefonního kanálu
Ukázka |
Hloubka pokrytí |
Test 1 |
Test doby provozu (minuty) 2 |
Test 3 |
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Shrnutí řešení Falcon Genomic
Kanál Falcon Accelerated Genomics Pipeline nabízí vysokou propustnost, nízké náklady / vzorové/denní benefity. Společně s programovatelnou akcelerační kartou Intel FPGA a certifikovaným serverem DELL poskytuje FAGP kompletní řešení, které lze snadno přijmout pro vaše genomické sekvenční aplikace.
" Ve společnosti TCGB poskytujeme genome sekvenční služby našim klientům, kteří jsou v kontaktu se zákazníky. Kanál Falcon Accelerated Genomics Pipeline* nám umožnil zkrátit obrat z několika dnů na několik hodin a zároveň zachovat přesnost standardních zakázek GATK."
— Dr Jademin Li, ředitel technologického centra pro genomiku a bioinformatické řešení (TCGB) UCLA
Zdroje
1. Sekvenování genomu vytváří tolik dat, kolik s ním máme dělat. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK: [Online]
https://software.broadinstitute.org/gatk/3. Zrychlená genomika. [Online]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online]
https://github.com/lh3/minimap2
Podpora genomického sekvencování pomocí kanálu FAGP (Falcon Accelerated Genomics Pipeline) na kartě Intel IFPGA PAC
Kanál Falcon Accelerated Genomics s jednou programovatelnou akcelerační kartou Intel FPGA zvládne 50x celý genom za méně než 3 hodiny prostřednictvím alternativní varianty volání pipeline.