Přehled
První krok při zpracování dat NGS (Next Generation Sequencing) se nazývá primární analýza. Tento krok je specifický pro nástroj sekvencování a generuje několik souborů FASTQ, které obsahují sekvenční čtení. V dalším kroku, který se označuje jako sekundární analýza, se sekvenční čtení FASTQ mapují na referenční genom či referenční transkriptom. Při dalším zpracování dojde k identifikaci variant či rozdílů mezi zkoumaným vzorkem a referencí. Varianty se postupně anotují a interpretují v následujících krocích. Sekundární analýza jednoho vzorku trvá několik hodin až dní v závislosti na velikosti dat, dostupných výpočetních zdrojích, softwaru a analytickém pracovním postupu.
Sekundární analýza je proces náročný na výpočetní výkon a úložný prostor, zejména při zpracování stovek až tisíců genomů. K dispozici je mnoho strategií, jak se vyhnout snížení výkonu při sekundární analýze. Až donedávna se hardwarová akcelerace pomocí grafických procesorů nebo polí FPGA příliš nepoužívala, protože hardwarové akcelerátory vyžadovaly přizpůsobený software. Genomický software společnosti Parabricks, který společnost NVIDIA zakoupila v roce 2019, je průkopníkem v používání softwarového balíčku, který s grafickou kartou provádí různé pracovní postupy genomické analýzy. Sadu Parabricks jsme otestovali před dvěma lety v
serveru Dell EMC PowerEdge C4140 se čtyřmi grafickými kartami NVIDIA® Tesla® V100. Společnost Dell představila ve svých serverech a úložných řešeních mnoho technologických novinek a sada
NVIDIA Clara Parabricks vydala robustní verze s lepší akcelerací a dalšími detektory variant. Například provedení serveru s více grafickými kartami založené na serveru
Dell EMC DSS 8440 s grafickými kartami NVIDIA® Tesla® T4 slibuje urychlit sekundární analýzu a současně nabízí atraktivní rovnováhu mezi cenou a výkonem. Tento blog uvádí novou referenční architekturu a výsledky srovnávacích testů pro sekundární analýzu NVIDIA Clara Parabricks na serveru DSS 8440 s více grafickými kartami Tesla® T4 a úložištěm
Dell EMC Isilon F800.
Referenční architektura
Obrázek 1 znázorňuje otestovanou referenční architekturu. Architektura je modulární a snadno škálovatelná. Aplikační software NVIDIA Clara Parabricks využívá jednu nebo více grafických karet, takže je škálování co nejjednodušší. Hardware se skládá ze serveru
Dell EMC PowerEdge R640 jakožto uzlu pro správu, serveru DSS 8440 pro výpočetní techniku grafické karty a úložiště Dell EMC Isilon F800.
Obrázek 1 Otestovaná referenční architektura
Server DSS 8440 se 2 sockety a výškou 4U může pojmout až 10 špičkových grafických karet NVIDIA® Tesla® V100S Tensor Core, až 10 grafických karet NVIDIA® Quadro RTX™ nebo až 16 grafických karet NVIDIA Tesla T4, které poskytují ohromný výkon. Podrobná konfigurace serveru DSS 8440 je uvedena v tabulce 1.
Dell EMC DSS 8440 |
CPU |
2x Xeon® Gold 6248R s 24 jádry, 3 GHz |
RAM |
24x 64 GB, 2933 MT/s |
Operační systém |
Red Hat Enterprise Linux Server verze 7.4 (Maipo) |
Profil systému BIOS |
Performance Optimized |
Logický procesor |
Neaktivní |
Technologie virtualizace |
Neaktivní |
Akcelerátory |
16x grafická karta NVIDIA® Tesla® T4 |
Parabricks |
v3.0.0.05 |
Dva přepínače Z9100-ON zajišťují propojení mezi výpočetním uzlem a úložným clusterem Isilon F800. Pro správu se používá další přepínač N2248X-ON.
Data NGS
Data pro srovnávací sekundární analýzu se skládala ze tří lidských datových souborů WGS (Whole-Genome Sequencing)
ERR091571,
SRR3124837 a
ERR194161, které představují 10-, 30- a 50násobné pokrytí vzorků. Tyto datové soubory jsou k dispozici v
Evropském archivu nukleotidů (ENA).
Vyhodnocení výkonu
Vylepšení softwaru snižují dobu provozu
Společnost NVIDIA nadále zavádí softwarová vylepšení pro sadu NVIDIA Clara Parabricks. Obrázek 2 ukazuje snížení doby provozu mezi dvěma verzemi softwaru Parabricks, které provádějí kanál zárodečné linie v testovacím prostředí se serverem Dell PowerEdge C4140 a čtyřmi grafickými kartami V100. Přechod z verze 2.1.0 na verzi 3.0.0 snížil dobu provozu o 42 %.
Obrázek 2: Doba provozu kanálu detektorů variant zárodečné linie v nejnovější verzi Parabricks.
Výkon serveru DSS 8440 s 16 grafickými kartami T4S
Doba provozu sekundární analýzy
NVIDIA Clara Parabricks pomocí jedné grafické karty T4 je přibližně o 30 % pomalejší než při použití jedné grafické karty V100. Dvě (2) grafické karty T4 však poskytují přibližně o 10 % více TFLOP než jedna (1) grafická karta V100 za přibližně poloviční cenu. Server DSS 8440 poskytuje až 16 slotů PCIe, což otevírá možnost navrhnout server s grafickou kartou T4, který by poskytoval podobný výkon jako systém C4140 se čtyřmi grafickými kartami V100, ale za nižší cenu.
Analýza zárodečné linie Parabricks byla provedena pomocí serveru PowerEdge DSS 8440 s 16 grafickými kartami T4. Pro každou dříve popsanou datovou sadu vzorků WGS byla doba provozu zaznamenána pomocí 1, 2, 4, 8 a 16 grafických karet T4 na jednu sekundární analýzu. Výsledky jsou znázorněny na obrázcích 3 až 5. Obecně platí, že doba provozu se se zvyšujícím počtem grafických karet na jednu analýzu neškáluje lineárně. Vzorec škálování se podobá množství dat na vzorek a zvyšuje se z 10- na 50násobné pokrytí.
Přestože zde nebyl uveden,
dřívější průzkum společnosti Dell EMC ohledně výsledků doby provozu Parabricks při použití osmi nebo více grafických karet V100 na jednu analýzu nevykazoval tak efektivní škálování jako v případě grafických karet T4. Další testování prokázalo, že 6 grafických karet T4 dosáhlo téměř identické doby provozu jako v případě 4 grafických karet V100.
Obrázek 3: Porovnání výkonu s 10násobným WGS.
Obrázek 4: Porovnání výkonu s 30násobným WGS
Obrázek 5: Porovnání výkonu s 50násobným WGS.
Závěr
Server DSS 8440 s 16 grafickými kartami T4 dokáže zpracovat třicet 50násobných lidských genomů denně. Podobná denní propustnost analýzy využívající tradiční architekturu procesorů x86 vyžaduje 10 výpočetních uzlů PowerEdge C6420. Úplná architektura je popsána v
předchozí publikaci společnosti Dell.
Vyhrazení všech 16 grafických karet T4 pro zpracování jednoho vzorku však nabízí jen málo výhod, jelikož s 16 grafickými kartami na jednu analýzu dosáhnete maximálně o 10 % větší rychlosti než s 8 grafickými kartami. Provedení serveru DSS 8440 umožňuje paralelně provádět několik sekundárních analýz. Přiřazením 8 grafických procesorů T4 na vzorek se propustnost denní analýzy zvýší na přibližně 50 genomů denně. Použití čtyř grafických karet na vzorek zvýší propustnost analýzy na přibližně 70 genomů denně. A co je důležitější, tento denní výstup při použití grafických karet T4 je o polovinu levnější než v případě grafické karty V100.
Kromě rychlosti je pro srovnatelnost výsledků nezbytná kompatibilita s jinými analytickými nástroji. Výsledky analýzy zárodečné linie Parabricks jsou téměř identické s dobře známou analýzou detektorů BWA-GATK Haplotype z předchozích testů. Chtěli jsme také porovnat výsledky detekce variant Parabricks s jinými sadami nástrojů, jako je samtools/mpileup. Tyto dva zcela odlišné nástroje dosahují celkové shody identifikovaných variant přibližně na 90 % a odchylky v mnoha dobře známých genomických oblastech s významnými geny se shodují na více než 99 %.