Poznámka: Článek napsal Kihoon Yoon z oddělení HPC and AI Innovation Lab v prosinci 2019
Nový hardware a aktualizovaný kanál společně zvyšují propustnost 3krát více oproti předchozímu řešení Ready Solution.
Přehled
Analýza genové exprese je stejně důležitá jako identifikace jednonukleotidového polymorfismu (SNP), vložení/odstranění (indel) nebo chromozomální restrukturalizace. Nakonec všechny fyziologické a biochemické události závisí na konečných produktech genové exprese, proteinech. Ačkoli většina savců má před expresí proteinů další kontrolní vrstvu, znalost toho, kolik transkriptů existuje v systému, pomáhá charakterizovat biochemický stav buňky. V ideálním případě by nám technologie umožnila kvantifikovat všechny proteiny v buňce, což by mohlo významně přispět k pokroku v oblasti přírodních věd. K tomu však máme ještě daleko.
Zde v tomto blogu testujeme jeden populární kanál pro analýzu dat RNA-Seq známý jako Tuxedo (1). Sada kanálu Tuxedo nabízí sadu nástrojů pro analýzu různých dat RNA-Seq, včetně mapování s krátkým čtením, identifikace sestřihových míst, detekce transkriptů a izoforem, diferenciální exprese, vizualizace a metriky kontroly kvality. Podrobný postup v kanálu je znázorněn na obrázku 1. Tato aktualizovaná verze kanálu Tuxedo obsahuje oproti staré verzi testované v předchozím blogu (2) krok Cuffquant.
Obrázek 1: Aktualizovaný kanál Tuxedo s krokem Cuffquant
Konfigurace testovacího clusteru jsou shrnuty v tabulce 1.
Tabulka 1: Testovaná konfigurace výpočetního uzlu |
|
Dell EMC PowerEdge C6420 |
|
Procesor |
2x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake) |
RAM |
12x 16 GB při rychlosti 2 933 MT/s |
Operační systém |
RHEL 7.6 |
Interconnect |
Intel® Omni-Path |
Profil systému BIOS |
Performance Optimized |
Logický procesor |
Disabled |
Technologie virtualizace |
Disabled |
tophat |
2.1.1 |
bowtie2 |
2.2.5 |
R |
3.6 |
bioconductor-cummerbund |
2.26.0 |
Testované výpočetní uzly byly připojeny k řešení Dell EMC Ready Solution pro úložiště Lustre prostřednictvím technologie Intel® Omni-Path (3). Souhrnná konfigurace úložiště je uvedená v tabulce 2.
Tabulka 2: Specifikace hardwaru a softwaru úložného řešení Lustre |
|
Řešení Dell EMC Ready pro úložiště Lustre |
|
Počet uzlů |
1x server Dell EMC PowerEdge R640 jako IML (Integrated Manager for Lustre) |
Procesory |
Server IML: Dva procesory Intel Xeon Gold 5118 při frekvenci 2,3 GHz |
Paměť |
Server IML: 12x modul 8 GB, 2 666 MT/s, DDR4 RDIMM |
Externí úložiště |
2x adaptér Dell 12 Gb/s HBA SAS (na každém serveru MDS) |
Úložiště objektů |
4x ME4084 s celkem 336x 8TB pevnými disky SAS NL, 7 200 ot/min |
Úložiště metadat |
1x ME4024 s 24x 960GB disky SAS SSD Podporuje soubory/uzly inode o velikosti až 4 688 B |
Řadiče RAID |
Duplexní pole RAID ve skříních ME4084 a ME4024 |
Operační systém |
CentOS 7.5 x86_64 |
Verze jádra |
3.10.0-862.el7.x86_64 |
Verze systému BIOS |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Systém souborů Lustre |
2.10.4 |
Verze IML |
4.0.7.0 |
Studie výkonu kanálu RNA-Seq není triviální, pracovní postup vyžaduje neidentické vstupní soubory. 185 párových čtených dat RNA-Seq je shromažďováno z veřejného datového úložiště. Všechny načtené datové soubory obsahují přibližně 25 milionů fragmentů (MF) a mají podobnou délku čtení. Vzorky pro test náhodně vybrané ze skupiny 185 párových čtených souborů. I když tato náhodně vybraná data s vysokou úrovní šumu nebudou mít žádný biologický význam, určitě otestují nejhorší možný scénář.
Vyhodnocení výkonu
Dvouvýběrový test
Na obrázku 2 je vykresleno trvání každého kroku. Test probíhal ve dvou výpočetních uzlech se dvěma vzorky obsahujícími přibližně 25 milionů čtených dat RNA-Seq. Krok Tophat začíná pro každý vzorek na výpočetním uzlu paralelně. Následně krok Cufflinks začíná po dokončení kroku Tophat. Krok Cuffmerge kombinuje výsledky obou sérií Cufflinks. Přidá se krok Cuffquant pro kvantifikaci genové exprese v každém vzorku a výsledky se dále zkoumají v krocích Cuffdiff a Cuffnorm. Poslední krok, CummeRbund, je krok statistické analýzy z balíčku CummeRbund R, který generuje vizualizovanou sestavu, jak je znázorněno na obrázku 2.Obrázek 2: Celková doba trvání pro kanál Tuxedo Pipeline se dvěma vzorky: SRR1608490 a SRR934809.
Obrázek 3 ukazuje diferencovaně exprimované geny z 8 vzorkových sérií (každý vzorek se skládá ze 4 duplikátů) zobrazených červeně s výrazně nižšími p-hodnotami (osa Y) ve srovnání s jinými genovými expresemi znázorněnými černě1 Na ose X jsou znázorněny změny záhybů v logaritmu 2 a tyto změny záhybů jednotlivých genů jsou vyneseny proti p-hodnotám. Více vzorků přinese lepší odhad genové exprese. V pravém horním grafu jsou genové exprese ve vzorku 2 ve srovnání se vzorkem 1, zatímco v levém dolním grafu jsou genové exprese ve vzorku 1 ve srovnání se vzorkem 2. Exprese genů v černých bodech se v obou vzorcích významně neliší. Obrázek 3: Graf s výsledky krok Cuffdiff
Test propustnosti – jeden kanál s více než dvěma vzorky, biologické a technické duplikáty
Typické studie RNA-Seq se skládají z více vzorků, někdy až ze 100 různých vzorků, normálních versus nemocných nebo neošetřených versus exponovaných vzorků. Tyto vzorky mívají vysokou hladinu šumu z biologických důvodů. Analýza proto vyžaduje náročný postup předběžného zpracování dat.
Testovali jsme různý počet vzorků (všechna různá data RNA-Seq vybraná ze 185 párových sad dat pro čtení), abychom zjistili, kolik dat může zpracovat 8 uzlů v clusteru PowerEdge C6420. Jak je znázorněno na obrázku 4, doba trvání se vzorky 2, 4, 8, 16, 32 a 64 roste exponenciálně s rostoucím počtem vzorků. Počet miliard fragmentů za den se zvýšil téměř trojnásobně díky úložišti Cascade Lake 6248/LustreME4 a aktualizovanému kanálu.Obrázek 4: Porovnání propustnosti s 8x C6420 mezi modelem Cascade Lake 6248/LustreME4 a Skylake 6148/H600
Krok Cuffmerge se nezpomaluje s rostoucím počtem vzorků, zatímco kroky Cuffdiff a Cuffnorm se zpomalují výrazně. Zejména krok Cuffdiff se stává kritickým místem v kanálu, protože doba trvání roste exponenciálně (obrázek 5). Ačkoli se doba trvání kroku Cuffnorm exponenciálně zvyšuje jako v případě kroku Cuffdiff, lze to ignorovat, protože doba trvání kroku Cuffnorm je omezena dobou trvání kroku Cuffdiff. Přidání kroku Cuffquant výrazně zlepšilo dobu chodu kroku Cuffdiff. Díky kroku Cuffquant došlo ke 30hodinovému zkrácení doby chodu kroku Cuffdiff a k dřívějšímu dokončení kroku Cuffnorm o 20 hodin. Ačkoli nárůst výkonu z kroku Cuffnorm není viditelný, protože kroky Cuffdiff a Cuffnorm začínají současně.
Obrázek 5:Prodloužení doby chodu u kroku Cuffdiff a Cuffnorm
Závěr
Výsledky testu propustnosti ukazují, že servery PowerEdge C6420 s 8 uzly a úložištěm Lustre mohou zpracovat zhruba 2,7 miliardy fragmentů z 64 vzorků, každý s ~50 miliony párových čtení (25 MF) prostřednictvím kanálu Tuxedo, jak je znázorněno na obrázku 1. Vzhledem k tomu, že kanál Tuxedo je relativně rychlejší než jiné populární kanály, je obtížné tyto výsledky zobecnit nebo využít k přesnému dimenzování systému HPC. Výsledky však mohou pomoci provést hrubý odhad velikosti systému HPC.
Zdroje
1. Diferenciální genová exprese RNA-Seq: Základní návod. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Srovnávací test kanálu RNA-Seq pomocí balíčku Dell EMC Ready pro superpočítače v přírodních vědách. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Řešení Dell EMC Ready pro úložiště HPC Lustre. [Odkaz je nefunkční k červenci 2024]
Poznámka: Vzorky byly náhodně vybrány ze skupiny vzorků bez jakýchkoli smysluplných asociací mezi nimi.