Article Number: 000124142

Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline s procesorem Cascade Lake a obnovou Lustre/ME4

Summary: Tento článek obsahuje dokument whitepaper s názvem "Řešení Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline s procesorem Cascade Lake a aktualizací Lustre/ME4".

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Instructions

Poznámka: Článek napsal Kihoon Yoon z oddělení HPC and AI Innovation Lab v prosinci 2019
Nový hardware a aktualizovaný kanál společně zvyšují propustnost 3krát více oproti předchozímu řešení Ready Solution.

Přehled
Analýza genové exprese je stejně důležitá jako identifikace jednonukleotidového polymorfismu (SNP), inzerce/delece (indel) nebo chromozomální restrukturalizace. Nakonec všechny fyziologické a biochemické události závisí na konečných produktech genové exprese, proteinech. Ačkoli většina savců má před expresí proteinů další kontrolní vrstvu, znalost toho, kolik transkriptů existuje v systému, pomáhá charakterizovat biochemický stav buňky. V ideálním případě nám technologie umožňuje kvantifikovat celé proteiny v buňce, která by mohla významně vyniknout v pokroku věd o živé přírodě; K dosažení tohoto cíle však máme daleko.
Zde v tomto blogu testujeme jeden populární kanál pro analýzu dat RNA-Seq známý jako Tuxedo pipeline (1). Potrubní sada Tuxedo nabízí sadu nástrojů pro analýzu různých dat RNA-Seq, včetně mapování s krátkým čtením, identifikace sestřihových přechodů, detekce transkriptů a izoforem, diferenciální exprese, vizualizace a metriky kontroly kvality. Podrobný postup v procesu je znázorněn na obrázku 1. Tato aktualizovaná verze Tuxedo pipeline obsahuje krok Cuffquant ve srovnání se starou verzí testovanou v předchozím blogu (2).

Obrázek 1: Aktualizované potrubí Tuxedo s krokem Cuffquant Obrázek 1: Aktualizovaný Tuxedo Pipeline s Cuffquant Step

Konfigurace testovacího clusteru jsou shrnuty v tabulce 1.

Tabulka 1: Testovaná konfigurace výpočetního uzlu
Dell EMC PowerEdge C6420
Procesor	2× Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)
RAM	12× 16 GB @ 2933 MT/s
Operační systém	RHEL 7.6
Interconnect	® Intel Omni-Path
Profil systému BIOS	Performance Optimized
Logický procesor	Disabled
Technologie virtualizace	Disabled
cylindr	2.1.1
motýlek2	2.2.5
R	3.6
biovodič-cummerbund	2.26.0

Testované výpočetní uzly byly připojeny k řešení Dell EMC Ready Solution for Lustre Storage prostřednictvím technologie Intel^® Omni-Path (3). Souhrnná konfigurace úložiště je uvedená v tabulce 2.

Tabulka 2 Specifikace hardwaru a softwaru úložného řešení Lustre
Řešení Dell EMC Ready Solution pro úložiště Lustre
Počet uzlů	1× server Dell EMC PowerEdge R640 jako integrovaný manažer pro displej Lustre (IML) 2× Dell EMC PowerEdge R740 jako server metadat (MDS) 2× Dell EMC PowerEdge R740 jako server úložiště objektů (OSS)
Procesory	Server IML: Dva procesory Intel Xeon Gold 5118 @ 2,3 GHz Servery MDS a OSS: Dva procesory Intel Xeon Gold 6136 @ 3,00 GHz
Paměť	Server IML: 12 × 8 GB, 2 666 MT/s, DDR4 RDIMM Servery MDS a OSS: 24 × 16 GiB, 2 666 MT/s, DDR4 RDIMM
Externí úložiště řadiče	2× Dell 12 Gb/s adaptéry HBA SAS (na každém MDS) 4× Dell 12 Gb/s SAS HBA (v každém OSS)
Objektové úložiště Přílohy	4× ME4084 s celkem 336 × 8TB pevnými disky SAS NL, 7 200 ot/min
Úložiště metadatpříloha	1× ME4024 s 24× 960GB diskem SSD SAS Podporuje až 4,688B souborů/inodů
Řadiče RAID	Duplexní pole RAID ve skříních ME4084 a ME4024
Operační systém	CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Verze jádra	3.10.0-862.el7.x86_64
Verze systému BIOS	1.4.5
Intel Omni-Path Verze IFS	10.8.0.0
Souborový systém Lustreverze	2.10.4
Verze IML	4.0.7.0

Studie výkonu kanálu RNA-Seq není triviální, protože pracovní postup nature vyžaduje neidentické vstupní soubory. 185 RNA-Seq párová čtená data jsou shromažďována z veřejného datového úložiště. Všechny načtené datové soubory obsahují přibližně 25 milionů fragmentů (MF) a mají podobnou délku čtení. Vzorky pro test náhodně vybrané ze skupiny 185 párových čtených souborů. I když tato náhodně vybraná data nebudou mít žádný biologický význam, určitě tato data s vysokou úrovní šumu otestují nejhorší možný scénář.
Vyhodnocení
výkonuDvouvýběrový test
Na obrázku 2 je vykreslena doba běhu každého kroku. Test probíhal ve dvou výpočetních uzlech se dvěma vzorky obsahujícími přibližně 25 milionů přečtených dat RNA-Seq. Krok Tophat začíná pro každou ukázku na výpočetním uzlu paralelně. Následně Manžetové knoflíčky začínají po dokončení Tophatu. Krok Cuffmerge kombinuje výsledky obou sérií manžetových knoflíčků. Přidá se Cuffquant step pro kvantifikaci genové exprese v každém vzorku a výsledky se dále zkoumají v krocích Cuffdiff a Cuffnorm. Poslední krok, CummeRbund, je krok statistické analýzy z balíčku CummeRbund R, který generuje vizualizovanou sestavu, jak je znázorněno na obrázku 2.

Obrázek 2: Celková doba běhu pro Tuxedo Pipeline se dvěma vzorky: SRR1608490 a SRR934809. Obrázek 2: Celková doba běhu pro Tuxedo Pipeline se dvěma vzorky: SRR1608490 a SRR934809.

Obrázek 3 ukazuje diferencovaně exprimované geny z 8 výběrových sérií (každý vzorek se skládá ze 4 duplikátů) červeně s výrazně nižšími p-hodnotami (osa Y) ve srovnání s jinými genovými expresemi znázorněnými černě 1. V § 1 Osa X je složená změna v logaritmické bázi 2 a tyto záhybové změny každého genu jsou vyneseny proti p-hodnotám. Více vzorků přinese lepší odhad genové exprese. Pravý horní graf jsou genové exprese ve vzorku 2 ve srovnání se vzorkem 1, zatímco levý dolní graf jsou genové exprese ve vzorku 1 ve srovnání se vzorkem 2. Genová exprese v černých tečkách se v obou vzorcích významně neliší.

Obrázek 3: Graf sopky s výsledky
CuffdiffuTest propustnosti – jedno potrubí s více než dvěma vzorky, biologické a technické duplikáty
Typické studie RNA-Seq se skládají z více vzorků, někdy 100 různých vzorků, normálních versus nemocných nebo neošetřených versus exponovaných vzorků. Tyto vzorky mívají vysokou hladinu hluku z biologických důvodů; Analýza proto vyžaduje náročný postup předzpracování dat.

Testovali jsme různý počet vzorků (všechna různá data RNA-Seq vybraná ze 185 sad dat pro čtení na párovém konci), abychom zjistili, kolik dat může zpracovat 8 uzlů v clusteru PowerEdge C6420. Jak je znázorněno na obrázku 4, doba běhu se vzorky 2, 4, 8, 16, 32 a 64 roste exponenciálně s rostoucím počtem vzorků. Počet miliard fragmentů za den se zvýšil téměř trojnásobně díky úložišti Cascade Lake 6248/LustreME4 a aktualizovanému potrubí.

Obrázek 4: Porovnání propustnosti s 8x C6420 mezi Cascade Lake 6248/LustreME4 a Skylake 6148/H600

Krok Cuffmerge se nezpomaluje s rostoucím počtem vzorků, zatímco kroky Cuffdiff a Cuffnorm se výrazně zpomalují. Zejména krok Cuffdiff se stává kritickým místem pro potrubí, protože doba běhu exponenciálně roste (obrázek 5) . Ačkoli se doba běhu Cuffnorm exponenciálně zvyšuje jako Cuffdiff, lze ji ignorovat, protože doba běhu Cuffnorm je omezena dobou běhu Cuffdiffu. Přidání kroku Cuffquant výrazně zlepšilo dobu chodu Cuffdiffu. Zkrácení doby chodu o 30 hodin na kroku Cuffdiff a Cuffnorm dokončil o 20 hodin rychleji s krokem Cuffquant. Ačkoli nárůst výkonu z Cuffnorm není viditelný, protože Cuffdiff a Cuffnorm začínají současně.

Obrázek 5: Přírůstek doby běhu na Cuffdiff a Cuffnorm
Obrázek 5 :Přírůstek doby běhu na Cuffdiff a Cuffnorm
Závěr
Výsledky testu propustnosti ukazují, že servery PowerEdge C6420 s 8 uzly a úložištěm Lustre mohou zpracovat zhruba 2,7 miliardy fragmentů z 64 vzorků, každý s ~50 miliony spárovaných čtení (25 MF) prostřednictvím kanálu Tuxedo, jak je znázorněno na obrázku 1. Vzhledem k tomu, že Tuxedo pipeline je relativně rychlejší než jiné populární pipelines, je obtížné tyto výsledky zobecnit nebo využít k přesnému dimenzování systému HPC. Výsledky však mohou pomoci provést hrubý odhad velikosti systému HPC.

Prostředky
1. V § 1 Diferenciální genová exprese RNA-Seq: Základní výukový program. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. V § 2 Srovnávací test RNA-Seq s balíčkem Dell EMC Ready Bundle pro HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. V § 3 Řešení Dell EMC Ready Solution pro úložiště HPC Lustre [Odkaz je nefunkční k 7. 2024]

Poznámka: Ty jsou náhodně vybrány ze skupiny vzorků bez jakýchkoli smysluplných asociací mezi nimi.

Article Properties

Affected Product

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline s procesorem Cascade Lake a obnovou Lustre/ME4

Summary: Tento článek obsahuje dokument whitepaper s názvem "Řešení Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline s procesorem Cascade Lake a aktualizací Lustre/ME4".

Article Content

Instructions

Article Properties

Affected Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline s procesorem Cascade Lake a obnovou Lustre/ME4

Summary: Tento článek obsahuje dokument whitepaper s názvem "Řešení Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline s procesorem Cascade Lake a aktualizací Lustre/ME4".

Article Content

Instructions

Article Properties

Affected Product

Last Published Date

Version

Article Type