Řešení Dell EMC Ready pro superpočítače v přírodních vědách Kanál Tuxedo s procesorem Cascade Lake a Lustre/ME4 Refresh

概要: Tento článek obsahuje dokument whitepaper s názvem „Řešení Dell EMC Ready Solution pro superpočítače v přírodních vědách: Kanál Tuxedo s procesorem Cascade Lake a Lustre/ME4 Refresh.“

この記事は次に適用されます：この記事は次には適用されません：この記事は、特定の製品に関連付けられていません。すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Poznámka: Článek napsal Kihoon Yoon z oddělení HPC and AI Innovation Lab v prosinci 2019
Nový hardware a aktualizovaný kanál společně zvyšují propustnost 3krát více oproti předchozímu řešení Ready Solution.

Přehled
Analýza genové exprese je stejně důležitá jako identifikace jednonukleotidového polymorfismu (SNP), vložení/odstranění (indel) nebo chromozomální restrukturalizace. Nakonec všechny fyziologické a biochemické události závisí na konečných produktech genové exprese, proteinech. Ačkoli většina savců má před expresí proteinů další kontrolní vrstvu, znalost toho, kolik transkriptů existuje v systému, pomáhá charakterizovat biochemický stav buňky. V ideálním případě by nám technologie umožnila kvantifikovat všechny proteiny v buňce, což by mohlo významně přispět k pokroku v oblasti přírodních věd. K tomu však máme ještě daleko.
Zde v tomto blogu testujeme jeden populární kanál pro analýzu dat RNA-Seq známý jako Tuxedo (1). Sada kanálu Tuxedo nabízí sadu nástrojů pro analýzu různých dat RNA-Seq, včetně mapování s krátkým čtením, identifikace sestřihových míst, detekce transkriptů a izoforem, diferenciální exprese, vizualizace a metriky kontroly kvality. Podrobný postup v kanálu je znázorněn na obrázku 1. Tato aktualizovaná verze kanálu Tuxedo obsahuje oproti staré verzi testované v předchozím blogu (2) krok Cuffquant.

Obrázek 1: Aktualizovaný kanál Tuxedo s krokem Cuffquant

Konfigurace testovacího clusteru jsou shrnuty v tabulce 1.

Tabulka 1: Testovaná konfigurace výpočetního uzlu
Dell EMC PowerEdge C6420
Procesor	2x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)
RAM	12x 16 GB při rychlosti 2 933 MT/s
Operační systém	RHEL 7.6
Interconnect	Intel® Omni-Path
Profil systému BIOS	Performance Optimized
Logický procesor	Disabled
Technologie virtualizace	Disabled
tophat	2.1.1
bowtie2	2.2.5
R	3.6
bioconductor-cummerbund	2.26.0

Testované výpočetní uzly byly připojeny k řešení Dell EMC Ready Solution pro úložiště Lustre prostřednictvím technologie Intel^® Omni-Path (3). Souhrnná konfigurace úložiště je uvedená v tabulce 2.

Tabulka 2: Specifikace hardwaru a softwaru úložného řešení Lustre
Řešení Dell EMC Ready pro úložiště Lustre
Počet uzlů	1x server Dell EMC PowerEdge R640 jako IML (Integrated Manager for Lustre) 2x Dell EMC PowerEdge R740 jako server metadat (MDS) 2x server Dell EMC PowerEdge R740 jako server úložiště objektů (OSS)
Procesory	Server IML: Dva procesory Intel Xeon Gold 5118 při frekvenci 2,3 GHz Servery MDS a OSS: Dva procesory Intel Xeon Gold 6136 při frekvenci 3,00 GHz
Paměť	Server IML: 12x modul 8 GB, 2 666 MT/s, DDR4 RDIMM Servery MDS a OSS: 24x 16 GiB, 2 666 MT/s, DDR4 RDIMM
Externí úložiště řadiče	2x adaptér Dell 12 Gb/s HBA SAS (na každém serveru MDS) 4x adaptér Dell 12 Gb/s SAS HBA (v každém serveru OSS)
Úložiště objektů skříně	4x ME4084 s celkem 336x 8TB pevnými disky SAS NL, 7 200 ot/min
Úložiště metadat skříň	1x ME4024 s 24x 960GB disky SAS SSD Podporuje soubory/uzly inode o velikosti až 4 688 B
Řadiče RAID	Duplexní pole RAID ve skříních ME4084 a ME4024
Operační systém	CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Verze jádra	3.10.0-862.el7.x86_64
Verze systému BIOS	1.4.5
Intel Omni-Path Verze IFS	10.8.0.0
Systém souborů Lustre verze	2.10.4
Verze IML	4.0.7.0

Studie výkonu kanálu RNA-Seq není triviální, pracovní postup vyžaduje neidentické vstupní soubory. 185 párových čtených dat RNA-Seq je shromažďováno z veřejného datového úložiště. Všechny načtené datové soubory obsahují přibližně 25 milionů fragmentů (MF) a mají podobnou délku čtení. Vzorky pro test náhodně vybrané ze skupiny 185 párových čtených souborů. I když tato náhodně vybraná data s vysokou úrovní šumu nebudou mít žádný biologický význam, určitě otestují nejhorší možný scénář.
Vyhodnocení výkonu
Dvouvýběrový test
Na obrázku 2 je vykresleno trvání každého kroku. Test probíhal ve dvou výpočetních uzlech se dvěma vzorky obsahujícími přibližně 25 milionů čtených dat RNA-Seq. Krok Tophat začíná pro každý vzorek na výpočetním uzlu paralelně. Následně krok Cufflinks začíná po dokončení kroku Tophat. Krok Cuffmerge kombinuje výsledky obou sérií Cufflinks. Přidá se krok Cuffquant pro kvantifikaci genové exprese v každém vzorku a výsledky se dále zkoumají v krocích Cuffdiff a Cuffnorm. Poslední krok, CummeRbund, je krok statistické analýzy z balíčku CummeRbund R, který generuje vizualizovanou sestavu, jak je znázorněno na obrázku 2.

Obrázek 2: Celková doba chodu v kanálu Tuxedo se dvěma vzorky: SRR1608490 a SRR934809. Obrázek 2: Celková doba trvání pro kanál Tuxedo Pipeline se dvěma vzorky: SRR1608490 a SRR934809.

Obrázek 3 ukazuje diferencovaně exprimované geny z 8 vzorkových sérií (každý vzorek se skládá ze 4 duplikátů) zobrazených červeně s výrazně nižšími p-hodnotami (osa Y) ve srovnání s jinými genovými expresemi znázorněnými černě 1 Na ose X jsou znázorněny změny záhybů v logaritmu 2 a tyto změny záhybů jednotlivých genů jsou vyneseny proti p-hodnotám. Více vzorků přinese lepší odhad genové exprese. V pravém horním grafu jsou genové exprese ve vzorku 2 ve srovnání se vzorkem 1, zatímco v levém dolním grafu jsou genové exprese ve vzorku 1 ve srovnání se vzorkem 2. Exprese genů v černých bodech se v obou vzorcích významně neliší.

Obrázek 3: Graf s výsledky krok Cuffdiff
Test propustnosti – jeden kanál s více než dvěma vzorky, biologické a technické duplikáty
Typické studie RNA-Seq se skládají z více vzorků, někdy až ze 100 různých vzorků, normálních versus nemocných nebo neošetřených versus exponovaných vzorků. Tyto vzorky mívají vysokou hladinu šumu z biologických důvodů. Analýza proto vyžaduje náročný postup předběžného zpracování dat.

Testovali jsme různý počet vzorků (všechna různá data RNA-Seq vybraná ze 185 párových sad dat pro čtení), abychom zjistili, kolik dat může zpracovat 8 uzlů v clusteru PowerEdge C6420. Jak je znázorněno na obrázku 4, doba trvání se vzorky 2, 4, 8, 16, 32 a 64 roste exponenciálně s rostoucím počtem vzorků. Počet miliard fragmentů za den se zvýšil téměř trojnásobně díky úložišti Cascade Lake 6248/LustreME4 a aktualizovanému kanálu.

Obrázek 4: Porovnání propustnosti s 8x C6420 mezi modelem Cascade Lake 6248/LustreME4 a Skylake 6148/H600

Krok Cuffmerge se nezpomaluje s rostoucím počtem vzorků, zatímco kroky Cuffdiff a Cuffnorm se zpomalují výrazně. Zejména krok Cuffdiff se stává kritickým místem v kanálu, protože doba trvání roste exponenciálně (obrázek 5). Ačkoli se doba trvání kroku Cuffnorm exponenciálně zvyšuje jako v případě kroku Cuffdiff, lze to ignorovat, protože doba trvání kroku Cuffnorm je omezena dobou trvání kroku Cuffdiff. Přidání kroku Cuffquant výrazně zlepšilo dobu chodu kroku Cuffdiff. Díky kroku Cuffquant došlo ke 30hodinovému zkrácení doby chodu kroku Cuffdiff a k dřívějšímu dokončení kroku Cuffnorm o 20 hodin. Ačkoli nárůst výkonu z kroku Cuffnorm není viditelný, protože kroky Cuffdiff a Cuffnorm začínají současně.

Obrázek 5: Prodloužení doby chodu u kroku Cuffdiff a Cuffnorm
Obrázek 5:Prodloužení doby chodu u kroku Cuffdiff a Cuffnorm
Závěr
Výsledky testu propustnosti ukazují, že servery PowerEdge C6420 s 8 uzly a úložištěm Lustre mohou zpracovat zhruba 2,7 miliardy fragmentů z 64 vzorků, každý s ~50 miliony párových čtení (25 MF) prostřednictvím kanálu Tuxedo, jak je znázorněno na obrázku 1. Vzhledem k tomu, že kanál Tuxedo je relativně rychlejší než jiné populární kanály, je obtížné tyto výsledky zobecnit nebo využít k přesnému dimenzování systému HPC. Výsledky však mohou pomoci provést hrubý odhad velikosti systému HPC.

Zdroje
1. Diferenciální genová exprese RNA-Seq: Základní návod. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Srovnávací test kanálu RNA-Seq pomocí balíčku Dell EMC Ready pro superpočítače v přírodních vědách. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Řešení Dell EMC Ready pro úložiště HPC Lustre. [Odkaz je nefunkční k červenci 2024]

Poznámka: Vzorky byly náhodně vybrány ze skupiny vzorků bez jakýchkoli smysluplných asociací mezi nimi.

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

文書番号: 000124142

文書の種類: How To

最終更新: 25 7月 2024

バージョン: 3

お使いのデバイスがサポートサービスの対象かどうかを確認してください。

Řešení Dell EMC Ready pro superpočítače v přírodních vědách Kanál Tuxedo s procesorem Cascade Lake a Lustre/ME4 Refresh

概要: Tento článek obsahuje dokument whitepaper s názvem „Řešení Dell EMC Ready Solution pro superpočítače v přírodních vědách: Kanál Tuxedo s procesorem Cascade Lake a Lustre/ME4 Refresh.“

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

ようこそ

Dellへようこそ

Řešení Dell EMC Ready pro superpočítače v přírodních vědách Kanál Tuxedo s procesorem Cascade Lake a Lustre/ME4 Refresh

概要: Tento článek obsahuje dokument whitepaper s názvem „Řešení Dell EMC Ready Solution pro superpočítače v přírodních vědách: Kanál Tuxedo s procesorem Cascade Lake a Lustre/ME4 Refresh.“

詳細記事

手順

対象製品

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

サポートサービス

サポートサービス