メイン コンテンツに進む

Řešení Dell EMC Ready pro superpočítače v přírodních vědách Kanál Tuxedo s procesorem Cascade Lake a Lustre/ME4 Refresh

概要: Tento článek obsahuje dokument whitepaper s názvem „Řešení Dell EMC Ready Solution pro superpočítače v přírodních vědách: Kanál Tuxedo s procesorem Cascade Lake a Lustre/ME4 Refresh.“

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Poznámka: Článek napsal Kihoon Yoon z oddělení HPC and AI Innovation Lab v prosinci 2019
Nový hardware a aktualizovaný kanál společně zvyšují propustnost 3krát více oproti předchozímu řešení Ready Solution.

Přehled
Analýza genové exprese je stejně důležitá jako identifikace jednonukleotidového polymorfismu (SNP), vložení/odstranění (indel) nebo chromozomální restrukturalizace. Nakonec všechny fyziologické a biochemické události závisí na konečných produktech genové exprese, proteinech. Ačkoli většina savců má před expresí proteinů další kontrolní vrstvu, znalost toho, kolik transkriptů existuje v systému, pomáhá charakterizovat biochemický stav buňky. V ideálním případě by nám technologie umožnila kvantifikovat všechny proteiny v buňce, což by mohlo významně přispět k pokroku v oblasti přírodních věd. K tomu však máme ještě daleko. 
Zde v tomto blogu testujeme jeden populární kanál pro analýzu dat RNA-Seq známý jako Tuxedo (1). Sada kanálu TuxedoTento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies. nabízí sadu nástrojů pro analýzu různých dat RNA-Seq, včetně mapování s krátkým čtením, identifikace sestřihových míst, detekce transkriptů a izoforem, diferenciální exprese, vizualizace a metriky kontroly kvality. Podrobný postup v kanálu je znázorněn na obrázku 1. Tato aktualizovaná verze kanálu Tuxedo obsahuje oproti staré verzi testované v předchozím blogu (2) krok Cuffquant.

Obrázek 1: Aktualizovaný kanál Tuxedo s krokem CuffquantObrázek 1: Aktualizovaný kanál Tuxedo s krokem Cuffquant

Konfigurace testovacího clusteru jsou shrnuty v tabulce 1.

Tabulka 1: Testovaná konfigurace výpočetního uzlu

Dell EMC PowerEdge C6420

Procesor

2x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)

RAM

12x 16 GB při rychlosti 2 933 MT/s

Operační systém

RHEL 7.6

Interconnect

Intel® Omni-Path

Profil systému BIOS

Performance Optimized

Logický procesor

Disabled

Technologie virtualizace

Disabled

tophat

2.1.1

bowtie2

2.2.5

R

3.6

bioconductor-cummerbund

2.26.0


Testované výpočetní uzly byly připojeny k řešení Dell EMC Ready Solution pro úložiště Lustre prostřednictvím technologie Intel® Omni-Path (3). Souhrnná konfigurace úložiště je uvedená v tabulce 2.

Tabulka 2: Specifikace hardwaru a softwaru úložného řešení Lustre

Řešení Dell EMC Ready pro úložiště Lustre

Počet uzlů

1x server Dell EMC PowerEdge R640 jako IML (Integrated Manager for Lustre)
2x Dell EMC PowerEdge R740 jako server metadat (MDS)
2x server Dell EMC PowerEdge R740 jako server úložiště objektů (OSS)

Procesory

Server IML: Dva procesory Intel Xeon Gold 5118 při frekvenci 2,3 GHz
Servery MDS a OSS: Dva procesory Intel Xeon Gold 6136 při frekvenci 3,00 GHz

Paměť

Server IML: 12x modul 8 GB, 2 666 MT/s, DDR4 RDIMM
Servery MDS a OSS: 24x 16 GiB, 2 666 MT/s, DDR4 RDIMM

Externí úložiště
řadiče

2x adaptér Dell 12 Gb/s HBA SAS (na každém serveru MDS)
4x adaptér Dell 12 Gb/s SAS HBA (v každém serveru OSS)

Úložiště objektů
skříně

4x ME4084 s celkem 336x 8TB pevnými disky SAS NL, 7 200 ot/min

Úložiště metadat
skříň

1x ME4024 s 24x 960GB disky SAS SSD Podporuje soubory/uzly inode o velikosti až 4 688 B

Řadiče RAID

Duplexní pole RAID ve skříních ME4084 a ME4024

Operační systém

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Verze jádra

3.10.0-862.el7.x86_64

Verze systému BIOS

1.4.5

Intel Omni-Path
Verze IFS

10.8.0.0

Systém souborů Lustre
verze

2.10.4

Verze IML

4.0.7.0


Studie výkonu kanálu RNA-Seq není triviální, pracovní postup vyžaduje neidentické vstupní soubory. 185 párových čtených dat RNA-Seq je shromažďováno z veřejného datového úložištěTento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.. Všechny načtené datové soubory obsahují přibližně 25 milionů fragmentů (MF) a mají podobnou délku čtení. Vzorky pro test náhodně vybrané ze skupiny 185 párových čtených souborů. I když tato náhodně vybraná data s vysokou úrovní šumu nebudou mít žádný biologický význam, určitě otestují nejhorší možný scénář.
Vyhodnocení výkonu
Dvouvýběrový test
Na obrázku 2 je vykresleno trvání každého kroku. Test probíhal ve dvou výpočetních uzlech se dvěma vzorky obsahujícími přibližně 25 milionů čtených dat RNA-Seq. Krok Tophat začíná pro každý vzorek na výpočetním uzlu paralelně. Následně krok Cufflinks začíná po dokončení kroku Tophat. Krok Cuffmerge kombinuje výsledky obou sérií Cufflinks. Přidá se krok Cuffquant pro kvantifikaci genové exprese v každém vzorku a výsledky se dále zkoumají v krocích Cuffdiff a Cuffnorm. Poslední krok, CummeRbund, je krok statistické analýzy z balíčku CummeRbund R, který generuje vizualizovanou sestavu, jak je znázorněno na obrázku 2.

Obrázek 2: Celková doba chodu v kanálu Tuxedo se dvěma vzorky: SRR1608490 a SRR934809.Obrázek 2: Celková doba trvání pro kanál Tuxedo Pipeline se dvěma vzorky: SRR1608490SRR934809.

Obrázek 3 ukazuje diferencovaně exprimované geny z 8 vzorkových sérií (každý vzorek se skládá ze 4 duplikátů) zobrazených červeně s výrazně nižšími p-hodnotami (osa Y) ve srovnání s jinými genovými expresemi znázorněnými černě1 Na ose X jsou znázorněny změny záhybů v logaritmu 2 a tyto změny záhybů jednotlivých genů jsou vyneseny proti p-hodnotám. Více vzorků přinese lepší odhad genové exprese. V pravém horním grafu jsou genové exprese ve vzorku 2 ve srovnání se vzorkem 1, zatímco v levém dolním grafu jsou genové exprese ve vzorku 1 ve srovnání se vzorkem 2. Exprese genů v černých bodech se v obou vzorcích významně neliší.


Obrázek 3: Graf s výsledky kroku CuffdiffObrázek 3: Graf s výsledky krok Cuffdiff
Test propustnosti – jeden kanál s více než dvěma vzorky, biologické a technické duplikáty
Typické studie RNA-Seq se skládají z více vzorků, někdy až ze 100 různých vzorků, normálních versus nemocných nebo neošetřených versus exponovaných vzorků. Tyto vzorky mívají vysokou hladinu šumu z biologických důvodů. Analýza proto vyžaduje náročný postup předběžného zpracování dat.
 
Testovali jsme různý počet vzorků (všechna různá data RNA-Seq vybraná ze 185 párových sad dat pro čtení), abychom zjistili, kolik dat může zpracovat 8 uzlů v clusteru PowerEdge C6420. Jak je znázorněno na obrázku 4, doba trvání se vzorky 2, 4, 8, 16, 32 a 64 roste exponenciálně s rostoucím počtem vzorků. Počet miliard fragmentů za den se zvýšil téměř trojnásobně díky úložišti Cascade Lake 6248/LustreME4 a aktualizovanému kanálu.

Obrázek 4: Porovnání propustnosti u 8x serveru C6420 mezi modely Cascade Lake 6248/LustreME4 a Skylake 6148/H600Obrázek 4: Porovnání propustnosti s 8x C6420 mezi modelem Cascade Lake 6248/LustreME4 a Skylake 6148/H600

Krok Cuffmerge se nezpomaluje s rostoucím počtem vzorků, zatímco kroky Cuffdiff a Cuffnorm se zpomalují výrazně. Zejména krok Cuffdiff se stává kritickým místem v kanálu, protože doba trvání roste exponenciálně (obrázek 5). Ačkoli se doba trvání kroku Cuffnorm exponenciálně zvyšuje jako v případě kroku Cuffdiff, lze to ignorovat, protože doba trvání kroku Cuffnorm je omezena dobou trvání kroku Cuffdiff.  Přidání kroku Cuffquant výrazně zlepšilo dobu chodu kroku Cuffdiff. Díky kroku Cuffquant došlo ke 30hodinovému zkrácení doby chodu kroku Cuffdiff a k dřívějšímu dokončení kroku Cuffnorm o 20 hodin. Ačkoli nárůst výkonu z kroku Cuffnorm není viditelný, protože kroky Cuffdiff a Cuffnorm začínají současně.


Obrázek 5: Prodloužení doby chodu u kroku Cuffdiff a Cuffnorm
Obrázek 5:Prodloužení doby chodu u kroku Cuffdiff a Cuffnorm
Závěr
Výsledky testu propustnosti ukazují, že servery PowerEdge C6420 s 8 uzly a úložištěm Lustre mohou zpracovat zhruba 2,7 miliardy fragmentů z 64 vzorků, každý s ~50 miliony párových čtení (25 MF) prostřednictvím kanálu Tuxedo, jak je znázorněno na obrázku 1. Vzhledem k tomu, že kanál Tuxedo je relativně rychlejší než jiné populární kanály, je obtížné tyto výsledky zobecnit nebo využít k přesnému dimenzování systému HPC. Výsledky však mohou pomoci provést hrubý odhad velikosti systému HPC.
 
Zdroje
1. Diferenciální genová exprese RNA-Seq: Základní návod. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Tento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.
2. Srovnávací test kanálu RNA-Seq pomocí balíčku Dell EMC Ready pro superpočítače v přírodních vědách. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Tento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.
3. Řešení Dell EMC Ready pro úložiště HPC Lustre. [Odkaz je nefunkční k červenci 2024]

Poznámka: Vzorky byly náhodně vybrány ze skupiny vzorků bez jakýchkoli smysluplných asociací mezi nimi.

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
文書のプロパティ
文書番号: 000124142
文書の種類: How To
最終更新: 25 7月 2024
バージョン:  3
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。