Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline s procesorem Cascade Lake a obnovou Lustre/ME4

Summary: Tento článek obsahuje dokument whitepaper s názvem "Řešení Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline s procesorem Cascade Lake a aktualizací Lustre/ME4".

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

Poznámka: Článek napsal Kihoon Yoon z oddělení HPC and AI Innovation Lab v prosinci 2019
Nový hardware a aktualizovaný kanál společně zvyšují propustnost 3krát více oproti předchozímu řešení Ready Solution.

Přehled
Analýza genové exprese je stejně důležitá jako identifikace jednonukleotidového polymorfismu (SNP), inzerce/delece (indel) nebo chromozomální restrukturalizace. Nakonec všechny fyziologické a biochemické události závisí na konečných produktech genové exprese, proteinech. Ačkoli většina savců má před expresí proteinů další kontrolní vrstvu, znalost toho, kolik transkriptů existuje v systému, pomáhá charakterizovat biochemický stav buňky. V ideálním případě nám technologie umožňuje kvantifikovat celé proteiny v buňce, která by mohla významně vyniknout v pokroku věd o živé přírodě; K dosažení tohoto cíle však máme daleko. 
Zde v tomto blogu testujeme jeden populární kanál pro analýzu dat RNA-Seq známý jako Tuxedo pipeline (1). Potrubní sadaTento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies. Tuxedo nabízí sadu nástrojů pro analýzu různých dat RNA-Seq, včetně mapování s krátkým čtením, identifikace sestřihových přechodů, detekce transkriptů a izoforem, diferenciální exprese, vizualizace a metriky kontroly kvality. Podrobný postup v procesu je znázorněn na obrázku 1. Tato aktualizovaná verze Tuxedo pipeline obsahuje krok Cuffquant ve srovnání se starou verzí testovanou v předchozím blogu (2).

Obrázek 1: Aktualizované potrubí Tuxedo s krokem CuffquantObrázek 1: Aktualizovaný Tuxedo Pipeline s Cuffquant Step

Konfigurace testovacího clusteru jsou shrnuty v tabulce 1.

Tabulka 1: Testovaná konfigurace výpočetního uzlu

Dell EMC PowerEdge C6420

Procesor

2× Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)

RAM

12× 16 GB @ 2933 MT/s

Operační systém

RHEL 7.6

Interconnect

® Intel Omni-Path

Profil systému BIOS

Performance Optimized

Logický procesor

Disabled

Technologie virtualizace

Disabled

cylindr

2.1.1

motýlek2

2.2.5

R

3.6

biovodič-cummerbund

2.26.0


Testované výpočetní uzly byly připojeny k řešení Dell EMC Ready Solution for Lustre Storage prostřednictvím technologie Intel® Omni-Path (3). Souhrnná konfigurace úložiště je uvedená v tabulce 2.

Tabulka 2 Specifikace hardwaru a softwaru úložného řešení Lustre

Řešení Dell EMC Ready Solution pro úložiště Lustre

Počet uzlů

1× server Dell EMC PowerEdge R640 jako integrovaný manažer pro displej Lustre (IML)
2× Dell EMC PowerEdge R740 jako server metadat (MDS)
2× Dell EMC PowerEdge R740 jako server úložiště objektů (OSS)

Procesory

Server IML: Dva procesory Intel Xeon Gold 5118 @ 2,3 GHz
Servery MDS a OSS: Dva procesory Intel Xeon Gold 6136 @ 3,00 GHz

Paměť

Server IML: 12 × 8 GB, 2 666 MT/s, DDR4 RDIMM
Servery MDS a OSS: 24 × 16 GiB, 2 666 MT/s, DDR4 RDIMM

Externí úložiště
řadiče

2× Dell 12 Gb/s adaptéry HBA SAS (na každém MDS)
4× Dell 12 Gb/s SAS HBA (v každém OSS)

Objektové úložiště
Přílohy

4× ME4084 s celkem 336 × 8TB pevnými disky SAS NL, 7 200 ot/min

Úložiště
metadatpříloha

1× ME4024 s 24× 960GB diskem SSD SAS Podporuje až 4,688B souborů/inodů

Řadiče RAID

Duplexní pole RAID ve skříních ME4084 a ME4024

Operační systém

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Verze jádra

3.10.0-862.el7.x86_64

Verze systému BIOS

1.4.5

Intel Omni-Path
Verze IFS

10.8.0.0

Souborový systém
Lustreverze

2.10.4

Verze IML

4.0.7.0


Studie výkonu kanálu RNA-Seq není triviální, protože pracovní postup nature vyžaduje neidentické vstupní soubory. 185 RNA-Seq párová čtená data jsou shromažďována z veřejného datového úložištěTento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.. Všechny načtené datové soubory obsahují přibližně 25 milionů fragmentů (MF) a mají podobnou délku čtení. Vzorky pro test náhodně vybrané ze skupiny 185 párových čtených souborů. I když tato náhodně vybraná data nebudou mít žádný biologický význam, určitě tato data s vysokou úrovní šumu otestují nejhorší možný scénář.
Vyhodnocení
výkonuDvouvýběrový test
Na obrázku 2 je vykreslena doba běhu každého kroku. Test probíhal ve dvou výpočetních uzlech se dvěma vzorky obsahujícími přibližně 25 milionů přečtených dat RNA-Seq. Krok Tophat začíná pro každou ukázku na výpočetním uzlu paralelně. Následně Manžetové knoflíčky začínají po dokončení Tophatu. Krok Cuffmerge kombinuje výsledky obou sérií manžetových knoflíčků. Přidá se Cuffquant step pro kvantifikaci genové exprese v každém vzorku a výsledky se dále zkoumají v krocích Cuffdiff a Cuffnorm. Poslední krok, CummeRbund, je krok statistické analýzy z balíčku CummeRbund R, který generuje vizualizovanou sestavu, jak je znázorněno na obrázku 2.

Obrázek 2: Celková doba běhu pro Tuxedo Pipeline se dvěma vzorky: SRR1608490 a SRR934809.Obrázek 2: Celková doba běhu pro Tuxedo Pipeline se dvěma vzorky: SRR1608490 a SRR934809.

Obrázek 3 ukazuje diferencovaně exprimované geny z 8 výběrových sérií (každý vzorek se skládá ze 4 duplikátů) červeně s výrazně nižšími p-hodnotami (osa Y) ve srovnání s jinými genovými expresemi znázorněnými černě1. V § 1 Osa X je složená změna v logaritmické bázi 2 a tyto záhybové změny každého genu jsou vyneseny proti p-hodnotám. Více vzorků přinese lepší odhad genové exprese. Pravý horní graf jsou genové exprese ve vzorku 2 ve srovnání se vzorkem 1, zatímco levý dolní graf jsou genové exprese ve vzorku 1 ve srovnání se vzorkem 2. Genová exprese v černých tečkách se v obou vzorcích významně neliší.


Obrázek 3: Graf sopky s výsledky CuffdiffuObrázek 3: Graf sopky s výsledky
CuffdiffuTest propustnosti – jedno potrubí s více než dvěma vzorky, biologické a technické duplikáty
Typické studie RNA-Seq se skládají z více vzorků, někdy 100 různých vzorků, normálních versus nemocných nebo neošetřených versus exponovaných vzorků. Tyto vzorky mívají vysokou hladinu hluku z biologických důvodů; Analýza proto vyžaduje náročný postup předzpracování dat.
 
Testovali jsme různý počet vzorků (všechna různá data RNA-Seq vybraná ze 185 sad dat pro čtení na párovém konci), abychom zjistili, kolik dat může zpracovat 8 uzlů v clusteru PowerEdge C6420. Jak je znázorněno na obrázku 4, doba běhu se vzorky 2, 4, 8, 16, 32 a 64 roste exponenciálně s rostoucím počtem vzorků. Počet miliard fragmentů za den se zvýšil téměř trojnásobně díky úložišti Cascade Lake 6248/LustreME4 a aktualizovanému potrubí.

Obrázek 4: Porovnání propustnosti 8x C6420 mezi procesory Cascade Lake 6248/LustreME4 a Skylake 6148/H600Obrázek 4: Porovnání propustnosti s 8x C6420 mezi Cascade Lake 6248/LustreME4 a Skylake 6148/H600

Krok Cuffmerge se nezpomaluje s rostoucím počtem vzorků, zatímco kroky Cuffdiff a Cuffnorm se výrazně zpomalují. Zejména krok Cuffdiff se stává kritickým místem pro potrubí, protože doba běhu exponenciálně roste (obrázek 5) . Ačkoli se doba běhu Cuffnorm exponenciálně zvyšuje jako Cuffdiff, lze ji ignorovat, protože doba běhu Cuffnorm je omezena dobou běhu Cuffdiffu.  Přidání kroku Cuffquant výrazně zlepšilo dobu chodu Cuffdiffu. Zkrácení doby chodu o 30 hodin na kroku Cuffdiff a Cuffnorm dokončil o 20 hodin rychleji s krokem Cuffquant. Ačkoli nárůst výkonu z Cuffnorm není viditelný, protože Cuffdiff a Cuffnorm začínají současně.


Obrázek 5: Přírůstek doby běhu na Cuffdiff a Cuffnorm
Obrázek 5 :Přírůstek doby běhu na Cuffdiff a Cuffnorm
Závěr
Výsledky testu propustnosti ukazují, že servery PowerEdge C6420 s 8 uzly a úložištěm Lustre mohou zpracovat zhruba 2,7 miliardy fragmentů z 64 vzorků, každý s ~50 miliony spárovaných čtení (25 MF) prostřednictvím kanálu Tuxedo, jak je znázorněno na obrázku 1. Vzhledem k tomu, že Tuxedo pipeline je relativně rychlejší než jiné populární pipelines, je obtížné tyto výsledky zobecnit nebo využít k přesnému dimenzování systému HPC. Výsledky však mohou pomoci provést hrubý odhad velikosti systému HPC.
 
Prostředky
1. V § 1 Diferenciální genová exprese RNA-Seq: Základní výukový program. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Tento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.
2. V § 2 Srovnávací test RNA-Seq s balíčkem Dell EMC Ready Bundle pro HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Tento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.
3. V § 3 Řešení Dell EMC Ready Solution pro úložiště HPC Lustre [Odkaz je nefunkční k 7. 2024]

Poznámka: Ty jsou náhodně vybrány ze skupiny vzorků bez jakýchkoli smysluplných asociací mezi nimi.

Article Properties


Affected Product

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

Last Published Date

25 Jul 2024

Version

3

Article Type

How To