Dell EMC Ready Solution för biovetenskap med HPC: Tuxedo Pipeline med Cascade Lake-processor och Lustre/ME4-uppdatering

Summary: Den här artikeln handlar om informationsdokumentet "Dell EMC Ready Solution för HPC biovetenskap: Tuxedo Pipeline med Cascade Lake CPU och Lustre/ME4 Refresh".

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Obs! Artikel skriven av Kihoon Yoon på HPC och AI Innovation Lab i december 2019
Ny maskinvara och uppdaterad pipeline ökar tillsammans genomströmningen tre gånger mer jämfört med den tidigare Ready Solution.

Överblick
Analys av genuttryck är lika viktigt som att identifiera Single Nucleotide Polymorphism (SNP), insättning/radering (indel) eller kromosomal omstrukturering. Så småningom beror hela de fysiologiska och biokemiska händelserna på de slutliga genuttrycksprodukterna, proteinerna. Även om de flesta däggdjur har ett extra kontrollerande lager före proteinuttryck, hjälper vetskapen om hur många transkript som finns i ett system till att karakterisera en cells biokemiska status. I idealfallet gör en teknik det möjligt för oss att kvantifiera hela proteinerna i en cell som skulle kunna utmärka sig avsevärt i utvecklingen av Life Science; Men vi är långt ifrån att uppnå det.
Här, i den här bloggen, testar vi en populär RNA-Seq-dataanalyspipeline känd som Tuxedo-pipelinen (1). Tuxedo-pipeline-sviten erbjuder en uppsättning verktyg för att analysera en mängd olika RNA-Seq-data, inklusive kortläsningskartläggning, identifiering av skarvövergångar, transkript- och isoformdetektion, differentiellt uttryck, visualiseringar och kvalitetskontrollmått. De detaljerade stegen i pipelinen visas i bild 1. Den här uppdaterade versionen av Tuxedo-pipelinen innehåller Cuffquant-steg jämfört med den gamla versionen som testades i föregående blogg (2).

Figur 1 Uppdaterad Tuxedo Pipeline med Cuffquant Step Bild 1 Uppdaterad Tuxedo Pipeline med Cuffquant Step

Testklustrets konfigurationer sammanfattas i tabell 1.

Tabell 1 Testad konfiguration av beräkningsnod
Dell EMC PowerEdge C6420
Processor	2x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)
RAM	12x 16 GB @2933 MT/s
ÅS	RHEL 7.6
Interconnect	Intel® Omni-Path
BIOS-systemprofil	Prestandaoptimerad
Logisk processor	Disabled (avaktiverad)
Virtualiseringsteknik	Disabled (avaktiverad)
hög hatt	2.1.1
fluga2	2.2.5
R	3.6
bioledare-gördel	2.26.0

De datornoder som testades anslöts till Dell EMC Ready Solution för Lustre-lagring via Intel^® Omni-Path (3). Den sammanfattande konfigurationen av lagringen visas i tabell 2.

Tabell 2: Lustre-lagringslösning – hård- och mjukvaruspecifikationer
Dell EMC Ready Solution för Lustre-lagring
Antal noder	1 × Dell EMC PowerEdge R640 som integrerad hanterare för Lustre (IML) 2 × Dell EMC PowerEdge R740 som metadataserver (MDS) 2 × Dell EMC PowerEdge R740 som objektlagringsserver (OSS)
Processorer	IML-server: Dubbel Intel Xeon Gold 5118 @ 2,3 GHz MDS- och OSS-servrar: Dubbel Intel Xeon Gold 6136 @ 3,00 GHz
Minne	IML-server: 12 x 8 GB 2 666 MT/s DDR4 RDIMM MDS- och OSS-servrar: 24 x 16 GiB 2 666 MT/s DDR4 RDIMM
Extern lagring Styrenheter	2 × Dell SAS-värdbussadaptrar på 12 Gbit/s (på varje MDS) 4 × Dell SAS-värdbussadaptrar på 12 Gbit/s (på varje OSS)
Objektlagring Kapslingar	4 × ME4084 med totalt 336 × 8 TB NL SAS-hårddiskar på 7 200 v/min
Lagring av metadatainhägnad	1 × ME4024 med 24 × 960 GB SAS SSD-hårddiskar. Stöder upp till 4,688B filer/inoder
RAID-styrenheter	Duplex RAID i ME4084- och ME4024-höljen
Operativsystem	CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Kernel-version	3.10.0-862.el7.x86_64
BIOS-version	1.4.5
Intel Omni-Path IFS-version	10.8.0.0
Lyster-filsystem version	2.10.4
IML-version	4.0.7.0

En prestandastudie av RNA-Seq-pipelinen är inte trivial eftersom naturarbetsflödet kräver icke-identiska indatafiler. 185 RNA-Seq-parade läsdata samlas in från ett offentligt datalager. – Herr talman, Alla läsdatafiler innehåller cirka 25 miljoner fragment (MF) och har liknande läslängder. Exemplen för ett test slumpmässigt valt från poolen med 185 parade läsfiler. Även om dessa slumpmässigt utvalda data inte kommer att ha någon biologisk betydelse, kommer dessa data med hög brusnivå säkerligen att sätta testerna på det värsta tänkbara scenariot.
Utvärdering av
prestandaTest
med två samplerI bild 2 ritas körningen för varje steg. Testet kördes i två beräkningsnoder med två prover som innehöll cirka 25 miljoner lästa RNA-Seq-data. Tophat-steget startar för varje exempel på en beräkningsnod parallellt. Därefter börjar Manschettknappar när Tophat är klar. Cuffmerge-steget kombinerar resultaten från de två körningarna av manschettknappar. Cuffquant step läggs till för att kvantifiera genuttryck i varje prov, och resultaten undersöks vidare i Cuffdiff och Cuffnorm steg. Sista steget, CummeRbund är ett statistiskt analyssteg från CummeRbund R-package, och det genererar en visualiserad rapport som visas i bild 2.

Bild 2 Total körning för Tuxedo-pipeline med två exempel: SRR1608490 och SRR934809. Bild 2 Total körning för Tuxedo-pipeline med två exempel: SRR1608490 och SRR934809.

Figur 3 visar differentiellt uttryckta gener från 8 provkörningar (varje prov består av 4 dubbletter) i rött med signifikant lägre p-värden (Y-axel) jämfört med andra genuttryck illustrerade i svart 1. veckor X-axeln är veckförändringar i logaritmbasen på 2, och dessa veckförändringar av varje gen plottas mot p-värden. Fler prover kommer att ge en bättre uppskattning av genuttrycket. Det övre högra diagrammet är genuttryck i prov 2 i jämförelse med prov 1, medan det vänstra nedre diagrammet är genuttryck i prov 1 jämfört med prov 2. Genuttryck i svarta prickar skiljer sig inte nämnvärt åt i de båda proverna.

Figur 3 Vulkandiagram över resultaten
från CuffdiffGenomströmningstest – En rörledning med fler än två prover, biologiska och tekniska dubbletter
Typiska RNA-Seq-studier består av flera prover, ibland 100-tals olika prover, normala kontra sjuka eller obehandlade kontra behandlade prover. Dessa prover tenderar att ha hög ljudnivå på grund av deras biologiska orsaker; Därför kräver analysen ett kraftfullt förfarande för förbehandling av data.

Vi testade olika antal prover (alla olika RNA-Seq-data utvalda från 185 dataset med parade avläsningar) för att se hur mycket data som kan bearbetas av 8 noder i ett PowerEdge C6420-kluster. Som du ser i bild 4 växer körtiderna med 2, 4, 8, 16, 32 och 64 exempel exponentiellt när antalet exempel ökar. Antalet miljarder fragment/dag ökade nästan tre gånger med Cascade Lake 6248/LustreME4-lagring och den uppdaterade pipelinen.

Figur 4 Genomströmningsjämförelser med 8x C6420s mellan Cascade Lake 6248/LustreME4 och Skylake 6148/H600

Cuffmerge-steget saktar inte ner eftersom antalet prover växer medan Cuffdiff- och Cuffnorm-stegen saktar ner avsevärt. Särskilt Cuffdiff-steget blir en flaskhals för pipelinen eftersom körningstiden växer exponentiellt (bild 5). Även om Cuffnorms körtid ökar exponentiellt som Cuffdiff, kan den ignoreras eftersom Cuffnorms körtid begränsas av Cuffdiffs körning. Att lägga till Cuffquant step förbättrade körtiden för Cuffdiff avsevärt. 30 timmars minskad körtid på Cuffdiff step, och Cuffnorm slutfördes 20 timmar snabbare med Cuffquant step. Även om prestandavinsten från Cuffnorm inte syns eftersom Cuffdiff och Cuffnorm startar samtidigt.

Bild 5 Körtidsökning på Cuffdiff och Cuffnorm
Bild 5 Körtidsökning på Cuffdiff och Cuffnorm
Slutsats
Testresultaten för genomströmningstestet visar att PowerEdge C6420s-enheter med 8 noder och Lustre-lagring kan bearbeta ungefär 2,7 miljarder fragment från 64 samplingar med ~50 miljoner parade läsningar vardera (25 MF) via Tuxedo-pipelinen som visas i bild 1. Eftersom Tuxedo-pipelinen är relativt snabbare än andra populära pipelines är det svårt att generalisera eller använda dessa resultat för att dimensionera ett HPC-system korrekt. Resultaten kan dock hjälpa till att göra en grov uppskattning av HPC-systemets storlek.

Resurser
1. veckor RNA-Seq differentiellt genuttryck: Grundläggande handledning. [Uppkopplad] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. veckor Prestandatest för RNA-Seq-pipeline med Dell EMC Ready Bundle för HPC biovetenskap. [Uppkopplad] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. veckor Dell EMC Ready Solution för HPC Lustre-lagring. [Länk död från och med 07/2024]

Anm.: Dessa väljs slumpmässigt ut från en pool av urval utan några meningsfulla associationer mellan dem.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

Article Number: 000124142

Article Type: How To

Last Modified: 25 Jul 2024

Version: 3

Check if your device is covered by Support Services.

Dell EMC Ready Solution för biovetenskap med HPC: Tuxedo Pipeline med Cascade Lake-processor och Lustre/ME4-uppdatering

Summary: Den här artikeln handlar om informationsdokumentet "Dell EMC Ready Solution för HPC biovetenskap: Tuxedo Pipeline med Cascade Lake CPU och Lustre/ME4 Refresh".

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Dell EMC Ready Solution för biovetenskap med HPC: Tuxedo Pipeline med Cascade Lake-processor och Lustre/ME4-uppdatering

Summary: Den här artikeln handlar om informationsdokumentet "Dell EMC Ready Solution för HPC biovetenskap: Tuxedo Pipeline med Cascade Lake CPU och Lustre/ME4 Refresh".

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services