Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Dell EMC Ready Solution för biovetenskap med HPC: Tuxedo Pipeline med Cascade Lake-processor och Lustre/ME4-uppdatering

Summary: Den här artikeln handlar om informationsdokumentet "Dell EMC Ready Solution för HPC biovetenskap: Tuxedo Pipeline med Cascade Lake CPU och Lustre/ME4 Refresh".

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Obs! Artikel skriven av Kihoon Yoon på HPC och AI Innovation Lab i december 2019
Ny maskinvara och uppdaterad pipeline ökar tillsammans genomströmningen tre gånger mer jämfört med den tidigare Ready Solution.

Överblick
Analys av genuttryck är lika viktigt som att identifiera Single Nucleotide Polymorphism (SNP), insättning/radering (indel) eller kromosomal omstrukturering. Så småningom beror hela de fysiologiska och biokemiska händelserna på de slutliga genuttrycksprodukterna, proteinerna. Även om de flesta däggdjur har ett extra kontrollerande lager före proteinuttryck, hjälper vetskapen om hur många transkript som finns i ett system till att karakterisera en cells biokemiska status. I idealfallet gör en teknik det möjligt för oss att kvantifiera hela proteinerna i en cell som skulle kunna utmärka sig avsevärt i utvecklingen av Life Science; Men vi är långt ifrån att uppnå det. 
Här, i den här bloggen, testar vi en populär RNA-Seq-dataanalyspipeline känd som Tuxedo-pipelinen (1). Tuxedo-pipeline-svitenDen här hyperlänken tar dig till en webbplats utanför Dell Technologies. erbjuder en uppsättning verktyg för att analysera en mängd olika RNA-Seq-data, inklusive kortläsningskartläggning, identifiering av skarvövergångar, transkript- och isoformdetektion, differentiellt uttryck, visualiseringar och kvalitetskontrollmått. De detaljerade stegen i pipelinen visas i bild 1. Den här uppdaterade versionen av Tuxedo-pipelinen innehåller Cuffquant-steg jämfört med den gamla versionen som testades i föregående blogg (2).

Figur 1 Uppdaterad Tuxedo Pipeline med Cuffquant StepBild 1 Uppdaterad Tuxedo Pipeline med Cuffquant Step

Testklustrets konfigurationer sammanfattas i tabell 1.

Tabell 1 Testad konfiguration av beräkningsnod

Dell EMC PowerEdge C6420

Processor

2x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)

RAM

12x 16 GB @2933 MT/s

ÅS

RHEL 7.6

Interconnect

Intel® Omni-Path

BIOS-systemprofil

Prestandaoptimerad

Logisk processor

Disabled (avaktiverad)

Virtualiseringsteknik

Disabled (avaktiverad)

hög hatt

2.1.1

fluga2

2.2.5

R

3.6

bioledare-gördel

2.26.0


De datornoder som testades anslöts till Dell EMC Ready Solution för Lustre-lagring via Intel® Omni-Path (3). Den sammanfattande konfigurationen av lagringen visas i tabell 2.

Tabell 2: Lustre-lagringslösning – hård- och mjukvaruspecifikationer

Dell EMC Ready Solution för Lustre-lagring

Antal noder

1 × Dell EMC PowerEdge R640 som integrerad hanterare för Lustre (IML)
2 × Dell EMC PowerEdge R740 som metadataserver (MDS)
2 × Dell EMC PowerEdge R740 som objektlagringsserver (OSS)

Processorer

IML-server: Dubbel Intel Xeon Gold 5118 @ 2,3 GHz
MDS- och OSS-servrar: Dubbel Intel Xeon Gold 6136 @ 3,00 GHz

Minne

IML-server: 12 x 8 GB 2 666 MT/s DDR4 RDIMM
MDS- och OSS-servrar: 24 x 16 GiB 2 666 MT/s DDR4 RDIMM

Extern lagring
Styrenheter

2 × Dell SAS-värdbussadaptrar på 12 Gbit/s (på varje MDS)
4 × Dell SAS-värdbussadaptrar på 12 Gbit/s (på varje OSS)

Objektlagring
Kapslingar

4 × ME4084 med totalt 336 × 8 TB NL SAS-hårddiskar på 7 200 v/min

Lagring av
metadatainhägnad

1 × ME4024 med 24 × 960 GB SAS SSD-hårddiskar. Stöder upp till 4,688B filer/inoder

RAID-styrenheter

Duplex RAID i ME4084- och ME4024-höljen

Operativsystem

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Kernel-version

3.10.0-862.el7.x86_64

BIOS-version

1.4.5

Intel Omni-Path
IFS-version

10.8.0.0

Lyster-filsystem
version

2.10.4

IML-version

4.0.7.0


En prestandastudie av RNA-Seq-pipelinen är inte trivial eftersom naturarbetsflödet kräver icke-identiska indatafiler. 185 RNA-Seq-parade läsdata samlas in från ett offentligt datalagerDen här hyperlänken tar dig till en webbplats utanför Dell Technologies.. – Herr talman, Alla läsdatafiler innehåller cirka 25 miljoner fragment (MF) och har liknande läslängder. Exemplen för ett test slumpmässigt valt från poolen med 185 parade läsfiler. Även om dessa slumpmässigt utvalda data inte kommer att ha någon biologisk betydelse, kommer dessa data med hög brusnivå säkerligen att sätta testerna på det värsta tänkbara scenariot.
Utvärdering av
prestandaTest
med två samplerI bild 2 ritas körningen för varje steg. Testet kördes i två beräkningsnoder med två prover som innehöll cirka 25 miljoner lästa RNA-Seq-data. Tophat-steget startar för varje exempel på en beräkningsnod parallellt. Därefter börjar Manschettknappar när Tophat är klar. Cuffmerge-steget kombinerar resultaten från de två körningarna av manschettknappar. Cuffquant step läggs till för att kvantifiera genuttryck i varje prov, och resultaten undersöks vidare i Cuffdiff och Cuffnorm steg. Sista steget, CummeRbund är ett statistiskt analyssteg från CummeRbund R-package, och det genererar en visualiserad rapport som visas i bild 2.

Bild 2 Total körning för Tuxedo-pipeline med två exempel: SRR1608490 och SRR934809.Bild 2 Total körning för Tuxedo-pipeline med två exempel: SRR1608490 och SRR934809.

Figur 3 visar differentiellt uttryckta gener från 8 provkörningar (varje prov består av 4 dubbletter) i rött med signifikant lägre p-värden (Y-axel) jämfört med andra genuttryck illustrerade i svart1. veckor X-axeln är veckförändringar i logaritmbasen på 2, och dessa veckförändringar av varje gen plottas mot p-värden. Fler prover kommer att ge en bättre uppskattning av genuttrycket. Det övre högra diagrammet är genuttryck i prov 2 i jämförelse med prov 1, medan det vänstra nedre diagrammet är genuttryck i prov 1 jämfört med prov 2. Genuttryck i svarta prickar skiljer sig inte nämnvärt åt i de båda proverna.


Figur 3 Vulkandiagram över resultaten från CuffdiffFigur 3 Vulkandiagram över resultaten
från CuffdiffGenomströmningstest – En rörledning med fler än två prover, biologiska och tekniska dubbletter
Typiska RNA-Seq-studier består av flera prover, ibland 100-tals olika prover, normala kontra sjuka eller obehandlade kontra behandlade prover. Dessa prover tenderar att ha hög ljudnivå på grund av deras biologiska orsaker; Därför kräver analysen ett kraftfullt förfarande för förbehandling av data.
 
Vi testade olika antal prover (alla olika RNA-Seq-data utvalda från 185 dataset med parade avläsningar) för att se hur mycket data som kan bearbetas av 8 noder i ett PowerEdge C6420-kluster. Som du ser i bild 4 växer körtiderna med 2, 4, 8, 16, 32 och 64 exempel exponentiellt när antalet exempel ökar. Antalet miljarder fragment/dag ökade nästan tre gånger med Cascade Lake 6248/LustreME4-lagring och den uppdaterade pipelinen.

Figur 4 Genomströmningsjämförelser med 8x C6420s mellan Cascade Lake 6248/LustreME4 och Skylake 6148/H600Figur 4 Genomströmningsjämförelser med 8x C6420s mellan Cascade Lake 6248/LustreME4 och Skylake 6148/H600

Cuffmerge-steget saktar inte ner eftersom antalet prover växer medan Cuffdiff- och Cuffnorm-stegen saktar ner avsevärt. Särskilt Cuffdiff-steget blir en flaskhals för pipelinen eftersom körningstiden växer exponentiellt (bild 5). Även om Cuffnorms körtid ökar exponentiellt som Cuffdiff, kan den ignoreras eftersom Cuffnorms körtid begränsas av Cuffdiffs körning.  Att lägga till Cuffquant step förbättrade körtiden för Cuffdiff avsevärt. 30 timmars minskad körtid på Cuffdiff step, och Cuffnorm slutfördes 20 timmar snabbare med Cuffquant step. Även om prestandavinsten från Cuffnorm inte syns eftersom Cuffdiff och Cuffnorm startar samtidigt.


Bild 5 Körtidsökning på Cuffdiff och Cuffnorm
Bild 5 Körtidsökning på Cuffdiff och Cuffnorm
Slutsats
Testresultaten för genomströmningstestet visar att PowerEdge C6420s-enheter med 8 noder och Lustre-lagring kan bearbeta ungefär 2,7 miljarder fragment från 64 samplingar med ~50 miljoner parade läsningar vardera (25 MF) via Tuxedo-pipelinen som visas i bild 1. Eftersom Tuxedo-pipelinen är relativt snabbare än andra populära pipelines är det svårt att generalisera eller använda dessa resultat för att dimensionera ett HPC-system korrekt. Resultaten kan dock hjälpa till att göra en grov uppskattning av HPC-systemets storlek.
 
Resurser
1. veckor RNA-Seq differentiellt genuttryck: Grundläggande handledning. [Uppkopplad] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Den här hyperlänken tar dig till en webbplats utanför Dell Technologies.
2. veckor Prestandatest för RNA-Seq-pipeline med Dell EMC Ready Bundle för HPC biovetenskap. [Uppkopplad] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Den här hyperlänken tar dig till en webbplats utanför Dell Technologies.
3. veckor Dell EMC Ready Solution för HPC Lustre-lagring. [Länk död från och med 07/2024]

Anm.: Dessa väljs slumpmässigt ut från en pool av urval utan några meningsfulla associationer mellan dem.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
Article Properties
Article Number: 000124142
Article Type: How To
Last Modified: 25 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.