Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline med Cascade Lake CPU og Lustre/ME4-oppdatering

Summary: Denne artikkelen dekker rapporten med tittelen "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline med Cascade Lake CPU og Lustre/ME4 Refresh".

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Merk: Artikkel skrevet av Kihoon Yoon fra HPC og AI Innovation Lab i desember 2019
Ny maskinvare og oppdatert pipeline øker gjennomstrømningen 3 ganger mer enn den forrige Ready Solution.

Oversikt
Genekspresjonsanalyse er like viktig som å identifisere Single Nucleotide Polymorphism (SNP), innsetting / sletting (indel) eller kromosomal restrukturering. Til slutt avhenger hele fysiologiske og biokjemiske hendelser av de endelige genuttrykksproduktene, proteiner. Selv om de fleste pattedyr har et ekstra kontrollerende lag før proteinuttrykk, vet hvor mange transkripsjoner som finnes i et system å karakterisere den biokjemiske statusen til en celle. Ideelt sett gjør en teknologi oss i stand til å kvantifisere hele proteiner i en celle som kan utmerke seg i utviklingen av Life Science betydelig; Vi er imidlertid langt fra å oppnå det. 
Her, i denne bloggen, tester vi en populær RNA-Seq dataanalyserørledning kjent som Tuxedo-rørledningen (1). Tuxedo-rørledningspakkenDenne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies. tilbyr et sett med verktøy for å analysere en rekke RNA-Seq-data, inkludert kortlest kartlegging, identifisering av spleisekryss, transkripsjon og isoformdeteksjon, differensialuttrykk, visualiseringer og kvalitetskontrollmålinger. De detaljerte trinnene i pipelinen er vist i figur 1. Denne oppdaterte versjonen av Tuxedo-rørledningen inkluderer Cuffquant-trinn sammenlignet med den gamle versjonen som ble testet i forrige blogg (2).

Figur 1 Oppdatert smokingrørledning med Cuffquant StepFigur 1 Oppdatert smokingpipeline med Cuffquant Step

Konfigurasjonene til testklyngen er oppsummert i tabell 1.

Tabell 1 Testet konfigurasjon av databehandlingsnode

Dell EMC PowerEdge C6420

CPU

2 x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)

RAM

12x 16GB @2933 MT/s

OPERATIVSYSTEM

RHEL 7.6

Interconnect

Intel® Omni-Path

BIOS-systemprofil

Optimert ytelse

Logisk prosessor

Deaktivert

Virtualiserings-teknologi

Deaktivert

Tophat

2.1.1

Sløyfe2

2.2.5

R

3.6

Bioleder-Cummerbund

2.26.0


De testede databehandlingsnodene ble koblet til Dell EMC Ready Solution for Lustre Storage via Intel® Omni-Path (3). Sammendragskonfigurasjonen av lagringen er oppført i tabell 2.

Tabell 2: Spesifikasjoner for maskinvare- og programvareløsninger for Lustre Storage Solution

Dell EMC Ready Solution for Lustre Storage

Antall noder

1 Dell EMC PowerEdge R640 som integrert leder for Lustre (IML)
2 Dell EMC PowerEdge R740 som metadataserver (MDS)
2 Dell EMC PowerEdge R740 som objektlagringsserver (OSS)

Prosessorer

IML-server: Dobbel Intel Xeon Gold 5118 @ 2,3 GHz
MDS- og OSS-servere: Dobbel Intel Xeon Gold 6136 @ 3,00 GHz

Minne

IML-server: 12 x 8 GB, 2 666 MT/s, DDR4, RDIMM-er
MDS- og OSS-servere: 24 x 16 GiB, 2 666 MT/s, DDR4, RDIMM-er

Ekstern lagring
Kontrollere

2 x Dell 12 Gb/s SAS HBA-er (på hver MDS)
4 x Dell 12 Gb/s SAS HBA-er (på hvert operativsystem)

Objektlagring
Vedlegg

4x ME4084 med totalt 336 x 8 TB NL SAS-harddisker med 7200 o/min

Metadatalagring
innhegning

1 ME4024 med 24 x 960 GB SAS SSD-er. Støtter opptil 4.688B filer/inoder

RAID-kontrollere

Tosidig RAID i ME4084- og ME4024-kabinetter

Operativsystem

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7,5 x86_64

Kjerneversjon

3.10.0-862.el7.x86_64

BIOS-versjon

1.4.5

Intel Omni-Path
IFS versjon

10.8.0.0

Lustre-filsystem
versjon

2.10.4

IML-versjon

4.0.7.0


En ytelsesstudie av RNA-Seq-pipeline er ikke triviell fordi naturarbeidsflyten krever ikke-identiske inndatafiler. 185 RNA-Seq par-end lesedata samles inn fra et offentlig datalagerDenne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies.. Alle de leste datafilene inneholder rundt 25 millioner fragmenter (MF) og har lignende leselengder. Eksemplene for en test tilfeldig valgt fra utvalget av 185 sammenkoblede lesefiler. Selv om disse tilfeldig valgte dataene ikke vil ha noen biologisk betydning, vil disse dataene med høyt støynivå absolutt sette testene på det verste tilfellet.
Ytelsesevaluering
Test
med to utvalgI figur 2 er kjøretiden for hvert trinn plottet. Testen ble kjørt i to beregningsnoder med to prøver som inneholdt omtrent 25 millioner leste RNA-Seq-data. Tophat-trinnet starter for hver prøve på en databehandlingsnode parallelt. Deretter begynner mansjettknappene når Tophat er ferdig. Cuffmerge trinn kombinerer resultatene fra de to mansjettknappene løpene. Cuffquant-trinn legges til for å kvantifisere genuttrykk i hver prøve, og resultatene undersøkes videre i Cuffdiff- og Cuffnorm-trinn. Siste trinn, CummeRbund er en statistisk analyse trinn fra CummeRbund R-pakke, og det generere en visualisert rapport som vist i figur 2.

Figur 2 Total kjøretid for Tuxedo-pipeline med to prøver: SRR1608490 og SRR934809.Figur 2 Total kjøretid for Tuxedo-pipeline med to prøver: SRR1608490 og SRR934809.

Figur 3 viser differensielt uttrykte gener fra 8 prøvekjøringer (hver prøve består av 4 duplikater) i rødt med signifikant lavere p-verdier (Y-akse) sammenlignet med andre genuttrykk illustrert i svart1. X-akse er foldeendringer i loggbase på 2, og disse foldeendringene av hvert gen plottes mot p-verdier. Flere prøver vil gi en bedre estimering av genuttrykk. Høyre øvre plott er genuttrykk i prøve 2 i sammenligning med prøve 1, mens venstre nedre plott er genuttrykk i prøve 1 sammenlignet med prøve 2. Genuttrykk i svarte prikker er ikke signifikant forskjellige i begge prøvene.


Figur 3 Vulkanplottet til Cuffdiff-resultateneFigur 3 Vulkanplottet til Cuffdiff-resultatene
Gjennomstrømningstest - Enkel rørledning med mer enn to prøver, biologiske og tekniske duplikater
Typiske RNA-Seq-studier består av flere prøver, noen ganger 100s av forskjellige prøver, normal versus sykdom eller ubehandlede versus behandlede prøver. Disse prøvene har en tendens til å ha høyt støynivå på grunn av deres biologiske årsaker; Derfor krever analysen kraftig databehandlingsprosedyre.
 
Vi testet ulike antall prøver (alle forskjellige RNA-Seq-data valgt fra 185 sammenkoblede lesedatasett) for å se hvor mye data som kan behandles av 8 noder i en PowerEdge C6420-klynge. Som vist i figur 4 vokser kjøretidene med 2, 4, 8, 16, 32 og 64 prøver eksponentielt når antall prøver øker. Antallet milliarder fragmenter/dag økte nesten tre ganger med Cascade Lake 6248/LustreME4-lagring og den oppdaterte rørledningen.

Figur 4 Gjennomstrømningssammenligninger med 8x C6420s mellom Cascade Lake 6248/LustreME4 og Skylake 6148/H600Figur 4 Gjennomstrømningssammenligninger med 8x C6420s mellom Cascade Lake 6248/LustreME4 og Skylake 6148/H600

Mansjetttrinnet avtar ikke ettersom antall prøver vokser, mens Cuffdiff- og Cuffnorm-trinnene avtar betydelig. Spesielt blir Cuffdiff-trinnet en flaskehals for rørledningen siden kjøretiden vokser eksponentielt (figur 5). Selv om Cuffnorms kjøretid øker eksponentielt som Cuffdiff, er den uvitende siden Cuffnorms kjøretid er begrenset av Cuffdiffs kjøretid.  Å legge til Cuffquant-trinnet forbedret kjøretiden til Cuffdiff betydelig. 30 timers kjøretidsreduksjon på Cuffdiff-trinnet, og Cuffnorm fullførte 20 timer raskere med Cuffquant-trinnet. Selv om ytelsesgevinsten fra Cuffnorm ikke er synlig siden Cuffdiff og Cuffnorm starter samtidig.


Figur 5 Kjøretidsøkning på Cuffdiff og Cuffnorm
Figur 5 Kjøretidsøkning på Cuffdiff og Cuffnorm
Konklusjon
Resultatene fra gjennomstrømningstesten viser at 8 PowerEdge C6420-noder med Lustre-lagring kan behandle omtrent 2,7 milliarder fragmenter fra 64 prøver med ~50 millioner parrede avlesninger hver (25 MF) gjennom Tuxedo-rørledningen illustrert i figur 1. Siden Tuxedo-rørledningen er relativt raskere enn andre populære rørledninger, er det vanskelig å generalisere eller utnytte disse resultatene for å dimensjonere et HPC-system nøyaktig. Resultatene kan imidlertid bidra til å gjøre en grov estimering av størrelsen på HPC-systemet.
 
Ressurser
1. RNA-seq differensialgenuttrykk: Grunnleggende opplæring. [På nett] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Denne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies.
2. Ytelsesprøve for RNA-Seq-rørledning med Dell EMC Ready Bundle for HPC-biovitenskap. [På nett] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Denne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies.
3. Dell EMC Ready Solution for HPC Lustre Storage. [Lenke død per 07/2024]

Merk: Disse er tilfeldig valgt fra en pool av prøver uten noen meningsfulle assosiasjoner mellom dem.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
Article Properties
Article Number: 000124142
Article Type: How To
Last Modified: 25 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.