Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Dell EMC-parat løsning til HPC Life Sciences: Tuxedo-pipeline med Cascade Lake CPU og Lustre/ME4-opdatering

Summary: Denne artikel dækker hvidbogen med titlen "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline med Cascade Lake CPU og Lustre/ME4 Refresh".

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

Bemærk: Artikel skrevet af Kihoon Yoon fra HPC og AI Innovation Lab i december 2019
Ny hardware og opdateret pipeline øger tilsammen overførselshastigheden 3 gange mere i forhold til den tidligere Ready Solution.

Overblik
Genekspressionsanalyse er lige så vigtig som at identificere Single Nucleotide Polymorphism (SNP), insertion/deletion (indel) eller kromosomal omstrukturering. Til sidst afhænger hele de fysiologiske og biokemiske begivenheder af de endelige genekspressionsprodukter, proteiner. Selvom de fleste pattedyr har et ekstra kontrollerende lag før proteinekspression, hjælper det at vide, hvor mange transkripter der findes i et system, med at karakterisere en celles biokemiske status. Ideelt set giver en teknologi os mulighed for at kvantificere hele proteinerne i en celle, der kunne udmærke sig i Life Science-fremskridtene betydeligt; Vi er dog langt fra at nå det. 
Her i denne blog tester vi en populær RNA-Seq-dataanalysepipeline kendt som Tuxedo-rørledningen (1). Tuxedo-pipelinepakkenDette hyperlink fører dig til et websted uden for Dell Technologies. tilbyder et sæt værktøjer til analyse af en række RNA-Seq-data, herunder kortlæst kortlægning, identifikation af splejsningskryds, transkript- og isoformdetektion, differentiel ekspression, visualiseringer og kvalitetskontrolmålinger. De detaljerede trin i pipelinen er vist i figur 1. Denne opdaterede version af Tuxedo-rørledningen inkluderer Cuffquant-trin, der sammenligner med den gamle version, der blev testet i den forrige blog (2).

Figur 1 Opdateret Tuxedo-rørledning med manchetkvantetrinFigur 1 Opdateret Tuxedo Pipeline med Cuffquant Step

Testklyngens konfigurationer er opsummeret i tabel 1.

Tabel 1 Testet konfiguration af beregningsnode

Dell EMC PowerEdge C6420

CPU

2x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)

RAM

12 x 16 GB @2933 MT/sek.

OPERATIVSYSTEM

RHEL 7.6

Interconnect

Intel® Omni-Path

BIOS-systemprofil

Ydeevneoptimeret

Logisk processor

Disabled

Virtualiseringsteknologi

Disabled

Tophat

2.1.1

Butterfly2

2.2.5

R

3.6

Bioconductor-Cummerbund

2.26.0


De testede computernoder blev tilsluttet Dell EMC Ready Solution for Luster Storage via Intel® Omni-Path (3). Den sammenfattende konfiguration af lageret er angivet i tabel 2.

Tabel 2 Luster Storage Solution-hardware- og softwarespecifikationer

Dell EMC-parat løsning til Luster Storage

Antal noder

1x Dell EMC PowerEdge R640 som integreret administrator for Luster (IML)
2x Dell EMC PowerEdge R740 som metadataserver (MDS)
2x Dell EMC PowerEdge R740 som objektstorageserver (OSS)

Processorer

IML-server: Dobbelt Intel Xeon Gold 5118 @ 2,3 GHz
MDS- og OSS-servere: Dobbelt Intel Xeon Gold 6136 @ 3,00 GHz

Hukommelse

IML-server: 12 x 8 GB: 2.666 MT/sek., DDR4 RDIMM'er
MDS- og OSS-servere: 24 x 16 GiB, 2.666 MT/sek., DDR4 RDIMM'er

Ekstern storage
Controllere

2 x Dell 12 Gb/s SAS HBA'er (på hver MDS)
4 x Dell 12 Gb/s SAS HBA'er (på hver one-stop-shop)

Objektstorage
Kabinetter

4 x ME4084 med i alt 336 x 8 TB NL 7.2K RPM SAS-harddiske

Lagring af
metadataindhegning

1 x ME4024 med 24 x 960 GB SAS SSD'er. Understøtter op til 4.688B filer/inoder

RAID-controllere

Dupleks-RAID i ME4084- og ME4024-kabinetterne

Operativsystem

CentOS 7.5-x86_64
Red Hat Enterprise Linux (RHEL) 7.5-x86_64

Kerneversion

3.10.0-862.el7.x86_64

BIOS-version

1.4.5

Intel Omni-Path
IFS-version

10.8.0.0

Luster filsystem
version

2.10.4

IML-version

4.0.7.0


En præstationsundersøgelse af RNA-Seq-pipeline er ikke triviel, fordi naturarbejdsgangen kræver ikke-identiske inputfiler. 185 RNA-Seq-parrede læsedata indsamles fra et offentligt datalagerDette hyperlink fører dig til et websted uden for Dell Technologies.. Alle de læste datafiler indeholder omkring 25 millioner fragmenter (MF) og har lignende læselængder. Prøverne til en test blev tilfældigt udvalgt fra puljen på 185 parrede læsefiler. Selvom disse tilfældigt udvalgte data ikke vil have nogen biologisk betydning, vil disse data med højt støjniveau helt sikkert sætte testene på det værst tænkelige scenario.
Evaluering af ydeevne
Test med to prøver
I figur 2 afbildes kørselstiden for hvert trin. Testen blev kørt i to beregningsnoder med to prøver, der indeholdt ca. 25 millioner læste RNA-Seq-data. Tophat-trinnet starter parallelt for hver prøve på en beregningsnode. Derefter begynder manchetknapper efter færdiggørelsen af Tophat. Cuffmerge trin kombinerer resultaterne fra de to Cufflinks kørsler. Cuffquant trin tilføjes for at kvantificere genekspressioner i hver prøve, og resultaterne undersøges yderligere i Cuffdiff og Cuffnorm trin. Sidste trin, CummeRbund er et statistisk analysetrin fra CummeRbund R-pakke, og det genererer en visualiseret rapport som vist i figur 2.

Figur 2 Samlet driftstid for Tuxedo-rørledningen med to prøver: SRR1608490 og SRR934809.Figur 2 Samlet driftstid for Tuxedo-rørledningen med to prøver: SRR1608490 og SRR934809.

Figur 3 viser differentielt udtrykte gener fra 8 prøvekørsler (hver prøve består af 4 dubletter) i rødt med signifikant lavere p-værdier (Y-akse) sammenlignet med andre genekspressioner illustreret med sort1. X-aksen er foldændringer i logbasen på 2, og disse foldændringer af hvert gen plottes mod p-værdier. Flere prøver vil give en bedre estimering af genekspression. Det højre øvre plot er genekspressioner i prøve 2 i sammenligning med prøve 1, mens det venstre nederste plot er genekspressioner i prøve 1 sammenlignet med prøve 2. Genekspressioner i sorte prikker er ikke signifikant forskellige i begge prøver.


Figur 3 Vulkanplot af Cuffdiff resultaterFigur 3 Vulkanplot af Cuffdiff resultater
Gennemløbstest - Enkelt rørledning med mere end to prøver, biologiske og tekniske dubletter
Typiske RNA-Seq-undersøgelser består af flere prøver, nogle gange 100'er af forskellige prøver, normale versus sygdom eller ubehandlede versus behandlede prøver. Disse prøver har tendens til at have et højt støjniveau på grund af deres biologiske årsager; Derfor kræver analysen en kraftig dataforbehandlingsprocedure.
 
Vi testede forskellige antal prøver (alle forskellige RNA-Seq-data udvalgt fra 185 parrede og læste datasæt) for at se, hvor mange data der kan behandles af 8 noder i en PowerEdge C6420-klynge. Som vist i figur 4 vokser kørselstiderne med 2, 4, 8, 16, 32 og 64 prøver eksponentielt, når antallet af prøver stiger. Antallet af milliardfragmenter/dag steg næsten tre gange med Cascade Lake 6248/LustreME4-lagring og den opdaterede pipeline.

Figur 4: Gennemløbssammenligninger med 8x C6420s mellem Cascade Lake 6248/LustreME4 og Skylake 6148/H600Figur 4: Gennemløbssammenligninger med 8x C6420s mellem Cascade Lake 6248/LustreME4 og Skylake 6148/H600

Cuffmerge trin bremser ikke, da antallet af prøver vokser, mens Cuffdiff og Cuffnorm trin bremser betydeligt. Især Cuffdiff-trin bliver en flaskehals for rørledningen, da driftstiden vokser eksponentielt (figur 5). Selvom Cuffnorms runtime stiger eksponentielt ligesom Cuffdiff, er den uvidende, da Cuffnorms runtime er afgrænset af Cuffdiffs runtime.  Tilføjelse af Cuffquant-trin forbedrede driftstiden for Cuffdiff betydeligt. 30 timers driftstidsreduktion på Cuffdiff-trin, og Cuffnorm gennemførte 20 timer hurtigere med Cuffquant-trin. Selvom præstationsgevinsten fra Cuffnorm ikke er synlig, da Cuffdiff og Cuffnorm starter på samme tid.


Figur 5 Runtime-forøgelse på Cuffdiff og Cuffnorm
Figur 5 Runtime-forøgelse på Cuffdiff og Cuffnorm
Konklusion
Gennemløbstestresultaterne viser, at PowerEdge C6420'er med 8 noder og Luster Storage kan behandle ca. 2,7 milliarder fragmenter fra 64 prøver med ~50 millioner parrede læsninger hver (25 MF) gennem Tuxedo-rørledningen illustreret i figur 1. Da Tuxedo-rørledningen er relativt hurtigere end andre populære rørledninger, er det svært at generalisere eller udnytte disse resultater til at dimensionere et HPC-system nøjagtigt. Resultaterne kan dog hjælpe med at foretage et groft skøn over størrelsen af HPC-systemet.
 
Ressourcer
1. RNA-Seq differentiel genekspression: Grundlæggende vejledning. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Dette hyperlink fører dig til et websted uden for Dell Technologies.
2. Benchmark for RNA-Seq-pipeline med Dell EMC Ready Bundle til HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Dette hyperlink fører dig til et websted uden for Dell Technologies.
3. Dell EMC-parat løsning til HPC Luster Storage. [Link død pr. 07/2024]

Bemærk: Disse er tilfældigt udvalgt fra en pulje af prøver uden nogen meningsfulde foreninger blandt dem.

Article Properties


Affected Product

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

Last Published Date

25 Jul 2024

Version

3

Article Type

How To