Article Number: 000124142

Dell EMC-parat løsning til HPC Life Sciences: Tuxedo-pipeline med Cascade Lake CPU og Lustre/ME4-opdatering

Summary: Denne artikel dækker hvidbogen med titlen "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline med Cascade Lake CPU og Lustre/ME4 Refresh".

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Instructions

Bemærk: Artikel skrevet af Kihoon Yoon fra HPC og AI Innovation Lab i december 2019
Ny hardware og opdateret pipeline øger tilsammen overførselshastigheden 3 gange mere i forhold til den tidligere Ready Solution.

Overblik
Genekspressionsanalyse er lige så vigtig som at identificere Single Nucleotide Polymorphism (SNP), insertion/deletion (indel) eller kromosomal omstrukturering. Til sidst afhænger hele de fysiologiske og biokemiske begivenheder af de endelige genekspressionsprodukter, proteiner. Selvom de fleste pattedyr har et ekstra kontrollerende lag før proteinekspression, hjælper det at vide, hvor mange transkripter der findes i et system, med at karakterisere en celles biokemiske status. Ideelt set giver en teknologi os mulighed for at kvantificere hele proteinerne i en celle, der kunne udmærke sig i Life Science-fremskridtene betydeligt; Vi er dog langt fra at nå det.
Her i denne blog tester vi en populær RNA-Seq-dataanalysepipeline kendt som Tuxedo-rørledningen (1). Tuxedo-pipelinepakken tilbyder et sæt værktøjer til analyse af en række RNA-Seq-data, herunder kortlæst kortlægning, identifikation af splejsningskryds, transkript- og isoformdetektion, differentiel ekspression, visualiseringer og kvalitetskontrolmålinger. De detaljerede trin i pipelinen er vist i figur 1. Denne opdaterede version af Tuxedo-rørledningen inkluderer Cuffquant-trin, der sammenligner med den gamle version, der blev testet i den forrige blog (2).

Figur 1 Opdateret Tuxedo-rørledning med manchetkvantetrin Figur 1 Opdateret Tuxedo Pipeline med Cuffquant Step

Testklyngens konfigurationer er opsummeret i tabel 1.

Tabel 1 Testet konfiguration af beregningsnode
Dell EMC PowerEdge C6420
CPU	2x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)
RAM	12 x 16 GB @2933 MT/sek.
OPERATIVSYSTEM	RHEL 7.6
Interconnect	Intel® Omni-Path
BIOS-systemprofil	Ydeevneoptimeret
Logisk processor	Disabled
Virtualiseringsteknologi	Disabled
Tophat	2.1.1
Butterfly2	2.2.5
R	3.6
Bioconductor-Cummerbund	2.26.0

De testede computernoder blev tilsluttet Dell EMC Ready Solution for Luster Storage via Intel^® Omni-Path (3). Den sammenfattende konfiguration af lageret er angivet i tabel 2.

Tabel 2 Luster Storage Solution-hardware- og softwarespecifikationer
Dell EMC-parat løsning til Luster Storage
Antal noder	1x Dell EMC PowerEdge R640 som integreret administrator for Luster (IML) 2x Dell EMC PowerEdge R740 som metadataserver (MDS) 2x Dell EMC PowerEdge R740 som objektstorageserver (OSS)
Processorer	IML-server: Dobbelt Intel Xeon Gold 5118 @ 2,3 GHz MDS- og OSS-servere: Dobbelt Intel Xeon Gold 6136 @ 3,00 GHz
Hukommelse	IML-server: 12 x 8 GB: 2.666 MT/sek., DDR4 RDIMM'er MDS- og OSS-servere: 24 x 16 GiB, 2.666 MT/sek., DDR4 RDIMM'er
Ekstern storage Controllere	2 x Dell 12 Gb/s SAS HBA'er (på hver MDS) 4 x Dell 12 Gb/s SAS HBA'er (på hver one-stop-shop)
Objektstorage Kabinetter	4 x ME4084 med i alt 336 x 8 TB NL 7.2K RPM SAS-harddiske
Lagring af metadataindhegning	1 x ME4024 med 24 x 960 GB SAS SSD'er. Understøtter op til 4.688B filer/inoder
RAID-controllere	Dupleks-RAID i ME4084- og ME4024-kabinetterne
Operativsystem	CentOS 7.5-x86_64 Red Hat Enterprise Linux (RHEL) 7.5-x86_64
Kerneversion	3.10.0-862.el7.x86_64
BIOS-version	1.4.5
Intel Omni-Path IFS-version	10.8.0.0
Luster filsystem version	2.10.4
IML-version	4.0.7.0

En præstationsundersøgelse af RNA-Seq-pipeline er ikke triviel, fordi naturarbejdsgangen kræver ikke-identiske inputfiler. 185 RNA-Seq-parrede læsedata indsamles fra et offentligt datalager. Alle de læste datafiler indeholder omkring 25 millioner fragmenter (MF) og har lignende læselængder. Prøverne til en test blev tilfældigt udvalgt fra puljen på 185 parrede læsefiler. Selvom disse tilfældigt udvalgte data ikke vil have nogen biologisk betydning, vil disse data med højt støjniveau helt sikkert sætte testene på det værst tænkelige scenario.
Evaluering af ydeevne
Test med to prøver
I figur 2 afbildes kørselstiden for hvert trin. Testen blev kørt i to beregningsnoder med to prøver, der indeholdt ca. 25 millioner læste RNA-Seq-data. Tophat-trinnet starter parallelt for hver prøve på en beregningsnode. Derefter begynder manchetknapper efter færdiggørelsen af Tophat. Cuffmerge trin kombinerer resultaterne fra de to Cufflinks kørsler. Cuffquant trin tilføjes for at kvantificere genekspressioner i hver prøve, og resultaterne undersøges yderligere i Cuffdiff og Cuffnorm trin. Sidste trin, CummeRbund er et statistisk analysetrin fra CummeRbund R-pakke, og det genererer en visualiseret rapport som vist i figur 2.

Figur 2 Samlet driftstid for Tuxedo-rørledningen med to prøver: SRR1608490 og SRR934809. Figur 2 Samlet driftstid for Tuxedo-rørledningen med to prøver: SRR1608490 og SRR934809.

Figur 3 viser differentielt udtrykte gener fra 8 prøvekørsler (hver prøve består af 4 dubletter) i rødt med signifikant lavere p-værdier (Y-akse) sammenlignet med andre genekspressioner illustreret med sort 1. X-aksen er foldændringer i logbasen på 2, og disse foldændringer af hvert gen plottes mod p-værdier. Flere prøver vil give en bedre estimering af genekspression. Det højre øvre plot er genekspressioner i prøve 2 i sammenligning med prøve 1, mens det venstre nederste plot er genekspressioner i prøve 1 sammenlignet med prøve 2. Genekspressioner i sorte prikker er ikke signifikant forskellige i begge prøver.

Figur 3 Vulkanplot af Cuffdiff resultater
Gennemløbstest - Enkelt rørledning med mere end to prøver, biologiske og tekniske dubletter
Typiske RNA-Seq-undersøgelser består af flere prøver, nogle gange 100'er af forskellige prøver, normale versus sygdom eller ubehandlede versus behandlede prøver. Disse prøver har tendens til at have et højt støjniveau på grund af deres biologiske årsager; Derfor kræver analysen en kraftig dataforbehandlingsprocedure.

Vi testede forskellige antal prøver (alle forskellige RNA-Seq-data udvalgt fra 185 parrede og læste datasæt) for at se, hvor mange data der kan behandles af 8 noder i en PowerEdge C6420-klynge. Som vist i figur 4 vokser kørselstiderne med 2, 4, 8, 16, 32 og 64 prøver eksponentielt, når antallet af prøver stiger. Antallet af milliardfragmenter/dag steg næsten tre gange med Cascade Lake 6248/LustreME4-lagring og den opdaterede pipeline.

Figur 4: Gennemløbssammenligninger med 8x C6420s mellem Cascade Lake 6248/LustreME4 og Skylake 6148/H600

Cuffmerge trin bremser ikke, da antallet af prøver vokser, mens Cuffdiff og Cuffnorm trin bremser betydeligt. Især Cuffdiff-trin bliver en flaskehals for rørledningen, da driftstiden vokser eksponentielt (figur 5). Selvom Cuffnorms runtime stiger eksponentielt ligesom Cuffdiff, er den uvidende, da Cuffnorms runtime er afgrænset af Cuffdiffs runtime. Tilføjelse af Cuffquant-trin forbedrede driftstiden for Cuffdiff betydeligt. 30 timers driftstidsreduktion på Cuffdiff-trin, og Cuffnorm gennemførte 20 timer hurtigere med Cuffquant-trin. Selvom præstationsgevinsten fra Cuffnorm ikke er synlig, da Cuffdiff og Cuffnorm starter på samme tid.

Figur 5 Runtime-forøgelse på Cuffdiff og Cuffnorm
Figur 5 Runtime-forøgelse på Cuffdiff og Cuffnorm
Konklusion
Gennemløbstestresultaterne viser, at PowerEdge C6420'er med 8 noder og Luster Storage kan behandle ca. 2,7 milliarder fragmenter fra 64 prøver med ~50 millioner parrede læsninger hver (25 MF) gennem Tuxedo-rørledningen illustreret i figur 1. Da Tuxedo-rørledningen er relativt hurtigere end andre populære rørledninger, er det svært at generalisere eller udnytte disse resultater til at dimensionere et HPC-system nøjagtigt. Resultaterne kan dog hjælpe med at foretage et groft skøn over størrelsen af HPC-systemet.

Ressourcer
1. RNA-Seq differentiel genekspression: Grundlæggende vejledning. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Benchmark for RNA-Seq-pipeline med Dell EMC Ready Bundle til HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC-parat løsning til HPC Luster Storage. [Link død pr. 07/2024]

Bemærk: Disse er tilfældigt udvalgt fra en pulje af prøver uden nogen meningsfulde foreninger blandt dem.

Article Properties

Affected Product

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

Dell EMC-parat løsning til HPC Life Sciences: Tuxedo-pipeline med Cascade Lake CPU og Lustre/ME4-opdatering

Summary: Denne artikel dækker hvidbogen med titlen "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline med Cascade Lake CPU og Lustre/ME4 Refresh".

Article Content

Instructions

Article Properties

Affected Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

Dell EMC-parat løsning til HPC Life Sciences: Tuxedo-pipeline med Cascade Lake CPU og Lustre/ME4-opdatering

Summary: Denne artikel dækker hvidbogen med titlen "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline med Cascade Lake CPU og Lustre/ME4 Refresh".

Article Content

Instructions

Article Properties

Affected Product

Last Published Date

Version

Article Type