Bemærk: Artikel skrevet af Kihoon Yoon fra HPC og AI Innovation Lab i december 2019
Ny hardware og opdateret pipeline øger tilsammen overførselshastigheden 3 gange mere i forhold til den tidligere Ready Solution.
Overblik
Genekspressionsanalyse er lige så vigtig som at identificere Single Nucleotide Polymorphism (SNP), insertion/deletion (indel) eller kromosomal omstrukturering. Til sidst afhænger hele de fysiologiske og biokemiske begivenheder af de endelige genekspressionsprodukter, proteiner. Selvom de fleste pattedyr har et ekstra kontrollerende lag før proteinekspression, hjælper det at vide, hvor mange transkripter der findes i et system, med at karakterisere en celles biokemiske status. Ideelt set giver en teknologi os mulighed for at kvantificere hele proteinerne i en celle, der kunne udmærke sig i Life Science-fremskridtene betydeligt; Vi er dog langt fra at nå det.
Her i denne blog tester vi en populær RNA-Seq-dataanalysepipeline kendt som Tuxedo-rørledningen (1). Tuxedo-pipelinepakken tilbyder et sæt værktøjer til analyse af en række RNA-Seq-data, herunder kortlæst kortlægning, identifikation af splejsningskryds, transkript- og isoformdetektion, differentiel ekspression, visualiseringer og kvalitetskontrolmålinger. De detaljerede trin i pipelinen er vist i figur 1. Denne opdaterede version af Tuxedo-rørledningen inkluderer Cuffquant-trin, der sammenligner med den gamle version, der blev testet i den forrige blog (2).
Figur 1 Opdateret Tuxedo Pipeline med Cuffquant Step
Testklyngens konfigurationer er opsummeret i tabel 1.
Tabel 1 Testet konfiguration af beregningsnode |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake) |
RAM |
12 x 16 GB @2933 MT/sek. |
OPERATIVSYSTEM |
RHEL 7.6 |
Interconnect |
Intel® Omni-Path |
BIOS-systemprofil |
Ydeevneoptimeret |
Logisk processor |
Disabled |
Virtualiseringsteknologi |
Disabled |
Tophat |
2.1.1 |
Butterfly2 |
2.2.5 |
R |
3.6 |
Bioconductor-Cummerbund |
2.26.0 |
De testede computernoder blev tilsluttet Dell EMC Ready Solution for Luster Storage via Intel® Omni-Path (3). Den sammenfattende konfiguration af lageret er angivet i tabel 2.
Tabel 2 Luster Storage Solution-hardware- og softwarespecifikationer |
|
Dell EMC-parat løsning til Luster Storage |
|
Antal noder |
1x Dell EMC PowerEdge R640 som integreret administrator for Luster (IML) |
Processorer |
IML-server: Dobbelt Intel Xeon Gold 5118 @ 2,3 GHz |
Hukommelse |
IML-server: 12 x 8 GB: 2.666 MT/sek., DDR4 RDIMM'er |
Ekstern storage |
2 x Dell 12 Gb/s SAS HBA'er (på hver MDS) |
Objektstorage |
4 x ME4084 med i alt 336 x 8 TB NL 7.2K RPM SAS-harddiske |
Lagring af |
1 x ME4024 med 24 x 960 GB SAS SSD'er. Understøtter op til 4.688B filer/inoder |
RAID-controllere |
Dupleks-RAID i ME4084- og ME4024-kabinetterne |
Operativsystem |
CentOS 7.5-x86_64 |
Kerneversion |
3.10.0-862.el7.x86_64 |
BIOS-version |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Luster filsystem |
2.10.4 |
IML-version |
4.0.7.0 |
En præstationsundersøgelse af RNA-Seq-pipeline er ikke triviel, fordi naturarbejdsgangen kræver ikke-identiske inputfiler. 185 RNA-Seq-parrede læsedata indsamles fra et offentligt datalager. Alle de læste datafiler indeholder omkring 25 millioner fragmenter (MF) og har lignende læselængder. Prøverne til en test blev tilfældigt udvalgt fra puljen på 185 parrede læsefiler. Selvom disse tilfældigt udvalgte data ikke vil have nogen biologisk betydning, vil disse data med højt støjniveau helt sikkert sætte testene på det værst tænkelige scenario.
Evaluering af ydeevne
Test med to prøver
I figur 2 afbildes kørselstiden for hvert trin. Testen blev kørt i to beregningsnoder med to prøver, der indeholdt ca. 25 millioner læste RNA-Seq-data. Tophat-trinnet starter parallelt for hver prøve på en beregningsnode. Derefter begynder manchetknapper efter færdiggørelsen af Tophat. Cuffmerge trin kombinerer resultaterne fra de to Cufflinks kørsler. Cuffquant trin tilføjes for at kvantificere genekspressioner i hver prøve, og resultaterne undersøges yderligere i Cuffdiff og Cuffnorm trin. Sidste trin, CummeRbund er et statistisk analysetrin fra CummeRbund R-pakke, og det genererer en visualiseret rapport som vist i figur 2.
Figur 2 Samlet driftstid for Tuxedo-rørledningen med to prøver: SRR1608490 og SRR934809.
Figur 3 viser differentielt udtrykte gener fra 8 prøvekørsler (hver prøve består af 4 dubletter) i rødt med signifikant lavere p-værdier (Y-akse) sammenlignet med andre genekspressioner illustreret med sort1. X-aksen er foldændringer i logbasen på 2, og disse foldændringer af hvert gen plottes mod p-værdier. Flere prøver vil give en bedre estimering af genekspression. Det højre øvre plot er genekspressioner i prøve 2 i sammenligning med prøve 1, mens det venstre nederste plot er genekspressioner i prøve 1 sammenlignet med prøve 2. Genekspressioner i sorte prikker er ikke signifikant forskellige i begge prøver.
Figur 3 Vulkanplot af Cuffdiff resultater
Gennemløbstest - Enkelt rørledning med mere end to prøver, biologiske og tekniske dubletter
Typiske RNA-Seq-undersøgelser består af flere prøver, nogle gange 100'er af forskellige prøver, normale versus sygdom eller ubehandlede versus behandlede prøver. Disse prøver har tendens til at have et højt støjniveau på grund af deres biologiske årsager; Derfor kræver analysen en kraftig dataforbehandlingsprocedure.
Vi testede forskellige antal prøver (alle forskellige RNA-Seq-data udvalgt fra 185 parrede og læste datasæt) for at se, hvor mange data der kan behandles af 8 noder i en PowerEdge C6420-klynge. Som vist i figur 4 vokser kørselstiderne med 2, 4, 8, 16, 32 og 64 prøver eksponentielt, når antallet af prøver stiger. Antallet af milliardfragmenter/dag steg næsten tre gange med Cascade Lake 6248/LustreME4-lagring og den opdaterede pipeline.
Figur 4: Gennemløbssammenligninger med 8x C6420s mellem Cascade Lake 6248/LustreME4 og Skylake 6148/H600
Cuffmerge trin bremser ikke, da antallet af prøver vokser, mens Cuffdiff og Cuffnorm trin bremser betydeligt. Især Cuffdiff-trin bliver en flaskehals for rørledningen, da driftstiden vokser eksponentielt (figur 5). Selvom Cuffnorms runtime stiger eksponentielt ligesom Cuffdiff, er den uvidende, da Cuffnorms runtime er afgrænset af Cuffdiffs runtime. Tilføjelse af Cuffquant-trin forbedrede driftstiden for Cuffdiff betydeligt. 30 timers driftstidsreduktion på Cuffdiff-trin, og Cuffnorm gennemførte 20 timer hurtigere med Cuffquant-trin. Selvom præstationsgevinsten fra Cuffnorm ikke er synlig, da Cuffdiff og Cuffnorm starter på samme tid.
Figur 5 Runtime-forøgelse på Cuffdiff og Cuffnorm
Konklusion
Gennemløbstestresultaterne viser, at PowerEdge C6420'er med 8 noder og Luster Storage kan behandle ca. 2,7 milliarder fragmenter fra 64 prøver med ~50 millioner parrede læsninger hver (25 MF) gennem Tuxedo-rørledningen illustreret i figur 1. Da Tuxedo-rørledningen er relativt hurtigere end andre populære rørledninger, er det svært at generalisere eller udnytte disse resultater til at dimensionere et HPC-system nøjagtigt. Resultaterne kan dog hjælpe med at foretage et groft skøn over størrelsen af HPC-systemet.
Ressourcer
1. RNA-Seq differentiel genekspression: Grundlæggende vejledning. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Benchmark for RNA-Seq-pipeline med Dell EMC Ready Bundle til HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC-parat løsning til HPC Luster Storage. [Link død pr. 07/2024]
Bemærk: Disse er tilfældigt udvalgt fra en pulje af prøver uden nogen meningsfulde foreninger blandt dem.