Obs! Artikel skriven av Kihoon Yoon på HPC och AI Innovation Lab i december 2019
Ny maskinvara och uppdaterad pipeline ökar tillsammans genomströmningen tre gånger mer jämfört med den tidigare Ready Solution.
Överblick
Analys av genuttryck är lika viktigt som att identifiera Single Nucleotide Polymorphism (SNP), insättning/radering (indel) eller kromosomal omstrukturering. Så småningom beror hela de fysiologiska och biokemiska händelserna på de slutliga genuttrycksprodukterna, proteinerna. Även om de flesta däggdjur har ett extra kontrollerande lager före proteinuttryck, hjälper vetskapen om hur många transkript som finns i ett system till att karakterisera en cells biokemiska status. I idealfallet gör en teknik det möjligt för oss att kvantifiera hela proteinerna i en cell som skulle kunna utmärka sig avsevärt i utvecklingen av Life Science; Men vi är långt ifrån att uppnå det.
Här, i den här bloggen, testar vi en populär RNA-Seq-dataanalyspipeline känd som Tuxedo-pipelinen (1). Tuxedo-pipeline-sviten erbjuder en uppsättning verktyg för att analysera en mängd olika RNA-Seq-data, inklusive kortläsningskartläggning, identifiering av skarvövergångar, transkript- och isoformdetektion, differentiellt uttryck, visualiseringar och kvalitetskontrollmått. De detaljerade stegen i pipelinen visas i bild 1. Den här uppdaterade versionen av Tuxedo-pipelinen innehåller Cuffquant-steg jämfört med den gamla versionen som testades i föregående blogg (2).
Bild 1 Uppdaterad Tuxedo Pipeline med Cuffquant Step
Testklustrets konfigurationer sammanfattas i tabell 1.
Tabell 1 Testad konfiguration av beräkningsnod |
|
Dell EMC PowerEdge C6420 |
|
Processor |
2x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake) |
RAM |
12x 16 GB @2933 MT/s |
ÅS |
RHEL 7.6 |
Interconnect |
Intel® Omni-Path |
BIOS-systemprofil |
Prestandaoptimerad |
Logisk processor |
Disabled (avaktiverad) |
Virtualiseringsteknik |
Disabled (avaktiverad) |
hög hatt |
2.1.1 |
fluga2 |
2.2.5 |
R |
3.6 |
bioledare-gördel |
2.26.0 |
De datornoder som testades anslöts till Dell EMC Ready Solution för Lustre-lagring via Intel® Omni-Path (3). Den sammanfattande konfigurationen av lagringen visas i tabell 2.
Tabell 2: Lustre-lagringslösning – hård- och mjukvaruspecifikationer |
|
Dell EMC Ready Solution för Lustre-lagring |
|
Antal noder |
1 × Dell EMC PowerEdge R640 som integrerad hanterare för Lustre (IML) |
Processorer |
IML-server: Dubbel Intel Xeon Gold 5118 @ 2,3 GHz |
Minne |
IML-server: 12 x 8 GB 2 666 MT/s DDR4 RDIMM |
Extern lagring |
2 × Dell SAS-värdbussadaptrar på 12 Gbit/s (på varje MDS) |
Objektlagring |
4 × ME4084 med totalt 336 × 8 TB NL SAS-hårddiskar på 7 200 v/min |
Lagring av |
1 × ME4024 med 24 × 960 GB SAS SSD-hårddiskar. Stöder upp till 4,688B filer/inoder |
RAID-styrenheter |
Duplex RAID i ME4084- och ME4024-höljen |
Operativsystem |
CentOS 7.5 x86_64 |
Kernel-version |
3.10.0-862.el7.x86_64 |
BIOS-version |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Lyster-filsystem |
2.10.4 |
IML-version |
4.0.7.0 |
En prestandastudie av RNA-Seq-pipelinen är inte trivial eftersom naturarbetsflödet kräver icke-identiska indatafiler. 185 RNA-Seq-parade läsdata samlas in från ett offentligt datalager. – Herr talman, Alla läsdatafiler innehåller cirka 25 miljoner fragment (MF) och har liknande läslängder. Exemplen för ett test slumpmässigt valt från poolen med 185 parade läsfiler. Även om dessa slumpmässigt utvalda data inte kommer att ha någon biologisk betydelse, kommer dessa data med hög brusnivå säkerligen att sätta testerna på det värsta tänkbara scenariot.
Utvärdering av
prestandaTest
med två samplerI bild 2 ritas körningen för varje steg. Testet kördes i två beräkningsnoder med två prover som innehöll cirka 25 miljoner lästa RNA-Seq-data. Tophat-steget startar för varje exempel på en beräkningsnod parallellt. Därefter börjar Manschettknappar när Tophat är klar. Cuffmerge-steget kombinerar resultaten från de två körningarna av manschettknappar. Cuffquant step läggs till för att kvantifiera genuttryck i varje prov, och resultaten undersöks vidare i Cuffdiff och Cuffnorm steg. Sista steget, CummeRbund är ett statistiskt analyssteg från CummeRbund R-package, och det genererar en visualiserad rapport som visas i bild 2.
Bild 2 Total körning för Tuxedo-pipeline med två exempel: SRR1608490 och SRR934809.
Figur 3 visar differentiellt uttryckta gener från 8 provkörningar (varje prov består av 4 dubbletter) i rött med signifikant lägre p-värden (Y-axel) jämfört med andra genuttryck illustrerade i svart1. veckor X-axeln är veckförändringar i logaritmbasen på 2, och dessa veckförändringar av varje gen plottas mot p-värden. Fler prover kommer att ge en bättre uppskattning av genuttrycket. Det övre högra diagrammet är genuttryck i prov 2 i jämförelse med prov 1, medan det vänstra nedre diagrammet är genuttryck i prov 1 jämfört med prov 2. Genuttryck i svarta prickar skiljer sig inte nämnvärt åt i de båda proverna.
Figur 3 Vulkandiagram över resultaten
från CuffdiffGenomströmningstest – En rörledning med fler än två prover, biologiska och tekniska dubbletter
Typiska RNA-Seq-studier består av flera prover, ibland 100-tals olika prover, normala kontra sjuka eller obehandlade kontra behandlade prover. Dessa prover tenderar att ha hög ljudnivå på grund av deras biologiska orsaker; Därför kräver analysen ett kraftfullt förfarande för förbehandling av data.
Vi testade olika antal prover (alla olika RNA-Seq-data utvalda från 185 dataset med parade avläsningar) för att se hur mycket data som kan bearbetas av 8 noder i ett PowerEdge C6420-kluster. Som du ser i bild 4 växer körtiderna med 2, 4, 8, 16, 32 och 64 exempel exponentiellt när antalet exempel ökar. Antalet miljarder fragment/dag ökade nästan tre gånger med Cascade Lake 6248/LustreME4-lagring och den uppdaterade pipelinen.
Figur 4 Genomströmningsjämförelser med 8x C6420s mellan Cascade Lake 6248/LustreME4 och Skylake 6148/H600
Cuffmerge-steget saktar inte ner eftersom antalet prover växer medan Cuffdiff- och Cuffnorm-stegen saktar ner avsevärt. Särskilt Cuffdiff-steget blir en flaskhals för pipelinen eftersom körningstiden växer exponentiellt (bild 5). Även om Cuffnorms körtid ökar exponentiellt som Cuffdiff, kan den ignoreras eftersom Cuffnorms körtid begränsas av Cuffdiffs körning. Att lägga till Cuffquant step förbättrade körtiden för Cuffdiff avsevärt. 30 timmars minskad körtid på Cuffdiff step, och Cuffnorm slutfördes 20 timmar snabbare med Cuffquant step. Även om prestandavinsten från Cuffnorm inte syns eftersom Cuffdiff och Cuffnorm startar samtidigt.
Bild 5 Körtidsökning på Cuffdiff och Cuffnorm
Slutsats
Testresultaten för genomströmningstestet visar att PowerEdge C6420s-enheter med 8 noder och Lustre-lagring kan bearbeta ungefär 2,7 miljarder fragment från 64 samplingar med ~50 miljoner parade läsningar vardera (25 MF) via Tuxedo-pipelinen som visas i bild 1. Eftersom Tuxedo-pipelinen är relativt snabbare än andra populära pipelines är det svårt att generalisera eller använda dessa resultat för att dimensionera ett HPC-system korrekt. Resultaten kan dock hjälpa till att göra en grov uppskattning av HPC-systemets storlek.
Resurser
1. veckor RNA-Seq differentiellt genuttryck: Grundläggande handledning. [Uppkopplad] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. veckor Prestandatest för RNA-Seq-pipeline med Dell EMC Ready Bundle för HPC biovetenskap. [Uppkopplad] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. veckor Dell EMC Ready Solution för HPC Lustre-lagring. [Länk död från och med 07/2024]
Anm.: Dessa väljs slumpmässigt ut från en pool av urval utan några meningsfulla associationer mellan dem.