Merk: Artikkel skrevet av Kihoon Yoon fra HPC og AI Innovation Lab i desember 2019
Ny maskinvare og oppdatert pipeline øker gjennomstrømningen 3 ganger mer enn den forrige Ready Solution.
Oversikt
Genekspresjonsanalyse er like viktig som å identifisere Single Nucleotide Polymorphism (SNP), innsetting / sletting (indel) eller kromosomal restrukturering. Til slutt avhenger hele fysiologiske og biokjemiske hendelser av de endelige genuttrykksproduktene, proteiner. Selv om de fleste pattedyr har et ekstra kontrollerende lag før proteinuttrykk, vet hvor mange transkripsjoner som finnes i et system å karakterisere den biokjemiske statusen til en celle. Ideelt sett gjør en teknologi oss i stand til å kvantifisere hele proteiner i en celle som kan utmerke seg i utviklingen av Life Science betydelig; Vi er imidlertid langt fra å oppnå det.
Her, i denne bloggen, tester vi en populær RNA-Seq dataanalyserørledning kjent som Tuxedo-rørledningen (1). Tuxedo-rørledningspakken tilbyr et sett med verktøy for å analysere en rekke RNA-Seq-data, inkludert kortlest kartlegging, identifisering av spleisekryss, transkripsjon og isoformdeteksjon, differensialuttrykk, visualiseringer og kvalitetskontrollmålinger. De detaljerte trinnene i pipelinen er vist i figur 1. Denne oppdaterte versjonen av Tuxedo-rørledningen inkluderer Cuffquant-trinn sammenlignet med den gamle versjonen som ble testet i forrige blogg (2).
Figur 1 Oppdatert smokingpipeline med Cuffquant Step
Konfigurasjonene til testklyngen er oppsummert i tabell 1.
Tabell 1 Testet konfigurasjon av databehandlingsnode |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2 x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake) |
RAM |
12x 16GB @2933 MT/s |
OPERATIVSYSTEM |
RHEL 7.6 |
Interconnect |
Intel® Omni-Path |
BIOS-systemprofil |
Optimert ytelse |
Logisk prosessor |
Deaktivert |
Virtualiserings-teknologi |
Deaktivert |
Tophat |
2.1.1 |
Sløyfe2 |
2.2.5 |
R |
3.6 |
Bioleder-Cummerbund |
2.26.0 |
De testede databehandlingsnodene ble koblet til Dell EMC Ready Solution for Lustre Storage via Intel® Omni-Path (3). Sammendragskonfigurasjonen av lagringen er oppført i tabell 2.
Tabell 2: Spesifikasjoner for maskinvare- og programvareløsninger for Lustre Storage Solution |
|
Dell EMC Ready Solution for Lustre Storage |
|
Antall noder |
1 Dell EMC PowerEdge R640 som integrert leder for Lustre (IML) |
Prosessorer |
IML-server: Dobbel Intel Xeon Gold 5118 @ 2,3 GHz |
Minne |
IML-server: 12 x 8 GB, 2 666 MT/s, DDR4, RDIMM-er |
Ekstern lagring |
2 x Dell 12 Gb/s SAS HBA-er (på hver MDS) |
Objektlagring |
4x ME4084 med totalt 336 x 8 TB NL SAS-harddisker med 7200 o/min |
Metadatalagring |
1 ME4024 med 24 x 960 GB SAS SSD-er. Støtter opptil 4.688B filer/inoder |
RAID-kontrollere |
Tosidig RAID i ME4084- og ME4024-kabinetter |
Operativsystem |
CentOS 7.5 x86_64 |
Kjerneversjon |
3.10.0-862.el7.x86_64 |
BIOS-versjon |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Lustre-filsystem |
2.10.4 |
IML-versjon |
4.0.7.0 |
En ytelsesstudie av RNA-Seq-pipeline er ikke triviell fordi naturarbeidsflyten krever ikke-identiske inndatafiler. 185 RNA-Seq par-end lesedata samles inn fra et offentlig datalager. Alle de leste datafilene inneholder rundt 25 millioner fragmenter (MF) og har lignende leselengder. Eksemplene for en test tilfeldig valgt fra utvalget av 185 sammenkoblede lesefiler. Selv om disse tilfeldig valgte dataene ikke vil ha noen biologisk betydning, vil disse dataene med høyt støynivå absolutt sette testene på det verste tilfellet.
Ytelsesevaluering
Test
med to utvalgI figur 2 er kjøretiden for hvert trinn plottet. Testen ble kjørt i to beregningsnoder med to prøver som inneholdt omtrent 25 millioner leste RNA-Seq-data. Tophat-trinnet starter for hver prøve på en databehandlingsnode parallelt. Deretter begynner mansjettknappene når Tophat er ferdig. Cuffmerge trinn kombinerer resultatene fra de to mansjettknappene løpene. Cuffquant-trinn legges til for å kvantifisere genuttrykk i hver prøve, og resultatene undersøkes videre i Cuffdiff- og Cuffnorm-trinn. Siste trinn, CummeRbund er en statistisk analyse trinn fra CummeRbund R-pakke, og det generere en visualisert rapport som vist i figur 2.
Figur 2 Total kjøretid for Tuxedo-pipeline med to prøver: SRR1608490 og SRR934809.
Figur 3 viser differensielt uttrykte gener fra 8 prøvekjøringer (hver prøve består av 4 duplikater) i rødt med signifikant lavere p-verdier (Y-akse) sammenlignet med andre genuttrykk illustrert i svart1. X-akse er foldeendringer i loggbase på 2, og disse foldeendringene av hvert gen plottes mot p-verdier. Flere prøver vil gi en bedre estimering av genuttrykk. Høyre øvre plott er genuttrykk i prøve 2 i sammenligning med prøve 1, mens venstre nedre plott er genuttrykk i prøve 1 sammenlignet med prøve 2. Genuttrykk i svarte prikker er ikke signifikant forskjellige i begge prøvene.
Figur 3 Vulkanplottet til Cuffdiff-resultatene
Gjennomstrømningstest - Enkel rørledning med mer enn to prøver, biologiske og tekniske duplikater
Typiske RNA-Seq-studier består av flere prøver, noen ganger 100s av forskjellige prøver, normal versus sykdom eller ubehandlede versus behandlede prøver. Disse prøvene har en tendens til å ha høyt støynivå på grunn av deres biologiske årsaker; Derfor krever analysen kraftig databehandlingsprosedyre.
Vi testet ulike antall prøver (alle forskjellige RNA-Seq-data valgt fra 185 sammenkoblede lesedatasett) for å se hvor mye data som kan behandles av 8 noder i en PowerEdge C6420-klynge. Som vist i figur 4 vokser kjøretidene med 2, 4, 8, 16, 32 og 64 prøver eksponentielt når antall prøver øker. Antallet milliarder fragmenter/dag økte nesten tre ganger med Cascade Lake 6248/LustreME4-lagring og den oppdaterte rørledningen.
Figur 4 Gjennomstrømningssammenligninger med 8x C6420s mellom Cascade Lake 6248/LustreME4 og Skylake 6148/H600
Mansjetttrinnet avtar ikke ettersom antall prøver vokser, mens Cuffdiff- og Cuffnorm-trinnene avtar betydelig. Spesielt blir Cuffdiff-trinnet en flaskehals for rørledningen siden kjøretiden vokser eksponentielt (figur 5). Selv om Cuffnorms kjøretid øker eksponentielt som Cuffdiff, er den uvitende siden Cuffnorms kjøretid er begrenset av Cuffdiffs kjøretid. Å legge til Cuffquant-trinnet forbedret kjøretiden til Cuffdiff betydelig. 30 timers kjøretidsreduksjon på Cuffdiff-trinnet, og Cuffnorm fullførte 20 timer raskere med Cuffquant-trinnet. Selv om ytelsesgevinsten fra Cuffnorm ikke er synlig siden Cuffdiff og Cuffnorm starter samtidig.
Figur 5 Kjøretidsøkning på Cuffdiff og Cuffnorm
Konklusjon
Resultatene fra gjennomstrømningstesten viser at 8 PowerEdge C6420-noder med Lustre-lagring kan behandle omtrent 2,7 milliarder fragmenter fra 64 prøver med ~50 millioner parrede avlesninger hver (25 MF) gjennom Tuxedo-rørledningen illustrert i figur 1. Siden Tuxedo-rørledningen er relativt raskere enn andre populære rørledninger, er det vanskelig å generalisere eller utnytte disse resultatene for å dimensjonere et HPC-system nøyaktig. Resultatene kan imidlertid bidra til å gjøre en grov estimering av størrelsen på HPC-systemet.
Ressurser
1. RNA-seq differensialgenuttrykk: Grunnleggende opplæring. [På nett] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Ytelsesprøve for RNA-Seq-rørledning med Dell EMC Ready Bundle for HPC-biovitenskap. [På nett] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC Ready Solution for HPC Lustre Storage. [Lenke død per 07/2024]
Merk: Disse er tilfeldig valgt fra en pool av prøver uten noen meningsfulle assosiasjoner mellom dem.