Opmerking: Artikel geschreven door Kihoon Yoon van HPC en AI Innovation Lab in december 2019
Nieuwe hardware en een bijgewerkte pipeline verhogen samen de doorvoer 3 keer meer dan de vorige Ready Solution.
Overzicht
Genexpressie-analyse is net zo belangrijk als het identificeren van Single Nucleotide Polymorphism (SNP), insertie/deletie (indel) of chromosomale herstructurering. Uiteindelijk zijn de hele fysiologische en biochemische gebeurtenissen afhankelijk van de uiteindelijke genexpressieproducten, eiwitten. Hoewel de meeste zoogdieren een extra controlerende laag hebben vóór eiwitexpressie, helpt het om te weten hoeveel transcripten er in een systeem bestaan om de biochemische status van een cel te karakteriseren. Idealiter stelt een technologie ons in staat om de hele eiwitten in een cel te kwantificeren die aanzienlijk zouden kunnen uitblinken in de vooruitgang van de Life Science; We bereiken het echter nog lang niet.
Hier, in deze blog, testen we een populaire RNA-Seq-data-analysepijplijn die bekend staat als de Tuxedo-pijplijn (1). De Tuxedo pipeline suite biedt een reeks tools voor het analyseren van een verscheidenheid aan RNA-Seq-gegevens, waaronder short-read mapping, identificatie van splice-juncties, transcriptie- en isovormdetectie, differentiële expressie, visualisaties en kwaliteitscontrolestatistieken. De gedetailleerde stappen in de pijplijn worden weergegeven in figuur 1. Deze geüpdatete versie van de Tuxedo pipeline bevat Cuffquant step ten opzichte van de oude versie die in de vorige blog is getest (2).
Figuur 1 Bijgewerkte Tuxedo Pipeline met Cuffquant Step
De configuraties van het testcluster zijn samengevat in Tabel 1.
Tabel 1 Geteste configuratie van rekenknooppunten |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2 x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake) |
RAM |
12 x 16 GB @2933 MT/s |
BESTURINGSSYSTEEM |
RHEL 7.6 |
Interconnect |
Intel® Omni-Path |
BIOS-systeemprofiel |
Prestaties geoptimaliseerd |
Logische processor |
Disabled |
Virtualisatietechnologie |
Disabled |
Hoge hoed |
2.1.1 |
vlinderdas2 |
2.2.5 |
R-toets |
3.6 |
bioconductor-cummerbund |
2.26.0 |
De geteste rekenknooppunten zijn verbonden met Dell EMC Ready Solution voor Lustre Storage via Intel® Omni-Path (3). De overzichtsconfiguratie van de storage wordt vermeld in Tabel 2.
Tabel 2 hardware- en softwarespecificaties voor storageoplossing |
|
Dell EMC Ready Solution voor Lustre Storage |
|
Aantal knooppunten |
1x Dell EMC PowerEdge R640 als geïntegreerde manager voor Lustre (IML) |
Processoren |
IML-server: Dual Intel Xeon Gold 5118 @ 2,3 GHz |
Geheugen |
IML-server: 12 x 8 GB, 2666 MT/s DDR4 RDIMM's |
Externe opslag |
2 x Dell 12 Gb/s SAS HBA's (op elke MDS) |
Objectstorage |
4 x ME4084 met een totaal van 336 x 8 TB NL 7,2K rpm SAS HDD's |
Opslag van |
1 x ME4024 met 24 x 960 GB SAS SSD's. Ondersteunt tot 4.688 miljard bestanden/inodes |
RAID-controllers |
Duplex RAID in de ME4084- en ME4024-behuizingen |
Besturingssysteem |
CentOS 7.5-x86_64 |
Kernelversie |
3.10.0-862.el7.x86_64 |
BIOS-versie |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Lustre bestandssysteem |
2.10.4 |
IML-versie |
4.0.7.0 |
Een prestatiestudie van de RNA-Seq-pijplijn is niet triviaal omdat de natuurworkflow niet-identieke invoerbestanden vereist. 185 RNA-Seq paired-end leesgegevens worden verzameld uit een openbare gegevensrepository. Alle leesgegevensbestanden bevatten ongeveer 25 miljoen fragmenten (MF) en hebben vergelijkbare leeslengtes. De voorbeelden voor een test zijn willekeurig geselecteerd uit de pool van 185 leesbestanden met een paired-end. Hoewel deze willekeurig geselecteerde gegevens geen biologische betekenis zullen hebben, zullen deze gegevens met een hoog ruisniveau zeker het worstcasescenario op de proef stellen.
Evaluatie van
de prestatiesTest
met twee monstersIn afbeelding 2 wordt de looptijd van elke stap uitgezet. De test werd uitgevoerd in twee computerknooppunten met twee monsters die ongeveer 25 miljoen gelezen RNA-Seq-gegevens bevatten. De Tophat-stap begint voor elk voorbeeld op een rekenknooppunt parallel. Vervolgens begint Manchetknopen na de voltooiing van Tophat. De stap Cuffmerge combineert de resultaten van de twee Cufflinks runs. Cuffquant-stap wordt toegevoegd om genexpressies in elk monster te kwantificeren, en de resultaten worden verder onderzocht in Cuffdiff- en Cuffnorm-stappen. De laatste stap, CummeRbund, is een statistische analysestap van het CummeRbund R-pakket en genereert een gevisualiseerd rapport zoals weergegeven in figuur 2.
Afbeelding 2 Totale runtime voor Tuxedo pipeline met twee samples: SRR1608490 en SRR934809.
Figuur 3 toont differentieel tot expressie gebrachte genen uit 8 monsterruns (elk monster bestaat uit 4 duplicaten) in rood met significant lagere p-waarden (Y-as) in vergelijking met andere genexpressies geïllustreerd in zwart1. okt. De X-as is vouwveranderingen in de logbasis van 2, en deze vouwveranderingen van elk gen worden uitgezet tegen p-waarden. Meer monsters zullen een betere schatting van de genexpressie opleveren. De rechter bovenste grafiek zijn genexpressies in monster 2 in vergelijking met monster 1, terwijl de linker onderste grafiek genexpressies zijn in monster 1 in vergelijking met monster 2. Genexpressies in zwarte stippen zijn niet significant verschillend in beide monsters.
Figuur 3 Vulkaangrafiek van de Cuffdiff resultaten
Doorvoertest – Enkele pijpleiding met meer dan twee monsters, biologische en technische duplicaten
Typische RNA-Seq-onderzoeken bestaan uit meerdere monsters, soms 100-en van verschillende monsters, normaal versus ziekte of onbehandelde versus behandelde monsters. Deze monsters hebben de neiging om een hoog geluidsniveau te hebben vanwege hun biologische redenen; Daarom vereist de analyse een krachtige gegevensvoorverwerkingsprocedure.
We hebben verschillende aantallen monsters getest (alle verschillende RNA-Seq-data geselecteerd uit de dataset van 185 gepaarde leesbewerkingen) om te zien hoeveel data kunnen worden verwerkt door 8 knooppunten in een PowerEdge C6420-cluster. Zoals te zien is in figuur 4, nemen de looptijden met 2, 4, 8, 16, 32 en 64 monsters exponentieel toe wanneer het aantal monsters toeneemt. Het aantal miljard fragmenten per dag is bijna drie keer zo groot geworden met Cascade Lake 6248/LustreME4-storage en de bijgewerkte pijplijn.
Afbeelding 4: Doorvoervergelijkingen met 8x C6420's tussen Cascade Lake 6248/LustreME4 en Skylake 6148/H600
De Cuffmerge-stap vertraagt niet naarmate het aantal monsters toeneemt, terwijl de Cuffdiff- en Cuffnorm-stappen aanzienlijk vertragen. Vooral de Cuffdiff-stap wordt een knelpunt voor de pijplijn, omdat de looptijd exponentieel toeneemt (Figuur 5). Hoewel de looptijd van Cuffnorm exponentieel toeneemt zoals die van Cuffdiff, is deze te negeren omdat de looptijd van Cuffnorm wordt begrensd door de looptijd van Cuffdiff. Het toevoegen van Cuffquant step verbeterde de runtime van Cuffdiff aanzienlijk. 30 uur runtime reductie op Cuffdiff step, en Cuffnorm voltooid 20 uur sneller met Cuffquant step. Hoewel de prestatiewinst van Cuffnorm niet zichtbaar is omdat Cuffdiff en Cuffnorm tegelijkertijd beginnen.
Afbeelding 5 Toename van runtime op Cuffdiff en Cuffnorm
Conclusie
Uit de testresultaten van de doorvoer blijkt dat 8 PowerEdge C6420's met knooppunten met de Lustre-storage ongeveer 2,7 miljard fragmenten kunnen verwerken van 64 samples met elk ~50 miljoen gepaarde leesbewerkingen (25 MF) via de Tuxedo-pipeline die wordt geïllustreerd in Afbeelding 1. Aangezien de Tuxedo-pipeline relatief sneller is dan andere populaire pipelines, is het moeilijk om deze resultaten te generaliseren of te gebruiken om een HPC-systeem nauwkeurig te dimensioneren. De resultaten kunnen echter helpen om een ruwe schatting te maken van de grootte van het HPC-systeem.
Weg
1. okt. RNA-Seq differentiële genexpressie: Basis zelfstudie. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
Arabisch cijfer. RNA-Seq-pijplijnbenchmark met Dell EMC Ready Bundle voor HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. okt. Dell EMC Ready oplossing voor HPC Glansre Storage. [Link dood vanaf 07/2024]
Opmerking: deze worden willekeurig geselecteerd uit een pool van steekproeven zonder enige betekenisvolle associatie ertussen.