Dell EMC Ready oplossing voor HPC-biowetenschappen: Tuxedo Pipeline met Cascade Lake CPU en Lustre/ME4 vernieuwing

概要: Dit artikel behandelt de whitepaper 'Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline met Cascade Lake CPU en Lustre/ME4 Refresh".

この記事は次に適用されます：この記事は次には適用されません：この記事は、特定の製品に関連付けられていません。すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Opmerking: Artikel geschreven door Kihoon Yoon van HPC en AI Innovation Lab in december 2019
Nieuwe hardware en een bijgewerkte pipeline verhogen samen de doorvoer 3 keer meer dan de vorige Ready Solution.

Overzicht
Genexpressie-analyse is net zo belangrijk als het identificeren van Single Nucleotide Polymorphism (SNP), insertie/deletie (indel) of chromosomale herstructurering. Uiteindelijk zijn de hele fysiologische en biochemische gebeurtenissen afhankelijk van de uiteindelijke genexpressieproducten, eiwitten. Hoewel de meeste zoogdieren een extra controlerende laag hebben vóór eiwitexpressie, helpt het om te weten hoeveel transcripten er in een systeem bestaan om de biochemische status van een cel te karakteriseren. Idealiter stelt een technologie ons in staat om de hele eiwitten in een cel te kwantificeren die aanzienlijk zouden kunnen uitblinken in de vooruitgang van de Life Science; We bereiken het echter nog lang niet.
Hier, in deze blog, testen we een populaire RNA-Seq-data-analysepijplijn die bekend staat als de Tuxedo-pijplijn (1). De Tuxedo pipeline suite biedt een reeks tools voor het analyseren van een verscheidenheid aan RNA-Seq-gegevens, waaronder short-read mapping, identificatie van splice-juncties, transcriptie- en isovormdetectie, differentiële expressie, visualisaties en kwaliteitscontrolestatistieken. De gedetailleerde stappen in de pijplijn worden weergegeven in figuur 1. Deze geüpdatete versie van de Tuxedo pipeline bevat Cuffquant step ten opzichte van de oude versie die in de vorige blog is getest (2).

Figuur 1 Bijgewerkte Tuxedo Pipeline met Cuffquant Step

De configuraties van het testcluster zijn samengevat in Tabel 1.

Tabel 1 Geteste configuratie van rekenknooppunten
Dell EMC PowerEdge C6420
CPU	2 x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)
RAM	12 x 16 GB @2933 MT/s
BESTURINGSSYSTEEM	RHEL 7.6
Interconnect	Intel® Omni-Path
BIOS-systeemprofiel	Prestaties geoptimaliseerd
Logische processor	Disabled
Virtualisatietechnologie	Disabled
Hoge hoed	2.1.1
vlinderdas2	2.2.5
R-toets	3.6
bioconductor-cummerbund	2.26.0

De geteste rekenknooppunten zijn verbonden met Dell EMC Ready Solution voor Lustre Storage via Intel^® Omni-Path (3). De overzichtsconfiguratie van de storage wordt vermeld in Tabel 2.

Tabel 2 hardware- en softwarespecificaties voor storageoplossing
Dell EMC Ready Solution voor Lustre Storage
Aantal knooppunten	1x Dell EMC PowerEdge R640 als geïntegreerde manager voor Lustre (IML) 2 x Dell EMC PowerEdge R740 als metadataserver (MDS) 2 x Dell EMC PowerEdge R740 als objectstorageserver (OSS)
Processoren	IML-server: Dual Intel Xeon Gold 5118 @ 2,3 GHz MDS- en OSS-servers: Dual Intel Xeon Gold 6136 @ 3,00 GHz
Geheugen	IML-server: 12 x 8 GB, 2666 MT/s DDR4 RDIMM's MDS- en OSS-servers: 24 x 16 GiB 2666 MT/s DDR4 RDIMM's
Externe opslag Controllers	2 x Dell 12 Gb/s SAS HBA's (op elke MDS) 4 x Dell 12 Gb/s SAS HBA's (op elke OSS)
Objectstorage Behuizingen	4 x ME4084 met een totaal van 336 x 8 TB NL 7,2K rpm SAS HDD's
Opslag van metadatakraal	1 x ME4024 met 24 x 960 GB SAS SSD's. Ondersteunt tot 4.688 miljard bestanden/inodes
RAID-controllers	Duplex RAID in de ME4084- en ME4024-behuizingen
Besturingssysteem	CentOS 7.5-x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Kernelversie	3.10.0-862.el7.x86_64
BIOS-versie	1.4.5
Intel Omni-Path IFS-versie	10.8.0.0
Lustre bestandssysteem Versie	2.10.4
IML-versie	4.0.7.0

Een prestatiestudie van de RNA-Seq-pijplijn is niet triviaal omdat de natuurworkflow niet-identieke invoerbestanden vereist. 185 RNA-Seq paired-end leesgegevens worden verzameld uit een openbare gegevensrepository. Alle leesgegevensbestanden bevatten ongeveer 25 miljoen fragmenten (MF) en hebben vergelijkbare leeslengtes. De voorbeelden voor een test zijn willekeurig geselecteerd uit de pool van 185 leesbestanden met een paired-end. Hoewel deze willekeurig geselecteerde gegevens geen biologische betekenis zullen hebben, zullen deze gegevens met een hoog ruisniveau zeker het worstcasescenario op de proef stellen.
Evaluatie van
de prestatiesTest
met twee monstersIn afbeelding 2 wordt de looptijd van elke stap uitgezet. De test werd uitgevoerd in twee computerknooppunten met twee monsters die ongeveer 25 miljoen gelezen RNA-Seq-gegevens bevatten. De Tophat-stap begint voor elk voorbeeld op een rekenknooppunt parallel. Vervolgens begint Manchetknopen na de voltooiing van Tophat. De stap Cuffmerge combineert de resultaten van de twee Cufflinks runs. Cuffquant-stap wordt toegevoegd om genexpressies in elk monster te kwantificeren, en de resultaten worden verder onderzocht in Cuffdiff- en Cuffnorm-stappen. De laatste stap, CummeRbund, is een statistische analysestap van het CummeRbund R-pakket en genereert een gevisualiseerd rapport zoals weergegeven in figuur 2.

Afbeelding 2 Totale runtime voor Tuxedo pipeline met twee samples: SRR1608490 en SRR934809. Afbeelding 2 Totale runtime voor Tuxedo pipeline met twee samples: SRR1608490 en SRR934809.

Figuur 3 toont differentieel tot expressie gebrachte genen uit 8 monsterruns (elk monster bestaat uit 4 duplicaten) in rood met significant lagere p-waarden (Y-as) in vergelijking met andere genexpressies geïllustreerd in zwart 1. okt. De X-as is vouwveranderingen in de logbasis van 2, en deze vouwveranderingen van elk gen worden uitgezet tegen p-waarden. Meer monsters zullen een betere schatting van de genexpressie opleveren. De rechter bovenste grafiek zijn genexpressies in monster 2 in vergelijking met monster 1, terwijl de linker onderste grafiek genexpressies zijn in monster 1 in vergelijking met monster 2. Genexpressies in zwarte stippen zijn niet significant verschillend in beide monsters.

Figuur 3 Vulkaangrafiek van de Cuffdiff resultaten
Doorvoertest – Enkele pijpleiding met meer dan twee monsters, biologische en technische duplicaten
Typische RNA-Seq-onderzoeken bestaan uit meerdere monsters, soms 100-en van verschillende monsters, normaal versus ziekte of onbehandelde versus behandelde monsters. Deze monsters hebben de neiging om een hoog geluidsniveau te hebben vanwege hun biologische redenen; Daarom vereist de analyse een krachtige gegevensvoorverwerkingsprocedure.

We hebben verschillende aantallen monsters getest (alle verschillende RNA-Seq-data geselecteerd uit de dataset van 185 gepaarde leesbewerkingen) om te zien hoeveel data kunnen worden verwerkt door 8 knooppunten in een PowerEdge C6420-cluster. Zoals te zien is in figuur 4, nemen de looptijden met 2, 4, 8, 16, 32 en 64 monsters exponentieel toe wanneer het aantal monsters toeneemt. Het aantal miljard fragmenten per dag is bijna drie keer zo groot geworden met Cascade Lake 6248/LustreME4-storage en de bijgewerkte pijplijn.

Afbeelding 4 Doorvoervergelijkingen met 8x C6420's tussen Cascade Lake 6248/LustreME4 en Skylake 6148/H600 Afbeelding 4: Doorvoervergelijkingen met 8x C6420's tussen Cascade Lake 6248/LustreME4 en Skylake 6148/H600

De Cuffmerge-stap vertraagt niet naarmate het aantal monsters toeneemt, terwijl de Cuffdiff- en Cuffnorm-stappen aanzienlijk vertragen. Vooral de Cuffdiff-stap wordt een knelpunt voor de pijplijn, omdat de looptijd exponentieel toeneemt (Figuur 5). Hoewel de looptijd van Cuffnorm exponentieel toeneemt zoals die van Cuffdiff, is deze te negeren omdat de looptijd van Cuffnorm wordt begrensd door de looptijd van Cuffdiff. Het toevoegen van Cuffquant step verbeterde de runtime van Cuffdiff aanzienlijk. 30 uur runtime reductie op Cuffdiff step, en Cuffnorm voltooid 20 uur sneller met Cuffquant step. Hoewel de prestatiewinst van Cuffnorm niet zichtbaar is omdat Cuffdiff en Cuffnorm tegelijkertijd beginnen.

Figuur 5 Runtime increment op Cuffdiff en Cuffnorm
Afbeelding 5 Toename van runtime op Cuffdiff en Cuffnorm
Conclusie
Uit de testresultaten van de doorvoer blijkt dat 8 PowerEdge C6420's met knooppunten met de Lustre-storage ongeveer 2,7 miljard fragmenten kunnen verwerken van 64 samples met elk ~50 miljoen gepaarde leesbewerkingen (25 MF) via de Tuxedo-pipeline die wordt geïllustreerd in Afbeelding 1. Aangezien de Tuxedo-pipeline relatief sneller is dan andere populaire pipelines, is het moeilijk om deze resultaten te generaliseren of te gebruiken om een HPC-systeem nauwkeurig te dimensioneren. De resultaten kunnen echter helpen om een ruwe schatting te maken van de grootte van het HPC-systeem.

Weg
1. okt. RNA-Seq differentiële genexpressie: Basis zelfstudie. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
Arabisch cijfer. RNA-Seq-pijplijnbenchmark met Dell EMC Ready Bundle voor HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. okt. Dell EMC Ready oplossing voor HPC Glansre Storage. [Link dood vanaf 07/2024]

Opmerking: deze worden willekeurig geselecteerd uit een pool van steekproeven zonder enige betekenisvolle associatie ertussen.

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

文書番号: 000124142

文書の種類: How To

最終更新: 25 7月 2024

バージョン: 3

お使いのデバイスがサポートサービスの対象かどうかを確認してください。

Dell EMC Ready oplossing voor HPC-biowetenschappen: Tuxedo Pipeline met Cascade Lake CPU en Lustre/ME4 vernieuwing

概要: Dit artikel behandelt de whitepaper 'Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline met Cascade Lake CPU en Lustre/ME4 Refresh".

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

ようこそ

Dellへようこそ

Dell EMC Ready oplossing voor HPC-biowetenschappen: Tuxedo Pipeline met Cascade Lake CPU en Lustre/ME4 vernieuwing

概要: Dit artikel behandelt de whitepaper 'Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline met Cascade Lake CPU en Lustre/ME4 Refresh".

詳細記事

手順

対象製品

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

サポートサービス

サポートサービス