メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能

Dell EMC Ready oplossing voor HPC-biowetenschappen: Tuxedo Pipeline met Cascade Lake CPU en Lustre/ME4 vernieuwing

概要: Dit artikel behandelt de whitepaper 'Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline met Cascade Lake CPU en Lustre/ME4 Refresh".

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Opmerking: Artikel geschreven door Kihoon Yoon van HPC en AI Innovation Lab in december 2019
Nieuwe hardware en een bijgewerkte pipeline verhogen samen de doorvoer 3 keer meer dan de vorige Ready Solution.

Overzicht
Genexpressie-analyse is net zo belangrijk als het identificeren van Single Nucleotide Polymorphism (SNP), insertie/deletie (indel) of chromosomale herstructurering. Uiteindelijk zijn de hele fysiologische en biochemische gebeurtenissen afhankelijk van de uiteindelijke genexpressieproducten, eiwitten. Hoewel de meeste zoogdieren een extra controlerende laag hebben vóór eiwitexpressie, helpt het om te weten hoeveel transcripten er in een systeem bestaan om de biochemische status van een cel te karakteriseren. Idealiter stelt een technologie ons in staat om de hele eiwitten in een cel te kwantificeren die aanzienlijk zouden kunnen uitblinken in de vooruitgang van de Life Science; We bereiken het echter nog lang niet. 
Hier, in deze blog, testen we een populaire RNA-Seq-data-analysepijplijn die bekend staat als de Tuxedo-pijplijn (1). De Tuxedo pipeline suiteDeze hyperlink leidt u naar een website buiten Dell Technologies. biedt een reeks tools voor het analyseren van een verscheidenheid aan RNA-Seq-gegevens, waaronder short-read mapping, identificatie van splice-juncties, transcriptie- en isovormdetectie, differentiële expressie, visualisaties en kwaliteitscontrolestatistieken. De gedetailleerde stappen in de pijplijn worden weergegeven in figuur 1. Deze geüpdatete versie van de Tuxedo pipeline bevat Cuffquant step ten opzichte van de oude versie die in de vorige blog is getest (2).

Figuur 1 Bijgewerkte Tuxedo Pipeline met Cuffquant StepFiguur 1 Bijgewerkte Tuxedo Pipeline met Cuffquant Step

De configuraties van het testcluster zijn samengevat in Tabel 1.

Tabel 1 Geteste configuratie van rekenknooppunten

Dell EMC PowerEdge C6420

CPU

2 x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)

RAM

12 x 16 GB @2933 MT/s

BESTURINGSSYSTEEM

RHEL 7.6

Interconnect

Intel® Omni-Path

BIOS-systeemprofiel

Prestaties geoptimaliseerd

Logische processor

Disabled

Virtualisatietechnologie

Disabled

Hoge hoed

2.1.1

vlinderdas2

2.2.5

R-toets

3.6

bioconductor-cummerbund

2.26.0


De geteste rekenknooppunten zijn verbonden met Dell EMC Ready Solution voor Lustre Storage via Intel® Omni-Path (3). De overzichtsconfiguratie van de storage wordt vermeld in Tabel 2.

Tabel 2 hardware- en softwarespecificaties voor storageoplossing

Dell EMC Ready Solution voor Lustre Storage

Aantal knooppunten

1x Dell EMC PowerEdge R640 als geïntegreerde manager voor Lustre (IML)
2 x Dell EMC PowerEdge R740 als metadataserver (MDS)
2 x Dell EMC PowerEdge R740 als objectstorageserver (OSS)

Processoren

IML-server: Dual Intel Xeon Gold 5118 @ 2,3 GHz
MDS- en OSS-servers: Dual Intel Xeon Gold 6136 @ 3,00 GHz

Geheugen

IML-server: 12 x 8 GB, 2666 MT/s DDR4 RDIMM's
MDS- en OSS-servers: 24 x 16 GiB 2666 MT/s DDR4 RDIMM's

Externe opslag
Controllers

2 x Dell 12 Gb/s SAS HBA's (op elke MDS)
4 x Dell 12 Gb/s SAS HBA's (op elke OSS)

Objectstorage
Behuizingen

4 x ME4084 met een totaal van 336 x 8 TB NL 7,2K rpm SAS HDD's

Opslag van
metadatakraal

1 x ME4024 met 24 x 960 GB SAS SSD's. Ondersteunt tot 4.688 miljard bestanden/inodes

RAID-controllers

Duplex RAID in de ME4084- en ME4024-behuizingen

Besturingssysteem

CentOS 7.5-x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Kernelversie

3.10.0-862.el7.x86_64

BIOS-versie

1.4.5

Intel Omni-Path
IFS-versie

10.8.0.0

Lustre bestandssysteem
Versie

2.10.4

IML-versie

4.0.7.0


Een prestatiestudie van de RNA-Seq-pijplijn is niet triviaal omdat de natuurworkflow niet-identieke invoerbestanden vereist. 185 RNA-Seq paired-end leesgegevens worden verzameld uit een openbare gegevensrepositoryDeze hyperlink leidt u naar een website buiten Dell Technologies.. Alle leesgegevensbestanden bevatten ongeveer 25 miljoen fragmenten (MF) en hebben vergelijkbare leeslengtes. De voorbeelden voor een test zijn willekeurig geselecteerd uit de pool van 185 leesbestanden met een paired-end. Hoewel deze willekeurig geselecteerde gegevens geen biologische betekenis zullen hebben, zullen deze gegevens met een hoog ruisniveau zeker het worstcasescenario op de proef stellen.
Evaluatie van
de prestatiesTest
met twee monstersIn afbeelding 2 wordt de looptijd van elke stap uitgezet. De test werd uitgevoerd in twee computerknooppunten met twee monsters die ongeveer 25 miljoen gelezen RNA-Seq-gegevens bevatten. De Tophat-stap begint voor elk voorbeeld op een rekenknooppunt parallel. Vervolgens begint Manchetknopen na de voltooiing van Tophat. De stap Cuffmerge combineert de resultaten van de twee Cufflinks runs. Cuffquant-stap wordt toegevoegd om genexpressies in elk monster te kwantificeren, en de resultaten worden verder onderzocht in Cuffdiff- en Cuffnorm-stappen. De laatste stap, CummeRbund, is een statistische analysestap van het CummeRbund R-pakket en genereert een gevisualiseerd rapport zoals weergegeven in figuur 2.

Afbeelding 2 Totale runtime voor Tuxedo pipeline met twee samples: SRR1608490 en SRR934809.Afbeelding 2 Totale runtime voor Tuxedo pipeline met twee samples: SRR1608490 en SRR934809.

Figuur 3 toont differentieel tot expressie gebrachte genen uit 8 monsterruns (elk monster bestaat uit 4 duplicaten) in rood met significant lagere p-waarden (Y-as) in vergelijking met andere genexpressies geïllustreerd in zwart1. okt. De X-as is vouwveranderingen in de logbasis van 2, en deze vouwveranderingen van elk gen worden uitgezet tegen p-waarden. Meer monsters zullen een betere schatting van de genexpressie opleveren. De rechter bovenste grafiek zijn genexpressies in monster 2 in vergelijking met monster 1, terwijl de linker onderste grafiek genexpressies zijn in monster 1 in vergelijking met monster 2. Genexpressies in zwarte stippen zijn niet significant verschillend in beide monsters.


Figuur 3 Vulkaangrafiek van de Cuffdiff resultatenFiguur 3 Vulkaangrafiek van de Cuffdiff resultaten
Doorvoertest – Enkele pijpleiding met meer dan twee monsters, biologische en technische duplicaten
Typische RNA-Seq-onderzoeken bestaan uit meerdere monsters, soms 100-en van verschillende monsters, normaal versus ziekte of onbehandelde versus behandelde monsters. Deze monsters hebben de neiging om een hoog geluidsniveau te hebben vanwege hun biologische redenen; Daarom vereist de analyse een krachtige gegevensvoorverwerkingsprocedure.
 
We hebben verschillende aantallen monsters getest (alle verschillende RNA-Seq-data geselecteerd uit de dataset van 185 gepaarde leesbewerkingen) om te zien hoeveel data kunnen worden verwerkt door 8 knooppunten in een PowerEdge C6420-cluster. Zoals te zien is in figuur 4, nemen de looptijden met 2, 4, 8, 16, 32 en 64 monsters exponentieel toe wanneer het aantal monsters toeneemt. Het aantal miljard fragmenten per dag is bijna drie keer zo groot geworden met Cascade Lake 6248/LustreME4-storage en de bijgewerkte pijplijn.

Afbeelding 4 Doorvoervergelijkingen met 8x C6420's tussen Cascade Lake 6248/LustreME4 en Skylake 6148/H600Afbeelding 4: Doorvoervergelijkingen met 8x C6420's tussen Cascade Lake 6248/LustreME4 en Skylake 6148/H600

De Cuffmerge-stap vertraagt niet naarmate het aantal monsters toeneemt, terwijl de Cuffdiff- en Cuffnorm-stappen aanzienlijk vertragen. Vooral de Cuffdiff-stap wordt een knelpunt voor de pijplijn, omdat de looptijd exponentieel toeneemt (Figuur 5). Hoewel de looptijd van Cuffnorm exponentieel toeneemt zoals die van Cuffdiff, is deze te negeren omdat de looptijd van Cuffnorm wordt begrensd door de looptijd van Cuffdiff.  Het toevoegen van Cuffquant step verbeterde de runtime van Cuffdiff aanzienlijk. 30 uur runtime reductie op Cuffdiff step, en Cuffnorm voltooid 20 uur sneller met Cuffquant step. Hoewel de prestatiewinst van Cuffnorm niet zichtbaar is omdat Cuffdiff en Cuffnorm tegelijkertijd beginnen.


Figuur 5 Runtime increment op Cuffdiff en Cuffnorm
Afbeelding 5 Toename van runtime op Cuffdiff en Cuffnorm
Conclusie
Uit de testresultaten van de doorvoer blijkt dat 8 PowerEdge C6420's met knooppunten met de Lustre-storage ongeveer 2,7 miljard fragmenten kunnen verwerken van 64 samples met elk ~50 miljoen gepaarde leesbewerkingen (25 MF) via de Tuxedo-pipeline die wordt geïllustreerd in Afbeelding 1. Aangezien de Tuxedo-pipeline relatief sneller is dan andere populaire pipelines, is het moeilijk om deze resultaten te generaliseren of te gebruiken om een HPC-systeem nauwkeurig te dimensioneren. De resultaten kunnen echter helpen om een ruwe schatting te maken van de grootte van het HPC-systeem.
 
Weg
1. okt. RNA-Seq differentiële genexpressie: Basis zelfstudie. [Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Deze hyperlink leidt u naar een website buiten Dell Technologies.
Arabisch cijfer. RNA-Seq-pijplijnbenchmark met Dell EMC Ready Bundle voor HPC Life Sciences. [Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Deze hyperlink leidt u naar een website buiten Dell Technologies.
3. okt. Dell EMC Ready oplossing voor HPC Glansre Storage. [Link dood vanaf 07/2024]

Opmerking: deze worden willekeurig geselecteerd uit een pool van steekproeven zonder enige betekenisvolle associatie ertussen.

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
文書のプロパティ
文書番号: 000124142
文書の種類: How To
最終更新: 25 7月 2024
バージョン:  3
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。