Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline med Cascade Lake CPU og Lustre/ME4-oppdatering

概要: Denne artikkelen dekker rapporten med tittelen "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline med Cascade Lake CPU og Lustre/ME4 Refresh".

この記事は次に適用されます：この記事は次には適用されません：この記事は、特定の製品に関連付けられていません。すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Merk: Artikkel skrevet av Kihoon Yoon fra HPC og AI Innovation Lab i desember 2019
Ny maskinvare og oppdatert pipeline øker gjennomstrømningen 3 ganger mer enn den forrige Ready Solution.

Oversikt
Genekspresjonsanalyse er like viktig som å identifisere Single Nucleotide Polymorphism (SNP), innsetting / sletting (indel) eller kromosomal restrukturering. Til slutt avhenger hele fysiologiske og biokjemiske hendelser av de endelige genuttrykksproduktene, proteiner. Selv om de fleste pattedyr har et ekstra kontrollerende lag før proteinuttrykk, vet hvor mange transkripsjoner som finnes i et system å karakterisere den biokjemiske statusen til en celle. Ideelt sett gjør en teknologi oss i stand til å kvantifisere hele proteiner i en celle som kan utmerke seg i utviklingen av Life Science betydelig; Vi er imidlertid langt fra å oppnå det.
Her, i denne bloggen, tester vi en populær RNA-Seq dataanalyserørledning kjent som Tuxedo-rørledningen (1). Tuxedo-rørledningspakken tilbyr et sett med verktøy for å analysere en rekke RNA-Seq-data, inkludert kortlest kartlegging, identifisering av spleisekryss, transkripsjon og isoformdeteksjon, differensialuttrykk, visualiseringer og kvalitetskontrollmålinger. De detaljerte trinnene i pipelinen er vist i figur 1. Denne oppdaterte versjonen av Tuxedo-rørledningen inkluderer Cuffquant-trinn sammenlignet med den gamle versjonen som ble testet i forrige blogg (2).

Figur 1 Oppdatert smokingrørledning med Cuffquant Step Figur 1 Oppdatert smokingpipeline med Cuffquant Step

Konfigurasjonene til testklyngen er oppsummert i tabell 1.

Tabell 1 Testet konfigurasjon av databehandlingsnode
Dell EMC PowerEdge C6420
CPU	2 x Xeon® Gold 6248 20c 2,5 GHz (Cascade Lake)
RAM	12x 16GB @2933 MT/s
OPERATIVSYSTEM	RHEL 7.6
Interconnect	Intel® Omni-Path
BIOS-systemprofil	Optimert ytelse
Logisk prosessor	Deaktivert
Virtualiserings-teknologi	Deaktivert
Tophat	2.1.1
Sløyfe2	2.2.5
R	3.6
Bioleder-Cummerbund	2.26.0

De testede databehandlingsnodene ble koblet til Dell EMC Ready Solution for Lustre Storage via Intel^® Omni-Path (3). Sammendragskonfigurasjonen av lagringen er oppført i tabell 2.

Tabell 2: Spesifikasjoner for maskinvare- og programvareløsninger for Lustre Storage Solution
Dell EMC Ready Solution for Lustre Storage
Antall noder	1 Dell EMC PowerEdge R640 som integrert leder for Lustre (IML) 2 Dell EMC PowerEdge R740 som metadataserver (MDS) 2 Dell EMC PowerEdge R740 som objektlagringsserver (OSS)
Prosessorer	IML-server: Dobbel Intel Xeon Gold 5118 @ 2,3 GHz MDS- og OSS-servere: Dobbel Intel Xeon Gold 6136 @ 3,00 GHz
Minne	IML-server: 12 x 8 GB, 2 666 MT/s, DDR4, RDIMM-er MDS- og OSS-servere: 24 x 16 GiB, 2 666 MT/s, DDR4, RDIMM-er
Ekstern lagring Kontrollere	2 x Dell 12 Gb/s SAS HBA-er (på hver MDS) 4 x Dell 12 Gb/s SAS HBA-er (på hvert operativsystem)
Objektlagring Vedlegg	4x ME4084 med totalt 336 x 8 TB NL SAS-harddisker med 7200 o/min
Metadatalagring innhegning	1 ME4024 med 24 x 960 GB SAS SSD-er. Støtter opptil 4.688B filer/inoder
RAID-kontrollere	Tosidig RAID i ME4084- og ME4024-kabinetter
Operativsystem	CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7,5 x86_64
Kjerneversjon	3.10.0-862.el7.x86_64
BIOS-versjon	1.4.5
Intel Omni-Path IFS versjon	10.8.0.0
Lustre-filsystem versjon	2.10.4
IML-versjon	4.0.7.0

En ytelsesstudie av RNA-Seq-pipeline er ikke triviell fordi naturarbeidsflyten krever ikke-identiske inndatafiler. 185 RNA-Seq par-end lesedata samles inn fra et offentlig datalager. Alle de leste datafilene inneholder rundt 25 millioner fragmenter (MF) og har lignende leselengder. Eksemplene for en test tilfeldig valgt fra utvalget av 185 sammenkoblede lesefiler. Selv om disse tilfeldig valgte dataene ikke vil ha noen biologisk betydning, vil disse dataene med høyt støynivå absolutt sette testene på det verste tilfellet.
Ytelsesevaluering
Test
med to utvalgI figur 2 er kjøretiden for hvert trinn plottet. Testen ble kjørt i to beregningsnoder med to prøver som inneholdt omtrent 25 millioner leste RNA-Seq-data. Tophat-trinnet starter for hver prøve på en databehandlingsnode parallelt. Deretter begynner mansjettknappene når Tophat er ferdig. Cuffmerge trinn kombinerer resultatene fra de to mansjettknappene løpene. Cuffquant-trinn legges til for å kvantifisere genuttrykk i hver prøve, og resultatene undersøkes videre i Cuffdiff- og Cuffnorm-trinn. Siste trinn, CummeRbund er en statistisk analyse trinn fra CummeRbund R-pakke, og det generere en visualisert rapport som vist i figur 2.

Figur 2 Total kjøretid for Tuxedo-pipeline med to prøver: SRR1608490 og SRR934809. Figur 2 Total kjøretid for Tuxedo-pipeline med to prøver: SRR1608490 og SRR934809.

Figur 3 viser differensielt uttrykte gener fra 8 prøvekjøringer (hver prøve består av 4 duplikater) i rødt med signifikant lavere p-verdier (Y-akse) sammenlignet med andre genuttrykk illustrert i svart 1. X-akse er foldeendringer i loggbase på 2, og disse foldeendringene av hvert gen plottes mot p-verdier. Flere prøver vil gi en bedre estimering av genuttrykk. Høyre øvre plott er genuttrykk i prøve 2 i sammenligning med prøve 1, mens venstre nedre plott er genuttrykk i prøve 1 sammenlignet med prøve 2. Genuttrykk i svarte prikker er ikke signifikant forskjellige i begge prøvene.

Figur 3 Vulkanplottet til Cuffdiff-resultatene
Gjennomstrømningstest - Enkel rørledning med mer enn to prøver, biologiske og tekniske duplikater
Typiske RNA-Seq-studier består av flere prøver, noen ganger 100s av forskjellige prøver, normal versus sykdom eller ubehandlede versus behandlede prøver. Disse prøvene har en tendens til å ha høyt støynivå på grunn av deres biologiske årsaker; Derfor krever analysen kraftig databehandlingsprosedyre.

Vi testet ulike antall prøver (alle forskjellige RNA-Seq-data valgt fra 185 sammenkoblede lesedatasett) for å se hvor mye data som kan behandles av 8 noder i en PowerEdge C6420-klynge. Som vist i figur 4 vokser kjøretidene med 2, 4, 8, 16, 32 og 64 prøver eksponentielt når antall prøver øker. Antallet milliarder fragmenter/dag økte nesten tre ganger med Cascade Lake 6248/LustreME4-lagring og den oppdaterte rørledningen.

Figur 4 Gjennomstrømningssammenligninger med 8x C6420s mellom Cascade Lake 6248/LustreME4 og Skylake 6148/H600

Mansjetttrinnet avtar ikke ettersom antall prøver vokser, mens Cuffdiff- og Cuffnorm-trinnene avtar betydelig. Spesielt blir Cuffdiff-trinnet en flaskehals for rørledningen siden kjøretiden vokser eksponentielt (figur 5). Selv om Cuffnorms kjøretid øker eksponentielt som Cuffdiff, er den uvitende siden Cuffnorms kjøretid er begrenset av Cuffdiffs kjøretid. Å legge til Cuffquant-trinnet forbedret kjøretiden til Cuffdiff betydelig. 30 timers kjøretidsreduksjon på Cuffdiff-trinnet, og Cuffnorm fullførte 20 timer raskere med Cuffquant-trinnet. Selv om ytelsesgevinsten fra Cuffnorm ikke er synlig siden Cuffdiff og Cuffnorm starter samtidig.

Figur 5 Kjøretidsøkning på Cuffdiff og Cuffnorm
Figur 5 Kjøretidsøkning på Cuffdiff og Cuffnorm
Konklusjon
Resultatene fra gjennomstrømningstesten viser at 8 PowerEdge C6420-noder med Lustre-lagring kan behandle omtrent 2,7 milliarder fragmenter fra 64 prøver med ~50 millioner parrede avlesninger hver (25 MF) gjennom Tuxedo-rørledningen illustrert i figur 1. Siden Tuxedo-rørledningen er relativt raskere enn andre populære rørledninger, er det vanskelig å generalisere eller utnytte disse resultatene for å dimensjonere et HPC-system nøyaktig. Resultatene kan imidlertid bidra til å gjøre en grov estimering av størrelsen på HPC-systemet.

Ressurser
1. RNA-seq differensialgenuttrykk: Grunnleggende opplæring. [På nett] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Ytelsesprøve for RNA-Seq-rørledning med Dell EMC Ready Bundle for HPC-biovitenskap. [På nett] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Dell EMC Ready Solution for HPC Lustre Storage. [Lenke død per 07/2024]

Merk: Disse er tilfeldig valgt fra en pool av prøver uten noen meningsfulle assosiasjoner mellom dem.

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

文書番号: 000124142

文書の種類: How To

最終更新: 25 7月 2024

バージョン: 3

お使いのデバイスがサポートサービスの対象かどうかを確認してください。

Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline med Cascade Lake CPU og Lustre/ME4-oppdatering

概要: Denne artikkelen dekker rapporten med tittelen "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline med Cascade Lake CPU og Lustre/ME4 Refresh".

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

ようこそ

Dellへようこそ

Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline med Cascade Lake CPU og Lustre/ME4-oppdatering

概要: Denne artikkelen dekker rapporten med tittelen "Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline med Cascade Lake CPU og Lustre/ME4 Refresh".

詳細記事

手順

対象製品

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

サポートサービス

サポートサービス