Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Dell EMC Ready Solution for HPC Life Sciences: BWA-GATK Pipeline-gjennomstrømningstester med Cascade Lake CPU og Lustre ME4-oppdatering

Summary: Dell EMC Ready Solution for HPC Life Sciences: BWA-GATK Pipeline-gjennomstrømningstester med Cascade Lake CPU og Lustre ME4-oppdatering

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Konfigurasjon av 64-datanode for Dell EMC Ready Solutions for HPC Life Sciences kan behandle 194 genom per dag (50x dekningsdybde).

Oversikt

VariantanropDenne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies. er en prosess der vi identifiserer varianter fra sekvensdata. Denne prosessen hjelper deg med å fastslå om det finnes enkelt nukleotidpolymorfismer (SNP-er), innsettinger og slettinger (indels) og eller strukturelle varianter (SVs) på en gitt posisjon i et individuelt genom eller en underordner. Det viktigste målet med å identifisere genomiske variasjoner er å knytte seg til humane sammenhenger. Selv om ikke alle menneskelige utsparinger er knyttet til varianter, kan variantsamtaler gi en verdifull retningslinje for å jobbe med en bestemt oppsparing forårsaket av oppsparende variasjoner. BWA-GATK er et av de neste generasjons sekvenseringsverktøy (NGS) som er utformet for å identifisere utrykningsmidler og somatiske NGS-data fra humane NGS-data. Det finnes en oppspørring av variantidentifikasjonsverktøy, og vi forstår at det ikke finnes ett enkelt verktøy som fungerer perfekt (1). Vi valgte imidlertid GATK, som er et av de mest populære verktøyene som benchmarking-verktøyet vårt, for å demonstrere hvor godt Dell EMC Ready Solutions for HPC Life Sciences kan behandle komplekse og massive NGS-workloader. 
Formålet med denne bloggen er å gi verdifull ytelsesinformasjon om Intel® Xeon® Gold 6248-prosessoren for BWA-GATK pipeline benchmark med Dell EMC Ready Solutions for HPC Lustre Storage (oppdatering i ME4-serien) (2). Xeon® Gold 6248 CPU har 20 fysiske kjerner eller 40 logiske kjerner når du bruker hyper threading. Konfigurasjonene av testklyngen er oppsummert i tabell 1.

Tabell 1 Testet nodekonfigurasjon for databehandling
 
Dell EMC PowerEdge C6420
CPU 2 x Xeon® Gold 6248 20 kjerner, 2,5 GHz (Cascade Lake)
RAM 12 x 16 GB ved 2933 MTps
OS RHEL 7.6
Interconnect Intel® Omni-bane
BIOS-systemprofil Optimert ytelse
Logisk prosessor Deaktivert
Virtualiserings-teknologi Deaktivert
BWA 0.7.15-r1140
Samtools 1.6
GATK 3,6-0 g89b7209

De testede databehandlingsnodene ble koblet til Dell EMC Ready Solutions for HPC Lustre Storage via Intel® Omni-Path. Sammendragskonfigurasjonen av lagringen er oppført i tabell 2.
Tabell 2 Løsning for maskinvare- og programvarespesifikasjoner
 
Dell EMC Ready Solution for Lustre Storage
Antall noder 1 x Dell EMC PowerEdge R640 som Integrated Manager for Lustre (IML)
2 x Dell EMC PowerEdge R740 som Metadata Server (MDS)
2x Dell EMC PowerEdge R740 som Object Storage Server (OSS)
Prosessorer IML-server: Dual Intel Xeon Gold 5118 ved 2,3 GHz
MDS- og OSS-servere: Dual Intel Xeon Gold 6136 ved 3,00 GHz
Minne IML-server: 12 x 8 GB 2666 MT/s DDR4 RDIMM MDS
- og OSS-servere: 24 x 16 GiB 2666 MT/s DDR4 RDIMM-er
Eksterne lagringskontrollere
2 x Dell 12 Gb/s SAS HBA-er (på hver MDS)
4 x Dell 12 Gb/s SAS HBA-er (på hver OSS)
Objektlagringskabinetter
4 x ME4084 med totalt 336 x 8 TB NL HDD-er med 7,2 000 o/min
Kabinett for metadatalagring
1 x ME4024 med 24 x 960 GB SAS SSD-disker. Støtter opptil 4,68 B-inoder
RAID-kontrollere Dupleks SAS RAID-kontrollere i ME4084- og ME4024-kabinetter
Operativsystem CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7,5 x86_64
BIOS-versjon 1.4.5
Intel Omni-Path
IFS-versjon
10.8.0.0
Lustre filsystemversjon
2.10.4
IML-versjon 4.0.7.0

Testdataene ble valgt fra et av Illuminas Platinum-genom. ERR194161 ble behandlet med Illumina HiSeq 2000 innsendt av Illumina og kan hentes fra EMBL-EBI. DNA-identifikatoren for denne personen er NA12878. Beskrivelsen av dataene fra det koblede nettstedet viser at dette eksemplet har en >30x dekningsdybde.

Ytelsesevaluering

Ytelse for enkelteksempel på flere noder

I figur 1 oppsummeres kjøretiden i ulike antall eksempler og databehandlingsnoder med WGS-data (Whole Genome Sequencing). Testene som utføres her, er utformet for å demonstrere ytelse på servernivå, ikke for sammenligninger av individuelle komponenter. Datapunktene i figur 1 beregnes basert på det totale antallet eksempler, ett eksempel per datanode (X-akse i figuren) som behandles samtidig. Informasjon om BWA-GATK-pipeline kan hentes fra Broad Institute-nettstedet (3). Det maksimale antallet datanoder som brukes for testene, er 64x C6420. C6420-enheter med Lustre ME4 viser bedre skaleringsatferd enn Lustre MD3.

  Ytelsessammenligning mellom Lustre MD3 og Lustre ME4
Figur 1 Ytelsessammenligning mellom Lustre MD3 og Lustre ME4

Flere eksempel på ytelse for flere noder

En vanlig måte å kjøre NGS-pipeline på er å kjøre flere eksempler på en datanode og bruke flere databehandlingsnoder for å maksimere gjennomstrømningen av NGS-dataprosessen. Antallet databehandlingsnoder som brukes for testene, er 64 av C6420-datanodene, og antall eksempler per node er fem eksempler. Opptil 320 eksempler behandles samtidig for å estimere det maksimale antallet genom per dag uten en jobbfeil.
Som vist i figur 2 kan én C6420-datanode behandle 3,24 av 50 x hel menneskelig genom per dag når 5 eksempler behandles samtidig. For hvert utvalg tilordnes 7 kjerner og 30 GB minne. 

  Gjennomstrømningstester med opptil 64 C6420-er og Lustre ME4
Figur 2 Gjennomstrømningstester med opptil 64 C6420-er og Lustre ME4

320 av 50 x hele menneskelige genom kan behandles med 64 av C6420-datanoder på 40 timer.  Resultatene av testkonfigurasjonen oppsummerer med andre ord som 194 genom per dag for hele menneskelig genom med 50x dekningsdybde.

Konklusjon

Etter hvert som datastørrelsen på WGS har økt kontinuerlig. Gjeldende gjennomsnittsstørrelse for WGS er 50 x. Dette er fem ganger større enn en vanlig WGS for fire år siden da vi begynte å måle BWA-GATK-pipelinen. De økende dataene belaster ikke lagringskapasiteten siden de fleste applikasjoner i pipelinen også er avgrenset av CPU-klokkehastigheten. Derfor kjører pipelinen lenger i stedet for å generere flere skriveoperasjoner med økende datastørrelse.
Imidlertid genereres det et større antall midlertidige filer i løpet av prosessen på grunn av at mer data må parallelliseres, og dette økte antallet midlertidige filer som åpnes samtidig, bruker den åpne filgrensen i et Linux-operativsystem. En av applikasjonene kan ikke fullføres stille ved å trykke på grensen for antall åpne filer. En enkel løsning er å øke grensen til >150 000 o/min. 
Ready Solution med Lustre ME4 som scratch space har likevel en bedre gjennomstrømningskapasitet enn forrige versjon. Nå markerer 64 noder Ready Solution 194 genom per dag prosessorkraft for 50x WGS.

Ressurser 

1. En undersøkelse av verktøy for variantanalyse av neste generasjons genomsekvenseringsdata. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Kort bioinform, 2014 mar, vol. 15 (2). 10.1093/bib/bbs086.
2. Dell EMC Ready Solution for HPC Lustre Storage.  (Artikkelen er ikke lenger tilgjengelig for referanse, trukket av HPC-teamet)
3. Verktøysett for genomanalyse. https://software.broadinstitute.org/gatk/ Denne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies.

Affected Products

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 11 Jan 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.