Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Dell EMC Ready Solution til HPC Life Sciences: Test af BWA-GATK Pipeline-overførselshastighed med Cascade Lake CPU og Lustre ME4 Refresh

Summary: Dell EMC Ready Solution til HPC Life Sciences: Test af BWA-GATK Pipeline-overførselshastighed med Cascade Lake CPU og Lustre ME4 Refresh

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

64-compute node-konfigurationen af Dell EMC Ready Solutions til HPC Life Sciences kan behandle 194 genomer om dagen (50 gange mere dybde).

Oversigt

Variant-opkaldDette hyperlink fører dig til et websted uden for Dell Technologies. er en proces, hvor vi identificerer varianter fra sekvensdata. Denne proces hjælper med at afgøre, om der er enkelt nucleotide-polymorphismer (SNP'er), indsættelser og sletninger (indels) og eller strukturelle varianter (SV'er) i en given position i et individuelt genom eller kvitter. Det primære mål med at identificere genomiske variationer er knyttet til menneskeligt kendskab. Selvom ikke alle menneskeligt personale er forbundet med variantvariationer, kan variantopkald give en værdifuld retningslinje for arbejdspladsmedarbejdere, der arbejder på en bestemt virus forårsaget af genstartsvariationer. BWA-GATK er et af beregningsværktøjerne for næste generation af NGS (Sequencing), der er designet til at identificere afhjælpningsskærme og somatiske enheder fra menneskelige NGS-data. Der findes en del variantidentifikationsværktøjer, og vi forstår, at der ikke er et enkelt værktøj, der fungerer perfekt (1). Vi valgte imidlertid GATK, som er et af de mest populære værktøjer som vores benchmarking-værktøj til at demonstrere, hvor godt Dell EMC Ready Solutions til HPC Life Sciences kan håndtere komplekse og massive NGS-workloads. 
Formålet med denne blog er at give værdifulde oplysninger om intel® Xeon® Gold 6248-processoren til BWA-GATK pipeline-benchmark med Dell EMC Ready Solutions til HPC Lustre Storage (ME4-seriens opdatering) (2). Xeon® Gold 6248 CPU'en har 20 fysiske kerner eller 40 logiske kerner, når du bruger hypertrådning. Testklyngekonfigurationerne er opsummeret i Tabel 1.

Tabel 1: Testet beregningsnodekonfiguration
 
Dell EMC PowerEdge C6420
CPU 2x Xeon® Gold 6248 20 kerner 2,5 GHz (Cascade Lake)
RAM 12 x 16 GB ved 2933 MTps
OPERATIVSYSTEM RHEL 7.6
Interconnect Intel® Omni-Path
BIOS-systemprofil Ydeevneoptimeret
Logisk processor Disabled
Virtualiseringsteknologi Disabled
BWA 0.7.15-r1140
Samtools 1.6
GATK 3,6-0-g89b7209

De testede beregningsnoder blev forbundet til Dell EMC Ready Solutions til HPC Lustre-lagring via Intel® Omni-Path. Oversigtens konfiguration af lageret er angivet i Tabel 2.
Tabel 2: Specifikationer for løsningshardware og -software
 
Dell EMC Ready Solution til Lustre-lagring
Antal noder 1x Dell EMC PowerEdge R640 som Integrated Manager for Lustre (IML)
2x Dell EMC PowerEdge R740 som metadataserver (MDS)
2x Dell EMC PowerEdge R740 som Object Storage Server (OSS)
Processorer IML-server: Dual Intel Xeon Gold 5118 ved 2,3 GHz
MDS- og OSS-servere: Dual Intel Xeon Gold 6136 ved 3,00 GHz
Hukommelse IML-server: 12 x 8 GB 2.666 MT/s DDR4 RDIMM-moduler
MDS- og OSS-servere: 24 x 16 GiB 2.666 MT/s DDR4 RDIMM'er
Eksterne storagecontrollere
2 x Dell 12 GB/s SAS HBA'er (på hver MDS)
4 x Dell 12 GB/s SAS HBA'er (på hver OSS)
Objektlagringskabinetter
4 x ME4084 med i alt 336 x 8 TB NL SAS-harddiske (7.200 omdr./min.)
Opbevaringskabinet
for metadata
1 x ME4024 med 24 x 960 GB SAS SSD'er. Understøtter op til 4,68 B inodes
RAID-controllere Dupleks SAS RAID-controllere i KABINETter for ME4084 og ME4024
Operativsystem CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5-x86_64
BIOS-version 1.4.5
Intel Omni-Path
IFS-version
10.8.0.0
Luster-filsystemversion
2.10.4
IML-version 4.0.7.0

Testdataene blev valgt fra en af Illuminas Platinum-genomer. ERR194161 blev behandlet med Illumina HiSeq 2000 indsendt af Illumina og kan hentes hos EMBL-EBI. DNA-identifikatoren for denne person er NA12878. Beskrivelsen af dataene fra det tilknyttede websted viser, at denne prøve har en >30x dybde af dækning.

Ydeevneevaluering

Enkelt eksempel på ydeevne for flere noder

I Figur 1 opsummeres kørselstiden i forskellige antal eksempler og beregningsnoder med 50x WGS-data (Whole Genome Sequencing). De test, der udføres her, er designet til at demonstrere ydeevnen på serverniveau, ikke til sammenligning af individuelle komponenter. Datapunkterne i Figur 1 er beregnet ud fra det samlede antal eksempler, en prøve pr. beregningsnode (X-akse i figuren), der behandles samtidigt. Oplysningerne om BWA-GATK-pipelineoplysningerne kan hentes på Broad Institutes websted (3). Det maksimale antal beregningsnoder, der bruges til testene, er 64x C6420s. C6420s med Lustre ME4 viser en bedre skaleringsadfærd end Lustre MD3.

  Sammenligning af ydeevne mellem Lustre MD3 og Lustre ME4
Figur 1: Sammenligning af ydeevne mellem Luster MD3 og Luster ME4

Ydeevne af flere eksempler på flere noder

En typisk måde at køre NGS-pipeline på er at køre flere eksempler på en beregningsnode og bruge flere beregningsnoder til at maksimere overførselshastigheden for NGS-dataprocessen. Antallet af beregningsnoder, der bruges til testene, er 64 af C6420-beregningsnoder, og antallet af eksempler pr. node er fem eksempler. Op til 320 eksempler behandles samtidigt for at vurdere det maksimale antal genomer pr. dag uden en jobfejl.
Som vist i Figur 2 kan en enkelt C6420-beregningsnode behandle 3,24 ud af 50 gange hele menneskelige genomer om dagen, når 5 prøveprøver behandles samtidigt. For hvert eksempel tildeles 7 kerner og 30 GB hukommelse. 

  Hastighedstests med op til 64 C6420s og Lustre ME4
Figur 2: Test af dataoverførselshastigheder med op til 64 C6420s og Lustre ME4

320 af 50x hele menneskelige genomer kan behandles med 64 C6420-beregningsknudepunkter på 40 timer.  Med andre ord opsummeres udførelsen af testkonfigurationen med 194 genomer om dagen for hele menneskers genom med 50 gange mere dybde.

Konklusion

Da datastørrelsen af WGS er vokset konstant. Den aktuelle gennemsnitlige størrelse WGS er 50x. Dette er 5 gange større end for et typisk WGS for 4 år siden, da vi begyndte at benchmarke BWA-GATK-pipelinen. De stigende data belaster ikke lagersidens kapacitet, da de fleste programmer i pipelinen også er bundet af CPU-klokhastigheden. Med den voksende datastørrelse kører pipelinen derfor længere i stedet for at generere flere skrivninger.
Der genereres imidlertid et større antal midlertidige filer under processen, fordi flere data skal paralleliseres, og det øgede antal midlertidige filer, der åbnes, udtømmer samtidig grænsen for åbne filer i et Linux-operativsystem. Et af programmerne fuldføres ikke automatisk ved at ramme grænsen for antallet af åbne filer. En enkel løsning er at øge grænsen til >150K. 
Alligevel har Ready Solution med Lustre ME4 som et ridseområde en bedre overførselskapacitet end den tidligere version. Nu markerer 64 noder Ready Solution 194 genomer om dagen for processorkraft til 50x WGS.

Ressourcer 

1. En undersøgelse af værktøjer til variantanalyse af næste generations genomsekvenseringsdata. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Kort bioinform, 2. marts 2014, vol. 15 (2). 10,1093/bib/bbs086.
2. Dell EMC Ready Solution til HPC Lustre-lagring.  (Artiklen er ikke længere tilgængelig til reference, trukket af HPC-teamet)
3. Genome Analysis Toolkit. https://software.broadinstitute.org/gatk/ Dette hyperlink fører dig til et websted uden for Dell Technologies.

Affected Products

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 11 Jan 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.