跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表

Dell EMC-färdig lösning för HPC-biovetenskap: Dataflödestest av BWA-GATK-pipeline med uppdatering av Cascade Lake-processor och Lustre ME4

摘要: Dell EMC-färdig lösning för HPC-biovetenskap: Dataflödestest av BWA-GATK-pipeline med uppdatering av Cascade Lake-processor och Lustre ME4

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Konfiguration av 64-beräkningsnoder för Dell EMC-färdiga lösningar för HPC-biovetenskap kan bearbeta 194 genom per dag (50x täckningsdjup).

Översikt

VariantsamtalDen här hyperlänken tar dig till en webbplats utanför Dell Technologies. är en process genom vilken vi identifierar varianter från sekvensdata. Den här processen hjälper till att avgöra om det finns enstaka nucleotide-polymormorismer (SNPs), insertions och deletions (indels) och eller strukturella varianter (SVS) på en viss position i ett individuellt genom eller matrisom. Det huvudsakliga målet med att identifiera genomiska variationer är att koppla till mänsklig identitet. Även om inte alla mänskliga orsaker är associerade med olika varianter kan anrop av varianter ge en värdefull vägledning för stötar som arbetar med en viss sjukdom som orsakas av variationer från någon av dem. BWA-GATK är ett av nästa generations sekvenseringsverktyg (NGS) som är utformade för att identifiera germline- och somatic-dukationer från mänskliga NGS-data. Det finns en mängd olika identifieringsverktyg, och vi förstår att det inte finns ett enda verktyg som fungerar perfekt (1). Vi valde dock GATK som är ett av de mest populära verktygen som vårt bedömningsverktyg för att visa hur väl Dell EMC Ready Solutions för HPC-biovetenskap kan bearbeta komplexa och enorma NGS-arbetsbelastningar. 
Syftet med den här bloggen är att ge värdefull prestandainformation om Intel® Xeon® Gold 6248-processorn för prestandatest av BWA-GATK-pipelinen med Dell EMC Ready-lösningar för HPC Lustre-lagring (ME4-seriens uppdatering) (2). Xeon® Gold 6248-processorn har 20 fysiska kärnor eller 40 logiska kärnor när du använder hypertrådning. Testklusterkonfigurationerna sammanfattas i tabell 1.

Tabell 1 Testad konfiguration av beräkningsnod
 
Dell EMC PowerEdge C6420
Processor 2x Xeon® Gold 6248 20 kärnor 2,5 GHz (Cascade Lake)
RAM 12x 16 GB vid 2 933 MTps
OS RHEL 7.6
Interconnect Intel® Omni-Path
BIOS-systemprofil Prestandaoptimerad
Logisk processor Disabled (avaktiverad)
Virtualiseringsteknik Disabled (avaktiverad)
BWA 0.7.15-r1140
Samtools 1.6
GATK 3,6-0-g89b7209

De testade beräkningsnoderna var anslutna till Dell EMC Ready-lösningar för HPC Lustre-lagring via Intel® Omni-Path. Den sammanfattningskonfigurationen av lagringen visas i tabell 2.
Tabell 2: Maskinvaru- och programvaruspecifikationer
 
Dell EMC-färdig lösning för Lustre-lagring
Antal noder 1x Dell EMC PowerEdge R640 som Integrated Manager for Lustre (IML)
2x Dell EMC PowerEdge R740 som Metadata Server (MDS)
2x Dell EMC PowerEdge R740 som objektlagringsserver (OSS)
Processorer IML-server: Dubbla Intel Xeon Gold 5118 vid 2,3 GHz
MDS- och OSS-servrar: Dubbel Intel Xeon Gold 6136 vid 3,00 GHz
Minne IML-server: 12 x 8 GB 2 666 MT/s DDR4 RDIMM
MDS- och OSS-servrar: 24 x 16 GiB 2 666 MT/s DDR4 RDIMM-moduler
Externa lagringsstyrenheter
2 Dell SAS HBA:er på 12 Gbit/s (på varje MDS)
4 × Dell 12 Gbit/s SAS HBA:er (på varje OSS)
Objektlagringshöljen
4 × ME4084 med totalt 336 × 8 TB NL 7 200 varv/min SAS-hårddiskar
Metadatalagringshölje
1 × ME4024 med 24 × 960 GB SAS SSD-diskar. Stöder upp till 4,68 B inoder
RAID-styrenheter Duplex SAS RAID-styrenheter i ME4084- och ME4024-höljen
Operativsystem CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
BIOS-version 1.4.5
Intel OMNI-Path
IFS-version
10.8.0.0
Lustre filsystemversion
2.10.4
IML-version 4.0.7.0

Testdata valdes från ett av Illuminas platinumgenom. ERR194161 har bearbetats med Illumina HiSeq 2000 skickat av Illumina och kan erhållas från EMBL-EBI. DNA-identifieraren för den här personen är NA12878. Beskrivningen av data från den länkade webbplatsen visar att det här exemplet har >30 gånger så stort täckningsdjup.

Prestandautvärdering

Prestanda för flera noder med ett exempel

I bild 1 sammanfattas körtiden i olika antal exempel och beräkningsnoder med 50x WGS-data (Whole Genome Sequencing). Testerna som utförs här är utformade för att visa prestanda på servernivå, inte för jämförelser av enskilda komponenter. Datapunkterna i bild 1 beräknas baserat på det totala antalet prov, ett exempel per beräkningsnod (X-axeln i bilden) som bearbetas samtidigt. Information om pipelinen BWA-GATK finns på Broad Institutes webbplats (3). Det maximala antalet beräkningsnoder som används för testerna är 64 x C6420s. C6420s med Lustre ME4 visar ett bättre skalningsbeteende än Lustre MD3.

  Prestandajämförelser mellan Lustre MD3 och Lustre ME4
Bild 1: Prestandajämförelser mellan Lustre MD3 och Lustre ME4

Flera exempel på prestanda för flera noder

Ett typiskt sätt att köra NGS-pipelinen är att köra flera exempel på en beräkningsnod och använda flera beräkningsnoder för att maximera dataflödet i NGS-dataprocessen. Antalet beräkningsnoder som används för testerna är 64 av C6420-beräkningsnoder och antalet prov per nod är fem exempel. Upp till 320 prov bearbetas samtidigt för att uppskatta det maximala antalet genom per dag utan jobbfel.
Som visas i bild 2 kan en enda C6420-beräkningsnod bearbeta 3,24 av 50 gånger hela mänskliga genom per dag när fem prov bearbetas samtidigt. För varje exempel allokeras 7 kärnor och 30 GB minne. 

  Genomflödestester med upp till 64 C6420s och Lustre ME4
Bild 2: Genomflödestester med upp till 64 C6420s och Lustre ME4

320 av 50x hela mänskliga genom kan bearbetas med 64 av C6420-beräkningsnoder på 40 timmar.  Med andra ord sammanfattar testkonfigurationens prestanda som 194 genom per dag för hela mänskligt genom med 50x täckningsdjup.

Slutsats

I takt med att datastorleken på WGS hela tiden har ökat. Den aktuella genomsnittliga storleken för WGS är 50x. Det här är 5 gånger större än en vanlig WGS för 4 år sedan när vi började prestandatesta BWA-GATK-pipelinen. De ökande data anstränger inte lagringssidans kapacitet eftersom de flesta program i pipelinen också begränsas av processorns klockhastighet. Därför går pipelinen längre istället för att generera fler skrivningar med växande datastorlek.
Det finns dock ett större antal temporära filer som genereras under processen på grund av att mer data måste parallelliseras, och detta ökade antal temporära filer som öppnas samtidigt överskrider gränsen för öppna filer i ett Linux-operativsystem. Ett av programmen slutförs inte tyst genom att nå gränsen för antalet öppna filer. En enkel lösning är att öka gränsen till >150 000. 
Icke desto mindre har Ready-lösningen med Lustre ME4 som ett repor en bättre genomströmningskapacitet än den tidigare versionen. Nu markerar 64 noder Ready Solution 194 genom per dag processorkraft för 50x WGS.

Resurser 

1. En undersökning av verktyg för variantanalys av nästa generations genomsekvensdata. Pabinger S, Dander A, Repetitiv M, Snajder R, Sperk M, Efremova M, Krabadhler B, Speicher MR, Zsmappe J, Trajanoski Z. 2, s.l. : Kort Bioinform, 2014 mar, vol. 15 (2). 10.1093/bbs/bbs086.
2. Dell EMC-färdig lösning för lagring med HPC Lustre.  (Artikeln finns inte längre tillgänglig som referens, hämtad av HPC-teamet)
3. Verktyg för genomanalys. https://software.broadinstitute.org/gatk/ Den här hyperlänken tar dig till en webbplats utanför Dell Technologies.

受影响的产品

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
文章属性
文章编号: 000176939
文章类型: Solution
上次修改时间: 11 1月 2024
版本:  6
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。