Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Řešení Dell EMC Ready pro superpočíta zařízení v přírodních vědách: Testy propustnosti kanálu BWA-GATK s procesorem Cascade Lake a Lustre ME4 Refresh

Summary: Řešení Dell EMC Ready pro superpočíta zařízení v přírodních vědách: Testy propustnosti kanálu BWA-GATK s procesorem Cascade Lake a Lustre ME4 Refresh

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Konfigurace 64 výpočetních uzlů řešení Dell EMC Ready Solutions pro superpočítadla v přírodních vědách zvládne 194 genomů denně (50x hloubka pokrytí).

Přehled

Varianta voláníTento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies. je proces, pomocí kterého identifikujeme varianty od pořadových dat. Tento proces pomáhá určit, zda jsou v dané pozici v jednotlivých genomech a trankriptech vloženy jednotlivé nukleodické polyfingy (SNP), zasunutí a odstranění (indels) nebo strukturní varianty (SV). Hlavním cílem identifikace genomických odlišnost je odkaz na lidstvo. I když ne všichni lidstvo jsou spojeni s odchylkami ve variantě, volání ve variantě může poskytnout cenné pokyny pro tyisty, kteří pracují na konkrétní nemoci způsobené odchylkami v notebooku. BWA-GATK je jedním z výpočetních nástrojů nové generace sekvenování (NGS), které jsou navrženy k identifikaci bacilů a somatických dat NGS. Existuje několik variant nástrojů pro identifikaci a víme, že neexistuje jediný nástroj, který by fungoval dokonale (1). Zvolili jsme však GATK, který je jedním z nejoblíbenějších nástrojů jako náš srovnávací nástroj, který ukazuje, jak dobře mohou řešení Dell EMC Ready Solutions pro superpočítačky v přírodních vědách zpracovávat složité a obrovské úlohy NGS. 
Účelem tohoto blogu je poskytnout cenné informace o výkonu procesoru Intel® Xeon® Gold 6248 pro srovnávací test kanálu BWA-GATK s řešeními Dell EMC Ready pro úložiště HPC Lustre (obnovení řady ME4) (2). Procesor Xeon® Gold 6248 obsahuje 20 fyzických jader nebo 40 logických jader při použití technologie Hyper Threading. Konfigurace testovacího clusteru jsou shrnuty v tabulce 1.

Tabulka 1: Testovaná konfigurace výpočetních uzlů
 
Dell EMC PowerEdge C6420
Procesor 2x Xeon® Gold 6248, 20 jader, 2,5 GHz (Cascade Lake)
RAM 12 × 16 GB při 2 933 MTps
Operační systém Systém RHEL 7.6
Interconnect Intel® Omni-Path
Profil systému BIOS Performance Optimized
Logický procesor Disabled
Technologie virtualizace Disabled
BWA 0.7.15-r1140
Nástroje Samtools 1.6
GATK 3,6-0-g89b7209

Testované výpočetní uzly byly připojeny k řešením Dell EMC Ready Solutions pro úložiště HPC Lustre prostřednictvím technologie Intel® Omni-Path. Souhrnná konfigurace úložiště je uvedena v tabulce 2.
Tabulka 2 Specifikace hardwaru a softwaru řešení
 
Řešení Dell EMC Ready pro úložiště Lustre
Počet uzlů 1x Dell EMC PowerEdge R640 jako integrated manager pro Lustre (IML)
2x Dell EMC PowerEdge R740 jako server metadat (MDS)
2x Dell EMC PowerEdge R740 jako object storage Server (OSS)
Procesory Server IML: Dva procesory Intel Xeon Gold 5118 s frekvencí 2,3 GHz
pro servery MDS a OSS: Dva procesory Intel Xeon Gold 6136 s frekvencí 3,00 GHz
Paměť Server IML: 12 × 8 GB serverů DDR4 2 666 MT/s RDIMMs
MDS a OSS: 24 x 16 GB paměti 2 666 MT/s DDR4 RDIMM
Řadiče externího úložiště
2 adaptéry Dell 12 Gb/s SAS HBA (na každém zařízení MDS)
4x Adaptéry Dell 12 Gb/s SAS HBA (na každém operačním systému)
Skříně úložiště
objektů
4x ME4084 s celkem 336 × 8TB pevnými disky NL, 7 200 ot./min. SAS
Skříň úložiště
metadat
1x ME4024 s 24 960GB disky SSD SAS Podporuje až 4,68 B inodes
Řadiče RAID Duplexní řadiče SAS RAID ve skříních ME4084 a ME4024
Operační systém CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Verze systému BIOS 1.4.5
Verze Intel Omni-Path
IFS
10.8.0.0
Verze systému
souborů Lustre
2.10.4
Verze IML 4.0.7.0

Testovací data byla vybrána z jednoho ze zařízení Platinum Genomes společnosti Platinum. společnost ERR194161 byla zpracována spolu se společnostíQuumina HiSeq 2000, kterou odeslala společnost Sadumu, a lze ji získat od společnosti EMBL-EBI. Identifikátor DNA tohoto jednotlivce je NA12878. Popis dat z propojených webových stránek ukazuje, že tato ukázka má 30násobnou >hloubku pokrytí.

Vyhodnocení výkonu

Jeden vzorový výkon více uzlů

Na obrázku 1 je shrnuta doba provozu v různých množstvích vzorových a výpočetních uzlů s 50násobným sekvenčním datem celého genomu (WGS). Zde provedené testy jsou navrženy tak, aby předváděly výkon na úrovni serveru, nikoli pro porovnání jednotlivých komponent. Datové body na obrázku 1 se vypočítávají na základě celkového počtu ukázek, jedné ukázce na každý výpočetní uzel (osa X na obrázku), které jsou zpracovávány souběžně. Podrobnosti o kanálu BWA-GATK naleznete na webové stránce Broad Institute (3). Maximální počet výpočetních uzlů použitých pro testy je 64 x C6420s. Modely C6420s se systémem Lustre ME4 vykazují lepší chování škálování než řešení Lustre MD3.

  Srovnání výkonu mezi řešeními Lustre MD3 a Lustre ME4
Obrázek 1 Porovnání výkonu mezi Lustre MD3 a Lustre ME4

Vícenásobný výkon více uzlů

Typickým způsobem spuštění kanálu NGS je spustit na výpočetním uzlu více vzorových položek a využít více výpočetních uzlů k maximalizaci propustnosti datového procesu NGS. Počet výpočetních uzlů použitých pro testy je 64 výpočetních uzlů C6420 a počet ukázek na uzel je pět vzorových položek. Současně je zpracováno až 320 ukázek, aby se odhadl maximální počet genomů za den bez selhání úlohy.
Jak je znázorněno na obrázku 2, jeden výpočetní uzel C6420 dokáže zpracovat 3,24 z 50x celých genomů denně, když je současně zpracováno 5 ukázek. Pro každou ukázku je přiděleno 7 jader a 30 GB paměti. 

  Testy propustnosti až s 64 C6420s a Lustre ME4
Obrázek 2 Testy propustnosti až u modelu 64 C6420s a Lustre ME4

320 celých 50 celých genomů lze zpracovat s 64 výpočetními uzly C6420 za 40 hodin.  Jinými slovy, výkon testovací konfigurace shrnuje 194 genomů denně pro celý genom s 50násobnou hloubkou pokrytí.

Závěr

S rostoucí velikostí dat sítě WGS se neustále zvyšuje. Aktuální průměrná velikost WGS je 50x. Je to pětkrát větší než před 4 lety, když jsme vytvořili srovnávací test kanálu BWA-GATK. Rostoucí data nenamáhá kapacitu bočního úložiště, protože většina aplikací v kanálu je také omezována taktovací rychlostí procesoru. Díky rostoucí velikosti dat tedy kanál běží déle, než generuje více zápisů.
V průběhu procesu se však generuje větší počet dočasných souborů, protože je potřeba paralelizovat více dat, a tento zvýšený počet dočasných souborů současně vyčerpá limit otevření souborů v operačním systému Linux. Jedna z aplikací se nedokončí tiše tím, že dosáhne limitu počtu otevřených souborů. Jednoduchým řešením je zvýšit limit na >150 000 ot./min. 
Řešení Ready Solution s procesorem Lustre ME4 má však vyšší propustnost než předchozí verze. Nyní 64 uzlů Ready Solution označuje výpočetní výkon 194 genomů denně pro 50x WGS.

Zdroje 

1. Průzkum nástrojů pro variantní analýzu sekvenčních dat nové generace. Pabinger S, Dpalcová A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trapalcová Z. 2, s.l. : Brief Bioinform, 2014, březen, svazek 15 (2). 10.1093/bbs086/bbs093/bbs086.
2. Řešení Dell EMC Ready pro úložiště HPC Lustre.  (Článek již není k dispozici pro referenci, stažen týmem HPC)
3. Sada nástrojů pro analýzu genomu. https://software.broadinstitute.org/gatk/ Tento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.

Affected Products

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 11 Jan 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.