Die Konfiguration mit 64 Rechner-Nodes von Dell EMC Ready Solutions für HPC Life Sciences kann 194 Genome pro Tag verarbeiten (50-fache Abdeckung).
Übersicht
Variantenaufruf ist ein Prozess, bei dem wir Varianten aus Sequenzdaten identifizieren. Dieser Prozess hilft festzustellen, ob einzelne Nucleotide-Polymorphismen (SNPs), Einfügungen und Löschungen (Indels) und oder Strukturvarianten (SVs) an einer bestimmten Position in einem einzelnen Genom oder Transkriptom vorhanden sind. Das Hauptziel der Identifizierung von Genomvariationen ist die Verknüpfung mit menschlichen Krankheiten. Obwohl nicht alle menschlichen Krankheiten mit genbedingten Variationen verknüpft sind, kann der Aufruf von Varianten eine wertvolle Richtlinie für Genetiker sein, die an einer bestimmten Krankheit arbeiten, die durch genetische Variationen verursacht wird. BWA-GATK ist eines der NGS-Rechentools (Next Generation Sequencing), mit dem Sie Diebline- und somatische Variationen aus menschlichen NGS-Daten identifizieren können. Es gibt eine Handvoll Variantenerkennungstools und wir wissen, dass es kein einziges Tool gibt, das perfekt funktioniert (1). Wir haben uns jedoch für GATK entschieden, eines der beliebtesten Tools als Benchmarking-Tool, um zu demonstrieren, wie gut die Dell EMC Ready Solutions für HPC Life Sciences komplexe und massive NGS-Workloads verarbeiten können.
Dieser Blog soll wertvolle Leistungsinformationen über den Intel® Xeon® Gold 6248 Prozessor für BWA-GATK Pipeline Benchmark mit Dell EMC Ready Solutions for HPC Lustre Storage (Me4 Series Refresh) (2) bereitstellen. Die Xeon® Gold 6248 CPU verfügt über 20 physische Cores oder 40 logische Kerne bei Verwendung von Hyper-Threading. Die Testclusterkonfigurationen sind in Tabelle 1 zusammengefasst.
Dell EMC PowerEdge C6420 | |
---|---|
CPU | 2 x Xeon® Gold 6248, 20 Cores, 2,5 GHz (Cascade Lake) |
RAM | 12 x 16 GB bei 2933 MTps |
Betriebssystem | RHEL 7.6 |
Interconnect | Intel® Omni-Path |
BIOS-Systemprofil | Performance-optimiert |
Logischer Prozessor | Deaktiviert |
Virtualisierungstechnologie | Deaktiviert |
BWA | 0.7.15–r1140 |
Samtools | 1.6 |
GATK (GATK) | 3,6-0-g89b7209 |
Dell EMC Ready Solution für Lustre-Speicher | |
---|---|
Anzahl der Nodes | 1 x Dell EMC PowerEdge R640 als Integrated Manager für Lustre (IML) 2 x Dell EMC PowerEdge R740 als Metadatenserver (MDS) 2 x Dell EMC PowerEdge R740 als Objektspeicherserver (OSS) |
Prozessoren | IML-Server: Dual Intel Xeon Gold 5118 mit 2,3 GHz MDS- und OSS-Servern: Dual Intel Xeon Gold 6136 bei 3,00 GHz |
Arbeitsspeicher | IML-Server: 12 x 8 GB DDR4 RDIMMs MDS- und OSS-Server mit 2.666 MT/s: DDR4-RDIMMs mit 24 x 16 GiB und 2.666 MT/s |
Externe Speicher-Controller |
2 x Dell 12-Gbit/s-SAS-HBAs (auf jedem MDS) 4 x Dell 12-Gbit/s-SAS-HBAs (auf jedem OSS) |
Objektspeichergehäuse |
4 x ME4084 mit insgesamt 336 NL-SAS-HDDs mit 7.200 1/min und 8 TB |
Metadatenspeichergehäuse |
1 x ME4024 mit 24 SAS-SSDs mit 960 GB. Unterstützt bis zu 4,68 B-Inodes |
RAID-Controller | Duplex-SAS-RAID-Controller in den ME4084- und ME4024-Gehäusen |
Betriebssystem | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
BIOS-Version | 1.4.5 |
Intel Omni-Path IFS-Version |
10.8.0.0 |
Lustre-Dateisystemversion |
2.10.4 |
IML-Version | 4.0.7.0 |