Der Dell EMC-DSS8440 -Server ist ein 2-Sockel-4U-Server, der für Hochleistungs-Computing, Maschinelles Lernen und umfassende Lern Lasten entwickelt wurde. Es unterstützt verschiedene GPUs, wie z. b. NVIDIA Volta V100S -und NVIDIA Tesla T4 - Tensor-Core-GPUs sowie NVIDIA Quadro RTX GPUs .
(Abbildung. 1 Dell EMC DSS840-Server)
In diesem Blog evaluieren wir die Performance des kostengünstigen NVIDIA Quadro RTX 6000 und der NVIDIA Quadro RTX 8000 GPUs im Vergleich zur Top Tier Accelerator V100S GPU mithilfe verschiedener Industriestandard-Benchmarking-Tools. Dies umfasst das Testen von Workloads mit Einzel-vs doppelter Präzision. Während die Quadro-Serie über eine lange Zeit existierte, wurden RTX-GPUs mit NVIDIA Turing-Architektur in spät 2018 gestartet. Die technischen Daten in Tabelle 1 zeigen, dass die RTX 8000-GPU in puncto höhere Speicherkonfiguration der RTX 6000 überlegen ist. Die RTX 8000-und RTX 6000-GPUs haben jedoch einen höheren Energiebedarf als die V100S-GPU. Bei Workloads, bei denen eine höhere Speicherkapazität benötigt wird, ist der RTX 8000 die bessere Wahl.
Spezifikationen | RTX 6000 | RTX 8000 | V100S – 32 GB |
---|---|---|---|
Architektur | Turing | Volta | |
Speicher | 24 GB GDDR6 | 48 GB GDDR6 | 32 GB HBM2 |
Standard Taktrate (MHz) | 1395 | 1245 | |
Maximale Taktrate der GPU (MHz) | 1770 | 1597 | |
CUDA-Kerne | 4608 | 5120 | |
FP32 (TFLOPS Maximum) | 16,3 | 16,4 | |
Speicherbandbreite (Gbit/s) | 672 | 1134 | |
Stromversorgung | 295 W | 250 W |
Tabelle. 1 GPU- Technische Daten
Server | DellEMC,PowerEdge, DSS8440 | ||
---|---|---|---|
Prozessor | 2 x Intel Xeon 6248, 20 C @ 2,5 GHz | ||
Speicher | 24 x 32 GB @ 2933 MT/s (768 GB gesamt) | ||
GPU | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S-PCIe |
Speicher | 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500) | ||
Netzteile | 4 x 2400 W |
Tabelle. 2 Server Konfigurationsdetails
BIOS | 2.5.4 |
---|---|
Betriebssystem | RHEL 7,6 |
Kernel | 3.10.0-957.el7.x86_64 |
System Profil | Performance-optimiert |
CUDA-Toolkit CUDA-Treiber |
10,1 440.33.01 |
Tabelle. 3 Details zur System Firmware
Anwendung | Version |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 Update 4 |
LAMMPS | März 3 2020 openmpi – 4.0.3 |
MLPERF | v 0.6 Schulung docker 19,03 |
Tabelle. 4 Anwendungsinformationen
LAMMPS ist eine Anwendung zur molekularen Dynamik, die von Forschern an den Sandia-nationalen Laboratorien und der Temple University verwaltet wird. LAMMPS wurde zusammen mit dem KOKKOS-Paket zur effizienten Ausführung auf NVIDIA GPUs kompiliert. Lennard Jones-DataSet wurde für den Leistungsvergleich und die Zeitstufen/s als Metrik verwendet, wie in Abbildung 2 dargestellt:
(Abbildung. 2 Lennard-Jones-Diagramm)
Wie in Tabelle 1 aufgeführt, haben die RTX 6000-und RTX 8000-GPUs die gleiche Anzahl an Kernen, eine Präzisionsleistung und eine GPU-Bandbreite, aber unterschiedliche GPU-Speicher. Da beide RTX-GPUs eine ähnliche Konfiguration haben, ist die Performance auch im gleichen Bereich. RTX-GPUs sind für diese Anwendung gut skaliert und die Performance der GPUs ist identisch.
Die Performance der Volta V100S-GPU beträgt ca. dreimal schneller als die Quadro RTX-GPUs. Der Schlüsselfaktor für diese höhere Performance ist die größere GPU-Speicherbandbreite der V100S-GPU.
HPL ist ein Standard HPC-Benchmark, der die Rechenleistung misst. Er wird als Referenz-Benchmark von der TOP500-Liste verwendet, um Supercomputer weltweit zu klassifizieren.
Die folgende Abbildung zeigt die Performance von RTX 6000, RTX 8000 und V100S GPUs unter Verwendung des DSS 8440-Servers. Wie Sie sehen können, ist die Performance der RTX-GPUs deutlich niedriger als die V100S-GPU. Dies ist zu erwarten, da die HPL eine Matrix-LU-Faktorisierung durchführt, die in erster Linie Gleitkomma Vorgänge mit doppelter Präzision darstellt.
(Abbildung. 3 Leistung von HPL mit verschiedenen GPUs)
Wenn wir die theoretische Gleitkommaleistung, also die Rpeak beider GPUs, vergleichen, sehen wir, dass die Performance der V100S GPU deutlich höher ist. Der theoretische Rpeak Wert auf einer einzigen RTX-GPU beträgt ca. 500GFlops. Dieser Wert ergibt weniger Leistung (Rmax) pro GPU. Der Rpeak-Wert für die Volta V100S-GPU ist 8.2 TFLOPS, was zu einer deutlich höheren Performance von jeder Karte führt.
Der Bedarf an branchenüblichen Performance-Benchmarks für ml führte zur Entwicklung der MLPerf Suite. Diese Suite enthält Benchmarks für die Bewertung der Schulung und der ABLEITUNGS Performance von ml-Hardware und-Software. In diesem Abschnitt wird nur die Trainingsleistung von GPUs beschrieben. In der folgenden Tabelle sind die umfangreicheren Lern-Workloads, Datasets und Zielkriterien aufgeführt, die für die Bewertung der GPUs verwendet werden.
Benchmark | DataSet | Qualitätsziel | Referenz Implementierungsmodell |
---|---|---|---|
Bildklassifizierung | ImageNet (224x224) | 75,9% Top-1 Genauigkeit | RESNET – 50 v 1.5 |
Objekterkennung (geringes Gewicht) |
Coco 2017 | 23% Karte | SSD-ResNet34 |
Objekterkennung (schwerwiegend) |
Coco 2017 | 0,377 Box Minimum AP 0,339 Mask Minimum AP |
Maske R – CNN |
Übersetzung (aktuell) |
Wright Deutsch | 24,0 Bleu | GNMT |
Übersetzung (nicht wiederkehrende) |
Wright Deutsch | 25,0 Bleu | Transformator |
Verstärkungs lernen | N. z. | Vortrainierter Prüfpunkt | Mini go |
Tabelle. 5 MLPerf-Datasets und Zielkriterien (Quelle:https://mlperf.org/Training-Overview/#Overview )
in der folgenden Abbildung ist die Zeit zur Einhaltung der Zielkriterien für die RTX-und V100S-GPUs dargestellt:
(Abbildung. 4 MLPERF-Leistung)
Die Ergebnisse werden nach der Ausführung mehrerer Durchläufe, dem verwerfen des höchsten und des niedrigsten Werts und der Mittelung der anderen nach den aufgeführten Richtlinien berücksichtigt. Die Performance der RTX-GPUs ist ähnlich. Der Prozentsatz der Abweichung zwischen den RTX-GPUs ist minimal und innerhalb des Akzeptanz Bereichs gemäß den MLPerf-Richtlinien. Die Volta V100 GPU bietet die beste Performance, die RTX-GPUs sind aber auch gut, außer für die Objekt Erkennungs Benchmark.
Zum Zeitpunkt der Veröffentlichung schlug die Benchmark für die Image Klassifizierung in MLPerf aufgrund eines Falt Fehlers mit RTX-GPUs fehl. Dieses Problem wird voraussichtlich in einer zukünftigen cuDNN-Version behoben.
In diesem Blog haben wir die Performance der Dell EMC DSS 8440 GPU-Server und NVIDIA RTX-GPUs für HPC-und AI-Workloads besprochen. Die Performance der beiden RTX-GPUs ist ähnlich. die RTX 8000-GPU wäre jedoch die beste Wahl für Anwendungen, die eine höhere Speichermenge fordern. Für doppelte Präzisions-Workloads oder Workloads, die eine hohe Speicherbandbreite benötigen, sind Volta V100S und die neue NVIDIA A100-GPU die beste Wahl.
In der Zukunft möchten wir eine Performance Studie zu RTX-GPUs mit anderen einfachen Präzisionsanwendungen und eine ABLEITUNGS Studie zu RTX-und A100-GPUs bereitstellen.