Dell EMC Server DSS 8440 unterstützt von NVIDIA RTX-GPUs für HPC- und AI-Workloads

概要: Der Dell EMC-DSS8440-Server ist ein 2-Sockel-4U-Server, der für Hochleistungs-Computing, Maschinelles Lernen und umfassende Lern Lasten entwickelt wurde. In diesem Artikel werden die Performance der verschiedenen GPUs, wie z. b. NVIDIA Volta V100S und NVIDIA Tesla T4 Tensor Core GPUs, sowie NVIDIA Quadro RTX GPUs in diesem System verglichen. ...

この記事は次に適用されます：この記事は次には適用されません：この記事は、特定の製品に関連付けられていません。すべての製品パージョンがこの記事に記載されているわけではありません。

現象

Deepthi Cherlopalle und Frank Han

Dell EMC HPC und AI Innovation Lab Juni 2020

Der Dell EMC-DSS8440 -Server ist ein 2-Sockel-4U-Server, der für Hochleistungs-Computing, Maschinelles Lernen und umfassende Lern Lasten entwickelt wurde. Es unterstützt verschiedene GPUs, wie z. b. NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 -und NVIDIA Tesla T4 - Tensor-Core-GPUs sowie NVIDIA Quadro RTX GPUs .

SLN321776_en_US__4image (18426)

(Abbildung. 1 Dell EMC DSS840-Server)

In diesem Blog evaluieren wir die Performance des kostengünstigen NVIDIA Quadro RTX 6000 und der NVIDIA Quadro RTX 8000 GPUs im Vergleich zur Top Tier Accelerator V100S GPU mithilfe verschiedener Industriestandard-Benchmarking-Tools. Dies umfasst das Testen von Workloads mit Einzel-vs doppelter Präzision. Während die Quadro-Serie über eine lange Zeit existierte, wurden RTX-GPUs mit NVIDIA Turing-Architektur in spät 2018 gestartet. Die technischen Daten in Tabelle 1 zeigen, dass die RTX 8000-GPU in puncto höhere Speicherkonfiguration der RTX 6000 überlegen ist. Die RTX 8000-und RTX 6000-GPUs haben jedoch einen höheren Energiebedarf als die V100S-GPU. Bei Workloads, bei denen eine höhere Speicherkapazität benötigt wird, ist der RTX 8000 die bessere Wahl.

Spezifikationen	RTX 6000	RTX 8000	V100S – 32 GB
Architektur	Turing		Volta
Speicher	24 GB GDDR6	48 GB GDDR6	32 GB HBM2
Standard Taktrate (MHz)	1395		1245
Maximale Taktrate der GPU (MHz)	1770		1597
CUDA-Kerne	4608		5120
FP32 (TFLOPS Maximum)	16,3		16,4
Speicherbandbreite (Gbit/s)	672		1134
Stromversorgung	295 W		250 W

Tabelle. 1 GPU- Technische Daten

Server	DellEMC,PowerEdge, DSS8440
Prozessor	2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Speicher	24 x 32 GB @ 2933 MT/s (768 GB gesamt)
GPU	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S-PCIe
Speicher	1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Netzteile	4 x 2400 W

Tabelle. 2 Server Konfigurationsdetails

BIOS	2.5.4
Betriebssystem	RHEL 7,6
Kernel	3.10.0-957.el7.x86_64
System Profil	Performance-optimiert
CUDA-Toolkit CUDA-Treiber	10,1 440.33.01

Tabelle. 3 Details zur System Firmware

Anwendung	Version
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 Update 4
LAMMPS	März 3 2020 openmpi – 4.0.3
MLPERF	v 0.6 Schulung docker 19,03

Tabelle. 4 Anwendungsinformationen

原因

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 ist eine Anwendung zur molekularen Dynamik, die von Forschern an den Sandia-nationalen Laboratorien und der Temple University verwaltet wird. LAMMPS wurde zusammen mit dem KOKKOS-Paket zur effizienten Ausführung auf NVIDIA GPUs kompiliert. Lennard Jones-DataSet wurde für den Leistungsvergleich und die Zeitstufen/s als Metrik verwendet, wie in Abbildung 2 dargestellt:

SLN321776_en_US__8image (18427)

(Abbildung. 2 Lennard-Jones-Diagramm)

Wie in Tabelle 1 aufgeführt, haben die RTX 6000-und RTX 8000-GPUs die gleiche Anzahl an Kernen, eine Präzisionsleistung und eine GPU-Bandbreite, aber unterschiedliche GPU-Speicher. Da beide RTX-GPUs eine ähnliche Konfiguration haben, ist die Performance auch im gleichen Bereich. RTX-GPUs sind für diese Anwendung gut skaliert und die Performance der GPUs ist identisch.

Die Performance der Volta V100S-GPU beträgt ca. dreimal schneller als die Quadro RTX-GPUs. Der Schlüsselfaktor für diese höhere Performance ist die größere GPU-Speicherbandbreite der V100S-GPU.

High Performance Linpack (HPL)

HPL ist ein Standard HPC-Benchmark, der die Rechenleistung misst. Er wird als Referenz-Benchmark von der TOP500-Liste verwendet, um Supercomputer weltweit zu klassifizieren.

Die folgende Abbildung zeigt die Performance von RTX 6000, RTX 8000 und V100S GPUs unter Verwendung des DSS 8440-Servers. Wie Sie sehen können, ist die Performance der RTX-GPUs deutlich niedriger als die V100S-GPU. Dies ist zu erwarten, da die HPL eine Matrix-LU-Faktorisierung durchführt, die in erster Linie Gleitkomma Vorgänge mit doppelter Präzision darstellt.

SLN321776_en_US__9image (18428)

(Abbildung. 3 Leistung von HPL mit verschiedenen GPUs)

Wenn wir die theoretische Gleitkommaleistung, also die Rpeak beider GPUs, vergleichen, sehen wir, dass die Performance der V100S GPU deutlich höher ist. Der theoretische Rpeak Wert auf einer einzigen RTX-GPU beträgt ca. 500GFlops. Dieser Wert ergibt weniger Leistung (Rmax) pro GPU. Der Rpeak-Wert für die Volta V100S-GPU ist 8.2 TFLOPS, was zu einer deutlich höheren Performance von jeder Karte führt.

MLPerf

Der Bedarf an branchenüblichen Performance-Benchmarks für ml führte zur Entwicklung der MLPerf Suite. Diese Suite enthält Benchmarks für die Bewertung der Schulung und der ABLEITUNGS Performance von ml-Hardware und-Software. In diesem Abschnitt wird nur die Trainingsleistung von GPUs beschrieben. In der folgenden Tabelle sind die umfangreicheren Lern-Workloads, Datasets und Zielkriterien aufgeführt, die für die Bewertung der GPUs verwendet werden.

Benchmark	DataSet	Qualitätsziel	Referenz Implementierungsmodell
Bildklassifizierung	ImageNet (224x224)	75,9% Top-1 Genauigkeit	RESNET – 50 v 1.5
Objekterkennung (geringes Gewicht)	Coco 2017	23% Karte	SSD-ResNet34
Objekterkennung (schwerwiegend)	Coco 2017	0,377 Box Minimum AP 0,339 Mask Minimum AP	Maske R – CNN
Übersetzung (aktuell)	Wright Deutsch	24,0 Bleu	GNMT
Übersetzung (nicht wiederkehrende)	Wright Deutsch	25,0 Bleu	Transformator
Verstärkungs lernen	N. z.	Vortrainierter Prüfpunkt	Mini go

Tabelle. 5 MLPerf-Datasets und Zielkriterien (Quelle:https://mlperf.org/Training-Overview/#Overview SLN321776_en_US__6iC_External_Link_BD_v1 )

in der folgenden Abbildung ist die Zeit zur Einhaltung der Zielkriterien für die RTX-und V100S-GPUs dargestellt:

SLN321776_en_US__11image (18441)
(Abbildung. 4 MLPERF-Leistung)

Die Ergebnisse werden nach der Ausführung mehrerer Durchläufe, dem verwerfen des höchsten und des niedrigsten Werts und der Mittelung der anderen nach den aufgeführten Richtlinien berücksichtigt. Die Performance der RTX-GPUs ist ähnlich. Der Prozentsatz der Abweichung zwischen den RTX-GPUs ist minimal und innerhalb des Akzeptanz Bereichs gemäß den MLPerf-Richtlinien. Die Volta V100 GPU bietet die beste Performance, die RTX-GPUs sind aber auch gut, außer für die Objekt Erkennungs Benchmark.

Zum Zeitpunkt der Veröffentlichung schlug die Benchmark für die Image Klassifizierung in MLPerf aufgrund eines Falt Fehlers mit RTX-GPUs fehl. Dieses Problem wird voraussichtlich in einer zukünftigen cuDNN-Version behoben.

解決方法

Übersicht

In diesem Blog haben wir die Performance der Dell EMC DSS 8440 GPU-Server und NVIDIA RTX-GPUs für HPC-und AI-Workloads besprochen. Die Performance der beiden RTX-GPUs ist ähnlich. die RTX 8000-GPU wäre jedoch die beste Wahl für Anwendungen, die eine höhere Speichermenge fordern. Für doppelte Präzisions-Workloads oder Workloads, die eine hohe Speicherbandbreite benötigen, sind Volta V100S und die neue NVIDIA A100-GPU die beste Wahl.

In der Zukunft möchten wir eine Performance Studie zu RTX-GPUs mit anderen einfachen Präzisionsanwendungen und eine ABLEITUNGS Studie zu RTX-und A100-GPUs bereitstellen.

対象製品

High Performance Computing Solution Resources

文書番号: 000132886

文書の種類: Solution

最終更新: 25 2月 2021

バージョン: 4

お使いのデバイスがサポートサービスの対象かどうかを確認してください。

Dell EMC Server DSS 8440 unterstützt von NVIDIA RTX-GPUs für HPC- und AI-Workloads

現象

Deepthi Cherlopalle und Frank Han

Dell EMC HPC und AI Innovation Lab Juni 2020

原因

LAMMPS

High Performance Linpack (HPL)

MLPerf

解決方法

Übersicht

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

ようこそ

Dellへようこそ

Dell EMC Server DSS 8440 unterstützt von NVIDIA RTX-GPUs für HPC- und AI-Workloads

詳細記事

現象

原因

解決方法

対象製品

現象

Deepthi Cherlopalle und Frank Han

Dell EMC HPC und AI Innovation Lab Juni 2020

原因

LAMMPS

High Performance Linpack (HPL)

MLPerf

解決方法

Übersicht

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

サポートサービス

サポートサービス