メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能

Dell EMC Server DSS 8440 unterstützt von NVIDIA RTX-GPUs für HPC- und AI-Workloads

概要: Der Dell EMC-DSS8440-Server ist ein 2-Sockel-4U-Server, der für Hochleistungs-Computing, Maschinelles Lernen und umfassende Lern Lasten entwickelt wurde. In diesem Artikel werden die Performance der verschiedenen GPUs, wie z. b. NVIDIA Volta V100S und NVIDIA Tesla T4 Tensor Core GPUs, sowie NVIDIA Quadro RTX GPUs in diesem System verglichen. ...

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

 

Deepthi Cherlopalle und Frank Han

 

Dell EMC HPC und AI Innovation Lab Juni 2020

 

Der Dell EMC-DSS8440 -Server ist ein 2-Sockel-4U-Server, der für Hochleistungs-Computing, Maschinelles Lernen und umfassende Lern Lasten entwickelt wurde. Es unterstützt verschiedene GPUs, wie z. b. NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 -und NVIDIA Tesla T4 - SLN321776_en_US__1iC_External_Link_BD_v1 Tensor-Core-GPUs sowie NVIDIA Quadro RTX GPUsSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Abbildung. 1 Dell EMC DSS840-Server)

In diesem Blog evaluieren wir die Performance des kostengünstigen NVIDIA Quadro RTX 6000 und der NVIDIA Quadro RTX 8000 GPUs im Vergleich zur Top Tier Accelerator V100S GPU mithilfe verschiedener Industriestandard-Benchmarking-Tools. Dies umfasst das Testen von Workloads mit Einzel-vs doppelter Präzision. Während die Quadro-Serie über eine lange Zeit existierte, wurden RTX-GPUs mit NVIDIA Turing-Architektur in spät 2018 gestartet. Die technischen Daten in Tabelle 1 zeigen, dass die RTX 8000-GPU in puncto höhere Speicherkonfiguration der RTX 6000 überlegen ist. Die RTX 8000-und RTX 6000-GPUs haben jedoch einen höheren Energiebedarf als die V100S-GPU. Bei Workloads, bei denen eine höhere Speicherkapazität benötigt wird, ist der RTX 8000 die bessere Wahl.

Spezifikationen RTX 6000 RTX 8000 V100S – 32 GB
Architektur Turing Volta
Speicher 24 GB GDDR6 48 GB GDDR6 32 GB HBM2
Standard Taktrate (MHz) 1395 1245
Maximale Taktrate der GPU (MHz) 1770 1597
CUDA-Kerne 4608 5120
FP32 (TFLOPS Maximum) 16,3 16,4
Speicherbandbreite (Gbit/s) 672 1134
Stromversorgung 295 W 250 W

Tabelle. 1 GPU- Technische Daten

Server DellEMC,PowerEdge, DSS8440
Prozessor 2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Speicher 24 x 32 GB @ 2933 MT/s (768 GB gesamt)
GPU  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Speicher 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Netzteile 4 x 2400 W

Tabelle. 2 Server Konfigurationsdetails

BIOS 2.5.4
Betriebssystem RHEL 7,6
Kernel 3.10.0-957.el7.x86_64
System Profil Performance-optimiert
CUDA-Toolkit
CUDA-Treiber
10,1
440.33.01

Tabelle. 3 Details zur System Firmware

Anwendung Version
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 Update 4
LAMMPS März 3 2020
openmpi – 4.0.3
MLPERF v 0.6 SchulungSLN321776_en_US__1iC_External_Link_BD_v1
docker 19,03

Tabelle. 4 Anwendungsinformationen

原因

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 ist eine Anwendung zur molekularen Dynamik, die von Forschern an den Sandia-nationalen Laboratorien und der Temple University verwaltet wird. LAMMPS wurde zusammen mit dem KOKKOS-PaketSLN321776_en_US__6iC_External_Link_BD_v1 zur effizienten Ausführung auf NVIDIA GPUs kompiliert. Lennard Jones-DataSet wurde für den Leistungsvergleich und die Zeitstufen/s als Metrik verwendet, wie in Abbildung 2 dargestellt:

SLN321776_en_US__8image (18427)

(Abbildung. 2 Lennard-Jones-Diagramm)

 Wie in Tabelle 1 aufgeführt, haben die RTX 6000-und RTX 8000-GPUs die gleiche Anzahl an Kernen, eine Präzisionsleistung und eine GPU-Bandbreite, aber unterschiedliche GPU-Speicher. Da beide RTX-GPUs eine ähnliche Konfiguration haben, ist die Performance auch im gleichen Bereich. RTX-GPUs sind für diese Anwendung gut skaliert und die Performance der GPUs ist identisch.

Die Performance der Volta V100S-GPU beträgt ca. dreimal schneller als die Quadro RTX-GPUs. Der Schlüsselfaktor für diese höhere Performance ist die größere GPU-Speicherbandbreite der V100S-GPU.


High Performance Linpack (HPL)

HPL ist ein Standard HPC-Benchmark, der die Rechenleistung misst. Er wird als Referenz-Benchmark von der TOP500-Liste verwendet, um Supercomputer weltweit zu klassifizieren.

Die folgende Abbildung zeigt die Performance von RTX 6000, RTX 8000 und V100S GPUs unter Verwendung des DSS 8440-Servers. Wie Sie sehen können, ist die Performance der RTX-GPUs deutlich niedriger als die V100S-GPU. Dies ist zu erwarten, da die HPL eine Matrix-LU-Faktorisierung durchführt, die in erster Linie Gleitkomma Vorgänge mit doppelter Präzision darstellt.

SLN321776_en_US__9image (18428)

(Abbildung. 3 Leistung von HPL mit verschiedenen GPUs)

Wenn wir die theoretische Gleitkommaleistung, also die Rpeak beider GPUs, vergleichen, sehen wir, dass die Performance der V100S GPU deutlich höher ist. Der theoretische Rpeak Wert auf einer einzigen RTX-GPU beträgt ca. 500GFlops. Dieser Wert ergibt weniger Leistung (Rmax) pro GPU. Der Rpeak-Wert für die Volta V100S-GPU ist 8.2 TFLOPS, was zu einer deutlich höheren Performance von jeder Karte führt.


MLPerf

Der Bedarf an branchenüblichen Performance-Benchmarks für ml führte zur Entwicklung der MLPerf Suite. Diese Suite enthält Benchmarks für die Bewertung der Schulung und der ABLEITUNGS Performance von ml-Hardware und-Software. In diesem Abschnitt wird nur die Trainingsleistung von GPUs beschrieben. In der folgenden Tabelle sind die umfangreicheren Lern-Workloads, Datasets und Zielkriterien aufgeführt, die für die Bewertung der GPUs verwendet werden.

Benchmark DataSet Qualitätsziel Referenz Implementierungsmodell
Bildklassifizierung ImageNet (224x224) 75,9% Top-1 Genauigkeit RESNET – 50 v 1.5
Objekterkennung
(geringes Gewicht)
Coco 2017 23% Karte SSD-ResNet34
Objekterkennung
(schwerwiegend)
Coco 2017 0,377 Box Minimum AP
0,339 Mask Minimum AP
Maske R – CNN
Übersetzung
(aktuell)
Wright Deutsch 24,0 Bleu GNMT
Übersetzung
(nicht wiederkehrende)
 Wright Deutsch  25,0 Bleu Transformator
Verstärkungs lernen N. z. Vortrainierter Prüfpunkt Mini go

Tabelle. 5 MLPerf-Datasets und Zielkriterien (Quelle:https://mlperf.org/Training-Overview/#OverviewSLN321776_en_US__6iC_External_Link_BD_v1 )

in der folgenden Abbildung ist die Zeit zur Einhaltung der Zielkriterien für die RTX-und V100S-GPUs dargestellt:

SLN321776_en_US__11image (18441)
(Abbildung. 4 MLPERF-Leistung)

Die Ergebnisse werden nach der Ausführung mehrerer Durchläufe, dem verwerfen des höchsten und des niedrigsten Werts und der Mittelung der anderen nach den aufgeführten Richtlinien berücksichtigt. Die Performance der RTX-GPUs ist ähnlich. Der Prozentsatz der Abweichung zwischen den RTX-GPUs ist minimal und innerhalb des Akzeptanz Bereichs gemäß den MLPerf-Richtlinien. Die Volta V100 GPU bietet die beste Performance, die RTX-GPUs sind aber auch gut, außer für die Objekt Erkennungs Benchmark.

Zum Zeitpunkt der Veröffentlichung schlug die Benchmark für die Image Klassifizierung in MLPerf aufgrund eines Falt Fehlers mit RTX-GPUs fehl. Dieses Problem wird voraussichtlich in einer zukünftigen cuDNN-Version behoben.

解決方法

Übersicht

In diesem Blog haben wir die Performance der Dell EMC DSS 8440 GPU-Server und NVIDIA RTX-GPUs für HPC-und AI-Workloads besprochen. Die Performance der beiden RTX-GPUs ist ähnlich. die RTX 8000-GPU wäre jedoch die beste Wahl für Anwendungen, die eine höhere Speichermenge fordern. Für doppelte Präzisions-Workloads oder Workloads, die eine hohe Speicherbandbreite benötigen, sind Volta V100S und die neue NVIDIA A100-GPU die beste Wahl.

In der Zukunft möchten wir eine Performance Studie zu RTX-GPUs mit anderen einfachen Präzisionsanwendungen und eine ABLEITUNGS Studie zu RTX-und A100-GPUs bereitstellen.


対象製品

High Performance Computing Solution Resources
文書のプロパティ
文書番号: 000132886
文書の種類: Solution
最終更新: 25 2月 2021
バージョン:  4
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。