DELL EMC DSS8440サーバーは、高パフォーマンスコンピューティング、ML (Machine Learning)、深い学習ワークロード用に設計された、2つのソケットである4u サーバーです。これは、nvidia Volta V100S や Nvidia tesla T4の 他、コア Gpu、 nvidia quadro Rtx gpuなど、さまざまな gpu をサポートし ます。
(図 1 Dell EMC DSS840 Server)
このブログでは、さまざまな業界標準のベンチマークツールを使用して、コストパフォーマンスに優れた NVIDIA Quadro RTX 6000 および NVIDIA Quadro RTX 8000 Gpu と、トップ階層のアクセラレータ V100S GPU を比較したパフォーマンスを評価します。これには、シングル対二重のワークロードのテストが含まれます。Quadro シリーズは長期間存在していますが、NVIDIA Turing アーキテクチャを使用する RTX Gpu は、遅延2018で起動されています。表1の仕様では、上位メモリ構成に関して RTX 8000 GPU が RTX 6000 より優れていることが示されています。ただし、RTX 8000 および RTX 6000 Gpu には、V100S GPU と比較して、電力の消費量が高くなります。より大きなメモリ容量を必要とするワークロードの場合は、RTX 8000 を選択する方が適切です。
仕様 | RTX 6000 | RTX 8000 | V100S-32 GB |
---|---|---|---|
アーキテクチャ | Turing | Volta | |
メモリー | 24 GB GDDR6 | 48 GB GDDR6 | 32 GB HBM2 |
デフォルトクロックレート (MHz) | 1395 | 1245 | |
GPU の最大クロック速度 (MHz) | 1770 | 1597 | |
CUDAコア | 4608 | 5120 | |
FP32 (TFLOPS 最大) | 16.3 | 16.4 | |
メモリ帯域幅 (GB/秒) | 672 | 1134 | |
電源 | 295 W | 250 W |
表. 1 GPU の 仕様
Server | DellEMC, PowerEdge, DSS8440 | ||
---|---|---|---|
CPU | Intel Xeon 6248、20 C @ 2.5 GHz ×2 | ||
メモリー | 24 x 32 GB @ 2933 MT/s (768 GB 合計) | ||
GPU | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S-PCIe |
ストレージ | 1 x Dell Express Flash NVMe 1 TB 2.5 "U. 2 (P4500) | ||
PSU | 4 x 2400 W |
表 2 サーバー構成の詳細
BIOS | 2.5.4 |
---|---|
OS | RHEL 7.6 |
カーネル | 3.10.0-957.el7.x86_64 |
システムプロファイル | 最適化されたパフォーマンス |
Cuda ツールキット CUDA ドライバ |
10.1 440.33.01 |
表. 3 システムファームウェアの詳細
アプリケーション | バージョン |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 Update 4 |
LAMMPS | 3月 3 2020 openmpi –4.0.3 |
MLPERF | v 0.6 トレーニング docker 19.03 |
表. 4 アプリケーション情報
LAMMPSは、Sandia 国立研究所と神殿大学の研究者によって管理される Molecular Dynamics アプリケーションです。LAMMPS は、 Kokkos パッケージを使用してコンパイルされ、 NVIDIA gpu で効率的に動作しています。Lennard Jones データセットは、パフォーマンスの比較と時間のステップに使用され、図2に示すように、メトリックになります。
(図: 2 Lennard Jones グラフ)
表1にリストされているように、RTX 6000 および RTX 8000 Gpu のコア数は同じで、単精度パフォーマンスと GPU 帯域幅は異なりますが、GPU メモリは異なります。両方の RTX Gpu に同様の構成があるため、パフォーマンスも同じ範囲にあります。このアプリケーションの RTX Gpu のスケールは良好であり、両方の Gpu のパフォーマンスは同一です。
Volta V100S GPU のパフォーマンスは、Quadro RTX Gpu よりも約3倍速くなります。この優れたパフォーマンスの主な要因は、V100S GPU の GPU メモリ帯域幅の増加です。
HPL は、コンピューティングパフォーマンスを測定する標準的な HPC ベンチマークです。これは、TOP500 リストによる参照のベンチマークとして使用され、世界中のスーパーのランクを付けます。
次の図は、DSS 8440 サーバーを使用した RTX 6000、RTX 8000、および V100S Gpu のパフォーマンスを示しています。ご覧のように、RTX Gpu のパフォーマンスは V100S GPU よりも大幅に低くなっています。これは、HPL が、主に倍精度浮動小数点演算である matrix LU factorization 実行するために予想されるものです。
(図: gpu が異なる2つの Hpl パフォーマンス)
理論的な浮動小数点パフォーマンス、つまり両方の Gpu の Rpeak を比較する場合は、V100S GPU のパフォーマンスが大幅に向上していることを確認します。1つの RPEAK GPU の理論的な Rpeak 値は約500GFlops です。この値は、GPU あたりのパフォーマンスが低下します (Rmax)。Volta V100S GPU の Rpeak 値は 8.2 TFlops で、各カードのパフォーマンスは大幅に向上します。
ML の業界標準のパフォーマンスベンチマークを、MLPerf suite の開発に向けて開発する必要があります。このスイートには、ML ハードウェアおよびソフトウェアのトレーニングと推定パフォーマンスを評価するためのベンチマークが含まれています。このセクションは、Gpu のトレーニングパフォーマンスのみに対応しています。次の表は、Gpu を評価するために使用されるディープラーニングワークロード、データセット、およびターゲットの基準を示しています。
ベンチマーク | データ | 品質ターゲット | リファレンス実装モデル |
---|---|---|---|
イメージの分類 | ImageNet (224x224) | 75.9% の上位1精度 | Resnet-50 v 1.5 |
オブジェクト検出 (ライトウェイト) |
COCO 2017 | 23% マップ | SSD-ResNet34 |
オブジェクト検出 (ヘビーウェイト) |
COCO 2017 | 0.377 ボックス最小 ap 0.339 マスク最小 ap |
マスク R-CNN |
翻訳 (繰り返し) |
WMT 英語-ドイツ語 | 24.0 BLEU | GNMT |
翻訳 (非繰り返し) |
WMT 英語-ドイツ語 | 25.0 BLEU | トランスフォーマー |
補強学習 | なし | 事前トレーニング済みチェックポイント | ミニゴー |
表 5: mlperf データセットとターゲットの基準 (ソース:https://mlperf.org/training-overview/#overview )
次の図は、rtx および V100S gpu 両方のターゲット条件を満たす時間を示しています。
(図: Mlperf パフォーマンス)
結果は、表示されたガイドラインに従って、複数の実行を実行した後で、最大値と最小値を破棄し、他の実行を平均化した後で考慮されます。両方の RTX Gpu のパフォーマンスは類似しています。これら両方の RTX Gpu 間の差異のパーセンテージは、MLPerf ガイドラインに従って、許容範囲内で最小限に抑えられます。Volta V100 GPU は最高のパフォーマンスを実現しますが、RTX Gpu もオブジェクト検出のベンチマークを除いて同様に動作します。
公開時に、エラーが発生したため、MLPerf のイメージ分類のベンチマークが RTX Gpu で失敗しました。この問題は今後の cuDNN リリースで修正される予定です。
このブログでは、HPC および AI ワークロードの Dell EMC DSS 8440 GPU サーバーと NVIDIA RTX Gpu のパフォーマンスについて説明しました。両方の RTX Gpu のパフォーマンスは類似していますが、より大きなメモリを必要とするアプリケーションには、RTX 8000 GPU が最適な選択肢となります。倍精度のワークロードの場合、または大容量のメモリ帯域幅を必要とするワークロードの場合は、新しい NVIDIA A100 GPU を選択することをお勧めします。
将来は、rtx Gpu に対して、他のシングル precision アプリケーションと、RTX および A100 Gpu での推論調査を行うことを計画しています。