メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能

Dell EMC DSS 8440 server aangedreven door NVIDIA RTX-GPU’s voor HPC- en AI-workloads (in het Engels)

概要: De Dell EMC DSS8440-server is een 4U-server met 2 sockets die ontworpen is voor High Performance Computing, machines Learning (ML) en diep leer werk. Dit artikel vergelijkt de prestaties van verschillende Gpu's, zoals NVIDIA Volta V100S en NVIDIA Tesla T4 tensor core Gpu's en NVIDIA Quadro RTX Gpu's in dit systeem. ...

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

 

Deepthi Cherlopalle en Frank Han

 

Dell EMC HPC en AI-innovatie Lab juni 2020

 

De Dell EMC DSS8440 -server is een 4U-server met 2 sockets die ontworpen is voor High Performance Computing, machines Learning (ml) en diep leer werk. Het ondersteunt diverse Gpu's, zoals NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 en Nvidia Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 TENSOR core gpu's en NVIDIA Quadro RTX gpu'sSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Figuur. 1 Dell EMC DSS840-server)

In deze blog evalueren we de prestaties van de rendabele NVIDIA Quadro RTX 6000 en de NVIDIA Quadro RTX 8000-Gpu's vergeleken met de bovenlaag versneller V100S GPU met behulp van verschillende industriestandaard benchmarking tools. Dit omvat het testen tegen de werklast van enkele VS nauwkeurigheid. Hoewel de Quadro-serie een lange tijd heeft bevonden, RTX Gpu's met NVIDIA Turing-architectuur gelanceerd in de eind 2018. De specificaties in tabel 1 tonen aan dat de RTX 8000-GPU zich boven de RTX 6000 in termen van een hogere geheugenconfiguratie bevindt. De RTX 8000-en RTX 6000-Gpu's hebben echter hogere stroom behoeften dan de V100S GPU. Voor werklasten die een hogere geheugencapaciteit vereisen, is de RTX 8000 de beste keuze.

Specificaties RTX 6000 RTX 8000 V100S-32 GB
Architectuur Turing Volta
Geheugen 24 GB GDDR6 48 GB GDDR6 32 GB HBM2
Standaard kloksnelheid (MHz) 1395 1245
Maximale kloksnelheid GPU (MHz) 1770 1597
CUDA-kernen 4608 5120
FP32 (TFLOPS maximum) 16,3 16,4
Geheugenbandbreedte (GB/s) 672 1134
Voeding 295 W 250 W

Tabel. 1 GPU-specificaties

Server DellEMC, PowerEdge, DSS8440
Processor 2 x Intel Xeon 6248, 20 C bij 2,5 GHz
Geheugen 24 x 32 GB bij 2933 MT/s (totaal 768 GB)
GPU  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Storage 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Voedingen 4 x 2400 W

Tabel. 2 configuratiegegevens van server

BIOS 2.5.4
BESTURINGSSYSTEEM RHEL 7,6
Kern 3.10.0-957.el7.x86_64
Systeemprofiel Prestaties geoptimaliseerd
CUDA Toolkit
CUDA-stuurprogramma
10,1
440.33.01

Tabel. 3 Details systeem firmware

Applicatie Versie
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel mkl 2018-update 4
LAMMPS Maart 3 2020
openmpi-4.0.3
MLPERF v 0,6 trainingSLN321776_en_US__1iC_External_Link_BD_v1
docker 19,03

Tabel. 4 toepassingsinformatie

原因

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 is een moleculaire Dynamics-toepassing die wordt onderhouden door onderzoekers op Sandia National laboratoria en Temple University. LAMMPS is gecompileerd met het KOKKOS-pakketSLN321776_en_US__6iC_External_Link_BD_v1 om efficiënt op NVIDIA-gpu's te werken. Lennard Jansen-dataset wordt gebruikt voor de prestatie vergelijking en timesteps/s is de metric zoals wordt weergegeven in afbeelding 2:

SLN321776_en_US__8image (18427)

(Afbeelding) 2 Lennard Jansen-grafiek)

 Zoals vermeld in tabel 1, hebben de RTX 6000 en RTX 8000 hetzelfde aantal kernen, enkele precisie prestatie en GPU-bandbreedte maar ander GPU-geheugen. Omdat beide RTX-Gpu's een vergelijkbare configuratie hebben, is de werking ook in hetzelfde bereik. RTX GPU schaalt goed voor deze toepassing en de prestaties voor beide Gpu's zijn identiek.

De prestaties van de Volta V100S GPU is ongeveer drie keer sneller dan de Quadro RTX Gpu's. De sleutel factor voor deze hogere prestaties is de grotere GPU-geheugenbandbreedte van de V100S-GPU.


High Performance Linpack (HPL)

HPL is een standaard HPC benchmarktest waarmee de prestaties van de computer worden gemeten. Dit wordt gebruikt als referentie benchmark van de TOP500-lijst om supercomputeren overal ter wereld te rangschikken.

De volgende afbeelding toont de prestaties van de RTX 6000, RTX 8000 en V100S-Gpu's met behulp van de DSS 8440-server. Zoals u ziet kunnen de prestaties van de RTX-Gpu's aanzienlijk lager zijn dan de V100S-GPU. Dit is te verwachten omdat de HPL een matrix LU-factorization uitvoert. Dit is voornamelijk dubbele precisie drijvende punt bewerkingen.

SLN321776_en_US__9image (18428)

(Figuur. 3 HPL prestaties met verschillende gpu's)

Als we de theoretische drijvende-komma prestaties vergelijken, dat wil zeggen, Rpeak van beide Gpu's, zien we dat de prestaties van de V100S GPU veel hoger zijn. De theoretische Rpeak-waarde op een enkele RTX-GPU is ongeveer 500GFlops. Deze waarde levert minder prestatie (Rmax) per GPU op. De Rpeak-waarde voor Volta V100S GPU is 8.2 TFlops, wat leidt tot veel hogere prestaties van elke kaart.


MLPerf

De behoefte aan industriestandaard benchmarks voor de prestaties van ML leidde tot de ontwikkeling van het MLPerf-pakket. Deze suite omvat benchmarks voor het evalueren van trainingen en het afleiden van de prestaties van ML-hardware en-software. In dit gedeelte worden alleen de trainings prestaties van Gpu's geadresseerd. In de volgende tabel vindt u een lijst met de diepgaande werkbelastingen, datasets en doel criteria die worden gebruikt voor het evalueren van de Gpu's.

Ijkpunt Dataset Kwaliteits doel Referentie-implementatie model
Afbeeldings classificatie ImageNet (224x224) 75,9% hoogst-1 nauwkeurigheid ResNet-50 v 1.5
Object detectie
(lichtgewicht)
COCO 2017 23% kaart SSD-ResNet34
Object detectie
(zwaar gewicht)
COCO 2017 0,377 doos minimaal AP
0,339-masker minimaal AP
Masker R-CNN
Vertaling
(terugcourant)
WMT Engels-Duits 24,0 BLEU GNMT
Vertaling
(niet-recurrent)
 WMT Engels-Duits  25,0 BLEU Transformator
Versterking van het leerproces N.v.t. Vooraf getraind controlepunt Mini-go

Tabel. 5 MLPerf datasets en doel criteria (Bron:https://mlperf.org/training-overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

de volgende afbeelding toont de tijd die voldoet aan de doel criteria voor de RTX-en V100S-gpu's:

SLN321776_en_US__11image (18441)
(Afbeelding. 4 MLPERF-prestaties)

De resultaten worden beschouwd na het uitvoeren van meerdere runs, het verwijderen van de hoogste en de laagste waarde, en het gemiddelde berekenen van de andere uitvoeringen volgens de genoemde richtlijnen. De prestaties voor beide RTX-Gpu's zijn vergelijkbaar. Het percentage afwijking tussen de RTX Gpu's is minimaal en binnen het acceptatie bereik volgens de MLPerf-richtlijnen. Hoewel Volta V100 GPU de beste prestaties biedt, kunnen de RTX-Gpu's ook goed worden uitgevoerd met uitzondering van de benchmark methode voor objectdetectie.

Ten tijde van de publicatie kon de benchmark code van de installatiekopie in MLPerf niet worden opgetreden met RTX-Gpu's vanwege een convolutie fout. Dit probleem zal naar verwachting in een toekomstige cuDNN-release worden verholpen.

解決方法

Samenvatting:

In deze blog hebben we de prestaties van de Dell EMC DSS 8440 GPU server en NVIDIA RTX-Gpu's besproken voor HPC en AI-workloads. De prestaties voor beide RTX-Gpu's zijn vergelijkbaar. de RTX 8000-GPU is echter een beste keuze voor toepassingen die een grotere hoeveelheid geheugen nodig hebben. Voor snelle Precision-werklasten of werklasten die een hoge geheugenbandbreedte Volta-V100S vereisen en de nieuwe NVIDIA A100 GPU de beste keuze.

In de toekomst is het van plan om een prestatieonderzoek op RTX-Gpu's uit te voeren met andere single Precision-toepassingen en een de-onderzoek op RTX en A100 Gpu's.


対象製品

High Performance Computing Solution Resources
文書のプロパティ
文書番号: 000132886
文書の種類: Solution
最終更新: 25 2月 2021
バージョン:  4
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。