Dell EMC DSS 8440-server som driftes av NVIDIA RTX GPU-er for HPC- og AI-arbeidsbelastninger

概要: Dell EMC DSS8440 server er en 2 sokkel, 4U-server som er utformet for data maskiner med høy ytelse, maskin opplæring (ML) og dyp opplærings arbeid. Denne artikkelen sammenligner ytelsen til ulike GPU-er som NVIDIA Volta V100S og NVIDIA Tesla T4-kjerner Core GPU-er, samt NVIDIA Quadro RTX GPU-er i dette systemet. ...

この記事は次に適用されます：この記事は次には適用されません：この記事は、特定の製品に関連付けられていません。すべての製品パージョンがこの記事に記載されているわけではありません。

現象

Deepthi Cherlopalle og Frank han

Dell EMC HPC og kunstig skapnings Lab, 2020

Dell EMC DSS8440 server er en 2 sokkel, 4U-server som er utformet for data maskiner med høy ytelse, maskin opplæring (ml) og dyp opplærings arbeid. Den støtter forskjellige GPU-er som NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 og NVIDIA Tesla T4 - kjerner Core GPU-er, samt NVIDIA Quadro RTX GPU-er .

SLN321776_en_US__4image (18426)

(Figur. 1 Dell EMC DSS840 server)

I denne bloggen evaluerer vi ytelsen til kostnads besparende NVIDIA Quadro RTX 6000 og NVIDIA Quadro RTX 8000 GPU-er sammenlignet med den øverste skala lag V100S GPU-en ved bruk av ulike benchmark-verktøy for industri standard. Dette inkluderer testing mot enkle arbeids belastninger i forhold til dobbel presisjon. Selv om Quadro-serien har eksistert for lenge, har RTX GPU-er som ble startet med NVIDIA Turing-arkitekturen i sent 2018. Spesifikasjonene i tabell 1 viser at RTX 8000-GPU-en er overordnet RTX 6000 når det gjelder høyere minne konfigurasjon. De RTX 8000 og RTX 6000 GPU-ene har imidlertid høyere strøm behov sammenlignet med V100S GPU-er. For arbeids belastninger som krever høyere minne kapasitet, er RTX 8000 det beste valget.

Spesifikasjoner	RTX 6000	RTX 8000	V100S-32 GB
Arkitektur	Turing		Volta
Minne	24 GB GDDR6	48 GB GDDR6	32 GB HBM2
Standard klokke hastighet (MHz)	1395		1245
Maksimal klokke hastighet på GPU (MHz)	1770		1597
CUDA-kjerner	4608		5120
FP32 (TFLOPS-maksimum)	16,3		16,4
Minne bånd bredde (GB/s)	672		1134
Strøm	295 W		250 W

Table. 1 GPU-spesifikasjoner

Server	DellEMC,PowerEdge, DSS8440
Prosessor	2 x Intel Xeon 6248, 20 C ved 2,5 GHz
Minne	24 x 32 GB ved 2933 MT/s (768 GB totalt)
GRAFIKK	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S-PCIe
Lagring	1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Strømforsyninger	4 x 2400 W

Tabell. 2 detaljer om konfigurasjon av server

BIOS	2.4.5
Operativsystem:	RHEL 7,6
Kjerne	3.10.0-957.el7.x86_64
System profil	Optimert ytelse
CUDA Toolkit CUDA-driver	10,1 440.33.01

Tabell. 3 detaljer om systemets FAS tvare

Applikasjon	Versjon
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018-oppdatering 4
LAMMPS	Mars 3 2020 OpenMPI – 4.0.3
MLPERF	v 0,6-opplæring dokking 19,03

Tabell. 4 -applikasjons informasjon

原因

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 er et Molecular Dynamics-program som vedlikeholdes av forskere ved Sandia nasjonale laboratorier og Temple University. LAMMPS ble kompilert med KOKKOS-pakken for å kjøre effektivt på nVidia GPU-er. Lennard Jensen-DataSet ble brukt til sammenligning av ytelse og Timesteps/s som metrikk som vist i figur 2:

SLN321776_en_US__8image (18427)

(Figur. 2 Lennard Jensen-graf)

Som oppført i tabell 1, har RTX 6000 og RTX 8000 GPU-er samme antall kjerner, enkel presisjons ytelse og GPU-båndbredde, men forskjellig GPU-minne. Fordi begge RTX GPU-er har en lignende konfigurasjon, er ytelsen også i samme område. RTXe GPU-er og-skala godt for dette programmet, og ytelsen for begge GPU-ene er identisk.

Volta V100S GPU-ytelsen er omtrent tre ganger raskere enn Quadro RTX GPU-er. Nøkkel faktoren for denne høyere ytelsen er den større GPU-minne bånd bredden til den V100S GPU-en.

High Performance Linpack (HPL)

HPL er en standard HPC benchmark som måler data behandlings ytelsen. Den brukes som en referanse-benchmark av TOP500-listen for å rangere data maskiner over hele verden.

Følgende figur viser ytelsen til RTX 6000, RTX 8000 og V100Se GPU-er som bruker DSS 8440-server. Som du kan se, er ytelsen til de RTX GPU-ene betydelig lavere enn den V100S GPU-en. Dette vil bli forventet fordi HPL utfører en Matrix LU factorization som hovedsakelig er flyt talls operasjoner med dobbel presisjon.

SLN321776_en_US__9image (18428)

(Figur. 3 HPL-ytelse med forskjellige GPU-er)

Hvis vi sammenligner den teoretiske flytende punkt ytelsen, det vil si Rpeak av begge GPU-ene, ser vi at den V100S GPU-ytelsen er mye høyere. Den teoretiske Rpeak-verdien på én enkelt RTX GPU er omtrent 500GFlops. Denne verdien gir mindre ytelse (Rmax) per GPU. Rpeak-verdien for Volta V100S GPU er 8.2 TFlops, som resulterer i mye høyere ytelse fra hvert kort.

MLPerf

Behovet for ytelses tester for industri standard for ML LED i forbindelse med utviklingen av MLPerf-serien. Denne pakken inkluderer ytelses tester for evaluering av opplæring og inference ytelse på ML-maskin vare og program vare. Denne delen håndterer bare opplærings ytelsen for GPU-er. Følgende tabell viser arbeids belastningene på dyp læring, data sett og mål vilkår som brukes for evaluering av GPU-er.

Verdier	Data sett	Kvalitets mål	Modell for referanse implementering
Bilde klassifisering	ImageNet (224x224)	75,9% topp-1 nøyaktighet	Resnet-50 v 1.5
Objekt oppdagelse (lys vekt)	COCOS 2017	23% kart	SSD-ResNet34
Oppdagelse av objekter (tung vekt)	COCOS 2017	0,377-boks minimum AP 0,339-maske minimum Ap	Maske R-CNN
Oversettelse (reaktivering)	WMT engelsk-tysk	24,0 BLEU	GNMT
Oversettelse (ikke oppdatert)	WMT engelsk-tysk	25,0 BLEU	Transformator
Forsterker opplæring	Ikke relevant	Forhånds kvalifisert kontroll punkt	Mini Go

Table. 5 MLPerf-datasett og mål vilkår (Kilde:https://mlperf.org/Training-Overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

følgende figur viser tiden for å oppfylle mål vilkårene for både RTX og V100S GPU-er:

SLN321776_en_US__11image (18441)
(Figur. 4 MLPERF ytelse)

Resultatene anses å etter at det er utført flere kjøringer, at den høyeste og laveste verdien og gjennomsnittet av de andre kjøres i henhold til de angitte retnings linjene. Ytelsen for både RTX GPU-er er like. Prosent andelen av avviket mellom begge RTX GPU-ene er minimale og innenfor godkjennings intervallet i henhold til MLPerf retnings linjer. Når Volta V100 GPU gir best ytelse, vil RTX-GPU-ene også fungere godt, bortsett fra oppdagelse av objektets ytelses test.

På publikasjonen arbeids tid mislyktes en ytelses test for bilde klassifisering i MLPerf med RTX GPU-er som følge av en overførings feil. Dette problemet er forventet å bli løst i en fremtidig cuDNN-utgivelse.

解決方法

Sammendrag

I denne bloggen har vi diskutert ytelsen til Dell EMC DSS 8440 GPU-server og NVIDIA RTX GPU-er for HPC og AI-arbeids belastninger. Ytelsen for begge RTX GPU-er er lik, men RTX 8000 GPU er imidlertid et best valg for programmer som krever en større mengde minne. For arbeids belastninger med dobbel presisjon, eller arbeids mengder som krever Volta-V100S med høy minne, og de nye NVIDIA A100 GPU-er er best valg.

I fremtiden planlegger vi å tilby en ytelses studie på RTX GPU-er med andre enkelt Precision-programmer og en Inference studie på RTX og A100 GPU-er.

対象製品

High Performance Computing Solution Resources

文書番号: 000132886

文書の種類: Solution

最終更新: 25 2月 2021

バージョン: 4

お使いのデバイスがサポートサービスの対象かどうかを確認してください。

Dell EMC DSS 8440-server som driftes av NVIDIA RTX GPU-er for HPC- og AI-arbeidsbelastninger

現象

Deepthi Cherlopalle og Frank han

Dell EMC HPC og kunstig skapnings Lab, 2020

原因

LAMMPS

High Performance Linpack (HPL)

MLPerf

解決方法

Sammendrag

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

ようこそ

Dellへようこそ

Dell EMC DSS 8440-server som driftes av NVIDIA RTX GPU-er for HPC- og AI-arbeidsbelastninger

詳細記事

現象

原因

解決方法

対象製品

現象

Deepthi Cherlopalle og Frank han

Dell EMC HPC og kunstig skapnings Lab, 2020

原因

LAMMPS

High Performance Linpack (HPL)

MLPerf

解決方法

Sammendrag

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

サポートサービス

サポートサービス