メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能

Dell EMC DSS 8440-server som driftes av NVIDIA RTX GPU-er for HPC- og AI-arbeidsbelastninger

概要: Dell EMC DSS8440 server er en 2 sokkel, 4U-server som er utformet for data maskiner med høy ytelse, maskin opplæring (ML) og dyp opplærings arbeid. Denne artikkelen sammenligner ytelsen til ulike GPU-er som NVIDIA Volta V100S og NVIDIA Tesla T4-kjerner Core GPU-er, samt NVIDIA Quadro RTX GPU-er i dette systemet. ...

この記事は次に適用されます:   この記事は次には適用されません: 

現象

 

Deepthi Cherlopalle og Frank han

 

Dell EMC HPC og kunstig skapnings Lab, 2020

 

Dell EMC DSS8440 server er en 2 sokkel, 4U-server som er utformet for data maskiner med høy ytelse, maskin opplæring (ml) og dyp opplærings arbeid. Den støtter forskjellige GPU-er som NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 og NVIDIA Tesla T4 - SLN321776_en_US__1iC_External_Link_BD_v1 kjerner Core GPU-er, samt NVIDIA Quadro RTX GPU-er SLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Figur. 1 Dell EMC DSS840 server)

I denne bloggen evaluerer vi ytelsen til kostnads besparende NVIDIA Quadro RTX 6000 og NVIDIA Quadro RTX 8000 GPU-er sammenlignet med den øverste skala lag V100S GPU-en ved bruk av ulike benchmark-verktøy for industri standard. Dette inkluderer testing mot enkle arbeids belastninger i forhold til dobbel presisjon. Selv om Quadro-serien har eksistert for lenge, har RTX GPU-er som ble startet med NVIDIA Turing-arkitekturen i sent 2018. Spesifikasjonene i tabell 1 viser at RTX 8000-GPU-en er overordnet RTX 6000 når det gjelder høyere minne konfigurasjon. De RTX 8000 og RTX 6000 GPU-ene har imidlertid høyere strøm behov sammenlignet med V100S GPU-er. For arbeids belastninger som krever høyere minne kapasitet, er RTX 8000 det beste valget.

Spesifikasjoner RTX 6000 RTX 8000 V100S-32 GB
Arkitektur Turing Volta
Minne 24 GB GDDR6 48 GB GDDR6 32 GB HBM2
Standard klokke hastighet (MHz) 1395 1245
Maksimal klokke hastighet på GPU (MHz) 1770 1597
CUDA-kjerner 4608 5120
FP32 (TFLOPS-maksimum) 16,3 16,4
Minne bånd bredde (GB/s) 672 1134
Strøm 295 W 250 W

Table. 1 GPU-spesifikasjoner

Server DellEMC,PowerEdge, DSS8440
Prosessor 2 x Intel Xeon 6248, 20 C ved 2,5 GHz
Minne 24 x 32 GB ved 2933 MT/s (768 GB totalt)
GRAFIKK  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Lagring 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Strømforsyninger 4 x 2400 W

Tabell. 2 detaljer om konfigurasjon av server

BIOS 2.4.5
Operativsystem: RHEL 7,6
Kjerne 3.10.0-957.el7.x86_64
System profil Optimert ytelse
CUDA Toolkit
CUDA-driver
10,1
440.33.01

Tabell. 3 detaljer om systemets FAS tvare

Applikasjon Versjon
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018-oppdatering 4
LAMMPS Mars 3 2020
OpenMPI – 4.0.3
MLPERF v 0,6-opplæringSLN321776_en_US__1iC_External_Link_BD_v1
dokking 19,03

Tabell. 4 -applikasjons informasjon

原因

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 er et Molecular Dynamics-program som vedlikeholdes av forskere ved Sandia nasjonale laboratorier og Temple University. LAMMPS ble kompilert med KOKKOS-pakkenSLN321776_en_US__6iC_External_Link_BD_v1 for å kjøre effektivt på nVidia GPU-er. Lennard Jensen-DataSet ble brukt til sammenligning av ytelse og Timesteps/s som metrikk som vist i figur 2:

SLN321776_en_US__8image (18427)

(Figur. 2 Lennard Jensen-graf)

 Som oppført i tabell 1, har RTX 6000 og RTX 8000 GPU-er samme antall kjerner, enkel presisjons ytelse og GPU-båndbredde, men forskjellig GPU-minne. Fordi begge RTX GPU-er har en lignende konfigurasjon, er ytelsen også i samme område. RTXe GPU-er og-skala godt for dette programmet, og ytelsen for begge GPU-ene er identisk.

Volta V100S GPU-ytelsen er omtrent tre ganger raskere enn Quadro RTX GPU-er. Nøkkel faktoren for denne høyere ytelsen er den større GPU-minne bånd bredden til den V100S GPU-en.


High Performance Linpack (HPL)

HPL er en standard HPC benchmark som måler data behandlings ytelsen. Den brukes som en referanse-benchmark av TOP500-listen for å rangere data maskiner over hele verden.

Følgende figur viser ytelsen til RTX 6000, RTX 8000 og V100Se GPU-er som bruker DSS 8440-server. Som du kan se, er ytelsen til de RTX GPU-ene betydelig lavere enn den V100S GPU-en. Dette vil bli forventet fordi HPL utfører en Matrix LU factorization som hovedsakelig er flyt talls operasjoner med dobbel presisjon.

SLN321776_en_US__9image (18428)

(Figur. 3 HPL-ytelse med forskjellige GPU-er)

Hvis vi sammenligner den teoretiske flytende punkt ytelsen, det vil si Rpeak av begge GPU-ene, ser vi at den V100S GPU-ytelsen er mye høyere. Den teoretiske Rpeak-verdien på én enkelt RTX GPU er omtrent 500GFlops. Denne verdien gir mindre ytelse (Rmax) per GPU. Rpeak-verdien for Volta V100S GPU er 8.2 TFlops, som resulterer i mye høyere ytelse fra hvert kort.


MLPerf

Behovet for ytelses tester for industri standard for ML LED i forbindelse med utviklingen av MLPerf-serien. Denne pakken inkluderer ytelses tester for evaluering av opplæring og inference ytelse på ML-maskin vare og program vare. Denne delen håndterer bare opplærings ytelsen for GPU-er. Følgende tabell viser arbeids belastningene på dyp læring, data sett og mål vilkår som brukes for evaluering av GPU-er.

Verdier Data sett Kvalitets mål Modell for referanse implementering
Bilde klassifisering ImageNet (224x224) 75,9% topp-1 nøyaktighet Resnet-50 v 1.5
Objekt oppdagelse
(lys vekt)
COCOS 2017 23% kart SSD-ResNet34
Oppdagelse av objekter
(tung vekt)
COCOS 2017 0,377-boks minimum AP
0,339-maske minimum Ap
Maske R-CNN
Oversettelse
(reaktivering)
WMT engelsk-tysk 24,0 BLEU GNMT
Oversettelse
(ikke oppdatert)
 WMT engelsk-tysk  25,0 BLEU Transformator
Forsterker opplæring Ikke relevant Forhånds kvalifisert kontroll punkt Mini Go

Table. 5 MLPerf-datasett og mål vilkår (Kilde:https://mlperf.org/Training-Overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

følgende figur viser tiden for å oppfylle mål vilkårene for både RTX og V100S GPU-er:

SLN321776_en_US__11image (18441)
(Figur. 4 MLPERF ytelse)

Resultatene anses å etter at det er utført flere kjøringer, at den høyeste og laveste verdien og gjennomsnittet av de andre kjøres i henhold til de angitte retnings linjene. Ytelsen for både RTX GPU-er er like. Prosent andelen av avviket mellom begge RTX GPU-ene er minimale og innenfor godkjennings intervallet i henhold til MLPerf retnings linjer. Når Volta V100 GPU gir best ytelse, vil RTX-GPU-ene også fungere godt, bortsett fra oppdagelse av objektets ytelses test.

På publikasjonen arbeids tid mislyktes en ytelses test for bilde klassifisering i MLPerf med RTX GPU-er som følge av en overførings feil. Dette problemet er forventet å bli løst i en fremtidig cuDNN-utgivelse.

解決方法

Sammendrag

I denne bloggen har vi diskutert ytelsen til Dell EMC DSS 8440 GPU-server og NVIDIA RTX GPU-er for HPC og AI-arbeids belastninger. Ytelsen for begge RTX GPU-er er lik, men RTX 8000 GPU er imidlertid et best valg for programmer som krever en større mengde minne. For arbeids belastninger med dobbel presisjon, eller arbeids mengder som krever Volta-V100S med høy minne, og de nye NVIDIA A100 GPU-er er best valg.

I fremtiden planlegger vi å tilby en ytelses studie på RTX GPU-er med andre enkelt Precision-programmer og en Inference studie på RTX og A100 GPU-er.


対象製品

High Performance Computing Solution Resources