Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

NVIDIA RTX -grafiikkasuorittimilla varustettu Dell EMC DSS 8440 -palvelin HPC- ja tekoälytyökuormiin

Summary: Dell EMC DSS8440 -palvelin on 2 Socket- ja 4U-palvelin, joka on suunniteltu suurteholaskentaan, koneoppimiseen (ML) ja syväoppimisen työkuormiin. Tässä artikkelissa verrataan eri gpU: iden, kuten NVIDIA Volta V100S ja NVIDIA Tesla T4 Tensor Core GPU, suorituskykyä tässä järjestelmässä. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

 

Deepthi Cherlopalle ja Frank Han

 

Dell EMC HPC ja AI Innovation Lab kesäkuu 2020

 

Dell EMC DSS8440 -palvelin on 2 Socket- ja 4U-palvelin, joka on suunniteltu suurteholaskentaan, koneoppimiseen (ML) ja syväoppimisen työkuormiin. Se tukee erilaisia ryhmäkäytäntöobjekteja, kuten NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 ja NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 Tensor Core GPU sekä NVIDIA quadro RTX GPUSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image(18426)

(Kuva.1 Dell EMC DSS840 -palvelin)

Tässä blogissa arvioimme kustannustehokkaan NVIDIA Quadro RTX 6000: n ja NVIDIA Quadro RTX 8000 GPU: n suorituskykyä verrattuna ylimmän tason kiihdyttimeen V100S GPU käyttämällä erilaisia alan standardivertailutyökaluja. Tähän sisältyy testaaminen yhden ja kaksinkertaisen tarkkuuden työkuormia vastaan. Vaikka Quadro-sarja on ollut olemassa jo pitkään, LOPPUVUODESTA 2018 lanseerattiin NVIDIA Turing Architecturen RTX-GPU:t. Taulukon 1 tekniset tiedot osoittavat, että RTX 8000 -GPU on suurempi kuin RTX 6000 suurempi muistikokoonpano. RTX 8000- ja RTX 6000 -GPU:illa on kuitenkin suuremmat tehontarpeet kuin V100S-GPU:lla. Rtx 8000 on parempi vaihtoehto työkuormille, jotka vaativat suuremman muistikapasiteetin.

Tekniset tiedot RTX 6000 -ylle RTX 8000 -käyttö V100S-32 Gt
Arkkitehtuuri Turing Volta
Muisti 24 Gt:n GDDR6 48 Gt:n GDDR6 32 Gt HBM2
Oletuskellotaajuus (MHz) 1395 1245
Suorittimen suurin kellotaajuus (MHz) 1770 1597
CUDA-ytimet 4608 5 120
FP32(TFLOPS enintään) 16,3 16,4
Muistin kaistanleveys (Gt/s) 672 1134
Virta 295 W 250 W

Taulukko.1 Suorittimen tekniset tiedot

Palvelin DellEMC,PowerEdge, DSS8440
suoritin 2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Muisti 24 x 32 Gt @ 2933 MT/s (yhteensä 768 Gt)
Grafiikkasuoritin  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S - PCIe 
Tallennus 1 x Dell Express Flash NVMe 1 Tt 2,5" U.2 (P4500)
Virtalähteet 4 x 2400 W

Table.2 Palvelimen kokoonpanotiedot

BIOS 2.4.5
Käyttöjärjestelmä RHEL 7.6
Ydin 3.10.0-957.el7.x86_64
Järjestelmäprofiili Optimoitu suorituskyky
CUDA Työkalupakki
CUDA-ohjain
10.1
440.33.01

Taulukko.3 Järjestelmän laiteohjelmiston tiedot

Sovellus Versio
HPL hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 -päivitys 4
LAMMPS-mekanismit 3.3.2020
OpenMPI – 4.0.3
MLPERF-tiedosto v0.6 KoulutusSLN321776_en_US__1iC_External_Link_BD_v1
docker 19,03

Taulukko.4 Sovellustiedot

Cause

LAMMPS-mekanismit

LAMMPS-mekanismitSLN321776_en_US__6iC_External_Link_BD_v1 on Molekyylidynamiikka-sovellus, jota ylläpitävät Sandia National Laboratoriesin ja Temple Universityn tutkijat. LAMMPS koottiin KOKKOS-paketin kanssa toimimaanSLN321776_en_US__6iC_External_Link_BD_v1 tehokkaasti NVIDIA GPU:illa. Lennard Jones -tietojoukkoa käytettiin suorituskyvyn vertailuun, ja Timesteps/s on kuvassa 2 esitetty mittari:

SLN321776_en_US__8image(18427)

(Kuva.2 Lennard Jones Graph)

 Kuten taulukossa 1 on lueteltu, RTX 6000- ja RTX 8000 -ryhmäkäytäntöobjekteilla on sama määrä ytimiä, yksi tarkkuussuorituskyky ja GPU-kaistanleveys, mutta erilainen GPU-muisti. Koska molemmilla RTX-ryhmäkäytäntöobjekteilla on samanlainen kokoonpano, suorituskyky on myös samalla alueella. RTX GPU:t skaalataan hyvin tähän sovellukseen, ja molempien ryhmäkäytäntöobjektien suorituskyky on sama.

Volta V100S -GPU-suorituskyky on noin kolme kertaa nopeampi kuin Quadro RTX -GPU:iden. Tämän korkeamman suorituskyvyn avaintekijä on V100S-suorittimen suurempi GPU-muistin kaistanleveys.


High Performance Linpack (HPL)

HPL on tavallinen HPC-vertailuarvo, joka mittaa laskentatehoa. TOP500-luettelossa sitä käytetään vertailuvertailuna supertietokoneiden sijoittuessa maailmanlaajuisesti.

Seuraavassa kuvassa esitetään RTX 6000-, RTX 8000- ja V100S-ryhmäkäytäntöobjektien suorituskyky DSS 8440 -palvelimella. Kuten näette, RTX-ryhmäkäytäntöobjektien suorituskyky on huomattavasti pienempi kuin V100S-GPU: n. Tämä on odotettavissa, koska HPL suorittaa matriisin LU-kertoimen, joka on ensisijaisesti kaksoistarkkuuden liukulukutoimintoja.

SLN321776_en_US__9image(18428)

(Kuva 3 HPL-suorituskyky erilaisilla ryhmäkäytäntöobjekteilla)

Jos vertaamme teoreettista liukulukusuoritusta, eli molempien GPU:iden Rpeakia, näemme, että V100S-GPU:n suorituskyky on paljon korkeampi. Teoreettinen Rpeak-arvo yhdessä RTX-GPU:ssa on noin 500 GFlops. Tämä arvo tuottaa vähemmän suorituskykyä (Rmax) GPU:ta kohti. Volta V100S GPU:n Rpeak-arvo on 8.2TFlops, mikä johtaa paljon suurempaan suorituskykyyn jokaisesta kortista.


MLPerf-ylle

ML:n toimialakohtaisten suorituskykyvertailuarvojen tarve johti MLPerf-sarjan kehittämiseen. Tämä sarja sisältää vertailuarvoja ML-laitteistojen ja -ohjelmistojen koulutuksen ja suorituskyvyn päättämiseksi. Tässä osassa käsitellään vain ryhmäkäytäntöobjektien koulutussuoritusta. Seuraavassa taulukossa on luettelo ryhmäkäytäntöobjektien arvioinnissa käytettävistä syväoppimisen työmääristä, tietojoukoista ja kohdekriteereistä.

kiintopiste Dataset Laatutavoite Viitetutkintamalli
Kuvan luokittelu ImageNet (224x224) 75,9 % Top-1 tarkkuus Resnet-50 v1.5
Objektien
tunnistus (kevyt)
COCO 2017 (2017) 23% vahinko SSD-ResNet34
Objektien
tunnistus (raskas paino)
COCO 2017 (2017) 0.377 Laatikon vähimmäisraja
0,339 Maskin vähimmäisraja-ap
Naamio R-CNN
Käännös
(toistuva)
WMT englanti-saksa 24.0 BLEU GNMT-yy
Käännös
(kertaluonteinen)
 WMT englanti-saksa  25.0 BLEU muuntaja
Vahvistusoppiminen Ennalta koulutettu tarkastuspiste Mini Go

Taulukko.5 MLPerf-tietoaineistot ja tavoitekriteerit(Lähde: https://mlperf.org/training-overview/#overview) Seuraavassa kuvassa esitetään SLN321776_en_US__6iC_External_Link_BD_v1 aika täyttää sekä

RTX- että V100S-ryhmäkäytäntöobjektien tavoitekriteerit:

SLN321776_en_US__11image(18441)
(Kuva.4 MLPERF-suorituskyky)

Tulokset on otettava huomioon useiden juoksujen suorittamisen, suurimman ja pienimmän arvon hylkäämisen sekä muiden suoritteiden keskiarvon jälkeen luettelossa lueteltujen ohjeiden mukaisesti. Molempien RTX-ryhmäkäytäntöobjektien suorituskyky on samanlainen. Molempien RTX-ryhmäkäytäntöobjektien välinen varianssiprosentti on mlPerf-ohjeiden mukaisesti minimaalinen ja hyväksymisalueella. Vaikka Volta V100 GPU tarjoaa parhaan suorituskyvyn, RTX-ryhmäkäytäntöobjektit toimivat myös hyvin lukuun ottamatta objektien havaitsemisen vertailuarvoa.

Julkaisuhetkellä MLPerf:n Image-luokituksen vertailuarvo epäonnistui RTX-ryhmäkäytäntöobjektien kanssa konvoluutiovirheen vuoksi. Tämän ongelman odotetaan korjauvan tulevassa CuDNN-versiossa.

Resolution

Yhteenveto:

Tässä blogissa keskustelimme Dell EMC DSS 8440 GPU Serverin ja NVIDIA RTX GPU:iden suorituskyvystä HPC- ja AI-työkuormille. Molempien RTX-GPU: iden suorituskyky on samanlainen, mutta RTX 8000 -GPU olisi paras valinta sovelluksille, jotka vaativat enemmän muistia. Kaksoistarkat työkuormat tai suurta muistin kaistanleveyttä vaativat työkuormat Volta V100S ja uusi NVIDIA A100 -GPU ovat paras valinta.

Tulevaisuudessa aiomme tarjota rtx-gp:iden suorituskykytutkimuksen muiden yksitarkkuuden sovellusten kanssa sekä inferenssitutkimuksen RTX: stä ja A100: sta.


Article Properties


Affected Product

High Performance Computing Solution Resources

Last Published Date

25 Feb 2021

Version

4

Article Type

Solution