Dell EMC DSS8440 -palvelin on 2 Socket- ja 4U-palvelin, joka on suunniteltu suurteholaskentaan, koneoppimiseen (ML) ja syväoppimisen työkuormiin. Se tukee erilaisia ryhmäkäytäntöobjekteja, kuten NVIDIA Volta V100S ja NVIDIA Tesla T4 Tensor Core GPU sekä NVIDIA quadro RTX GPU .
(Kuva.1 Dell EMC DSS840 -palvelin)
Tässä blogissa arvioimme kustannustehokkaan NVIDIA Quadro RTX 6000: n ja NVIDIA Quadro RTX 8000 GPU: n suorituskykyä verrattuna ylimmän tason kiihdyttimeen V100S GPU käyttämällä erilaisia alan standardivertailutyökaluja. Tähän sisältyy testaaminen yhden ja kaksinkertaisen tarkkuuden työkuormia vastaan. Vaikka Quadro-sarja on ollut olemassa jo pitkään, LOPPUVUODESTA 2018 lanseerattiin NVIDIA Turing Architecturen RTX-GPU:t. Taulukon 1 tekniset tiedot osoittavat, että RTX 8000 -GPU on suurempi kuin RTX 6000 suurempi muistikokoonpano. RTX 8000- ja RTX 6000 -GPU:illa on kuitenkin suuremmat tehontarpeet kuin V100S-GPU:lla. Rtx 8000 on parempi vaihtoehto työkuormille, jotka vaativat suuremman muistikapasiteetin.
Tekniset tiedot | RTX 6000 -ylle | RTX 8000 -käyttö | V100S-32 Gt |
---|---|---|---|
Arkkitehtuuri | Turing | Volta | |
Muisti | 24 Gt:n GDDR6 | 48 Gt:n GDDR6 | 32 Gt HBM2 |
Oletuskellotaajuus (MHz) | 1395 | 1245 | |
Suorittimen suurin kellotaajuus (MHz) | 1770 | 1597 | |
CUDA-ytimet | 4608 | 5 120 | |
FP32(TFLOPS enintään) | 16,3 | 16,4 | |
Muistin kaistanleveys (Gt/s) | 672 | 1134 | |
Virta | 295 W | 250 W |
Taulukko.1 Suorittimen tekniset tiedot
Palvelin | DellEMC,PowerEdge, DSS8440 | ||
---|---|---|---|
suoritin | 2 x Intel Xeon 6248, 20 C @ 2,5 GHz | ||
Muisti | 24 x 32 Gt @ 2933 MT/s (yhteensä 768 Gt) | ||
Grafiikkasuoritin | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S - PCIe |
Tallennus | 1 x Dell Express Flash NVMe 1 Tt 2,5" U.2 (P4500) | ||
Virtalähteet | 4 x 2400 W |
Table.2 Palvelimen kokoonpanotiedot
BIOS | 2.4.5 |
---|---|
Käyttöjärjestelmä | RHEL 7.6 |
Ydin | 3.10.0-957.el7.x86_64 |
Järjestelmäprofiili | Optimoitu suorituskyky |
CUDA Työkalupakki CUDA-ohjain |
10.1 440.33.01 |
Taulukko.3 Järjestelmän laiteohjelmiston tiedot
Sovellus | Versio |
---|---|
HPL | hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 -päivitys 4 |
LAMMPS-mekanismit | 3.3.2020 OpenMPI – 4.0.3 |
MLPERF-tiedosto | v0.6 Koulutus docker 19,03 |
Taulukko.4 Sovellustiedot
LAMMPS-mekanismit on Molekyylidynamiikka-sovellus, jota ylläpitävät Sandia National Laboratoriesin ja Temple Universityn tutkijat. LAMMPS koottiin KOKKOS-paketin kanssa toimimaan tehokkaasti NVIDIA GPU:illa. Lennard Jones -tietojoukkoa käytettiin suorituskyvyn vertailuun, ja Timesteps/s on kuvassa 2 esitetty mittari:
(Kuva.2 Lennard Jones Graph)
Kuten taulukossa 1 on lueteltu, RTX 6000- ja RTX 8000 -ryhmäkäytäntöobjekteilla on sama määrä ytimiä, yksi tarkkuussuorituskyky ja GPU-kaistanleveys, mutta erilainen GPU-muisti. Koska molemmilla RTX-ryhmäkäytäntöobjekteilla on samanlainen kokoonpano, suorituskyky on myös samalla alueella. RTX GPU:t skaalataan hyvin tähän sovellukseen, ja molempien ryhmäkäytäntöobjektien suorituskyky on sama.
Volta V100S -GPU-suorituskyky on noin kolme kertaa nopeampi kuin Quadro RTX -GPU:iden. Tämän korkeamman suorituskyvyn avaintekijä on V100S-suorittimen suurempi GPU-muistin kaistanleveys.
HPL on tavallinen HPC-vertailuarvo, joka mittaa laskentatehoa. TOP500-luettelossa sitä käytetään vertailuvertailuna supertietokoneiden sijoittuessa maailmanlaajuisesti.
Seuraavassa kuvassa esitetään RTX 6000-, RTX 8000- ja V100S-ryhmäkäytäntöobjektien suorituskyky DSS 8440 -palvelimella. Kuten näette, RTX-ryhmäkäytäntöobjektien suorituskyky on huomattavasti pienempi kuin V100S-GPU: n. Tämä on odotettavissa, koska HPL suorittaa matriisin LU-kertoimen, joka on ensisijaisesti kaksoistarkkuuden liukulukutoimintoja.
(Kuva 3 HPL-suorituskyky erilaisilla ryhmäkäytäntöobjekteilla)
Jos vertaamme teoreettista liukulukusuoritusta, eli molempien GPU:iden Rpeakia, näemme, että V100S-GPU:n suorituskyky on paljon korkeampi. Teoreettinen Rpeak-arvo yhdessä RTX-GPU:ssa on noin 500 GFlops. Tämä arvo tuottaa vähemmän suorituskykyä (Rmax) GPU:ta kohti. Volta V100S GPU:n Rpeak-arvo on 8.2TFlops, mikä johtaa paljon suurempaan suorituskykyyn jokaisesta kortista.
ML:n toimialakohtaisten suorituskykyvertailuarvojen tarve johti MLPerf-sarjan kehittämiseen. Tämä sarja sisältää vertailuarvoja ML-laitteistojen ja -ohjelmistojen koulutuksen ja suorituskyvyn päättämiseksi. Tässä osassa käsitellään vain ryhmäkäytäntöobjektien koulutussuoritusta. Seuraavassa taulukossa on luettelo ryhmäkäytäntöobjektien arvioinnissa käytettävistä syväoppimisen työmääristä, tietojoukoista ja kohdekriteereistä.
kiintopiste | Dataset | Laatutavoite | Viitetutkintamalli |
---|---|---|---|
Kuvan luokittelu | ImageNet (224x224) | 75,9 % Top-1 tarkkuus | Resnet-50 v1.5 |
Objektien tunnistus (kevyt) |
COCO 2017 (2017) | 23% vahinko | SSD-ResNet34 |
Objektien tunnistus (raskas paino) |
COCO 2017 (2017) | 0.377 Laatikon vähimmäisraja 0,339 Maskin vähimmäisraja-ap |
Naamio R-CNN |
Käännös (toistuva) |
WMT englanti-saksa | 24.0 BLEU | GNMT-yy |
Käännös (kertaluonteinen) |
WMT englanti-saksa | 25.0 BLEU | muuntaja |
Vahvistusoppiminen | – | Ennalta koulutettu tarkastuspiste | Mini Go |
Taulukko.5 MLPerf-tietoaineistot ja tavoitekriteerit(Lähde: https://mlperf.org/training-overview/#overview) Seuraavassa kuvassa esitetään aika täyttää sekä
RTX- että V100S-ryhmäkäytäntöobjektien tavoitekriteerit:
(Kuva.4 MLPERF-suorituskyky)
Tulokset on otettava huomioon useiden juoksujen suorittamisen, suurimman ja pienimmän arvon hylkäämisen sekä muiden suoritteiden keskiarvon jälkeen luettelossa lueteltujen ohjeiden mukaisesti. Molempien RTX-ryhmäkäytäntöobjektien suorituskyky on samanlainen. Molempien RTX-ryhmäkäytäntöobjektien välinen varianssiprosentti on mlPerf-ohjeiden mukaisesti minimaalinen ja hyväksymisalueella. Vaikka Volta V100 GPU tarjoaa parhaan suorituskyvyn, RTX-ryhmäkäytäntöobjektit toimivat myös hyvin lukuun ottamatta objektien havaitsemisen vertailuarvoa.
Julkaisuhetkellä MLPerf:n Image-luokituksen vertailuarvo epäonnistui RTX-ryhmäkäytäntöobjektien kanssa konvoluutiovirheen vuoksi. Tämän ongelman odotetaan korjauvan tulevassa CuDNN-versiossa.
Tässä blogissa keskustelimme Dell EMC DSS 8440 GPU Serverin ja NVIDIA RTX GPU:iden suorituskyvystä HPC- ja AI-työkuormille. Molempien RTX-GPU: iden suorituskyky on samanlainen, mutta RTX 8000 -GPU olisi paras valinta sovelluksille, jotka vaativat enemmän muistia. Kaksoistarkat työkuormat tai suurta muistin kaistanleveyttä vaativat työkuormat Volta V100S ja uusi NVIDIA A100 -GPU ovat paras valinta.
Tulevaisuudessa aiomme tarjota rtx-gp:iden suorituskykytutkimuksen muiden yksitarkkuuden sovellusten kanssa sekä inferenssitutkimuksen RTX: stä ja A100: sta.