Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Syväoppimisen teho T4-grafiikkasuorittimilla ja MLPerf-suorituskykytestauksella

Summary: Tietoja Turing-arkkitehtuurista, joka on NVIDIA-näytönohjaimen uusin grafiikkasuoritinarkkitehtuuri Volta-arkkitehtuurin ja uuden T4:n jälkeen, perustuu Turing-arkkitehtuuriin.

This article applies to   This article does not apply to 

Symptoms

Artikkelin ovat kirjoittaneet HPC and AI Innovation Labin Rengan Xu, Frank Han ja Quy Ta maaliskuussa 2019

Cause

-

Resolution


Sisällysluettelo:

  1. Tiivistelmä
  2. Yleiskuvaus
  3. Suorituskyvyn arviointi
  4. Johtopäätökset ja jatkosuunnitelmat

 

Tiivistelmä

 

Turing-arkkitehtuuri on NVIDIAn uusin grafiikkasuoritinarkkitehtuuri Volta-arkkitehtuurin jälkeen, ja uusi T4 perustuu Turing-arkkitehtuuriin. Se on suunniteltu suurteholaskentaa (HPC), syväoppimista ja -päätelmiä, koneoppimista, data-analytiikkaa ja grafiikkaa varten. Tässä blogikirjoituksessa lasketaan T4-grafiikkasuorittimien syväoppimisen suorituskykyä Dell EMC PowerEdge R740 -palvelimessa, jossa on MLPerf-vertailuohjelmisto. MLPerf-suorituskyky T4:ssä vertautuu myös saman palvelimen V100-PCIe:hen ja samaan ohjelmistoon.


Alkuun


 

Yleiskuvaus

 

Dell EMC PowerEdge R740 on kaksikantainen 2U-kehikkopalvelin. Järjestelmässä on Intel Skylake -suorittimet, jopa 24 DIMM-moduulia ja jopa 3 kaksoisleveyksistä V100-PCIe-moduulia tai neljä yhden leveyden T4-grafiikkasuoritinta x16 PCIe 3.0 -paikassa. T4 on grafiikkasuoritin, joka käyttää NVIDIAn uusinta Turing-arkkitehtuuria. T4- ja V100-PCIe-grafiikkasuorittimen tekniset erot luetellaan taulukossa 1. MLPerf valittiin arvioimaan T4:n suorituskykyä syväoppimiskoulutuksessa. MLPerf on arviointityökalu, johon on koottu monipuolinen korkeakoulujen ja alan ryhmä, mukaan lukien Google, Baidu, Intel, AMD, Linux ja Linux, koneoppimisohjelmistojen ja -laitteistojen nopeuden ja suorituskyvyn mittaamiseksi. Ensimmäinen julkaistu versio on 0.5, ja se kattaa mallikäyttöönkontamiset koneoppimistoimialueilla, mukaan lukien kuvan luokittelu, objektien tunnistus ja segmentointi, konekäännökset ja vahvistusoppiminen. Tässä arviossa käytettyjen MLPerf-suorituskykytestauksen yhteenveto on taulukossa 2. Googlen lähettämästä ResNet-50 TensorFlow -toteutuksesta käytettiin, ja käytettiin kaikkien muiden mallien käyttöönottoja NVIDIA-lähetyksestä. Kaikki suorituskykytestaukset suoritettiin ilman säilöä. Taulukossa 3 luetellaan arvioinnissa käytetyt laitteet ja ohjelmistot. T4:n suorituskykyä MLPerf-suorituskykytestauksen kanssa verrataan V100-PCIe:hen.

  Tesla V100-PCIe Tesla T4
Arkkitehtuuri Volta Turing
CUDA-ytimet 5 120 2 560
Tensor-ytimet 640 320
Laskentavalmius 7.0 7.5
Grafiikkasuorittimen kellotaakka 1 245 MHz 585 MHz
Boost Clock 1 380 MHz 1 590 MHz
Muistin tyyppi HBM2 GDDR6
Muistin koko 16 Gt / 32 Gt 16 Gt
Kaistanleveys 900 Gt/s 320 Gt/s
Paikan leveys Kaksi paikkaa Yksi paikka
Single-Precision (FP32) 14 TFLOPS 8,1 TFLOPS
Mixed-Precision (FP16/FP32) 112 TFLOPS 65 TFLOPS
Kaksoistarkkuus (FP64) 7 TFLOPS 254,4 GFLOPS
Suurin lämpöteho (TDP) 250 W 70 W

Taulukko 1: T4:n ja V100-PCIe:n vertailu

  Kuvan luokittelu Objektin luokitus Objektiesiintymän segmentointi Käännös (toistuva) Tanslation (ei-toistuva) Suositus
Tiedot ImageNet COCO COCO WMT E-G WMT E-G MovieLens–20 M
Tietojen koko 144 Gt 20 Gt 20 Gt 37 Gt 1,3 Gt 306 Mt
Malli ResNet-50 1.5 Yksivaiheinen tunnistin (SSD) Mask-R-KAKKOSPAINIKKEE GNMT Muuntaja NCF
Framework TensorFlow PyTorch (PyTorch) PyTorch (PyTorch) PyTorch (PyTorch) PyTorch (PyTorch) PyTorch (PyTorch)

Taulukko 2: Arviointiin käytetyt MLF Perf -suorituskykytestaukset

Ympäristö PowerEdge R740
Suoritin 2 x Intel Xeon Gold 6136 @3,0 GHz (SkyLake)
Muisti 384 Gt:n DDR4-muisti, 2 666 MHz
Storage 782 Tt:n Lustre
Grafiikkasuoritin T4, V100-PCIe
Käyttöjärjestelmä ja laiteohjelmisto
Käyttöjärjestelmä Red Hat® Enterprise Linux® 7.5 x86_64
Linux-ydin 3.10.0–693.el7.x86_64
BIOS 1.6.12
Syväoppimiseen liittyvä
CUDA-kääntäjä ja grafiikkasuorittimen ohjain CUDA 10.0.130 (410,66)
CUDNN 7.4.1
NCCL 2.3.7
TensorFlow yökohtainen näytönohjain-dev20190130
PyTorch (PyTorch) 1.0.0
MLPerf Versio 0.5

Taulukko 3: Laitteiston kokoonpano- ja ohjelmistotiedot


Alkuun


 

Suorituskyvyn arviointi

 

Kuvassa 1 näytetään MLPerf:n suorituskykytulokset PowerEdge R740 -palvelimen T4- ja V100-PCIe-järjestelmissä. Sisältää kuusi MLPerf-suorituskykytestauksia. Kunkin suorituskykytestauksen aikana suoritettiin kokonaisvaltainen mallikoulutus MLPerf-työryhmän määrittämän kohdemallin tarkkuuden saavuttamiseksi. Kullekin suorituskykytestaukselle kirjattiin koulutusaika minuutteina. Seuraavat johtopäätökset voidaan tehdä näiden tulosten perusteella:

  • ResNet-50 1.5-, SSD- ja Mask-R-OSA-mallit skaalataan hyvin, ja grafiikkasuorittimia on yhä enemmän. ResNet-50 1.5 -versiossa V100-PCIe on 3,6 kertaa nopeampi kuin T4. SSD-asema: V100-PCI on 3,3 x 3,4 kertaa nopeampi kuin T4. Mask-R-OSA: V100-PCIe on 2,2 x – 2,7 kertaa nopeampi kuin T4. Kun grafiikkasuorittimia on yhtä paljon, kukin malli vastaa lähes yhtä monta kertaa T4- ja V100-PCIe-järjestelmissä.

  • GNMT-mallissa super-lineaarinen nopeus nopeutuu, kun T4-grafiikkasuorittimia on enemmän. Yhteen T4:ään verrattuna nopeutena on 3,1 x kaksi T4-teippiä ja 10,4 ja neljä T4-teippiä. Tämä johtuu siitä, että mallin konvergenssiin vaikuttaa satunnainen seed, jota käytetään tietojen sekoittamiseen ja neuroverkon painojen alustamiseen. Riippumatta siitä, kuinka monta grafiikkasuoritinta käytetään, ja erilaisten satunnaisten siementen kanssa mallin yhdentymiseen tarvitaan ehkä eri määrä aikakausia. Tässä kokeessa malli yhdentyi 1, 2, 3 ja 4 T4-versioiden kanssa 1, 7, 5 ja 4 T4-versiolla. Malli yhdentyi vastaavasti 1, 2 ja 3 V100-PCIe-liitännällä 1, 12 ja 9 kautta. Koska aikakausien määrä on merkittävästi erilainen, vaikka T4- ja V100-grafiikkasuorittimia olisi yhtä paljon, suorituskykyä ei voi verrata suoraan. Tässä tilanteessa siirtonopeuden mittari on melko vertaavainen, koska se ei riipu satunnaisesta seedistä.  Kuvassa 2 on sekä T4:n että V100-PCIe:n siirtonopeuden vertailu. Kun grafiikkasuorittimia on yhtä monta, V100-PCIe on 2,5 x – 3,6 kertaa nopeampi kuin T4.

  • NCF-mallissa ja Muuntajamallissa on sama ongelma kuin GNMT:ssä. NCF-mallissa aineiston koko on pieni ja yhdentyminen ei kestää kauan. Siksi tätä ongelmaa ei ole ilmeistä tuloskuvassa. Muuntajamallissa on sama ongelma yhden grafiikkasuorittimen käytössä, sillä yhden T4-näytönohjaimen kanssa yhden T4-näytönohjaimen kanssa yhdentyminen kesti 12 kertaa, mutta yhden V100-PCIe:n yhdentyminen kesti vain kahdeksan kertaa. Kun käytetään kahta tai useampaa grafiikkasuoritinta, malli yhdentyi 4 näppäimellä riippumatta siitä, kuinka monta grafiikkasuoritinta käytetään tai mitä grafiikkasuoritintyyppiä käytetään. Näissä tapauksissa V100-PCIe on 2,6 x – 2,8 kertaa nopeampi kuin T4.

SLN316560_en_US__1image (9291) SLN316560_en_US__2image (9292)

SLN316560_en_US__3image (9293) SLN316560_en_US__4image (9294)

SLN316560_en_US__5image (9295) SLN316560_en_US__6image (9296)

Kuva 1: MLPerf-tulokset: T4 ja V100-PCIe

SLN316560_en_US__7image (9289)

Kuva 2: GNMT-mallin siirtonopeuden vertailu


Alkuun


 

Johtopäätökset ja jatkosuunnitelmat

 

Tässä blogikirjoituksessa arvioimme T4-grafiikkasuorittimien suorituskykyä Dell EMC PowerEdge R740 -palvelimessa useiden MLPerf-suorituskykytestauksen avulla. T4:n suorituskykyä verrattiin V100-PCIe:hen, joka käytti samaa palvelinta ja ohjelmistoa. V100-PCIe on kaiken kaikkiaan 2,2 x – 3,6 kertaa T4-testiä nopeampi kunkin suorituskykytestauksen ominaisuuksien mukaan. Yksi havainto on, että jotkin mallit ovat vakaita riippumatta siitä, mitä satunnaisia seed-arvoja käytetään, mutta satunnaiset seed-arvot vaikuttavat merkittävästi muihin malleihin, kuten GNMT:hen, NCF:ään ja Transformeriin. Jatkossa korjaamme hyperparametrit, jotta epävakaat mallit yhdentyvät entistä vähemmän. Suoritamme MLPerf-palvelun myös useammalla grafiikkasuoritin- ja solmulla, jotta voimme arvioida kyseisten mallien skaalautuvuutta PowerEdge-palvelimissa.

*Vastuuvapauslauseke: Vertailun vuoksi Dell EMC PowerEdge R740:n neljä T4-grafiikkasuoritinta arvioitiin. PowerEdge R740 tukee tällä hetkellä virallisesti enintään kolmea T4-suoritinta x16 PCIe -paikoissa.

 


Alkuun


Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000132094
Article Type: Solution
Last Modified: 24 Sep 2021
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.