Syväoppimisen teho T4-grafiikkasuorittimilla ja MLPerf-suorituskykytestauksella

Summary: Tietoja Turing-arkkitehtuurista, joka on NVIDIA-näytönohjaimen uusin grafiikkasuoritinarkkitehtuuri Volta-arkkitehtuurin ja uuden T4:n jälkeen, perustuu Turing-arkkitehtuuriin.

This article applies to This article does not apply to

Check out resources for

Symptoms

Artikkelin ovat kirjoittaneet HPC and AI Innovation Labin Rengan Xu, Frank Han ja Quy Ta maaliskuussa 2019

Cause

Resolution

Turing-arkkitehtuuri on NVIDIAn uusin grafiikkasuoritinarkkitehtuuri Volta-arkkitehtuurin jälkeen, ja uusi T4 perustuu Turing-arkkitehtuuriin. Se on suunniteltu suurteholaskentaa (HPC), syväoppimista ja -päätelmiä, koneoppimista, data-analytiikkaa ja grafiikkaa varten. Tässä blogikirjoituksessa lasketaan T4-grafiikkasuorittimien syväoppimisen suorituskykyä Dell EMC PowerEdge R740 -palvelimessa, jossa on MLPerf-vertailuohjelmisto. MLPerf-suorituskyky T4:ssä vertautuu myös saman palvelimen V100-PCIe:hen ja samaan ohjelmistoon.

Alkuun

Yleiskuvaus

Dell EMC PowerEdge R740 on kaksikantainen 2U-kehikkopalvelin. Järjestelmässä on Intel Skylake -suorittimet, jopa 24 DIMM-moduulia ja jopa 3 kaksoisleveyksistä V100-PCIe-moduulia tai neljä yhden leveyden T4-grafiikkasuoritinta x16 PCIe 3.0 -paikassa. T4 on grafiikkasuoritin, joka käyttää NVIDIAn uusinta Turing-arkkitehtuuria. T4- ja V100-PCIe-grafiikkasuorittimen tekniset erot luetellaan taulukossa 1. MLPerf valittiin arvioimaan T4:n suorituskykyä syväoppimiskoulutuksessa. MLPerf on arviointityökalu, johon on koottu monipuolinen korkeakoulujen ja alan ryhmä, mukaan lukien Google, Baidu, Intel, AMD, Linux ja Linux, koneoppimisohjelmistojen ja -laitteistojen nopeuden ja suorituskyvyn mittaamiseksi. Ensimmäinen julkaistu versio on 0.5, ja se kattaa mallikäyttöönkontamiset koneoppimistoimialueilla, mukaan lukien kuvan luokittelu, objektien tunnistus ja segmentointi, konekäännökset ja vahvistusoppiminen. Tässä arviossa käytettyjen MLPerf-suorituskykytestauksen yhteenveto on taulukossa 2. Googlen lähettämästä ResNet-50 TensorFlow -toteutuksesta käytettiin, ja käytettiin kaikkien muiden mallien käyttöönottoja NVIDIA-lähetyksestä. Kaikki suorituskykytestaukset suoritettiin ilman säilöä. Taulukossa 3 luetellaan arvioinnissa käytetyt laitteet ja ohjelmistot. T4:n suorituskykyä MLPerf-suorituskykytestauksen kanssa verrataan V100-PCIe:hen.

	Tesla V100-PCIe	Tesla T4
Arkkitehtuuri	Volta	Turing
CUDA-ytimet	5 120	2 560
Tensor-ytimet	640	320
Laskentavalmius	7.0	7.5
Grafiikkasuorittimen kellotaakka	1 245 MHz	585 MHz
Boost Clock	1 380 MHz	1 590 MHz
Muistin tyyppi	HBM2	GDDR6
Muistin koko	16 Gt / 32 Gt	16 Gt
Kaistanleveys	900 Gt/s	320 Gt/s
Paikan leveys	Kaksi paikkaa	Yksi paikka
Single-Precision (FP32)	14 TFLOPS	8,1 TFLOPS
Mixed-Precision (FP16/FP32)	112 TFLOPS	65 TFLOPS
Kaksoistarkkuus (FP64)	7 TFLOPS	254,4 GFLOPS
Suurin lämpöteho (TDP)	250 W	70 W

Taulukko 1: T4:n ja V100-PCIe:n vertailu

	Kuvan luokittelu	Objektin luokitus	Objektiesiintymän segmentointi	Käännös (toistuva)	Tanslation (ei-toistuva)	Suositus
Tiedot	ImageNet	COCO	COCO	WMT E-G	WMT E-G	MovieLens–20 M
Tietojen koko	144 Gt	20 Gt	20 Gt	37 Gt	1,3 Gt	306 Mt
Malli	ResNet-50 1.5	Yksivaiheinen tunnistin (SSD)	Mask-R-KAKKOSPAINIKKEE	GNMT	Muuntaja	NCF
Framework	TensorFlow	PyTorch (PyTorch)	PyTorch (PyTorch)	PyTorch (PyTorch)	PyTorch (PyTorch)	PyTorch (PyTorch)

Taulukko 2: Arviointiin käytetyt MLF Perf -suorituskykytestaukset

Käyttöjärjestelmä ja laiteohjelmisto
Ympäristö	PowerEdge R740
Suoritin	2 x Intel Xeon Gold 6136 @3,0 GHz (SkyLake)
Muisti	384 Gt:n DDR4-muisti, 2 666 MHz
Storage	782 Tt:n Lustre
Grafiikkasuoritin	T4, V100-PCIe
Käyttöjärjestelmä	Red Hat® Enterprise Linux® 7.5 x86_64
Linux-ydin	3.10.0–693.el7.x86_64
BIOS	1.6.12
Syväoppimiseen liittyvä
CUDA-kääntäjä ja grafiikkasuorittimen ohjain	CUDA 10.0.130 (410,66)
CUDNN	7.4.1
NCCL	2.3.7
TensorFlow	yökohtainen näytönohjain-dev20190130
PyTorch (PyTorch)	1.0.0
MLPerf	Versio 0.5

Taulukko 3: Laitteiston kokoonpano- ja ohjelmistotiedot

Alkuun

Suorituskyvyn arviointi

Kuvassa 1 näytetään MLPerf:n suorituskykytulokset PowerEdge R740 -palvelimen T4- ja V100-PCIe-järjestelmissä. Sisältää kuusi MLPerf-suorituskykytestauksia. Kunkin suorituskykytestauksen aikana suoritettiin kokonaisvaltainen mallikoulutus MLPerf-työryhmän määrittämän kohdemallin tarkkuuden saavuttamiseksi. Kullekin suorituskykytestaukselle kirjattiin koulutusaika minuutteina. Seuraavat johtopäätökset voidaan tehdä näiden tulosten perusteella:

ResNet-50 1.5-, SSD- ja Mask-R-OSA-mallit skaalataan hyvin, ja grafiikkasuorittimia on yhä enemmän. ResNet-50 1.5 -versiossa V100-PCIe on 3,6 kertaa nopeampi kuin T4. SSD-asema: V100-PCI on 3,3 x 3,4 kertaa nopeampi kuin T4. Mask-R-OSA: V100-PCIe on 2,2 x – 2,7 kertaa nopeampi kuin T4. Kun grafiikkasuorittimia on yhtä paljon, kukin malli vastaa lähes yhtä monta kertaa T4- ja V100-PCIe-järjestelmissä.
GNMT-mallissa super-lineaarinen nopeus nopeutuu, kun T4-grafiikkasuorittimia on enemmän. Yhteen T4:ään verrattuna nopeutena on 3,1 x kaksi T4-teippiä ja 10,4 ja neljä T4-teippiä. Tämä johtuu siitä, että mallin konvergenssiin vaikuttaa satunnainen seed, jota käytetään tietojen sekoittamiseen ja neuroverkon painojen alustamiseen. Riippumatta siitä, kuinka monta grafiikkasuoritinta käytetään, ja erilaisten satunnaisten siementen kanssa mallin yhdentymiseen tarvitaan ehkä eri määrä aikakausia. Tässä kokeessa malli yhdentyi 1, 2, 3 ja 4 T4-versioiden kanssa 1, 7, 5 ja 4 T4-versiolla. Malli yhdentyi vastaavasti 1, 2 ja 3 V100-PCIe-liitännällä 1, 12 ja 9 kautta. Koska aikakausien määrä on merkittävästi erilainen, vaikka T4- ja V100-grafiikkasuorittimia olisi yhtä paljon, suorituskykyä ei voi verrata suoraan. Tässä tilanteessa siirtonopeuden mittari on melko vertaavainen, koska se ei riipu satunnaisesta seedistä. Kuvassa 2 on sekä T4:n että V100-PCIe:n siirtonopeuden vertailu. Kun grafiikkasuorittimia on yhtä monta, V100-PCIe on 2,5 x – 3,6 kertaa nopeampi kuin T4.
NCF-mallissa ja Muuntajamallissa on sama ongelma kuin GNMT:ssä. NCF-mallissa aineiston koko on pieni ja yhdentyminen ei kestää kauan. Siksi tätä ongelmaa ei ole ilmeistä tuloskuvassa. Muuntajamallissa on sama ongelma yhden grafiikkasuorittimen käytössä, sillä yhden T4-näytönohjaimen kanssa yhden T4-näytönohjaimen kanssa yhdentyminen kesti 12 kertaa, mutta yhden V100-PCIe:n yhdentyminen kesti vain kahdeksan kertaa. Kun käytetään kahta tai useampaa grafiikkasuoritinta, malli yhdentyi 4 näppäimellä riippumatta siitä, kuinka monta grafiikkasuoritinta käytetään tai mitä grafiikkasuoritintyyppiä käytetään. Näissä tapauksissa V100-PCIe on 2,6 x – 2,8 kertaa nopeampi kuin T4.

SLN316560_en_US__1image (9291) SLN316560_en_US__2image (9292)

SLN316560_en_US__3image (9293) SLN316560_en_US__4image (9294)

SLN316560_en_US__5image (9295) SLN316560_en_US__6image (9296)

Kuva 1: MLPerf-tulokset: T4 ja V100-PCIe

SLN316560_en_US__7image (9289)

Kuva 2: GNMT-mallin siirtonopeuden vertailu

Alkuun

Johtopäätökset ja jatkosuunnitelmat

Tässä blogikirjoituksessa arvioimme T4-grafiikkasuorittimien suorituskykyä Dell EMC PowerEdge R740 -palvelimessa useiden MLPerf-suorituskykytestauksen avulla. T4:n suorituskykyä verrattiin V100-PCIe:hen, joka käytti samaa palvelinta ja ohjelmistoa. V100-PCIe on kaiken kaikkiaan 2,2 x – 3,6 kertaa T4-testiä nopeampi kunkin suorituskykytestauksen ominaisuuksien mukaan. Yksi havainto on, että jotkin mallit ovat vakaita riippumatta siitä, mitä satunnaisia seed-arvoja käytetään, mutta satunnaiset seed-arvot vaikuttavat merkittävästi muihin malleihin, kuten GNMT:hen, NCF:ään ja Transformeriin. Jatkossa korjaamme hyperparametrit, jotta epävakaat mallit yhdentyvät entistä vähemmän. Suoritamme MLPerf-palvelun myös useammalla grafiikkasuoritin- ja solmulla, jotta voimme arvioida kyseisten mallien skaalautuvuutta PowerEdge-palvelimissa.

*Vastuuvapauslauseke: Vertailun vuoksi Dell EMC PowerEdge R740:n neljä T4-grafiikkasuoritinta arvioitiin. PowerEdge R740 tukee tällä hetkellä virallisesti enintään kolmea T4-suoritinta x16 PCIe -paikoissa.

Alkuun

Affected Products

High Performance Computing Solution Resources

Article Number: 000132094

Article Type: Solution

Last Modified: 24 Sep 2021

Version: 3

Check if your device is covered by Support Services.

Syväoppimisen teho T4-grafiikkasuorittimilla ja MLPerf-suorituskykytestauksella

Summary: Tietoja Turing-arkkitehtuurista, joka on NVIDIA-näytönohjaimen uusin grafiikkasuoritinarkkitehtuuri Volta-arkkitehtuurin ja uuden T4:n jälkeen, perustuu Turing-arkkitehtuuriin.

Symptoms

Cause

Resolution

Sisällysluettelo:

Tiivistelmä

Yleiskuvaus

Suorituskyvyn arviointi

Johtopäätökset ja jatkosuunnitelmat

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Syväoppimisen teho T4-grafiikkasuorittimilla ja MLPerf-suorituskykytestauksella

Summary: Tietoja Turing-arkkitehtuurista, joka on NVIDIA-näytönohjaimen uusin grafiikkasuoritinarkkitehtuuri Volta-arkkitehtuurin ja uuden T4:n jälkeen, perustuu Turing-arkkitehtuuriin.

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

Sisällysluettelo:

Tiivistelmä

Yleiskuvaus

Suorituskyvyn arviointi

Johtopäätökset ja jatkosuunnitelmat

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services