HPC-sovellusten suorituskyky ja Turing

Summary: Artikkelin ovat kirjoittaneet Dell EMC HPC:n ja AI Innovation Labin Frank Han, Rengan Xu, Deepthi Cherlopalle ja Quy Ta maaliskuussa 2019

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Volta-arkkitehtuurin seuraaja Turing™ on NVIDIAn® uusin grafiikkasuoritinperhe. Turing™-grafiikkasuoritin on saatavilla GeForce®-näytönohjaimissa, joissa sitä käytetään erittäin realististen pelien hahmonnukseen, ja Quadro®-näytönohjaimissa, joissa se nopeuttaa sisällöntuotannon työnkulkuja. NVIDIA® Tesla® -sarja on suunniteltu tietokeskusten tekoälyjärjestelmien ja suurteholaskennan (HPC) työkuormien hallintaan. NVIDIA® Tesla® T4 on tällä hetkellä markkinoiden ainoa palvelintason grafiikkasuoritin, jossa on Turing™-mikroarkkitehtuuri. Sitä tukevat Dell EMC PowerEdge R640-, R740-, R740xd- ja R7425-palvelimet. Tässä blogikirjoituksessa käsitellään Tesla T4:n suorituskykyä PowerEdge R740 -palvelimessa Volta V100-PCIe -malliin verrattuna suurteholaskentaan käytettävissä HOOMD-blue-, Amber-, NAMD- ja HPL-sovelluksissa.

Alkuun

Yleiskuvaus

PowerEdge R740 -palvelin on 2U Intel® Skylake -pohjainen kehikkopalvelin, joka tarjoaa ihanteellisen yhdistelmän tallennustilaa, I/O-kapasiteettia ja kiihdytintukea. Se tukee enintään neljää* yhden paikan T4-grafiikkasuoritinta tai kolmea kahden paikan V100-PCIe-grafiikkasuoritinta x16 PCIe 3.0 -paikoissa. Taulukossa 1 on esitetty yksittäisten T4- ja V100-grafiikkasuoritinten erot. Volta™ V100 on saatavilla 16 Gt:n tai 32 Gt:n muistikokoonpanossa. Koska T4 on saatavilla vain 16 Gt:n versiona, vertailukykyisten suorituskykytulosten saavuttamiseksi V100-kortista käytettiin 16 Gt:n versiota. Taulukossa 2 on lueteltu testiympäristön laitteisto- ja ohjelmistotiedot.

Taulukko 1: T4:n ja V100:n vertailu

	Tesla V100-PCIe	Tesla T4
Arkkitehtuuri	Volta	Turing
CUDA-ytimet	5 120	2 560
Tensor-ytimet	640	320
Laskentateho	7.0	7.5
Grafiikkasuorittimen kellotaajuus	1 245 MHz	585 MHz
Tehostettu kellotaajuus	1 380 MHz	1 590 MHz
Muistin tyyppi	HBM2	GDDR6
Muistiväylä	4 096-bittinen	256-bittinen
Kaistanleveys	900 Gt/s	320 Gt/s
Paikan leveys	Kaksi paikkaa	Yksi paikka
Perustarkkuus (FP32)	14 TFLOPS	8,1 TFLOPS
Sekatarkkuus (FP16/FP32)	112 TFLOPS	65 TFLOPS
Kaksoistarkkuus (FP64)	7 TFLOPS	254,4 GFLOPS
Suurin lämpöteho (TDP)	250 W	70 W

Taulukko 2: R740:n kokoonpano- ja ohjelmistoversiotiedot

Suoritin	2 x Intel® Xeon® Gold 6136, 3,0 GHz, 12 ydintä
Muisti	384 Gt (12 * 32 Gt, 2 666 MHz)
Paikallinen levy	480 Gt:n SSD
Käyttöjärjestelmä	Red Hat Enterprise Linux Server -versio 7.5
Grafiikkasuoritin	3 x V100-PCIe 16 Gt tai 4 x T4 16 Gt
CUDA-ohjain	410.66
CUDA-työkalut	10.0
Processor settings > logical processors	Poissa käytöstä
Järjestelmän profiilit	Suorituskyky
HPL	Käännetty CUDA 10.0:lla
NAMD	NAMD_Git-2019-02-11
Oranssi	18.12
HOOMD-blue	2.5.0
OpenMPI	4.0.0

Alkuun

Cause

HOOMD-blue

SLN316570_en_US__1image(9290)

Kuva 1: HOOMD-bluen suorituskykytulokset perus- ja kaksoistarkkuudella V100:lla ja T4:llä PowerEdge R740 -palvelimessa

HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics blue) on yleiskäyttöön tarkoitettu molekyylidynamiikkasimulaattori. HOOMD-blue käännetään oletusarvoisesti kaksoistarkkuudella (FP64). Versiossa 2.5 on parametri SINGLE_PRECISION=ON, jolla se voidaan pakottaa myös perustarkkuuteen (FP32). Kuvassa 1 on esitetty microsphere-tietojoukon tulokset perus- ja kaksoistarkkuudella. X-akselilla näkyy grafiikkasuoritinten määrä, ja suorituskykymittarina käytetään 10e6 vaiheen suorittamiseen kuluvaa tuntimäärää.

Yksi havainto on, että T4:n FP64-suorituskyky on suhteellisen heikko. Tämä johtuu laitteiston rajoituksista. T4:n teoreettinen huippusuorituskyky kaksoistarkkuudella on 254 GFLOPS (katso taulukkoa 1), kun taas V100 on noin 27 kertaa tehokkaampi. HOOMD-bluen kaltaisten perustarkkuudella käännettävissä ja suoritettavissa olevien sovellusten suorituskyky voi kuitenkin olla parempi, kun ne käännetään FP32-tarkkuudella. HOOMD-blue-yhteisö käsittelee parhaillaan sekatarkkuuden tuen lisäämistä kaikkiin HOOMD-blue-moduuleihin. Kun tuki on lisätty, HOOMD-bluen suorituskyky sekatarkkuutta tukevissa laitteistoissa tehostuu.
T4:n ja V100:n perustarkkuuden suorituskykyvertailussa havaitsimme, että V100 on kolme kertaa tehokkaampi kuin T4. T4:n heikompi suorituskyky oli odotettavissa sen CUDA-ydinten määrän ja teholuokituksen vuoksi.
Grafiikkasuorittimet liitetään PowerEdge R740 -palvelimeen PCIe:n kautta. Kolmen V100-grafiikkasuorittimen arvopisteessä PCIe-väylä on vertaisliikenteen vuoksi saturaatiopisteessä. Tämä heikentää kokonaissuorituskykyä niin, että se on lopulta sama kuin yhdellä grafiikkasuorittimella.

Alkuun

Oranssi

Amber on yhteinen nimi joukolle ohjelmia, joiden avulla käyttäjät voivat suorittaa molekyylidynamiikkasimulaatioita erityisesti biomolekyyleillä. Termillä Amber viitataan myös ohjelmistossa käytettäviin empiirisiin voimakenttiin. Amber-versiota 18.12 ja AmberTools-versiota 18.13 testattiin Amber 18 Benchmark Suite -paketilla, joka sisältää JAC-, Cellulose-, FactorIX-, STMV-, TRPCage-, myoglobin- ja nucleosome-tietojoukot.

SLN316570_en_US__2image(9276)

Kuva 2: Amberin eksplisiittisen liuotinmallin tulokset V100:lla ja T4:llä PowerEdge R740 -palvelimessa

SLN316570_en_US__3image(9277)

Kuva 3: Amberin implisiittisen liuotinmallin tulokset V100:lla ja T4:llä PowerEdge R740 -palvelimessa

Kuvissa 2 ja 3 on esitetty yksittäisen kortin sekä koko järjestelmän suorituskykytulokset eksplisiittisessä ja implisiittisessä liuotinmallissa. Edellä olevan kaavion system-arvopiste kuvaa järjestelmän kaikkien grafiikkasuoritinten yhdistettyä suoritustehoa. PowerEdge R740 -palvelin tukee kolmea V100:aa tai neljää T4:ää, joten punaiset ja siniset system-palkit kuvaavat tuloksia kolmella V100:lla tai neljällä T4:llä.

Syy useiden grafiikkasuoritinten yhdistettyjen tietojen käyttämiseen on se, että Pascal ja uudemmat grafiikkasuorittimet eivät skaalaudu Amber-sovelluksessa useampaan kiihdyttimeen. Käyttäjät suorittavat yleensä useita rinnakkaissimulaatioita eri grafiikkasuorittimilla. Kun suorituskykyä mitataan STMV:n kaltaisella suurella tietojoukolla (1 067 095 atomia), yksittäisen T4:n suorituskyky on 33 prosenttia ja koko järjestelmän suorituskyky on 44 prosenttia V100:n suorituskyvystä. TRPCagen kaltaiset tietojoukot (vain 304 atomia) ovat liian pieniä hyödyntääkseen V100:aa tehokkaasti, joten toisin kuin suuremmissa PME-simulaatioissa, niissä V100:n suorituskyky ei ole juurikaan parempi kuin T4:n. Kuten Amberin virallisessa sivustossa esitetty tulos osoittaa, lähes kaikkien grafiikkasuoritinten tulokset ovat 3–4 kertaa parempia kuin pelkkien suoritinten. T4 voikin olla hyvä vaihtoehto pieniä tietojoukkoja käsittelevään palvelimeen.

Alkuun

Resolution

NAnoscale Molecular Dynamics (NAMD)

SLN316570_en_US__4image(9278)

Kuva 4: NAMD:n suorituskykytulokset V100:lla ja T4:llä PowerEdge R740 -palvelimessa

NAMD on molekyylidynamiikkakoodi, joka on suunniteltu suurten biomolekyylijärjestelmien tehokkaaseen simulointiin. Näissä testeissä ei käytetty valmista binaaria. Sen sijaan NAMD luotiin uusimmasta lähdekoodista (NAMD_Git-2019-02-11) CUDA 10.0:n avulla. Parhaan suorituskyvyn takaamiseksi NAMD käännettiin Intel®-kääntäjällä ja -kirjastoilla (versio 2018u3). Kuvassa 4 on esitetty suorituskykytulokset STMV-tietojoukolla (1 066 628 atomia, jaksoittainen, PME). NAMD skaalautuu yhteen V100-korttiin ja kolmeen T4-korttiin. Yksi T4-grafiikkasuoritin kykenee 42:een prosenttiin V100:n suorituskyvystä. Tämä ei ole hassumpi luku, kun ottaa huomioon, että sen suurin lämpöteho on vain 28 prosenttia V100:n vastaavasta arvosta. T4 voi olla hyvä vaihtoehto tietokeskuksille, joissa on rajallinen teho- ja jäähdytyskapasiteetti.

Alkuun

High Performance Linpack (HPL)

SLN316570_en_US__5image(9283)

Kuva 5: HPL:n tulokset V100:lla ja T4:llä PowerEdge R740 -palvelimessa

Kuvassa 5 on esitetty HPL:n suorituskyky PowerEdge R740 -palvelimessa, jossa on useita V100- tai T4-grafiikkasuorittimia. HPL:n luvut skaalautuvat odotetusti hyvin useisiin V100- ja T4-grafiikkasuorittimin. T4:n suorituskyky on kuitenkin sen FP64-rajoituksen vuoksi huomattavasti heikompi kuin V100:n. T4 ei suoriudu rajallisen kaksoistarkkuuskapasiteettinsa vuoksi yhtä hyvin kuin V100, joten Volta V100 on edelleen paras vaihtoehto kaksoistarkkuudella suoritettavien sovellusten käyttöön.

Alkuun

Johtopäätökset ja jatkosuunnitelmat

Tässä blogikirjoituksessa vertailtiin suurteholaskentaan käytettävien HOOMD-blue-, Amber-, NAMD- ja HPL-sovellusten suorituskykyä V100- ja T4-grafiikkasuoritinten välillä Dell EMC PowerEdge R740 -palvelimessa. T4-mallia ei käytetä ainoastaan syväoppimiseen, vaan siitä on hyötyä myös perus- tai sekatarkkuutta tukevissa HPC-sovelluksissa. Sen pieni lämpöteho voi tehostaa perinteisiä tietokeskuksia, joissa on rajallinen teho- ja jäähdytyskapasiteetti. Pienen PCIe-koon ansiosta T4 sopii hyvin yleiskäyttöisempiin PowerEdge-palvelimiin. Jatkossa lisätestejä aiotaan tehdä esimerkiksi RELION-, GROMACS- ja LAMMPS-sovelluksilla sekä sekatarkkuutta hyödyntävillä sovelluksilla.

*Vastuuvapauslauseke: testeissä Dell PowerEdge R740 -palvelimessa käytettiin vertailun vuoksi neljää T4-grafiikkasuoritinta. PowerEdge R740 tukee tällä hetkellä virallisesti enintään kolmea T4-suoritinta x16 PCIe -paikoissa.

Alkuun

Affected Products

High Performance Computing Solution Resources, PowerEdge R740

Article Number: 000130819

Article Type: Solution

Last Modified: 28 Sep 2021

Version: 4

Check if your device is covered by Support Services.

HPC-sovellusten suorituskyky ja Turing

Summary: Artikkelin ovat kirjoittaneet Dell EMC HPC:n ja AI Innovation Labin Frank Han, Rengan Xu, Deepthi Cherlopalle ja Quy Ta maaliskuussa 2019

Symptoms

Sisällysluettelo:

Tiivistelmä

Yleiskuvaus

Cause

HOOMD-blue

Oranssi

Resolution

NAnoscale Molecular Dynamics (NAMD)

High Performance Linpack (HPL)

Johtopäätökset ja jatkosuunnitelmat

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

HPC-sovellusten suorituskyky ja Turing

Summary: Artikkelin ovat kirjoittaneet Dell EMC HPC:n ja AI Innovation Labin Frank Han, Rengan Xu, Deepthi Cherlopalle ja Quy Ta maaliskuussa 2019

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services