Skip to main content

HPC-sovellusten suorituskyky ja Turing

Summary: Artikkelin ovat kirjoittaneet Dell EMC HPC:n ja AI Innovation Labin Frank Han, Rengan Xu, Deepthi Cherlopalle ja Quy Ta maaliskuussa 2019

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms


Sisällysluettelo:

  1. Tiivistelmä
  2. Yleiskuvaus
  3. HOOMD-blue
  4. Oranssi
  5. NAnoscale Molecular Dynamics (NAMD)
  6. High Performance Linpack (HPL)
  7. Johtopäätökset ja jatkosuunnitelmat

 

Tiivistelmä

 

Volta-arkkitehtuurin seuraaja Turing™ on NVIDIAn® uusin grafiikkasuoritinperhe. Turing™-grafiikkasuoritin on saatavilla GeForce®-näytönohjaimissa, joissa sitä käytetään erittäin realististen pelien hahmonnukseen, ja Quadro®-näytönohjaimissa, joissa se nopeuttaa sisällöntuotannon työnkulkuja. NVIDIA® Tesla® -sarja on suunniteltu tietokeskusten tekoälyjärjestelmien ja suurteholaskennan (HPC) työkuormien hallintaan. NVIDIA® Tesla® T4 on tällä hetkellä markkinoiden ainoa palvelintason grafiikkasuoritin, jossa on Turing™-mikroarkkitehtuuri. Sitä tukevat Dell EMC PowerEdge R640-, R740-, R740xd- ja R7425-palvelimet. Tässä blogikirjoituksessa käsitellään Tesla T4:n suorituskykyä PowerEdge R740 -palvelimessa Volta V100-PCIe -malliin verrattuna suurteholaskentaan käytettävissä HOOMD-blue-, Amber-, NAMD- ja HPL-sovelluksissa.


Alkuun


 

Yleiskuvaus

 

PowerEdge R740 -palvelin on 2U Intel® Skylake -pohjainen kehikkopalvelin, joka tarjoaa ihanteellisen yhdistelmän tallennustilaa, I/O-kapasiteettia ja kiihdytintukea. Se tukee enintään neljää* yhden paikan T4-grafiikkasuoritinta tai kolmea kahden paikan V100-PCIe-grafiikkasuoritinta x16 PCIe 3.0 -paikoissa.  Taulukossa 1 on esitetty yksittäisten T4- ja V100-grafiikkasuoritinten erot. Volta™ V100 on saatavilla 16 Gt:n tai 32 Gt:n muistikokoonpanossa.  Koska T4 on saatavilla vain 16 Gt:n versiona, vertailukykyisten suorituskykytulosten saavuttamiseksi V100-kortista käytettiin 16 Gt:n versiota. Taulukossa 2 on lueteltu testiympäristön laitteisto- ja ohjelmistotiedot.

Taulukko 1: T4:n ja V100:n vertailu

 

Tesla V100-PCIe

Tesla T4

Arkkitehtuuri

Volta

Turing

CUDA-ytimet

5 120

2 560

Tensor-ytimet

640

320

Laskentateho

7.0

7.5

Grafiikkasuorittimen kellotaajuus

1 245 MHz

585 MHz

Tehostettu kellotaajuus

1 380 MHz

1 590 MHz

Muistin tyyppi

HBM2

GDDR6

Muistiväylä

4 096-bittinen

256-bittinen

Kaistanleveys

900 Gt/s

320 Gt/s

Paikan leveys

Kaksi paikkaa

Yksi paikka

Perustarkkuus (FP32)

14 TFLOPS

8,1 TFLOPS

Sekatarkkuus (FP16/FP32)

112 TFLOPS

65 TFLOPS

Kaksoistarkkuus (FP64)

7 TFLOPS

254,4 GFLOPS

Suurin lämpöteho (TDP)

250 W

70 W

 

Taulukko 2: R740:n kokoonpano- ja ohjelmistoversiotiedot

Suoritin

2 x Intel® Xeon® Gold 6136, 3,0 GHz, 12 ydintä

Muisti

384 Gt (12 * 32 Gt, 2 666 MHz)

Paikallinen levy

480 Gt:n SSD

Käyttöjärjestelmä

Red Hat Enterprise Linux Server -versio 7.5

Grafiikkasuoritin

3 x V100-PCIe 16 Gt tai 4 x T4 16 Gt

CUDA-ohjain

410.66

CUDA-työkalut

10.0

Processor settings > logical processors

Poissa käytöstä

Järjestelmän profiilit

Suorituskyky

HPL

Käännetty CUDA 10.0:lla

NAMD

NAMD_Git-2019-02-11

Oranssi

18.12

HOOMD-blue

2.5.0

OpenMPI

4.0.0

 


Alkuun


 

Cause

HOOMD-blue

 

SLN316570_en_US__1image(9290)

Kuva 1: HOOMD-bluen suorituskykytulokset perus- ja kaksoistarkkuudella V100:lla ja T4:llä PowerEdge R740 -palvelimessa

HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics blue) on yleiskäyttöön tarkoitettu molekyylidynamiikkasimulaattori. HOOMD-blue käännetään oletusarvoisesti kaksoistarkkuudella (FP64). Versiossa 2.5 on parametri SINGLE_PRECISION=ON, jolla se voidaan pakottaa myös perustarkkuuteen (FP32). Kuvassa 1 on esitetty microsphere-tietojoukon tulokset perus- ja kaksoistarkkuudella. X-akselilla näkyy grafiikkasuoritinten määrä, ja suorituskykymittarina käytetään 10e6 vaiheen suorittamiseen kuluvaa tuntimäärää.

  1. Yksi havainto on, että T4:n FP64-suorituskyky on suhteellisen heikko. Tämä johtuu laitteiston rajoituksista. T4:n teoreettinen huippusuorituskyky kaksoistarkkuudella on 254 GFLOPS (katso taulukkoa 1), kun taas V100 on noin 27 kertaa tehokkaampi. HOOMD-bluen kaltaisten perustarkkuudella käännettävissä ja suoritettavissa olevien sovellusten suorituskyky voi kuitenkin olla parempi, kun ne käännetään FP32-tarkkuudella. HOOMD-blue-yhteisö käsittelee parhaillaan sekatarkkuuden tuen lisäämistä kaikkiin HOOMD-blue-moduuleihin. Kun tuki on lisätty, HOOMD-bluen suorituskyky sekatarkkuutta tukevissa laitteistoissa tehostuu.

  2. T4:n ja V100:n perustarkkuuden suorituskykyvertailussa havaitsimme, että V100 on kolme kertaa tehokkaampi kuin T4. T4:n heikompi suorituskyky oli odotettavissa sen CUDA-ydinten määrän ja teholuokituksen vuoksi.

  3. Grafiikkasuorittimet liitetään PowerEdge R740 -palvelimeen PCIe:n kautta. Kolmen V100-grafiikkasuorittimen arvopisteessä PCIe-väylä on vertaisliikenteen vuoksi saturaatiopisteessä. Tämä heikentää kokonaissuorituskykyä niin, että se on lopulta sama kuin yhdellä grafiikkasuorittimella.

 


Alkuun


 

Oranssi

 


Amber on yhteinen nimi joukolle ohjelmia, joiden avulla käyttäjät voivat suorittaa molekyylidynamiikkasimulaatioita erityisesti biomolekyyleillä. Termillä Amber viitataan myös ohjelmistossa käytettäviin empiirisiin voimakenttiin. Amber-versiota 18.12 ja AmberTools-versiota 18.13 testattiin Amber 18 Benchmark Suite -paketilla, joka sisältää JAC-, Cellulose-, FactorIX-, STMV-, TRPCage-, myoglobin- ja nucleosome-tietojoukot.

SLN316570_en_US__2image(9276)

Kuva 2: Amberin eksplisiittisen liuotinmallin tulokset V100:lla ja T4:llä PowerEdge R740 -palvelimessa

SLN316570_en_US__3image(9277)

Kuva 3: Amberin implisiittisen liuotinmallin tulokset V100:lla ja T4:llä PowerEdge R740 -palvelimessa 

Kuvissa 2 ja 3 on esitetty yksittäisen kortin sekä koko järjestelmän suorituskykytulokset eksplisiittisessä ja implisiittisessä liuotinmallissa.  Edellä olevan kaavion system-arvopiste kuvaa järjestelmän kaikkien grafiikkasuoritinten yhdistettyä suoritustehoa. PowerEdge R740 -palvelin tukee kolmea V100:aa tai neljää T4:ää, joten punaiset ja siniset system-palkit kuvaavat tuloksia kolmella V100:lla tai neljällä T4:llä.

Syy useiden grafiikkasuoritinten yhdistettyjen tietojen käyttämiseen on se, että Pascal ja uudemmat grafiikkasuorittimet eivät skaalaudu Amber-sovelluksessa useampaan kiihdyttimeen. Käyttäjät suorittavat yleensä useita rinnakkaissimulaatioita eri grafiikkasuorittimilla. Kun suorituskykyä mitataan STMV:n kaltaisella suurella tietojoukolla (1 067 095 atomia), yksittäisen T4:n suorituskyky on 33 prosenttia ja koko järjestelmän suorituskyky on 44 prosenttia V100:n suorituskyvystä. TRPCagen kaltaiset tietojoukot (vain 304 atomia) ovat liian pieniä hyödyntääkseen V100:aa tehokkaasti, joten toisin kuin suuremmissa PME-simulaatioissa, niissä V100:n suorituskyky ei ole juurikaan parempi kuin T4:n. Kuten Amberin virallisessa sivustossa esitetty tulos osoittaa, lähes kaikkien grafiikkasuoritinten tulokset ovat 3–4 kertaa parempia kuin pelkkien suoritinten. T4 voikin olla hyvä vaihtoehto pieniä tietojoukkoja käsittelevään palvelimeen.


Alkuun


 

Resolution

NAnoscale Molecular Dynamics (NAMD)

 

SLN316570_en_US__4image(9278)

Kuva 4: NAMD:n suorituskykytulokset V100:lla ja T4:llä PowerEdge R740 -palvelimessa

NAMD on molekyylidynamiikkakoodi, joka on suunniteltu suurten biomolekyylijärjestelmien tehokkaaseen simulointiin. Näissä testeissä ei käytetty valmista binaaria. Sen sijaan NAMD luotiin uusimmasta lähdekoodista (NAMD_Git-2019-02-11) CUDA 10.0:n avulla. Parhaan suorituskyvyn takaamiseksi NAMD käännettiin Intel®-kääntäjällä ja -kirjastoilla (versio 2018u3). Kuvassa 4 on esitetty suorituskykytulokset STMV-tietojoukolla (1 066 628 atomia, jaksoittainen, PME). NAMD skaalautuu yhteen V100-korttiin ja kolmeen T4-korttiin. Yksi T4-grafiikkasuoritin kykenee 42:een prosenttiin V100:n suorituskyvystä. Tämä ei ole hassumpi luku, kun ottaa huomioon, että sen suurin lämpöteho on vain 28 prosenttia V100:n vastaavasta arvosta. T4 voi olla hyvä vaihtoehto tietokeskuksille, joissa on rajallinen teho- ja jäähdytyskapasiteetti.


Alkuun


 

High Performance Linpack (HPL)

 

SLN316570_en_US__5image(9283)

Kuva 5: HPL:n tulokset V100:lla ja T4:llä PowerEdge R740 -palvelimessa

Kuvassa 5 on esitetty HPL:n suorituskyky PowerEdge R740 -palvelimessa, jossa on useita V100- tai T4-grafiikkasuorittimia. HPL:n luvut skaalautuvat odotetusti hyvin useisiin V100- ja T4-grafiikkasuorittimin. T4:n suorituskyky on kuitenkin sen FP64-rajoituksen vuoksi huomattavasti heikompi kuin V100:n. T4 ei suoriudu rajallisen kaksoistarkkuuskapasiteettinsa vuoksi yhtä hyvin kuin V100, joten Volta V100 on edelleen paras vaihtoehto kaksoistarkkuudella suoritettavien sovellusten käyttöön.


Alkuun


 

Johtopäätökset ja jatkosuunnitelmat

 

Tässä blogikirjoituksessa vertailtiin suurteholaskentaan käytettävien HOOMD-blue-, Amber-, NAMD- ja HPL-sovellusten suorituskykyä V100- ja T4-grafiikkasuoritinten välillä Dell EMC PowerEdge R740 -palvelimessa. T4-mallia ei käytetä ainoastaan syväoppimiseen, vaan siitä on hyötyä myös perus- tai sekatarkkuutta tukevissa HPC-sovelluksissa. Sen pieni lämpöteho voi tehostaa perinteisiä tietokeskuksia, joissa on rajallinen teho- ja jäähdytyskapasiteetti. Pienen PCIe-koon ansiosta T4 sopii hyvin yleiskäyttöisempiin PowerEdge-palvelimiin. Jatkossa lisätestejä aiotaan tehdä esimerkiksi RELION-, GROMACS- ja LAMMPS-sovelluksilla sekä sekatarkkuutta hyödyntävillä sovelluksilla.

*Vastuuvapauslauseke: testeissä Dell PowerEdge R740 -palvelimessa käytettiin vertailun vuoksi neljää T4-grafiikkasuoritinta. PowerEdge R740 tukee tällä hetkellä virallisesti enintään kolmea T4-suoritinta x16 PCIe -paikoissa.


Alkuun


Affected Products

High Performance Computing Solution Resources, PowerEdge R740
Article Properties
Article Number: 000130819
Article Type: Solution
Last Modified: 28 Sep 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.