Volta-arkkitehtuurin seuraaja Turing™ on NVIDIAn® uusin grafiikkasuoritinperhe. Turing™-grafiikkasuoritin on saatavilla GeForce®-näytönohjaimissa, joissa sitä käytetään erittäin realististen pelien hahmonnukseen, ja Quadro®-näytönohjaimissa, joissa se nopeuttaa sisällöntuotannon työnkulkuja. NVIDIA® Tesla® -sarja on suunniteltu tietokeskusten tekoälyjärjestelmien ja suurteholaskennan (HPC) työkuormien hallintaan. NVIDIA® Tesla® T4 on tällä hetkellä markkinoiden ainoa palvelintason grafiikkasuoritin, jossa on Turing™-mikroarkkitehtuuri. Sitä tukevat Dell EMC PowerEdge R640-, R740-, R740xd- ja R7425-palvelimet. Tässä blogikirjoituksessa käsitellään Tesla T4:n suorituskykyä PowerEdge R740 -palvelimessa Volta V100-PCIe -malliin verrattuna suurteholaskentaan käytettävissä HOOMD-blue-, Amber-, NAMD- ja HPL-sovelluksissa.
PowerEdge R740 -palvelin on 2U Intel® Skylake -pohjainen kehikkopalvelin, joka tarjoaa ihanteellisen yhdistelmän tallennustilaa, I/O-kapasiteettia ja kiihdytintukea. Se tukee enintään neljää* yhden paikan T4-grafiikkasuoritinta tai kolmea kahden paikan V100-PCIe-grafiikkasuoritinta x16 PCIe 3.0 -paikoissa. Taulukossa 1 on esitetty yksittäisten T4- ja V100-grafiikkasuoritinten erot. Volta™ V100 on saatavilla 16 Gt:n tai 32 Gt:n muistikokoonpanossa. Koska T4 on saatavilla vain 16 Gt:n versiona, vertailukykyisten suorituskykytulosten saavuttamiseksi V100-kortista käytettiin 16 Gt:n versiota. Taulukossa 2 on lueteltu testiympäristön laitteisto- ja ohjelmistotiedot.
Taulukko 1: T4:n ja V100:n vertailu
Tesla V100-PCIe |
Tesla T4 |
|
---|---|---|
Arkkitehtuuri |
Volta |
Turing |
CUDA-ytimet |
5 120 |
2 560 |
Tensor-ytimet |
640 |
320 |
Laskentateho |
7.0 |
7.5 |
Grafiikkasuorittimen kellotaajuus |
1 245 MHz |
585 MHz |
Tehostettu kellotaajuus |
1 380 MHz |
1 590 MHz |
Muistin tyyppi |
HBM2 |
GDDR6 |
Muistiväylä |
4 096-bittinen |
256-bittinen |
Kaistanleveys |
900 Gt/s |
320 Gt/s |
Paikan leveys |
Kaksi paikkaa |
Yksi paikka |
Perustarkkuus (FP32) |
14 TFLOPS |
8,1 TFLOPS |
Sekatarkkuus (FP16/FP32) |
112 TFLOPS |
65 TFLOPS |
Kaksoistarkkuus (FP64) |
7 TFLOPS |
254,4 GFLOPS |
Suurin lämpöteho (TDP) |
250 W |
70 W |
Taulukko 2: R740:n kokoonpano- ja ohjelmistoversiotiedot
Suoritin |
2 x Intel® Xeon® Gold 6136, 3,0 GHz, 12 ydintä |
---|---|
Muisti |
384 Gt (12 * 32 Gt, 2 666 MHz) |
Paikallinen levy |
480 Gt:n SSD |
Käyttöjärjestelmä |
Red Hat Enterprise Linux Server -versio 7.5 |
Grafiikkasuoritin |
3 x V100-PCIe 16 Gt tai 4 x T4 16 Gt |
CUDA-ohjain |
410.66 |
CUDA-työkalut |
10.0 |
Processor settings > logical processors |
Poissa käytöstä |
Järjestelmän profiilit |
Suorituskyky |
HPL |
Käännetty CUDA 10.0:lla |
NAMD |
NAMD_Git-2019-02-11 |
Oranssi |
18.12 |
HOOMD-blue |
2.5.0 |
OpenMPI |
4.0.0 |
Kuva 1: HOOMD-bluen suorituskykytulokset perus- ja kaksoistarkkuudella V100:lla ja T4:llä PowerEdge R740 -palvelimessa
HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics blue) on yleiskäyttöön tarkoitettu molekyylidynamiikkasimulaattori. HOOMD-blue käännetään oletusarvoisesti kaksoistarkkuudella (FP64). Versiossa 2.5 on parametri SINGLE_PRECISION=ON, jolla se voidaan pakottaa myös perustarkkuuteen (FP32). Kuvassa 1 on esitetty microsphere-tietojoukon tulokset perus- ja kaksoistarkkuudella. X-akselilla näkyy grafiikkasuoritinten määrä, ja suorituskykymittarina käytetään 10e6 vaiheen suorittamiseen kuluvaa tuntimäärää.
Yksi havainto on, että T4:n FP64-suorituskyky on suhteellisen heikko. Tämä johtuu laitteiston rajoituksista. T4:n teoreettinen huippusuorituskyky kaksoistarkkuudella on 254 GFLOPS (katso taulukkoa 1), kun taas V100 on noin 27 kertaa tehokkaampi. HOOMD-bluen kaltaisten perustarkkuudella käännettävissä ja suoritettavissa olevien sovellusten suorituskyky voi kuitenkin olla parempi, kun ne käännetään FP32-tarkkuudella. HOOMD-blue-yhteisö käsittelee parhaillaan sekatarkkuuden tuen lisäämistä kaikkiin HOOMD-blue-moduuleihin. Kun tuki on lisätty, HOOMD-bluen suorituskyky sekatarkkuutta tukevissa laitteistoissa tehostuu.
T4:n ja V100:n perustarkkuuden suorituskykyvertailussa havaitsimme, että V100 on kolme kertaa tehokkaampi kuin T4. T4:n heikompi suorituskyky oli odotettavissa sen CUDA-ydinten määrän ja teholuokituksen vuoksi.
Grafiikkasuorittimet liitetään PowerEdge R740 -palvelimeen PCIe:n kautta. Kolmen V100-grafiikkasuorittimen arvopisteessä PCIe-väylä on vertaisliikenteen vuoksi saturaatiopisteessä. Tämä heikentää kokonaissuorituskykyä niin, että se on lopulta sama kuin yhdellä grafiikkasuorittimella.
Amber on yhteinen nimi joukolle ohjelmia, joiden avulla käyttäjät voivat suorittaa molekyylidynamiikkasimulaatioita erityisesti biomolekyyleillä. Termillä Amber viitataan myös ohjelmistossa käytettäviin empiirisiin voimakenttiin. Amber-versiota 18.12 ja AmberTools-versiota 18.13 testattiin Amber 18 Benchmark Suite -paketilla, joka sisältää JAC-, Cellulose-, FactorIX-, STMV-, TRPCage-, myoglobin- ja nucleosome-tietojoukot.
Kuva 2: Amberin eksplisiittisen liuotinmallin tulokset V100:lla ja T4:llä PowerEdge R740 -palvelimessa
Kuva 3: Amberin implisiittisen liuotinmallin tulokset V100:lla ja T4:llä PowerEdge R740 -palvelimessa
Kuvissa 2 ja 3 on esitetty yksittäisen kortin sekä koko järjestelmän suorituskykytulokset eksplisiittisessä ja implisiittisessä liuotinmallissa. Edellä olevan kaavion system-arvopiste kuvaa järjestelmän kaikkien grafiikkasuoritinten yhdistettyä suoritustehoa. PowerEdge R740 -palvelin tukee kolmea V100:aa tai neljää T4:ää, joten punaiset ja siniset system-palkit kuvaavat tuloksia kolmella V100:lla tai neljällä T4:llä.
Syy useiden grafiikkasuoritinten yhdistettyjen tietojen käyttämiseen on se, että Pascal ja uudemmat grafiikkasuorittimet eivät skaalaudu Amber-sovelluksessa useampaan kiihdyttimeen. Käyttäjät suorittavat yleensä useita rinnakkaissimulaatioita eri grafiikkasuorittimilla. Kun suorituskykyä mitataan STMV:n kaltaisella suurella tietojoukolla (1 067 095 atomia), yksittäisen T4:n suorituskyky on 33 prosenttia ja koko järjestelmän suorituskyky on 44 prosenttia V100:n suorituskyvystä. TRPCagen kaltaiset tietojoukot (vain 304 atomia) ovat liian pieniä hyödyntääkseen V100:aa tehokkaasti, joten toisin kuin suuremmissa PME-simulaatioissa, niissä V100:n suorituskyky ei ole juurikaan parempi kuin T4:n. Kuten Amberin virallisessa sivustossa esitetty tulos osoittaa, lähes kaikkien grafiikkasuoritinten tulokset ovat 3–4 kertaa parempia kuin pelkkien suoritinten. T4 voikin olla hyvä vaihtoehto pieniä tietojoukkoja käsittelevään palvelimeen.
Kuva 4: NAMD:n suorituskykytulokset V100:lla ja T4:llä PowerEdge R740 -palvelimessa
NAMD on molekyylidynamiikkakoodi, joka on suunniteltu suurten biomolekyylijärjestelmien tehokkaaseen simulointiin. Näissä testeissä ei käytetty valmista binaaria. Sen sijaan NAMD luotiin uusimmasta lähdekoodista (NAMD_Git-2019-02-11) CUDA 10.0:n avulla. Parhaan suorituskyvyn takaamiseksi NAMD käännettiin Intel®-kääntäjällä ja -kirjastoilla (versio 2018u3). Kuvassa 4 on esitetty suorituskykytulokset STMV-tietojoukolla (1 066 628 atomia, jaksoittainen, PME). NAMD skaalautuu yhteen V100-korttiin ja kolmeen T4-korttiin. Yksi T4-grafiikkasuoritin kykenee 42:een prosenttiin V100:n suorituskyvystä. Tämä ei ole hassumpi luku, kun ottaa huomioon, että sen suurin lämpöteho on vain 28 prosenttia V100:n vastaavasta arvosta. T4 voi olla hyvä vaihtoehto tietokeskuksille, joissa on rajallinen teho- ja jäähdytyskapasiteetti.
Kuva 5: HPL:n tulokset V100:lla ja T4:llä PowerEdge R740 -palvelimessa
Kuvassa 5 on esitetty HPL:n suorituskyky PowerEdge R740 -palvelimessa, jossa on useita V100- tai T4-grafiikkasuorittimia. HPL:n luvut skaalautuvat odotetusti hyvin useisiin V100- ja T4-grafiikkasuorittimin. T4:n suorituskyky on kuitenkin sen FP64-rajoituksen vuoksi huomattavasti heikompi kuin V100:n. T4 ei suoriudu rajallisen kaksoistarkkuuskapasiteettinsa vuoksi yhtä hyvin kuin V100, joten Volta V100 on edelleen paras vaihtoehto kaksoistarkkuudella suoritettavien sovellusten käyttöön.
Tässä blogikirjoituksessa vertailtiin suurteholaskentaan käytettävien HOOMD-blue-, Amber-, NAMD- ja HPL-sovellusten suorituskykyä V100- ja T4-grafiikkasuoritinten välillä Dell EMC PowerEdge R740 -palvelimessa. T4-mallia ei käytetä ainoastaan syväoppimiseen, vaan siitä on hyötyä myös perus- tai sekatarkkuutta tukevissa HPC-sovelluksissa. Sen pieni lämpöteho voi tehostaa perinteisiä tietokeskuksia, joissa on rajallinen teho- ja jäähdytyskapasiteetti. Pienen PCIe-koon ansiosta T4 sopii hyvin yleiskäyttöisempiin PowerEdge-palvelimiin. Jatkossa lisätestejä aiotaan tehdä esimerkiksi RELION-, GROMACS- ja LAMMPS-sovelluksilla sekä sekatarkkuutta hyödyntävillä sovelluksilla.
*Vastuuvapauslauseke: testeissä Dell PowerEdge R740 -palvelimessa käytettiin vertailun vuoksi neljää T4-grafiikkasuoritinta. PowerEdge R740 tukee tällä hetkellä virallisesti enintään kolmea T4-suoritinta x16 PCIe -paikoissa.