Tiivistelmä
Dell EMC PowerEdge C4140 -palvelimiin on hiljattain lisätty uusi Configuration M -ratkaisu. Tässä artikkelissa esitellään uusimpaan C4140-tuoteperheen jäseneen liittyvän suorituskykytutkimuksen tulokset. Tutkimuksessa arvioitiin Configuration M:n suorituskykyä Configuration K -ratkaisuun verrattuna erilaisissa HPC-sovelluksissa, kuten HPL, GROMACS ja NAMD.
Yleiskuvaus
PowerEdge C4140 on kaksikantainen 1U-kehikkopalvelin. Se tukee Intel Skylake -suorittimia ja siinä on enintään 24 DIMM-muistipaikkaa sekä neljä tuplaleveää NVIDIA Volta -näytönohjainkorttia. C4140-palvelinperheen NVLINKiä tukevat kaksi kokoonpanoa ovat Configuration K ja Configuration M. Topologioiden vertailu on esitetty kuvassa 1. Kaksi merkittävää eroa näiden kahden kokoonpanon välillä on kuvattu alla:
p2pBandwidthLatencyTest
Kuva 2: Kortista korttiin -viive, P2P ei käytössä, C4140 Configuration K ja M
P2pBandwidthLatencyTest on CUDA SDK:hon kuuluva pienoistesti. Se mittaa kortista korttiin -viiveen ja kaistanleveyden GPUDirect™ Peer-to-Peer käytössä ja käytöstä poistettuna. Testissä keskitytään viiveeseen, koska ohjelma ei mittaa samanaikaisesti kaistanleveyttä. Sovellusten todellista kaistanleveyttä käsitellään alla olevassa HPL-osiossa. Kuvassa 2 luetellut numerot kuvaavat sataan kertaan mitatun yksisuuntaisen kortista korttiin -viiveen keskiarvoa mikrosekunteina. Aina kun koodi lähettää tavun kortista toiseen, valitaan tämän kaavion P2P ei käytössä -numero, koska jos P2P on käytössä, tiedot siirretään sen sijaan NVLINK-yhteyden kautta. Configuration M:n PCIe-viive on 1,368. Se on Configuration K:tä pienempi PCIe-topologioiden erojen vuoksi.
High Performance Linpack (HPL)
Kuvassa 3 (a) näkyy C4140-alustan HPL-suorituskyky yhdellä, kahdella, neljällä ja kahdeksalla V100-SXM2-grafiikkasuorittimella. 1–4 grafiikkasuorittimen tulokset ovat yhdestä C4140:stä, 8 grafiikkasuorittimen tulos on kahdesta palvelimesta. Tässä testissä käytetty HPL-versio on NVIDIAn toimittama, ja se on koottu äskettäin julkaistuilla CUDA 10- ja OpenMPI-versioilla. HPL:n tuloksista voidaan havaita seuraavat seikat:
1) Yksi solmu. Kaikkien neljän grafiikkasuorittimen testissä Configuration M on noin 16 % Configuration K:ta nopeampi. Ennen kuin HPL-sovellus aloittaa laskemisen, se mittaa laitteesta isäntään (D2H) ja isännästä laitteeseen (H2D) käytettävissä olevan PCIe-kaistanleveyden kullekin näytönohjaimelle, kun kaikki kortit siirtävät tietoja samanaikaisesti. Näiden tietojen avulla saadaan hyödyllisiä tietoja kunkin kortin todellisesta PCIe-kaistanleveydestä, kun HPL kopioi N*N Matrixin samanaikaisesti kaikkien grafiikkasuorittimien muistiin. Kuten kuvassa 3 (b) näkyy, Configuration M:n D2H- ja H2D-luvut ovat huomattavasti suurempia ja ne ovat saavuttaneet PCIe x16 -ratkaisun teoreettisen läpiviennin. Tämä vastaa laitteiston topologiaa, koska kussakin Configuration M:n grafiikkasuorittimessa on erillinen PCIe x16 -linkki suorittimeen. Configuration K:ssa kaikkien neljän V100:n on jaettava yksi PCIe x16 -linkki PLX PCIe -kytkimen kautta, jolloin niillä kaikilla on käytettävissään vain 2,5 Gt/s. Kaistanleveyseron vuoksi 16 Gt:n neljäosaisen N*N Matrixin kopioiminen kunkin grafiikkasuorittimen muistiin kesti Configuration M:llä 1,33 sekuntia ja Configuration K:lla 5,33 sekuntia. Koko HPL-sovelluksen suoritus kesti n. 23–25 sekuntia Koska kaikki V100-SXM2-mallit ovat samanlaisia, myös laskenta-aika on identtinen. Neljän sekunnin säästö tiedonsiirtoajassa osoittaa, että Configuration M on 16 % nopeampi.
2) Useita solmuja. Kahden C4140-solmun ja kahdeksan grafiikkasuorittimen tuloksissa on havaittavissa yli 15 prosentin HPL-suorituskyvyn parannus kahdella solmulla. Configuration M:n skaalautuvuus on Configuration K:ta parempi, samasta syystä kuin yllä kuvatun tapauksen yhdellä solmulla ja neljällä kortilla.
3) Tehokkuus. Virrankulutus: mitattiin iDracilla, kuvassa 3 (c) näkyvät ajan mukaiset tehotiedot. Molempien järjestelmien teho oli suurimmillaan noin 1 850 W. Suuremman GFLOPS-luvun vuoksi Configuration M tarjoaa paremman suorituskyvyn wattia kohden sekä paremman HPL-tehokkuuden.
HPL on järjestelmätason testin jonka tulokset määräytyvät suorittimen, grafiikkasuorittimen, muistin ja PCIe-kaistanleveyden kaltaisten komponenttien perusteella. Configuration M:n rakenne on tasapainotettu kahden suorittimen välillä. Siksi se päihittää Configuration K:n HPL-vertailussa.
GROMACS
GROMACS on avoimen lähdekoodin molekyylidynamiikkasovellus, joka on tarkoitettu biokemiallisten molekyylien, kuten proteiinien, lipidien ja nukleiinihappojen monimutkaisten sidosteisten vuorovaikutusten simulointiin. Versiota 2018.3 testattiin Water 3072 -tietojoukolla, johon kuuluu 3 miljoonaa atomia.
Kuva 4: GROMACS-suorituskyky, C4140 ja useita V100-suorittimia, Configuration K ja M
Kuvassa 4 näkyy Configuration M:n ja K:n suorituskykyjen ero. Yhden kortin suorituskyky on sama molemmissa kokoonpanoissa, koska tietopolussa ei ole eroa. Käytettäessä kahta tai neljää grafiikkasuoritinta Configuration M on 5 % nopeampi kuin K. Kun sitä testataan kahden solmun kanssa, Configuration M:n suorituskyky on jopa 10 % parempi. Merkittävin syy tälle on se, että PCIe-liitäntöjä on enemmän, jolloin kaistanleveyttä on enemmän ja tietojen syöttö grafiikkasuorittimiin on nopeampaa. Grafiikkasuoritin vaikuttaa merkittävästi GROMACS-sovellukseen, mutta sovellus käyttää laskentaan samanaikaisesti sekä suoritinta että grafiikkasuorittimia – jos GROMACS on klusterin pääsovellus, tehokasta suoritinta suositellaan. Kaaviossa näkyy GROMACS-suorituskyvyn skaalautuminen useiden palvelinten ja lisägrafiikkasuorittimien myötä. Vaikka sovelluksen suorituskyky kasvaa, kun grafiikkasuorittimia ja palvelimia on enemmän, grafiikkasuoritinkohtainen suorituskyvyn parantuminen ei ole lineaarista.
NAnoscale Molecular Dynamics (NAMD)
NAMD on molekyylidynamiikkakoodi, joka on suunniteltu suurten biomolekyylijärjestelmien tehokkaaseen simulointiin. Näissä testeissä ei käytetty valmista binaaria. Sen sijaan NAMD luotiin uusimmasta lähdekoodista (NAMD_Git-2018-10-31_Source) CUDA 10:n avulla. Kuvassa 4 on esitetty suorituskykytulokset STMV-tietojoukolla (1 066 628 atomia, jaksoittainen, PME). Testit pienemmillä tietojoukoilla, kuten f1atpase (327 506 atomia, jaksoittainen, PME) ja apoa1 (92 224 atomia, jaksoittainen, PME), johtivat samankaltaisiin vertailutuloksiin Configuration M:n ja K:n välillä. Niitä ei tekstin rajaamisen vuoksi esitellä tässä.
Kuva 5: NAMD-suorituskyky, C4140 ja useita V100-suorittimia, Configuration K ja M
Nelinkertainen PCIe-kaistanleveys parantaa GROMACS-sovelluksen lisäksi myös NAMD:n suorituskykyä. Kuvassa 5 näkyy, että Configuration M:n suorituskyky kahdella ja neljällä kortilla on vastaavasti 16 % ja 30 % Configuration K:ta paremmalla tasolla käytettäessä STMV-tietojoukkoa. Yhden kortin suorituskyvyn odotetaan pysyvän samana, koska käytettäessä vain yhtä grafiikkasuoritinta PCIe-kaistanleveys on identtinen.
Johtopäätökset ja jatkosuunnitelmat
Tässä blogikirjoituksessa vertailtiin kahden erilaisen PowerEdge C4140 -palvelimen NVLINK-kokoonpanon HPC-sovellusten suorituskykyä HPL:llä, GROMACSilla ja NAMD:llä. HPL, GROMACS ja NAMD suoriutuvat n. 10 % paremmin Configuration M:llä kuin Configuration K:lla. Kaikissa testeissä Configuration M saavuttaa saman suorituskyvyn kuin Configuration K, koska sillä on kaikki Configuration K:n hyvät ominaisuudet sekä lisäksi useampia PCIe-linkkejä eikä ollenkaan PCIe-kytkimiä. Jatkossa lisätestejä aiotaan tehdä esimerkiksi RELION-, HOOMD- ja AMBER-sovelluksilla sekä V100 32G -grafiikkasuorittimella.