Artikkeli, jonka ovat kirjoittaneet Savitha Pareek, Varun Bawa, & Ashish K Singh HPC: stä ja AI Innovation Labista kesäkuussa 2019
2nd Generation Intel® Xeon® Scalable Family Processors (arkkitehtuurikoodinimelty – Cascade Lake) on Intelin Seuraaja Skylakelle ja valmis parhaaseen aikaansa. Dell EMC:n HPC-suunnittelutiimillä oli pääsy muutamiin teknisiin testiyksiköihin, ja tämä blogi esittelee alustavan vertailututkimuksemme tulokset.
Tämän blogin tarkoituksena on havainnollistaa ja analysoida suorituskykyä, joka on saatu uusimmissa Intel® Xeon® Scalable -perheprosessorissa, ja verrata suorituskykyä edeltäjäänsä. Olemme valinneet analyysiimme STREAM-, HPL- ja HPCG-vertailuarvot. Tutkimuksessa tuodaan esiin sekä yhden että usean solmun suorituskykyvaikutus. Nämä testit on tehty Dell EMC PowerEdge C6420 :lle (yhden solmun tutkimus) ja PowerEdge R740:lle (moni solmututkimus), joissa on suositellut BIOS-asetukset HPC-työkuormille. Cascade Lake -prosessorissa onmonia parannuksia, kuten Intel® Deep Learning Boost (Intel DL Boost), jossa on VNNI, suurempi muistikaistanleveys ja lisääntynyt vektorin liukulukujen suorituskyky ja tehokkuus.
Taulukko 1: Testbed-tiedot
Palvelin |
PowerEdge C6420 & PowerEdge R740 |
|||
Suorittimet |
Yhden solmun kokoonpano |
Usean solmun määritys |
||
Palvelin - PowerEdge C6420 & PowerEdge R740 |
Palvelin- PowerEdge R740 |
|||
Skylake – 2000-2 Intel Xeon® 6142[16C@2.6GHz] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180[28C @2.5GHz] |
Kaskadijärvi – Intel Xeon® 8268[24C@2,90 GHz] |
|||
Kaskadijärvi – Intel Xeon® 6242[16C @2.8GHz] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @2.7GHz] |
||||
Muisti |
Kaskadijärven testi -192 Gt -12 x 16 Gt 2933 MT/s DDR4 Skylake testi - 192GB-12 x 16GB 2933 MT/s DDR4 (Aktiivinen 2666 MT/s) |
|||
Käyttöjärjestelmä |
Red Hat Enterprise Linux 7.6 |
|||
Kernel-versio |
3.10.0-957.el7.x86_64 |
|||
BIOS Options |
Turbo=Käytössä, Looginen suoritin=Ei käytössä, SubNumaCluster=Käytössä, Virtualisointitekniikka=Poistettu käytöstä. |
|||
InfiniBand-kaista |
Intel Omni -polku JA IFS 10.9.2 |
|||
kääntäjä |
Intel Parallel Studio XE 2018 -päivitys 4 |
|||
Sovellukset |
||||
kiintopiste |
Domain |
Versio |
Testikokoonpano |
|
HPL |
Korkean suorituskyvyn LINPACK- Laskennallinen |
Intel MKL Graphics 2018 U4 |
Ongelman koko – 90 % muistin kokonaismäärästä |
|
HPCG-valmiste |
Korkean suorituskyvyn konjugaattigradientti – Laskennallinen |
Intel MKL Graphics 2018 U4 |
Ongelman koko – 336 x 336 x 336 |
|
virta |
Muistin kaistanleveys |
5.4 |
kolmikko |
|
Testit tehtiin seuraavien kahden tapauksen kvantifioimiseksi:
STREAM -
Saadaksemme muistin kaistanleveyden huipputehon Intel Cascade Lakessa ja Skylakessa, olemme valinneet STREAM-vertailuarvon, joka on tosiasiallisesti alan standardivertailuarvo HPC-verkkotunnuksella kestävän muistin kaistanleveyden mittaamiseksi (GB / s). TRIAD-arvoa on käytetty muistin kaistanleveyden vertailuun.
Kuva 1: STREAM – Skylake vs Cascade Lake
Skylaken tuettu enimmäismuistitaajuus on 2666MT/s, kun taas Cascade Lake tukee 2933MT/s, mikä tarkoittaa 10% suurempaa muistitaajuutta Cascade Laken kanssa. Kuten kuvassa 1, Cascade Lake -prosessorit osoittavat 7 – 12% enemmän muistin kaistanleveyttä verrattuna Skylakeen. Muistin kaistanleveys ydintä kohti riippuu tietystä suorittimen SKU:sta. Koska joillakin Cascade Lake SKU:illa on skylakeen verrattuna lisäytimä, ydinmuistin kaistanleveysvertailut eroavat muistin kaistanleveyden kokonaisvertailusta. Kuvassa 1 sekä 8280:n että 6242:n muistikaistanleveys ydintä kohti on jopa 7 prosenttia edeltäjiään suurempi. Kuitenkin 6230 osoittaa 11% vähemmän muistin kaistanleveyttä ydintä kohti verrattuna 6130: een, koska ytimet ovat 25% nousussa 6230: llä. Muistin kaistanleveys ydintä kohti voi olla tärkeä tekijä sovelluksissa, jotka ovat muistin kaistanleveysherkkiä.
LINPACK -
Mittasimme prosessorien laskennallinen suorituskyky Intel LINPACK:n avulla. Ongelman koko (N) on 90% järjestelmämuistista, kun taas lohkon koko (HUOM) on 384. Tässä peitämme sekä suorituskyvyn että skaalautuksen Cascade Lake -prosessoreilla.
Skylake vs Cascade Lake –
Kuva 2: LINPACK-suorituskyky (Skylake vs Cascade Lake)
Kuten kuvassa 2, LINPACK osoittaa suorituskyvyn parantuneen jopa 15% Cascade Lake -prosessoreilla. Tämä vertailu perustuu prosessorimallin numeroon, jossa verrataan Skylakea ja heidän Seuraajiaan Intel Xeon® Scalable -perheeseen. Intel Xeon® 6230, jossa on 4 ydintä lisää hylsyä kohti, saa 15% suorituskyvyn kasvun 6130: n aikana, kun taas sekä 8280 että 6242, joilla on samanlainen ydinmäärä kuin edeltäjillään, lisäävät suorituskyvyn paranemista, koska sen suorittimen perustaajuus ja suurempi muistin kaistanleveys kasvavat.
Usean solmun suorituskyky -Multi-node-tutkimuksessa olemme käyttäneet 8-solmuklusteria PowerEdge R740 -palvelimia Intel Xeon® 8268: n kanssa ja tallentaneet tulokset 1, 2, 4 ja 8 solmulle. Loput järjestelmän kokoonpanosta on mainittu edellä taulukossa 2.
Kuva 3: Usean solmun LINPACK suorituskyky 8268 @2.90GHz
Kuten kuvasta 3 käy ilmi, yhden 8268-solmun LINPACK-suorituskyky on 3059 GFLOPS ja 23946 GFLOPS 8 solmun osalta, mikä tarkoittaa 7,83X skaalausta yhdestä solmusta kahdeksaan solmuon. Yksittäisen solmun hyötysuhde on ~69 %, kun taas ~67 % 2-, 4- ja 8-solmuissa. Tehokkuus laskee 1 solmusta 2 solmuon; Skaalautuvuus on kuitenkin jälkeenpäin enimmäkseen lineaarista.
HPCG-vertailuarvo
HPCG-vertailuarvo perustuu konjugaattigradienttiliuotinta, jossa esivakioituslaite on kolmitasoinen hierarkkinen moniruudukkomenetelmä (MG) Gauss-Seidelin kanssa.
HPCG-vertailuarvo muodostaa loogisesti maailmanlaajuisen, fyysisesti hajautetun harvaan jakautuneen lineaarisen järjestelmän käyttäen 27-pisteistä kaavainta 3D-verkkotunnuksen jokaisessa ruudukkopisteessä siten, että pisteen yhtälö (i, j, k) riippuu sen arvoista ja 26 ympäröivästä naapurista. Vertailuarvon mukaan laskettava yleinen toimialue on (NRx * Nx) X (NRy*Ny) X (NRz*Nz), jossa Nx, Ny ja Nz ovat paikallisten aliruudukoiden mittoja, jotka on määritetty kullekin MPI-prosessille ja MPI-rivien määrä on NR = (NRx X NRy X NRz).
Analyysiä varten olemme jakaneet testit kahteen luokkaan
Skylake vs Cascade Lake – Tässä osassa vertaamme Skylakea Cascade Lakeen käyttämällä HPCG-suorituskykyä. Olemme hyödyntäneet ruudukon kokoa 336^3, joka vie yli 1/4 kokonaisjärjestelmämuistista. MPI-prosessien määrä solmua kohden ja säikeiden määrä perustuivat parhaisiin tuloksiin ja muistin hyödyntämiseen.
Kuva 4: HPCG-suorituskyky (Skylake vs Cascade Lake)
Kaavion 4 mukaisesti havaitsemme merkittävän HPCG-suorituskyvyn paranemisen Cascade Lake -prosessoreilla edeltäjiinsä verrattuna. Koska HPCG on enemmän muistiin sidottu sovellus, suorituskyvyn parantaminen Cascade Lake -prosessoreilla on linjassa STREAM-vertailuarvon tuloksen kanssa, jossa 6230 toimii 10% paremmin kuin 6130, 6242 toimii 12% paremmin kuin 6142 ja 8280 suorittaa 7% paremmin kuin 8180.
HPCG multi-nodella – Multi-node-vertailuanalyysiin olemme valinneet paikallisen ulottuvuusruudukon koon 336^3 ja parhaan MPI-prosessin ja OpenMP Thread -yhdistelmän.
Kuva 5: Moni solmuinen HPCG-suorituskyky Cascade Laken kanssa
Kuvassa 5 esitetään HPCG:n suorituskyky Cascade Lake 8268 @2.9GHz:n kanssa ja skaalautumassa jopa 8 solmuon. HPCG:n suorituskyky on 43GFLOPS yhdelle solmulle ja 84GFLOPS kahdelle solmulle, mikä tarkoittaa 1,96X suorituskyvyn paranemista kahdella solmulla. Kun etenemme 4- ja 8-solmuilla, suorituskyky paranee jopa 7,7X: iin.
Johtopäätös
Cascade Lake -suorittimien saatavuuden ansiosta PowerEdge-järjestelmät voivat nyt tukea jopa 2933 MT/s muistinopeuksia tällä uuden sukupolven prosessorilla. Cascade Lake -prosessoreilla testaamamme testit osoittavat 7-12% suorituskyvyn paranemisen muistin kaistanleveydessä, 4-15% parannuksen HPL: ssä ja 7-12% parannuksen HPCG: ssä vertaillessamme CPU-malleissa. Cascade Laken testit 1-8 solmusta osoittavat hyvää skaalautuvuutta, kuten olemme nähneet Skylaken kanssa aiemmin.
Lisäksi Cascade Lake esittelee VNNI-ohjeita, jotka voivat nopeuttaa syväoppimisen päättelytyömäärää 2x-3x: llä, jota käsitellään tarkemmin tässä blogissa.
Tulevaa työtämme varten aiomme arvioida Cascade Laken suorituskykyetua erilaisissa HPC-sovelluksissa, kuten WRF, NAMD, GROMACS, CP2K ja LAMMPS