Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Synteettinen HPC:n suorituskykytestaus käyttäen 2. sukupolven skaalautuvia Intel Xeon -suorittimia – STREAM, HPL ja HPCG

Summary: Katso tietoja HPC:n synteettisestä vertailuarvosta käyttämällä toisen sukupolven Intel® Xeon® Skaalautuvia suorittimia – STREAM, HPL ja HPCG

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Artikkeli, jonka ovat kirjoittaneet Savitha Pareek, Varun Bawa, & Ashish K Singh HPC: stä ja AI Innovation Labista kesäkuussa 2019

2nd Generation Intel® Xeon® Scalable Family Processors (arkkitehtuurikoodinimelty – Cascade Lake) on Intelin Seuraaja Skylakelle ja valmis parhaaseen aikaansa. Dell EMC:n HPC-suunnittelutiimillä oli pääsy muutamiin teknisiin testiyksiköihin, ja tämä blogi esittelee alustavan vertailututkimuksemme tulokset.

Tämän blogin tarkoituksena on havainnollistaa ja analysoida suorituskykyä, joka on saatu uusimmissa Intel® Xeon® Scalable -perheprosessorissa, ja verrata suorituskykyä edeltäjäänsä. Olemme valinneet analyysiimme STREAM-, HPL- ja HPCG-vertailuarvot. Tutkimuksessa tuodaan esiin sekä yhden että usean solmun suorituskykyvaikutus. Nämä testit on tehty Dell EMC PowerEdge C6420 :lle (yhden solmun tutkimus) ja PowerEdge R740:lle (moni solmututkimus), joissa on suositellut BIOS-asetukset HPC-työkuormille. Cascade Lake -prosessorissa onmonia parannuksia, kuten Intel® Deep Learning Boost (Intel DL Boost), jossa on VNNI, suurempi muistikaistanleveys ja lisääntynyt vektorin liukulukujen suorituskyky ja tehokkuus.

Cause

 

Resolution

Taulukko 1: Testbed-tiedot

Palvelin

 PowerEdge C6420 & PowerEdge R740

Suorittimet

Yhden solmun kokoonpano

Usean solmun määritys

Palvelin - PowerEdge C6420 & PowerEdge R740

Palvelin- PowerEdge R740

Skylake – 2000-2

Intel Xeon® 6142[16C@2.6GHz]

Intel Xeon® 6130 [16C@2.1GHz]

Intel Xeon® 8180[28C @2.5GHz]

Kaskadijärvi –

Intel Xeon® 8268[24C@2,90 GHz]

Kaskadijärvi –

Intel Xeon® 6242[16C @2.8GHz]

Intel Xeon® 6230 [20C@2.1GHz]

Intel Xeon® 8280 [28C @2.7GHz]

Muisti

Kaskadijärven testi -192 Gt -12 x 16 Gt 2933 MT/s DDR4

Skylake testi - 192GB-12 x 16GB 2933 MT/s DDR4 (Aktiivinen 2666 MT/s)

Käyttöjärjestelmä

Red Hat Enterprise Linux 7.6

Kernel-versio

3.10.0-957.el7.x86_64

BIOS Options

Turbo=Käytössä, Looginen suoritin=Ei käytössä, SubNumaCluster=Käytössä, Virtualisointitekniikka=Poistettu käytöstä.

InfiniBand-kaista

Intel Omni -polku JA IFS 10.9.2

kääntäjä

Intel Parallel Studio XE 2018 -päivitys 4

Sovellukset

kiintopiste

Domain

Versio

Testikokoonpano

HPL

Korkean suorituskyvyn LINPACK- Laskennallinen

Intel MKL Graphics 2018 U4

Ongelman koko – 90 % muistin kokonaismäärästä

HPCG-valmiste

Korkean suorituskyvyn konjugaattigradientti – Laskennallinen 

Intel MKL Graphics 2018 U4

Ongelman koko – 336 x 336 x 336

virta

Muistin kaistanleveys

5.4

kolmikko

         

Testit tehtiin seuraavien kahden tapauksen kvantifioimiseksi:

  • Suorituskyvyn parantaminen yhdellä solmulla Skylakesta Cascade Lakeen
  • Suorituskyvyn parantaminen yhdellä solmulla vs. moni solmu

STREAM -

Saadaksemme muistin kaistanleveyden huipputehon Intel Cascade Lakessa ja Skylakessa, olemme valinneet STREAM-vertailuarvon, joka on tosiasiallisesti alan standardivertailuarvo HPC-verkkotunnuksella kestävän muistin kaistanleveyden mittaamiseksi (GB / s). TRIAD-arvoa on käytetty muistin kaistanleveyden vertailuun.

SLN317735_en_US__1image(10401)

Kuva 1: STREAM – Skylake vs Cascade Lake

Skylaken tuettu enimmäismuistitaajuus on 2666MT/s, kun taas Cascade Lake tukee 2933MT/s, mikä tarkoittaa 10% suurempaa muistitaajuutta Cascade Laken kanssa. Kuten kuvassa 1, Cascade Lake -prosessorit osoittavat 7 – 12% enemmän muistin kaistanleveyttä verrattuna Skylakeen. Muistin kaistanleveys ydintä kohti riippuu tietystä suorittimen SKU:sta. Koska joillakin Cascade Lake SKU:illa on skylakeen verrattuna lisäytimä, ydinmuistin kaistanleveysvertailut eroavat muistin kaistanleveyden kokonaisvertailusta. Kuvassa 1 sekä 8280:n että 6242:n muistikaistanleveys ydintä kohti on jopa 7 prosenttia edeltäjiään suurempi. Kuitenkin 6230 osoittaa 11% vähemmän muistin kaistanleveyttä ydintä kohti verrattuna 6130: een, koska ytimet ovat 25% nousussa 6230: llä. Muistin kaistanleveys ydintä kohti voi olla tärkeä tekijä sovelluksissa, jotka ovat muistin kaistanleveysherkkiä.

LINPACK -

Mittasimme prosessorien laskennallinen suorituskyky Intel LINPACK:n avulla. Ongelman koko (N) on 90% järjestelmämuistista, kun taas lohkon koko (HUOM) on 384. Tässä peitämme sekä suorituskyvyn että skaalautuksen Cascade Lake -prosessoreilla.

Skylake vs Cascade Lake 

SLN317735_en_US__2image(13765)

Kuva 2: LINPACK-suorituskyky (Skylake vs Cascade Lake)

Kuten kuvassa 2, LINPACK osoittaa suorituskyvyn parantuneen jopa 15% Cascade Lake -prosessoreilla. Tämä vertailu perustuu prosessorimallin numeroon, jossa verrataan Skylakea ja heidän Seuraajiaan Intel Xeon® Scalable -perheeseen. Intel Xeon® 6230, jossa on 4 ydintä lisää hylsyä kohti, saa 15% suorituskyvyn kasvun 6130: n aikana, kun taas sekä 8280 että 6242, joilla on samanlainen ydinmäärä kuin edeltäjillään, lisäävät suorituskyvyn paranemista, koska sen suorittimen perustaajuus ja suurempi muistin kaistanleveys kasvavat.

Usean solmun suorituskyky -Multi-node-tutkimuksessa olemme käyttäneet 8-solmuklusteria PowerEdge R740 -palvelimia Intel Xeon® 8268: n kanssa ja tallentaneet tulokset 1, 2, 4 ja 8 solmulle. Loput järjestelmän kokoonpanosta on mainittu edellä taulukossa 2.

SLN317735_en_US__3image(10402)

                                                Kuva 3: Usean solmun LINPACK suorituskyky 8268 @2.90GHz

Kuten kuvasta 3 käy ilmi, yhden 8268-solmun LINPACK-suorituskyky on 3059 GFLOPS ja 23946 GFLOPS 8 solmun osalta, mikä tarkoittaa 7,83X skaalausta yhdestä solmusta kahdeksaan solmuon. Yksittäisen solmun hyötysuhde on ~69 %, kun taas ~67 % 2-, 4- ja 8-solmuissa. Tehokkuus laskee 1 solmusta 2 solmuon; Skaalautuvuus on kuitenkin jälkeenpäin enimmäkseen lineaarista.               

HPCG-vertailuarvo

HPCG-vertailuarvo perustuu konjugaattigradienttiliuotinta, jossa esivakioituslaite on kolmitasoinen hierarkkinen moniruudukkomenetelmä (MG) Gauss-Seidelin kanssa.

HPCG-vertailuarvo muodostaa loogisesti maailmanlaajuisen, fyysisesti hajautetun harvaan jakautuneen lineaarisen järjestelmän käyttäen 27-pisteistä kaavainta 3D-verkkotunnuksen jokaisessa ruudukkopisteessä siten, että pisteen yhtälö (i, j, k) riippuu sen arvoista ja 26 ympäröivästä naapurista. Vertailuarvon mukaan laskettava yleinen toimialue on (NRx * Nx) X (NRy*Ny) X (NRz*Nz), jossa Nx, Ny ja Nz ovat paikallisten aliruudukoiden mittoja, jotka on määritetty kullekin MPI-prosessille ja MPI-rivien määrä on NR = (NRx X NRy X NRz).

Analyysiä varten olemme jakaneet testit kahteen luokkaan

Skylake vs Cascade LakeTässä osassa vertaamme Skylakea Cascade Lakeen käyttämällä HPCG-suorituskykyä. Olemme hyödyntäneet ruudukon kokoa 336^3, joka vie yli 1/4 kokonaisjärjestelmämuistista. MPI-prosessien määrä solmua kohden ja säikeiden määrä perustuivat parhaisiin tuloksiin ja muistin hyödyntämiseen.

SLN317735_en_US__4image(10403)  

Kuva 4: HPCG-suorituskyky (Skylake vs Cascade Lake)

Kaavion 4 mukaisesti havaitsemme merkittävän HPCG-suorituskyvyn paranemisen Cascade Lake -prosessoreilla edeltäjiinsä verrattuna. Koska HPCG on enemmän muistiin sidottu sovellus, suorituskyvyn parantaminen Cascade Lake -prosessoreilla on linjassa STREAM-vertailuarvon tuloksen kanssa, jossa 6230 toimii 10% paremmin kuin 6130, 6242 toimii 12% paremmin kuin 6142 ja 8280 suorittaa 7% paremmin kuin 8180.   

HPCG multi-nodella – Multi-node-vertailuanalyysiin olemme valinneet paikallisen ulottuvuusruudukon koon 336^3 ja parhaan MPI-prosessin ja OpenMP Thread -yhdistelmän.

SLN317735_en_US__5image(10404)

Kuva 5: Moni solmuinen HPCG-suorituskyky Cascade Laken kanssa

Kuvassa 5 esitetään HPCG:n suorituskyky Cascade Lake 8268 @2.9GHz:n kanssa ja skaalautumassa jopa 8 solmuon. HPCG:n suorituskyky on 43GFLOPS yhdelle solmulle ja 84GFLOPS kahdelle solmulle, mikä tarkoittaa 1,96X suorituskyvyn paranemista kahdella solmulla. Kun etenemme 4- ja 8-solmuilla, suorituskyky paranee jopa 7,7X: iin.          

Johtopäätös

Cascade Lake -suorittimien saatavuuden ansiosta PowerEdge-järjestelmät voivat nyt tukea jopa 2933 MT/s muistinopeuksia tällä uuden sukupolven prosessorilla. Cascade Lake -prosessoreilla testaamamme testit osoittavat 7-12% suorituskyvyn paranemisen muistin kaistanleveydessä, 4-15% parannuksen HPL: ssä ja 7-12% parannuksen HPCG: ssä vertaillessamme CPU-malleissa. Cascade Laken testit 1-8 solmusta osoittavat hyvää skaalautuvuutta, kuten olemme nähneet Skylaken kanssa aiemmin.

Lisäksi Cascade Lake esittelee VNNI-ohjeita, jotka voivat nopeuttaa syväoppimisen päättelytyömäärää 2x-3x: llä, jota käsitellään tarkemmin tässä blogissa.

Tulevaa työtämme varten aiomme arvioida Cascade Laken suorituskykyetua erilaisissa HPC-sovelluksissa, kuten WRF, NAMD, GROMACS, CP2K ja LAMMPS

Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000133009
Article Type: Solution
Last Modified: 18 May 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.