메인 콘텐츠로 이동
  • 빠르고 간편하게 주문
  • 주문 보기 및 배송 상태 추적
  • 제품 목록을 생성 및 액세스
  • 회사 관리를 사용하여 Dell EMC 사이트, 제품 및 제품 수준 연락처를 관리하십시오.

Synteettinen HPC:n suorituskykytestaus käyttäen 2. sukupolven skaalautuvia Intel Xeon -suorittimia – STREAM, HPL ja HPCG

요약: Katso tietoja HPC:n synteettisestä vertailuarvosta käyttämällä toisen sukupolven Intel® Xeon® Skaalautuvia suorittimia – STREAM, HPL ja HPCG

이 문서는 자동으로 번역되었을 수 있습니다. 번역 품질에 대한 의견이 있는 경우 페이지 하단의 양식을 사용해 알려 주시기 바랍니다.

문서 콘텐츠


증상

Artikkeli, jonka ovat kirjoittaneet Savitha Pareek, Varun Bawa, & Ashish K Singh HPC: stä ja AI Innovation Labista kesäkuussa 2019

2nd Generation Intel® Xeon® Scalable Family Processors (arkkitehtuurikoodinimelty – Cascade Lake) on Intelin Seuraaja Skylakelle ja valmis parhaaseen aikaansa. Dell EMC:n HPC-suunnittelutiimillä oli pääsy muutamiin teknisiin testiyksiköihin, ja tämä blogi esittelee alustavan vertailututkimuksemme tulokset.

Tämän blogin tarkoituksena on havainnollistaa ja analysoida suorituskykyä, joka on saatu uusimmissa Intel® Xeon® Scalable -perheprosessorissa, ja verrata suorituskykyä edeltäjäänsä. Olemme valinneet analyysiimme STREAM-, HPL- ja HPCG-vertailuarvot. Tutkimuksessa tuodaan esiin sekä yhden että usean solmun suorituskykyvaikutus. Nämä testit on tehty Dell EMC PowerEdge C6420 :lle (yhden solmun tutkimus) ja PowerEdge R740:lle (moni solmututkimus), joissa on suositellut BIOS-asetukset HPC-työkuormille. Cascade Lake -prosessorissa onmonia parannuksia, kuten Intel® Deep Learning Boost (Intel DL Boost), jossa on VNNI, suurempi muistikaistanleveys ja lisääntynyt vektorin liukulukujen suorituskyky ja tehokkuus.

원인

 

해결

Taulukko 1: Testbed-tiedot

Palvelin

 PowerEdge C6420 & PowerEdge R740

Suorittimet

Yhden solmun kokoonpano

Usean solmun määritys

Palvelin - PowerEdge C6420 & PowerEdge R740

Palvelin- PowerEdge R740

Skylake – 2000-2

Intel Xeon® 6142[16C@2.6GHz]

Intel Xeon® 6130 [16C@2.1GHz]

Intel Xeon® 8180[28C @2.5GHz]

Kaskadijärvi –

Intel Xeon® 8268[24C@2,90 GHz]

Kaskadijärvi –

Intel Xeon® 6242[16C @2.8GHz]

Intel Xeon® 6230 [20C@2.1GHz]

Intel Xeon® 8280 [28C @2.7GHz]

Muisti

Kaskadijärven testi -192 Gt -12 x 16 Gt 2933 MT/s DDR4

Skylake testi - 192GB-12 x 16GB 2933 MT/s DDR4 (Aktiivinen 2666 MT/s)

Käyttöjärjestelmä

Red Hat Enterprise Linux 7.6

Kernel-versio

3.10.0-957.el7.x86_64

BIOS Options

Turbo=Käytössä, Looginen suoritin=Ei käytössä, SubNumaCluster=Käytössä, Virtualisointitekniikka=Poistettu käytöstä.

InfiniBand-kaista

Intel Omni -polku JA IFS 10.9.2

kääntäjä

Intel Parallel Studio XE 2018 -päivitys 4

Sovellukset

kiintopiste

Domain

Versio

Testikokoonpano

HPL

Korkean suorituskyvyn LINPACK- Laskennallinen

Intel MKL Graphics 2018 U4

Ongelman koko – 90 % muistin kokonaismäärästä

HPCG-valmiste

Korkean suorituskyvyn konjugaattigradientti – Laskennallinen 

Intel MKL Graphics 2018 U4

Ongelman koko – 336 x 336 x 336

virta

Muistin kaistanleveys

5.4

kolmikko

         

Testit tehtiin seuraavien kahden tapauksen kvantifioimiseksi:

  • Suorituskyvyn parantaminen yhdellä solmulla Skylakesta Cascade Lakeen
  • Suorituskyvyn parantaminen yhdellä solmulla vs. moni solmu

STREAM -

Saadaksemme muistin kaistanleveyden huipputehon Intel Cascade Lakessa ja Skylakessa, olemme valinneet STREAM-vertailuarvon, joka on tosiasiallisesti alan standardivertailuarvo HPC-verkkotunnuksella kestävän muistin kaistanleveyden mittaamiseksi (GB / s). TRIAD-arvoa on käytetty muistin kaistanleveyden vertailuun.

SLN317735_en_US__1image(10401)

Kuva 1: STREAM – Skylake vs Cascade Lake

Skylaken tuettu enimmäismuistitaajuus on 2666MT/s, kun taas Cascade Lake tukee 2933MT/s, mikä tarkoittaa 10% suurempaa muistitaajuutta Cascade Laken kanssa. Kuten kuvassa 1, Cascade Lake -prosessorit osoittavat 7 – 12% enemmän muistin kaistanleveyttä verrattuna Skylakeen. Muistin kaistanleveys ydintä kohti riippuu tietystä suorittimen SKU:sta. Koska joillakin Cascade Lake SKU:illa on skylakeen verrattuna lisäytimä, ydinmuistin kaistanleveysvertailut eroavat muistin kaistanleveyden kokonaisvertailusta. Kuvassa 1 sekä 8280:n että 6242:n muistikaistanleveys ydintä kohti on jopa 7 prosenttia edeltäjiään suurempi. Kuitenkin 6230 osoittaa 11% vähemmän muistin kaistanleveyttä ydintä kohti verrattuna 6130: een, koska ytimet ovat 25% nousussa 6230: llä. Muistin kaistanleveys ydintä kohti voi olla tärkeä tekijä sovelluksissa, jotka ovat muistin kaistanleveysherkkiä.

LINPACK -

Mittasimme prosessorien laskennallinen suorituskyky Intel LINPACK:n avulla. Ongelman koko (N) on 90% järjestelmämuistista, kun taas lohkon koko (HUOM) on 384. Tässä peitämme sekä suorituskyvyn että skaalautuksen Cascade Lake -prosessoreilla.

Skylake vs Cascade Lake 

SLN317735_en_US__2image(13765)

Kuva 2: LINPACK-suorituskyky (Skylake vs Cascade Lake)

Kuten kuvassa 2, LINPACK osoittaa suorituskyvyn parantuneen jopa 15% Cascade Lake -prosessoreilla. Tämä vertailu perustuu prosessorimallin numeroon, jossa verrataan Skylakea ja heidän Seuraajiaan Intel Xeon® Scalable -perheeseen. Intel Xeon® 6230, jossa on 4 ydintä lisää hylsyä kohti, saa 15% suorituskyvyn kasvun 6130: n aikana, kun taas sekä 8280 että 6242, joilla on samanlainen ydinmäärä kuin edeltäjillään, lisäävät suorituskyvyn paranemista, koska sen suorittimen perustaajuus ja suurempi muistin kaistanleveys kasvavat.

Usean solmun suorituskyky -Multi-node-tutkimuksessa olemme käyttäneet 8-solmuklusteria PowerEdge R740 -palvelimia Intel Xeon® 8268: n kanssa ja tallentaneet tulokset 1, 2, 4 ja 8 solmulle. Loput järjestelmän kokoonpanosta on mainittu edellä taulukossa 2.

SLN317735_en_US__3image(10402)

                                                Kuva 3: Usean solmun LINPACK suorituskyky 8268 @2.90GHz

Kuten kuvasta 3 käy ilmi, yhden 8268-solmun LINPACK-suorituskyky on 3059 GFLOPS ja 23946 GFLOPS 8 solmun osalta, mikä tarkoittaa 7,83X skaalausta yhdestä solmusta kahdeksaan solmuon. Yksittäisen solmun hyötysuhde on ~69 %, kun taas ~67 % 2-, 4- ja 8-solmuissa. Tehokkuus laskee 1 solmusta 2 solmuon; Skaalautuvuus on kuitenkin jälkeenpäin enimmäkseen lineaarista.               

HPCG-vertailuarvo

HPCG-vertailuarvo perustuu konjugaattigradienttiliuotinta, jossa esivakioituslaite on kolmitasoinen hierarkkinen moniruudukkomenetelmä (MG) Gauss-Seidelin kanssa.

HPCG-vertailuarvo muodostaa loogisesti maailmanlaajuisen, fyysisesti hajautetun harvaan jakautuneen lineaarisen järjestelmän käyttäen 27-pisteistä kaavainta 3D-verkkotunnuksen jokaisessa ruudukkopisteessä siten, että pisteen yhtälö (i, j, k) riippuu sen arvoista ja 26 ympäröivästä naapurista. Vertailuarvon mukaan laskettava yleinen toimialue on (NRx * Nx) X (NRy*Ny) X (NRz*Nz), jossa Nx, Ny ja Nz ovat paikallisten aliruudukoiden mittoja, jotka on määritetty kullekin MPI-prosessille ja MPI-rivien määrä on NR = (NRx X NRy X NRz).

Analyysiä varten olemme jakaneet testit kahteen luokkaan

Skylake vs Cascade LakeTässä osassa vertaamme Skylakea Cascade Lakeen käyttämällä HPCG-suorituskykyä. Olemme hyödyntäneet ruudukon kokoa 336^3, joka vie yli 1/4 kokonaisjärjestelmämuistista. MPI-prosessien määrä solmua kohden ja säikeiden määrä perustuivat parhaisiin tuloksiin ja muistin hyödyntämiseen.

SLN317735_en_US__4image(10403)  

Kuva 4: HPCG-suorituskyky (Skylake vs Cascade Lake)

Kaavion 4 mukaisesti havaitsemme merkittävän HPCG-suorituskyvyn paranemisen Cascade Lake -prosessoreilla edeltäjiinsä verrattuna. Koska HPCG on enemmän muistiin sidottu sovellus, suorituskyvyn parantaminen Cascade Lake -prosessoreilla on linjassa STREAM-vertailuarvon tuloksen kanssa, jossa 6230 toimii 10% paremmin kuin 6130, 6242 toimii 12% paremmin kuin 6142 ja 8280 suorittaa 7% paremmin kuin 8180.   

HPCG multi-nodella – Multi-node-vertailuanalyysiin olemme valinneet paikallisen ulottuvuusruudukon koon 336^3 ja parhaan MPI-prosessin ja OpenMP Thread -yhdistelmän.

SLN317735_en_US__5image(10404)

Kuva 5: Moni solmuinen HPCG-suorituskyky Cascade Laken kanssa

Kuvassa 5 esitetään HPCG:n suorituskyky Cascade Lake 8268 @2.9GHz:n kanssa ja skaalautumassa jopa 8 solmuon. HPCG:n suorituskyky on 43GFLOPS yhdelle solmulle ja 84GFLOPS kahdelle solmulle, mikä tarkoittaa 1,96X suorituskyvyn paranemista kahdella solmulla. Kun etenemme 4- ja 8-solmuilla, suorituskyky paranee jopa 7,7X: iin.          

Johtopäätös

Cascade Lake -suorittimien saatavuuden ansiosta PowerEdge-järjestelmät voivat nyt tukea jopa 2933 MT/s muistinopeuksia tällä uuden sukupolven prosessorilla. Cascade Lake -prosessoreilla testaamamme testit osoittavat 7-12% suorituskyvyn paranemisen muistin kaistanleveydessä, 4-15% parannuksen HPL: ssä ja 7-12% parannuksen HPCG: ssä vertaillessamme CPU-malleissa. Cascade Laken testit 1-8 solmusta osoittavat hyvää skaalautuvuutta, kuten olemme nähneet Skylaken kanssa aiemmin.

Lisäksi Cascade Lake esittelee VNNI-ohjeita, jotka voivat nopeuttaa syväoppimisen päättelytyömäärää 2x-3x: llä, jota käsitellään tarkemmin tässä blogissa.

Tulevaa työtämme varten aiomme arvioida Cascade Laken suorituskykyetua erilaisissa HPC-sovelluksissa, kuten WRF, NAMD, GROMACS, CP2K ja LAMMPS

문서 속성


영향을 받는 제품

High Performance Computing Solution Resources

마지막 게시 날짜

18 5월 2021

버전

4

문서 유형

Solution