Synteettinen HPC:n suorituskykytestaus käyttäen 2. sukupolven skaalautuvia Intel Xeon -suorittimia – STREAM, HPL ja HPCG

요약: Katso tietoja HPC:n synteettisestä vertailuarvosta käyttämällä toisen sukupolven Intel® Xeon® Skaalautuvia suorittimia – STREAM, HPL ja HPCG

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

증상

Artikkeli, jonka ovat kirjoittaneet Savitha Pareek, Varun Bawa, & Ashish K Singh HPC: stä ja AI Innovation Labista kesäkuussa 2019

2^nd Generation Intel® Xeon® Scalable Family Processors (arkkitehtuurikoodinimelty – Cascade Lake) on Intelin Seuraaja Skylakelle ja valmis parhaaseen aikaansa. Dell EMC:n HPC-suunnittelutiimillä oli pääsy muutamiin teknisiin testiyksiköihin, ja tämä blogi esittelee alustavan vertailututkimuksemme tulokset.

Tämän blogin tarkoituksena on havainnollistaa ja analysoida suorituskykyä, joka on saatu uusimmissa Intel® Xeon® Scalable -perheprosessorissa, ja verrata suorituskykyä edeltäjäänsä. Olemme valinneet analyysiimme STREAM-, HPL- ja HPCG-vertailuarvot. Tutkimuksessa tuodaan esiin sekä yhden että usean solmun suorituskykyvaikutus. Nämä testit on tehty Dell EMC PowerEdge C6420 :lle (yhden solmun tutkimus) ja PowerEdge R740:lle (moni solmututkimus), joissa on suositellut BIOS-asetukset HPC-työkuormille. Cascade Lake -prosessorissa onmonia parannuksia, kuten Intel® Deep Learning Boost (Intel DL Boost), jossa on VNNI, suurempi muistikaistanleveys ja lisääntynyt vektorin liukulukujen suorituskyky ja tehokkuus.

원인

해결

Taulukko 1: Testbed-tiedot

Palvelin	PowerEdge C6420 & PowerEdge R740
Suorittimet	Yhden solmun kokoonpano		Usean solmun määritys
	Palvelin - PowerEdge C6420 & PowerEdge R740		Palvelin- PowerEdge R740
	Skylake – 2000-2 Intel Xeon® 6142[16C@2.6GHz] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180[28C @2.5GHz]		Kaskadijärvi – Intel Xeon® 8268[24C@2,90 GHz]
	Kaskadijärvi – Intel Xeon® 6242[16C @2.8GHz] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @2.7GHz]
Muisti	Kaskadijärven testi -192 Gt -12 x 16 Gt 2933 MT/s DDR4 Skylake testi - 192GB-12 x 16GB 2933 MT/s DDR4 (Aktiivinen 2666 MT/s)
Käyttöjärjestelmä	Red Hat Enterprise Linux 7.6
Kernel-versio	3.10.0-957.el7.x86_64
BIOS Options	Turbo=Käytössä, Looginen suoritin=Ei käytössä, SubNumaCluster=Käytössä, Virtualisointitekniikka=Poistettu käytöstä.
InfiniBand-kaista	Intel Omni -polku JA IFS 10.9.2
kääntäjä	Intel Parallel Studio XE 2018 -päivitys 4
Sovellukset
kiintopiste	Domain	Versio		Testikokoonpano
HPL	Korkean suorituskyvyn LINPACK- Laskennallinen	Intel MKL Graphics 2018 U4		Ongelman koko – 90 % muistin kokonaismäärästä
HPCG-valmiste	Korkean suorituskyvyn konjugaattigradientti – Laskennallinen	Intel MKL Graphics 2018 U4		Ongelman koko – 336 x 336 x 336
virta	Muistin kaistanleveys	5.4		kolmikko

Testit tehtiin seuraavien kahden tapauksen kvantifioimiseksi:

Suorituskyvyn parantaminen yhdellä solmulla Skylakesta Cascade Lakeen
Suorituskyvyn parantaminen yhdellä solmulla vs. moni solmu

STREAM -

Saadaksemme muistin kaistanleveyden huipputehon Intel Cascade Lakessa ja Skylakessa, olemme valinneet STREAM-vertailuarvon, joka on tosiasiallisesti alan standardivertailuarvo HPC-verkkotunnuksella kestävän muistin kaistanleveyden mittaamiseksi (GB / s). TRIAD-arvoa on käytetty muistin kaistanleveyden vertailuun.

SLN317735_en_US__1image(10401)

Kuva 1: STREAM – Skylake vs Cascade Lake

Skylaken tuettu enimmäismuistitaajuus on 2666MT/s, kun taas Cascade Lake tukee 2933MT/s, mikä tarkoittaa 10% suurempaa muistitaajuutta Cascade Laken kanssa. Kuten kuvassa 1, Cascade Lake -prosessorit osoittavat 7 – 12% enemmän muistin kaistanleveyttä verrattuna Skylakeen. Muistin kaistanleveys ydintä kohti riippuu tietystä suorittimen SKU:sta. Koska joillakin Cascade Lake SKU:illa on skylakeen verrattuna lisäytimä, ydinmuistin kaistanleveysvertailut eroavat muistin kaistanleveyden kokonaisvertailusta. Kuvassa 1 sekä 8280:n että 6242:n muistikaistanleveys ydintä kohti on jopa 7 prosenttia edeltäjiään suurempi. Kuitenkin 6230 osoittaa 11% vähemmän muistin kaistanleveyttä ydintä kohti verrattuna 6130: een, koska ytimet ovat 25% nousussa 6230: llä. Muistin kaistanleveys ydintä kohti voi olla tärkeä tekijä sovelluksissa, jotka ovat muistin kaistanleveysherkkiä.

LINPACK -

Mittasimme prosessorien laskennallinen suorituskyky Intel LINPACK:n avulla. Ongelman koko (N) on 90% järjestelmämuistista, kun taas lohkon koko (HUOM) on 384. Tässä peitämme sekä suorituskyvyn että skaalautuksen Cascade Lake -prosessoreilla.

Skylake vs Cascade Lake –

SLN317735_en_US__2image(13765)

Kuva 2: LINPACK-suorituskyky (Skylake vs Cascade Lake)

Kuten kuvassa 2, LINPACK osoittaa suorituskyvyn parantuneen jopa 15% Cascade Lake -prosessoreilla. Tämä vertailu perustuu prosessorimallin numeroon, jossa verrataan Skylakea ja heidän Seuraajiaan Intel Xeon® Scalable -perheeseen. Intel Xeon® 6230, jossa on 4 ydintä lisää hylsyä kohti, saa 15% suorituskyvyn kasvun 6130: n aikana, kun taas sekä 8280 että 6242, joilla on samanlainen ydinmäärä kuin edeltäjillään, lisäävät suorituskyvyn paranemista, koska sen suorittimen perustaajuus ja suurempi muistin kaistanleveys kasvavat.

Usean solmun suorituskyky -Multi-node-tutkimuksessa olemme käyttäneet 8-solmuklusteria PowerEdge R740 -palvelimia Intel Xeon® 8268: n kanssa ja tallentaneet tulokset 1, 2, 4 ja 8 solmulle. Loput järjestelmän kokoonpanosta on mainittu edellä taulukossa 2.

SLN317735_en_US__3image(10402)

Kuva 3: Usean solmun LINPACK suorituskyky 8268 @2.90GHz

Kuten kuvasta 3 käy ilmi, yhden 8268-solmun LINPACK-suorituskyky on 3059 GFLOPS ja 23946 GFLOPS 8 solmun osalta, mikä tarkoittaa 7,83X skaalausta yhdestä solmusta kahdeksaan solmuon. Yksittäisen solmun hyötysuhde on ~69 %, kun taas ~67 % 2-, 4- ja 8-solmuissa. Tehokkuus laskee 1 solmusta 2 solmuon; Skaalautuvuus on kuitenkin jälkeenpäin enimmäkseen lineaarista.

HPCG-vertailuarvo

HPCG-vertailuarvo perustuu konjugaattigradienttiliuotinta, jossa esivakioituslaite on kolmitasoinen hierarkkinen moniruudukkomenetelmä (MG) Gauss-Seidelin kanssa.

HPCG-vertailuarvo muodostaa loogisesti maailmanlaajuisen, fyysisesti hajautetun harvaan jakautuneen lineaarisen järjestelmän käyttäen 27-pisteistä kaavainta 3D-verkkotunnuksen jokaisessa ruudukkopisteessä siten, että pisteen yhtälö (i, j, k) riippuu sen arvoista ja 26 ympäröivästä naapurista. Vertailuarvon mukaan laskettava yleinen toimialue on (NRx * Nx) X (NRy*Ny) X (NRz*Nz), jossa Nx, Ny ja Nz ovat paikallisten aliruudukoiden mittoja, jotka on määritetty kullekin MPI-prosessille ja MPI-rivien määrä on NR = (NRx X NRy X NRz).

Analyysiä varten olemme jakaneet testit kahteen luokkaan

Skylake vs Cascade Lake – Tässä osassa vertaamme Skylakea Cascade Lakeen käyttämällä HPCG-suorituskykyä. Olemme hyödyntäneet ruudukon kokoa 336^3, joka vie yli 1/4 kokonaisjärjestelmämuistista. MPI-prosessien määrä solmua kohden ja säikeiden määrä perustuivat parhaisiin tuloksiin ja muistin hyödyntämiseen.

SLN317735_en_US__4image(10403)

Kuva 4: HPCG-suorituskyky (Skylake vs Cascade Lake)

Kaavion 4 mukaisesti havaitsemme merkittävän HPCG-suorituskyvyn paranemisen Cascade Lake -prosessoreilla edeltäjiinsä verrattuna. Koska HPCG on enemmän muistiin sidottu sovellus, suorituskyvyn parantaminen Cascade Lake -prosessoreilla on linjassa STREAM-vertailuarvon tuloksen kanssa, jossa 6230 toimii 10% paremmin kuin 6130, 6242 toimii 12% paremmin kuin 6142 ja 8280 suorittaa 7% paremmin kuin 8180.

HPCG multi-nodella – Multi-node-vertailuanalyysiin olemme valinneet paikallisen ulottuvuusruudukon koon 336^3 ja parhaan MPI-prosessin ja OpenMP Thread -yhdistelmän.

SLN317735_en_US__5image(10404)

Kuva 5: Moni solmuinen HPCG-suorituskyky Cascade Laken kanssa

Kuvassa 5 esitetään HPCG:n suorituskyky Cascade Lake 8268 @2.9GHz:n kanssa ja skaalautumassa jopa 8 solmuon. HPCG:n suorituskyky on 43GFLOPS yhdelle solmulle ja 84GFLOPS kahdelle solmulle, mikä tarkoittaa 1,96X suorituskyvyn paranemista kahdella solmulla. Kun etenemme 4- ja 8-solmuilla, suorituskyky paranee jopa 7,7X: iin.

Johtopäätös

Cascade Lake -suorittimien saatavuuden ansiosta PowerEdge-järjestelmät voivat nyt tukea jopa 2933 MT/s muistinopeuksia tällä uuden sukupolven prosessorilla. Cascade Lake -prosessoreilla testaamamme testit osoittavat 7-12% suorituskyvyn paranemisen muistin kaistanleveydessä, 4-15% parannuksen HPL: ssä ja 7-12% parannuksen HPCG: ssä vertaillessamme CPU-malleissa. Cascade Laken testit 1-8 solmusta osoittavat hyvää skaalautuvuutta, kuten olemme nähneet Skylaken kanssa aiemmin.

Lisäksi Cascade Lake esittelee VNNI-ohjeita, jotka voivat nopeuttaa syväoppimisen päättelytyömäärää 2x-3x: llä, jota käsitellään tarkemmin tässä blogissa.

Tulevaa työtämme varten aiomme arvioida Cascade Laken suorituskykyetua erilaisissa HPC-sovelluksissa, kuten WRF, NAMD, GROMACS, CP2K ja LAMMPS

해당 제품

High Performance Computing Solution Resources

문서 번호: 000133009

문서 유형: Solution

마지막 수정 시간: 18 5월 2021

버전: 4

디바이스에 지원 서비스가 적용되는지 확인하십시오.

Synteettinen HPC:n suorituskykytestaus käyttäen 2. sukupolven skaalautuvia Intel Xeon -suorittimia – STREAM, HPL ja HPCG

요약: Katso tietoja HPC:n synteettisestä vertailuarvosta käyttämällä toisen sukupolven Intel® Xeon® Skaalautuvia suorittimia – STREAM, HPL ja HPCG

증상

원인

해결

해당 제품

문서 속성

다른 Dell 사용자에게 질문에 대한 답변 찾기

지원 서비스

문서 속성

다른 Dell 사용자에게 질문에 대한 답변 찾기

지원 서비스

환영

환영합니다.

Synteettinen HPC:n suorituskykytestaus käyttäen 2. sukupolven skaalautuvia Intel Xeon -suorittimia – STREAM, HPL ja HPCG

요약: Katso tietoja HPC:n synteettisestä vertailuarvosta käyttämällä toisen sukupolven Intel® Xeon® Skaalautuvia suorittimia – STREAM, HPL ja HPCG

상세한 문서

증상

원인

해결

해당 제품

증상

원인

해결

해당 제품

문서 속성

다른 Dell 사용자에게 질문에 대한 답변 찾기

지원 서비스

문서 속성

다른 Dell 사용자에게 질문에 대한 답변 찾기

지원 서비스