문서 번호: 000133009

HPC-syntetisk ytelsesprøve med 2. generasjons Intel Xeon skalerbare prosessorer – STREAM, HPL og HPCG

요약: Se på informasjon om den HPC syntetiske benchmark-ytelse ved hjelp av 2 generasjon Intel® Xeon® skalerbare prosessorer – STREAM, HPL og HPCG

이 문서는 자동으로 번역되었을 수 있습니다. 번역 품질에 대한 의견이 있는 경우 페이지 하단의 양식을 사용해 알려 주시기 바랍니다.

문서 콘텐츠

증상

Artikkel som er skrevet av Savitha Pareek, varun Bawa, & Ashish K Singh av HPC og kunstig innovasjon Lab i 2019

2^nd -generering Intel® Xeon® skalerbare familie prosessorer (arkitekturen codenamed- Cascade Lake) er Intels forbruks tid for Skylake og er klart for det. Gruppen HPC konstruksjon på Dell EMC hadde tilgang til noen tekniske test enheter, og denne bloggen viser resultatene av vår opprinnelige ytelses studie.

Hensikten med denne bloggen er å illustrere og analysere ytelsen som er skaffet på de nyeste Intel® Xeon® skalerbare familie prosessorer og sammenligne ytelsen med forgjengeren. Vi har valgt strøm-, HPL-og HPCG-tester for vår analyse. Studien fremhever innvirkning av ytelsen for enkel og flere noder. Disse testene er utført Dell EMC PowerEdge C6420 (enkel node) og PowerEdge R740 (multi-node-studie) med anbefalte BIOS-innstillinger for HPC arbeids belastninger. Cascade Lake-prosessoren leveres med mange forbedringer , for eksempel Intel® dyp lærings forsterkning (Intel DL-forsterkning) med VNNI, høyere minne bånd bredde, og økt vektor for flyt punkt ytelse og effektivitet.

원인

해결

Tabell 1: Informasjon om testbed

Server	PowerEdge C6420 & PowerEdge R740
Prosessorer	Konfigurasjon av én node		Konfigurasjon av flere noder
	Server-PowerEdge C6420 & PowerEdge R740		Server-PowerEdge R740
	Skylake – Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180 [28C @ 2,5 GHz]		Overlapp Lake – Intel Xeon® 8268 [24C@2.90GHz]
	Overlapp Lake – Intel Xeon® 6242 [16C @ 2,8 GHz] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @ 2.7 GHz]
Minne	Overlapp Lake test-192GB-12 x 16 GB 2933 MT/s DDR4 Skylake test-192GB-12 x 16 GB 2933 MT/s DDR4 (aktiv 2666 MT/s)
Operativsystem	Red Hat Enterprise Linux 7.6
Kjerneversjon	3.10.0-957.el7.x86_64
BIOS-alternativer	Turbo = aktivert, logisk prosessor = deaktiverte, SubNumaCluster = Enabled, virtualization Technology = Disabled (deaktivert).
InfiniBand	Intel Omni-bane med IFS 10.9.2
Kompilator	Intel Parallel Studio XE 2018 oppdatering 4
Programmer
Verdier	Domene	Versjon		Testkonfigurasjon
HPL	LINPACK-behandling med høy ytelse	Intel MKL – 2018 U4		Problem størrelse – 90% av totalt minne
HPCG	Kompleks gradering med høy ytelse – data behandling	Intel MKL – 2018 U4		Problem størrelse – 336 x 336 x 336
STRØMME	Minne bånd bredde	5,4		Triad

Testene ble utført for å quantify følgende to saker:

Ytelses forbedring på én enkelt node fra Skylake til gjennom gripende Lake
Ytelses forbedring med enkelt node vs. flere noder

Strømme

For å få tak i topp båndets minne ytelse på Intel Cascade Lake og Skylake, har vi valgt dataflyt for strøm , som er den faktiske industri standard-benchmarken i HPC-domenet for målingen av bærekraftige minne bånd bredde (i GB/s). TRIAD-verdien er brukt til å sammenligne minne bånd bredde.

SLN317735_en_US__1image (10401)

Figure1: DATAFLYT – Skylake kontra Cascade Lake

Den støttede maksimale minne frekvensen for Skylake er 2666MT/s mens det gjennom gripende støtte over Lake støtter 2933MT/s, som betyr 10% høyere minne frekvens med det gjennom gripende Lake. I henhold til figur 1, viser de gjennom Lake-prosessorene 7 – 12% mer minne bånd bredde i forhold til Skylake. Minne bånd bredde per kjerne er avhengig av den spesifikke prosessor SKU. Ettersom noen gjennom gripende SKU-er har flere kjerner i forhold til Skylake, er Sammenligningene per kjerne minne bånd bredde forskjellig fra den totale sammenligningen av minne bånd bredde. I henhold til figur 1, har både 8280 og 6242 høyere minne bånd bredde per kjerne opptil 7% enn deres respektive forgjengere. 6230 viser imidlertid 11% mindre minne bånd bredde per kjerne i forhold til 6130, på grunn av de 25% økningen i kjerner for 6230. Minne bånd bredde per kjerne kan være en viktig faktor for programmer som er sensitiv bånd bredde.

LINPACK -

Vi har målt behandlings kapasiteten i prosessorer ved hjelp av Intel LINPACK. Problem størrelsen (N) er 90% av system minnet mens blokk størrelsen (NB) er 384. Her dekker du både ytelse og skalering med gjennom gripende Lake-prosessorer.

Skylake i forhold til gjennom gripende Lake -

SLN317735_en_US__2image (13765)

Figur 2: LINPACK-ytelse (Skylake sammenlignet med Cascade, Lake)

I henhold til figur 2 viser LINPACK ytelses forbedringer opptil 15% med gjennom gripende prosessorene på Cascade. Denne sammenligningen er basert på CPU-ens modell nummer, sammenligning av Skylake og deres utganger for Intel Xeon® skalerbar serie. Intel Xeon® 6230 med 4 flere kjerner per sokkel får en 15% økning i ytelsen over 6130, mens både 8280 og 6242 med like kjerne tellere legges i ytelses forbedringene som følge av at de øker i prosessorens CPU-frekvens og høyere minne bånd bredde.

Ytelse med flere noder – For å få flere noder har vi brukt en 8-noders klynge på PowerEdge R740-servere med Intel Xeon® 8268 og registrerte resultater for 1, 2, 4 og 8 noder. Resten av system konfigurasjonen er ovennevnte i tabell 2.

SLN317735_en_US__3image (10402)

Figur 3: LINPACK-ytelse med flere noder med 8268 @ 2.90 GHz

Som figur 3 viser, LINPACK ytelse for én enkelt 8268-node er 3059 GFLOPS og 23946 GFLOPS for 8 noder som betyr 7.83 X-skalering fra 1 node til 8 noder. Effektivitet for en enkelt node er ~ 69%, mens ~ 67% for 2, 4 og 8 noder. Effektiviteten faller fra 1 node til 2 noder. Imidlertid er skalerbar heten for det mest lineære etterpå.

HPCG-benchmark

HPCG-benchmark er basert på den konjugerte graderings problem løseren, der forhånds betingelsen er en tredelt, hierarkisk (MG) metode med Gauss-Seidel.

HPCG-benchmark konstruerer en logisk global, fysisk distribuert sparsommelig lineær system ved hjelp av en "27-punkts sjablong på hvert av rute nett punktene i et 3D-domene, slik at ligningen på poenget (i, j, k) avhenger av de tilhørende verdiene og den 26 omkring liggende Neighbours. Det globale domenet beregnet av ytelses test er (NRx * NX) X (NRy * ny) X (NRz * NZ), der NX, ny og NZ er mål for lokale del nett linjer, som er tilordnet hver MPI-prosess og antall MPI-graderinger er nr. = (NRx X NRy X NRz).

For vår analyse har vi delt tester inn i 2 kategorier-

Skylake i forhold til gjennom gripende Lake - i denne delen sammenligner vi Skylake med gjennom gripende ved hjelp av HPCG-ytelse. Vi har brukt rute nett størrelsen på 336 ^ 3 som opptar mer enn 1/4^te av det totale system minnet. Antall MPI-prosesser per node og antall tråder var basert på best mulig resultat og bruk av minne.

SLN317735_en_US__4image (10403)

Figur 4: HPCG-ytelse (Skylake sammenlignet med Cascade, Lake)

I henhold til figur 4, har vi en betydelig HPCG ytelses forbedring med gjennom gripende prosessorer over hele forgjengerne. Fordi HPCG er mer minne bundet applikasjon, vil ytelses forbedringen med gjennom gripende prosessorer på linje med resultatet av strøm-benchmark, der 6230 utfører 10% bedre enn 6130.6242 utfører 12% bedre enn 6142 og 8280 utfører 7% bedre enn 8180.

HPCG med multi-node – for ytelses tester for flere noder har vi valgt den lokale størrelsen på dimensjons rute nettet på 336 ^ 3 og beste MPI-prosess og OpenMP-tråd kombinasjon.

SLN317735_en_US__5image (10404)

Figur 5: HPCG-ytelse med flere noder med gjennom gripende Lake

Figuren 5 viser ytelsen til HPCG med gjennom gripende Lake 8268 @ 2,9 GHz og skalering opptil 8 noder. HPCG-ytelsen er 43GFLOPS for enkel node og 84GFLOPS for to noder, noe som betyr 1.96 X ytelses forbedring med to noder. Etter hvert som vi flytter frem med 4 og 8 noder, forbedrer ytelsen opp til 7,7 X.

Konklusjon

Med tilgjengelighet av gjennom gripende Lake-prosessorer, har PowerEdge-systemer nå støtte for minne hastigheter på opptil 2933 MT/s med denne nyere generasjons prosessor. Våre tester med gjennom gripende Lake-prosessorer viser en 7-12% ytelses forbedring i minne bånd bredde, 4-15% forbedring i HPL og 7-12% forbedringer i HPCG på CPU-modellene vi har sammenlignet med. Overlapp Lake-tester fra 1 til 8 noder viser god skalerbar het, som vi har sett med Skylake i fortiden.

I tillegg introduserer Cascade Lake VNNI-instruksjoner som kan øke inferencee arbeids belastningene raskere ved hjelp av to ganger, som er beskrevet i denne bloggen.

For vårt fremtidige arbeid planlegger vi for å evaluere den ytelses fordelen ved gjennom gripende Lake på forskjellige HPC applikasjoner som WRF, NAMD, GROMACS, CP2K og LAMMPS

문서 속성

영향을 받는 제품

High Performance Computing Solution Resources

마지막 게시 날짜

18 5월 2021

버전

문서 유형

Solution

맨 위로 이동

환영

환영합니다.