Artikkel som er skrevet av Savitha Pareek, varun Bawa, & Ashish K Singh av HPC og kunstig innovasjon Lab i 2019
2nd -generering Intel® Xeon® skalerbare familie prosessorer (arkitekturen codenamed- Cascade Lake) er Intels forbruks tid for Skylake og er klart for det. Gruppen HPC konstruksjon på Dell EMC hadde tilgang til noen tekniske test enheter, og denne bloggen viser resultatene av vår opprinnelige ytelses studie.
Hensikten med denne bloggen er å illustrere og analysere ytelsen som er skaffet på de nyeste Intel® Xeon® skalerbare familie prosessorer og sammenligne ytelsen med forgjengeren. Vi har valgt strøm-, HPL-og HPCG-tester for vår analyse. Studien fremhever innvirkning av ytelsen for enkel og flere noder. Disse testene er utført Dell EMC PowerEdge C6420 (enkel node) og PowerEdge R740 (multi-node-studie) med anbefalte BIOS-innstillinger for HPC arbeids belastninger. Cascade Lake-prosessoren leveres med mange forbedringer , for eksempel Intel® dyp lærings forsterkning (Intel DL-forsterkning) med VNNI, høyere minne bånd bredde, og økt vektor for flyt punkt ytelse og effektivitet.
Tabell 1: Informasjon om testbed
Server |
PowerEdge C6420 & PowerEdge R740 |
|||
Prosessorer |
Konfigurasjon av én node |
Konfigurasjon av flere noder |
||
Server-PowerEdge C6420 & PowerEdge R740 |
Server-PowerEdge R740 |
|||
Skylake – Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180 [28C @ 2,5 GHz] |
Overlapp Lake – Intel Xeon® 8268 [24C@2.90GHz] |
|||
Overlapp Lake – Intel Xeon® 6242 [16C @ 2,8 GHz] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @ 2.7 GHz] |
||||
Minne |
Overlapp Lake test-192GB-12 x 16 GB 2933 MT/s DDR4 Skylake test-192GB-12 x 16 GB 2933 MT/s DDR4 (aktiv 2666 MT/s) |
|||
Operativsystem |
Red Hat Enterprise Linux 7.6 |
|||
Kjerneversjon |
3.10.0-957.el7.x86_64 |
|||
BIOS-alternativer |
Turbo = aktivert, logisk prosessor = deaktiverte, SubNumaCluster = Enabled, virtualization Technology = Disabled (deaktivert). |
|||
InfiniBand |
Intel Omni-bane med IFS 10.9.2 |
|||
Kompilator |
Intel Parallel Studio XE 2018 oppdatering 4 |
|||
Programmer |
||||
Verdier |
Domene |
Versjon |
Testkonfigurasjon |
|
HPL |
LINPACK-behandling med høy ytelse |
Intel MKL – 2018 U4 |
Problem størrelse – 90% av totalt minne |
|
HPCG |
Kompleks gradering med høy ytelse – data behandling |
Intel MKL – 2018 U4 |
Problem størrelse – 336 x 336 x 336 |
|
STRØMME |
Minne bånd bredde |
5,4 |
Triad |
|
Testene ble utført for å quantify følgende to saker:
Strømme
For å få tak i topp båndets minne ytelse på Intel Cascade Lake og Skylake, har vi valgt dataflyt for strøm , som er den faktiske industri standard-benchmarken i HPC-domenet for målingen av bærekraftige minne bånd bredde (i GB/s). TRIAD-verdien er brukt til å sammenligne minne bånd bredde.
Figure1: DATAFLYT – Skylake kontra Cascade Lake
Den støttede maksimale minne frekvensen for Skylake er 2666MT/s mens det gjennom gripende støtte over Lake støtter 2933MT/s, som betyr 10% høyere minne frekvens med det gjennom gripende Lake. I henhold til figur 1, viser de gjennom Lake-prosessorene 7 – 12% mer minne bånd bredde i forhold til Skylake. Minne bånd bredde per kjerne er avhengig av den spesifikke prosessor SKU. Ettersom noen gjennom gripende SKU-er har flere kjerner i forhold til Skylake, er Sammenligningene per kjerne minne bånd bredde forskjellig fra den totale sammenligningen av minne bånd bredde. I henhold til figur 1, har både 8280 og 6242 høyere minne bånd bredde per kjerne opptil 7% enn deres respektive forgjengere. 6230 viser imidlertid 11% mindre minne bånd bredde per kjerne i forhold til 6130, på grunn av de 25% økningen i kjerner for 6230. Minne bånd bredde per kjerne kan være en viktig faktor for programmer som er sensitiv bånd bredde.
LINPACK -
Vi har målt behandlings kapasiteten i prosessorer ved hjelp av Intel LINPACK. Problem størrelsen (N) er 90% av system minnet mens blokk størrelsen (NB) er 384. Her dekker du både ytelse og skalering med gjennom gripende Lake-prosessorer.
Skylake i forhold til gjennom gripende Lake -
Figur 2: LINPACK-ytelse (Skylake sammenlignet med Cascade, Lake)
I henhold til figur 2 viser LINPACK ytelses forbedringer opptil 15% med gjennom gripende prosessorene på Cascade. Denne sammenligningen er basert på CPU-ens modell nummer, sammenligning av Skylake og deres utganger for Intel Xeon® skalerbar serie. Intel Xeon® 6230 med 4 flere kjerner per sokkel får en 15% økning i ytelsen over 6130, mens både 8280 og 6242 med like kjerne tellere legges i ytelses forbedringene som følge av at de øker i prosessorens CPU-frekvens og høyere minne bånd bredde.
Ytelse med flere noder – For å få flere noder har vi brukt en 8-noders klynge på PowerEdge R740-servere med Intel Xeon® 8268 og registrerte resultater for 1, 2, 4 og 8 noder. Resten av system konfigurasjonen er ovennevnte i tabell 2.
Figur 3: LINPACK-ytelse med flere noder med 8268 @ 2.90 GHz
Som figur 3 viser, LINPACK ytelse for én enkelt 8268-node er 3059 GFLOPS og 23946 GFLOPS for 8 noder som betyr 7.83 X-skalering fra 1 node til 8 noder. Effektivitet for en enkelt node er ~ 69%, mens ~ 67% for 2, 4 og 8 noder. Effektiviteten faller fra 1 node til 2 noder. Imidlertid er skalerbar heten for det mest lineære etterpå.
HPCG-benchmark
HPCG-benchmark er basert på den konjugerte graderings problem løseren, der forhånds betingelsen er en tredelt, hierarkisk (MG) metode med Gauss-Seidel.
HPCG-benchmark konstruerer en logisk global, fysisk distribuert sparsommelig lineær system ved hjelp av en "27-punkts sjablong på hvert av rute nett punktene i et 3D-domene, slik at ligningen på poenget (i, j, k) avhenger av de tilhørende verdiene og den 26 omkring liggende Neighbours. Det globale domenet beregnet av ytelses test er (NRx * NX) X (NRy * ny) X (NRz * NZ), der NX, ny og NZ er mål for lokale del nett linjer, som er tilordnet hver MPI-prosess og antall MPI-graderinger er nr. = (NRx X NRy X NRz).
For vår analyse har vi delt tester inn i 2 kategorier-
Skylake i forhold til gjennom gripende Lake - i denne delen sammenligner vi Skylake med gjennom gripende ved hjelp av HPCG-ytelse. Vi har brukt rute nett størrelsen på 336 ^ 3 som opptar mer enn 1/4te av det totale system minnet. Antall MPI-prosesser per node og antall tråder var basert på best mulig resultat og bruk av minne.
Figur 4: HPCG-ytelse (Skylake sammenlignet med Cascade, Lake)
I henhold til figur 4, har vi en betydelig HPCG ytelses forbedring med gjennom gripende prosessorer over hele forgjengerne. Fordi HPCG er mer minne bundet applikasjon, vil ytelses forbedringen med gjennom gripende prosessorer på linje med resultatet av strøm-benchmark, der 6230 utfører 10% bedre enn 6130.6242 utfører 12% bedre enn 6142 og 8280 utfører 7% bedre enn 8180.
HPCG med multi-node – for ytelses tester for flere noder har vi valgt den lokale størrelsen på dimensjons rute nettet på 336 ^ 3 og beste MPI-prosess og OpenMP-tråd kombinasjon.
Figur 5: HPCG-ytelse med flere noder med gjennom gripende Lake
Figuren 5 viser ytelsen til HPCG med gjennom gripende Lake 8268 @ 2,9 GHz og skalering opptil 8 noder. HPCG-ytelsen er 43GFLOPS for enkel node og 84GFLOPS for to noder, noe som betyr 1.96 X ytelses forbedring med to noder. Etter hvert som vi flytter frem med 4 og 8 noder, forbedrer ytelsen opp til 7,7 X.
Konklusjon
Med tilgjengelighet av gjennom gripende Lake-prosessorer, har PowerEdge-systemer nå støtte for minne hastigheter på opptil 2933 MT/s med denne nyere generasjons prosessor. Våre tester med gjennom gripende Lake-prosessorer viser en 7-12% ytelses forbedring i minne bånd bredde, 4-15% forbedring i HPL og 7-12% forbedringer i HPCG på CPU-modellene vi har sammenlignet med. Overlapp Lake-tester fra 1 til 8 noder viser god skalerbar het, som vi har sett med Skylake i fortiden.
I tillegg introduserer Cascade Lake VNNI-instruksjoner som kan øke inferencee arbeids belastningene raskere ved hjelp av to ganger, som er beskrevet i denne bloggen.
For vårt fremtidige arbeid planlegger vi for å evaluere den ytelses fordelen ved gjennom gripende Lake på forskjellige HPC applikasjoner som WRF, NAMD, GROMACS, CP2K og LAMMPS