Přeskočit na hlavní obsah

Synthetische HPC-benchmarkprestaties met behulp van 2e generatie Intel Xeon schaalbare processors – STREAM, HPL en HPCG (in het Engels)

Shrnutí: Raadpleeg de informatie over de HPC synthetische benchmark prestaties met behulp van de tweede generatie Intel® Xeon® schaalbare processors – STREAM, HPL en HPCG

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

Artikel geschreven door savitha Pareek, Varun Bawa, & Ashish K Singh van HPC en AI-innovatie Lab in juni 2019

2ND Generation Intel® Xeon® schaalbare familie processors (architectuur met code-de code " Cascade Lake) is de opvolger van Intel aan Skylake en is klaar voor de bijbehorende periode. Het HPC engineering team op Dell EMC heeft toegang tot een paar engineering test units en deze blog bevat de resultaten van onze initiële benchmarking-studie.

De bedoeling van deze blog is om de prestaties te illustreren en te analyseren die zijn verkregen op de nieuwste Intel® Xeon® schaalbare familie processors en de prestaties te vergelijken met zijn voorganger. We hebben stroom-, HPL-en HPCG-benchmarks gekozen voor onze analyse. De studie markeert de prestatie-effecten voor enkel en meerdere knooppunten. Deze tests zijn uitgevoerd op Dell EMC PowerEdge C6420 (een enkele knooppunt studie) en PowerEdge R740 (multi-node Study) met de Aanbevolen BIOS-instellingen voor HPC werklasten. De Cascade Lake-processor wordt geleverd met vele verbeteringen , zoals Intel® diep Learning Boost (Intel DL Boost) met VNNI, hogere geheugenbandbreedte en verbeterde vector drijvende werking en efficiëntie.

Příčina

 

Řešení

Tabel 1: Informatie over testbed

Server

 PowerEdge C6420 & PowerEdge R740

Processoren

Configuratie met één knooppunt

Configuratie met meerdere knooppunten

Server-PowerEdge C6420 & PowerEdge R740

Server-PowerEdge R740

Skylake-

Intel Xeon® 6142 [16C@2.6GHz]

Intel Xeon® 6130 [16C@2.1 GHz]

Intel Xeon® 8180 [28C @ 2,5 GHz]

Cascade Lake –

Intel Xeon® 8268 [24C@2.90GHz]

Cascade Lake –

Intel Xeon® 6242 [16C @ 2,8 GHz]

Intel Xeon® 6230 [20C@2.1 GHz]

Intel Xeon® 8280 [28C @ 2,7 GHz]

Geheugen

Cascade Lake test-192GB-12 x 16 GB 2933 MT/s DDR4

Skylake test – 192GB-12 x 16 GB 2933 MT/s DDR4 (Active 2666 MT/s)

Besturingssysteem

Red Hat Enterprise Linux 7.6

Kernel-versie

3.10.0-957.el7.x86_64

Opties voor BIOS

Turbo = ingeschakeld, logische processor = uitgeschakeld, SubNumaCluster = ingeschakeld, Virtualization Technology = uitgeschakeld.

InfiniBand

Intel omnidirectionele pad met IFS 10.9.2

Programma

Intel parallel Studio XE 2018-update 4

Applicaties

Ijkpunt

Domein

Versie

Testconfiguratie

HPL

High Performance LINPACK-rekenkundige

Intel MKL Graphics 2018 U4

Omvang van het probleem-90% van het totale geheugen

HPCG

Hoge prestaties geconjugeerde kleurovergang-rekenkracht 

Intel MKL Graphics 2018 U4

Omvang van het probleem – 336 x 336 x 336

VERZ

Geheugenbandbreedte

5.4

Triad

         

Tests werden uitgevoerd om de volgende twee gevallen te kwantificeren:

  • Prestatieverbetering op één knooppunt van Skylake tot trapsgewijze Lake
  • Prestatieverbetering met één knooppunt versus meerdere knooppunten

Verz

Om de piek prestaties van de geheugenbandbreedte op Intel Cascade Lake en Skylake te verkrijgen, hebben we de Stream -benchmark gekozen die de facto Standard-standaard benchmark in HPC domein is voor de meting van de bandbreedte van het duurzame geheugen (in GB/s). TRIAD-waarde is gebruikt om de geheugenbandbreedte te vergelijken.

SLN317735_en_US__1image (10401)

Figure1: STROOM-Skylake VS Cascade Lake

De ondersteunde maximale geheugen frequentie voor Skylake is 2666MT/s terwijl het trapsgewijze Lake 2933MT/s ondersteunt, wat betekent dat de frequentie 10% hoger is met Cascade Lake. Net als per afbeelding 1 geeft trapsgewijs Lake processoren 7-12% meer geheugenbandbreedte weer ten opzichte van Skylake. De geheugenbandbreedte per kern is afhankelijk van de specifieke processor SKU. Omdat sommige trapsgewijze Lake Sku's extra kernen hebben ten opzichte van Skylake, zijn de vergelijkingen per kerngeheugen bandbreedte verschillend van de totale vergelijking van de geheugenbandbreedte. Net als per afbeelding 1 heeft zowel 8280 en 6242 een hogere geheugenbandbreedte per core tot 7% dan hun respectieve voorafgaande taken. 6230 vertoont echter 11% minder geheugenbandbreedte per kern in verhouding tot 6130 vanwege de 25% stijging van cores voor 6230. Geheugenbandbreedte per core kan een belangrijke factor zijn voor toepassingen die gevoelig zijn voor geheugenbandbreedte.

LINPACK -

We hebben de reken mogelijkheden van processors gemeten met behulp van Intel LINPACK. De grootte van het probleem (N) is 90% van het systeemgeheugen terwijl de blokgrootte (NB) 384. Hier hebben we betrekking op prestaties en schaling met trapsgewijze Lake-processors.

Skylake VS Cascade Lake 

SLN317735_en_US__2image (13765)

Afbeelding 2: LINPACK-prestaties (Skylake versus Cascade Lake)

Zoals per afbeelding 2 toont LINPACK de prestatieverbetering tot 15% met trapsgewijze Lake-processors. Deze vergelijking is gebaseerd op het CPU-modelnummer, met een vergelijking Skylake en de opvolgende taken van de Intel Xeon® schaalbare serie. Intel Xeon® 6230 met 4 meer cores per socket verkrijgt 15% hogere prestaties dan 6130 en zowel 8280 als 6242 met gelijksoortige core-telling aangezien hun voorafgaande taken de prestatieverbetering optellen omdat de CPU-basis frequentie en de hogere geheugenbandbreedte toenemen.

Prestaties van meerdere knooppunten -Voor de multi-node-studie hebben we een 8-knoop cluster van PowerEdge R740-servers gebruikt met Intel Xeon® 8268 en zijn de resultaten vastgelegd voor knooppunten van 1, 2, 4 en 8. De rest van de systeemconfiguratie is eerder in tabel 2.

SLN317735_en_US__3image (10402)

                                                Afbeelding 3: Multi-node LINPACK-prestaties met 8268 @ 2,90 GHz

Zoals afbeelding 3 laat zien, is de LINPACK-prestaties voor een enkel 8268-knooppunt 3059 GFLOPS en 23946 GFLOPS voor 8 knooppunten, wat betekent 7.83 X-schaling van 1 knooppunt tot 8 knooppunten. Efficiëntie voor één knooppunt is ~ 69%, terwijl ~ 67% voor 2, 4 en 8 knooppunten. Efficiëntie zakt van 1 knooppunt tot 2 knooppunten; de schaalbaarheid is echter meestal lineair.               

HPCG-benchmark

De HPCG-benchmark is gebaseerd op geconjugeerde-verlichtings solver, waarbij de preconditionr een hiërarchische, "MG) methode van drie niveaus is met Gauss-Seidel.

De HPCG-benchmark functie bouwt een logisch globaal, fysiek gedistribueerd verspreid lineair systeem met behulp van een 27-punt stencil op elk rasterpunt in een 3D-domein, zodat de vergelijking aan het punt (i, j, k) afhankelijk is van de waarden en 26 omliggende Neighbours. Het globale domein dat wordt berekend door benchmark (NRx * NX) X (NRy * NY) X (NRz * NZ), waarbij NX, NY en NZ de afmetingen zijn van lokale subrasters, toegewezen aan elk MPI-proces en het aantal MPI Ranks is # = (NRx X NRy X NRz).

Voor onze analyse hebben we gesplitste tests in twee categorieën:

Skylake VS Cascade Lakein deze sectie worden Skylake met trapsgewijze Lake vergeleken met behulp van de HPCG-prestaties. We hebben de rastergrootte van 336 ^ 3 gebruikt, die meer dan 1/4th van het totale systeemgeheugen inneemt. Het aantal MPI-processen per knooppunt en het aantal threads is gebaseerd op de beste resultaten en het gebruik van het geheugen.

SLN317735_en_US__4image (10403)  

Afbeelding 4: HPCG-prestaties (Skylake versus Cascade Lake)

Net als per afbeelding 4 bemerkt de aanzienlijke verbetering van de prestaties van de HPCG met trapsgewijze Lake-processors over hun voorafgaande taken. Aangezien HPCG een meer geheugen bindings toepassing is, is de prestatieverbetering met trapsgewijze Lake processoren in overeenstemming met het resultaat van een gegevensstroom-benchmark waarbij 6230 10% beter uitvoert dan 6130.6242 voert 12% beter uit dan 6142 en 8280 voert 7% beter uit dan 8180.   

HPCG met meerdere knooppunten – voor benchmarking van meerdere knooppunten hebt u de lokale dimensie grid-grootte van 336 ^ 3 en de beste mpi process-en OpenMP-thread-combinatie gekozen.

SLN317735_en_US__5image (10404)

Afbeelding 5: HPCG-prestaties met meerdere knooppunten met trapsgewijze Lake

Afbeelding 5 toont de prestaties van HPCG met trapsgewijs Lake 8268 @ 2,9 GHz en schaling tot maximaal 8 knooppunten. HPCG-prestaties zijn 43GFLOPS voor één knooppunt en 84GFLOPS voor twee knooppunten, wat betekent dat de prestaties van 1.96 X met twee knooppunten worden verbeterd. Naarmate we verdergaan met 4 en 8 knooppunten, zal de prestaties tot 7,7 X toenemen.          

Conclusie

Met de beschikbaarheid van trapsgewijze Lake-processors kunnen PowerEdge systemen nu de geheugen snelheden van maximaal 2933 MT/s met deze nieuwere generatie processor ondersteunen. Onze tests met Cascade Lake processors tonen een 7-12% betere prestaties in geheugenbandbreedte, 4-15% verbetering in HPL en 7-12% verbetering in HPCG op de CPU-modellen die we vergelijken. Trapsgewijze Lake-tests van 1 tot 8 knooppunten tonen een goede schaalbaarheid, zoals we in het verleden hebben gezien Skylake.

Bovendien introduceert het Cascade Lake VNNI-instructies die diepere onderleer werkings taken kunnen versnellen door 2x-3x, verder besproken in deze blog.

Voor onze toekomstige werkzaamheden zullen we het prestatie voordeel van Cascade Lake evalueren op verschillende HPC applicaties zoals WRF, NAMD, GROMACS, CP2K en LAMMPS

Dotčené produkty

High Performance Computing Solution Resources
Vlastnosti článku
Číslo článku: 000133009
Typ článku: Solution
Poslední úprava: 18 kvě 2021
Verze:  4
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.