Artikel geschreven door savitha Pareek, Varun Bawa, & Ashish K Singh van HPC en AI-innovatie Lab in juni 2019
2ND Generation Intel® Xeon® schaalbare familie processors (architectuur met code-de code " Cascade Lake) is de opvolger van Intel aan Skylake en is klaar voor de bijbehorende periode. Het HPC engineering team op Dell EMC heeft toegang tot een paar engineering test units en deze blog bevat de resultaten van onze initiële benchmarking-studie.
De bedoeling van deze blog is om de prestaties te illustreren en te analyseren die zijn verkregen op de nieuwste Intel® Xeon® schaalbare familie processors en de prestaties te vergelijken met zijn voorganger. We hebben stroom-, HPL-en HPCG-benchmarks gekozen voor onze analyse. De studie markeert de prestatie-effecten voor enkel en meerdere knooppunten. Deze tests zijn uitgevoerd op Dell EMC PowerEdge C6420 (een enkele knooppunt studie) en PowerEdge R740 (multi-node Study) met de Aanbevolen BIOS-instellingen voor HPC werklasten. De Cascade Lake-processor wordt geleverd met vele verbeteringen , zoals Intel® diep Learning Boost (Intel DL Boost) met VNNI, hogere geheugenbandbreedte en verbeterde vector drijvende werking en efficiëntie.
Tabel 1: Informatie over testbed
Server |
PowerEdge C6420 & PowerEdge R740 |
|||
Processoren |
Configuratie met één knooppunt |
Configuratie met meerdere knooppunten |
||
Server-PowerEdge C6420 & PowerEdge R740 |
Server-PowerEdge R740 |
|||
Skylake- Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1 GHz] Intel Xeon® 8180 [28C @ 2,5 GHz] |
Cascade Lake – Intel Xeon® 8268 [24C@2.90GHz] |
|||
Cascade Lake – Intel Xeon® 6242 [16C @ 2,8 GHz] Intel Xeon® 6230 [20C@2.1 GHz] Intel Xeon® 8280 [28C @ 2,7 GHz] |
||||
Geheugen |
Cascade Lake test-192GB-12 x 16 GB 2933 MT/s DDR4 Skylake test – 192GB-12 x 16 GB 2933 MT/s DDR4 (Active 2666 MT/s) |
|||
Besturingssysteem |
Red Hat Enterprise Linux 7.6 |
|||
Kernel-versie |
3.10.0-957.el7.x86_64 |
|||
Opties voor BIOS |
Turbo = ingeschakeld, logische processor = uitgeschakeld, SubNumaCluster = ingeschakeld, Virtualization Technology = uitgeschakeld. |
|||
InfiniBand |
Intel omnidirectionele pad met IFS 10.9.2 |
|||
Programma |
Intel parallel Studio XE 2018-update 4 |
|||
Applicaties |
||||
Ijkpunt |
Domein |
Versie |
Testconfiguratie |
|
HPL |
High Performance LINPACK-rekenkundige |
Intel MKL Graphics 2018 U4 |
Omvang van het probleem-90% van het totale geheugen |
|
HPCG |
Hoge prestaties geconjugeerde kleurovergang-rekenkracht |
Intel MKL Graphics 2018 U4 |
Omvang van het probleem – 336 x 336 x 336 |
|
VERZ |
Geheugenbandbreedte |
5.4 |
Triad |
|
Tests werden uitgevoerd om de volgende twee gevallen te kwantificeren:
Verz
Om de piek prestaties van de geheugenbandbreedte op Intel Cascade Lake en Skylake te verkrijgen, hebben we de Stream -benchmark gekozen die de facto Standard-standaard benchmark in HPC domein is voor de meting van de bandbreedte van het duurzame geheugen (in GB/s). TRIAD-waarde is gebruikt om de geheugenbandbreedte te vergelijken.
Figure1: STROOM-Skylake VS Cascade Lake
De ondersteunde maximale geheugen frequentie voor Skylake is 2666MT/s terwijl het trapsgewijze Lake 2933MT/s ondersteunt, wat betekent dat de frequentie 10% hoger is met Cascade Lake. Net als per afbeelding 1 geeft trapsgewijs Lake processoren 7-12% meer geheugenbandbreedte weer ten opzichte van Skylake. De geheugenbandbreedte per kern is afhankelijk van de specifieke processor SKU. Omdat sommige trapsgewijze Lake Sku's extra kernen hebben ten opzichte van Skylake, zijn de vergelijkingen per kerngeheugen bandbreedte verschillend van de totale vergelijking van de geheugenbandbreedte. Net als per afbeelding 1 heeft zowel 8280 en 6242 een hogere geheugenbandbreedte per core tot 7% dan hun respectieve voorafgaande taken. 6230 vertoont echter 11% minder geheugenbandbreedte per kern in verhouding tot 6130 vanwege de 25% stijging van cores voor 6230. Geheugenbandbreedte per core kan een belangrijke factor zijn voor toepassingen die gevoelig zijn voor geheugenbandbreedte.
LINPACK -
We hebben de reken mogelijkheden van processors gemeten met behulp van Intel LINPACK. De grootte van het probleem (N) is 90% van het systeemgeheugen terwijl de blokgrootte (NB) 384. Hier hebben we betrekking op prestaties en schaling met trapsgewijze Lake-processors.
Skylake VS Cascade Lake –
Afbeelding 2: LINPACK-prestaties (Skylake versus Cascade Lake)
Zoals per afbeelding 2 toont LINPACK de prestatieverbetering tot 15% met trapsgewijze Lake-processors. Deze vergelijking is gebaseerd op het CPU-modelnummer, met een vergelijking Skylake en de opvolgende taken van de Intel Xeon® schaalbare serie. Intel Xeon® 6230 met 4 meer cores per socket verkrijgt 15% hogere prestaties dan 6130 en zowel 8280 als 6242 met gelijksoortige core-telling aangezien hun voorafgaande taken de prestatieverbetering optellen omdat de CPU-basis frequentie en de hogere geheugenbandbreedte toenemen.
Prestaties van meerdere knooppunten -Voor de multi-node-studie hebben we een 8-knoop cluster van PowerEdge R740-servers gebruikt met Intel Xeon® 8268 en zijn de resultaten vastgelegd voor knooppunten van 1, 2, 4 en 8. De rest van de systeemconfiguratie is eerder in tabel 2.
Afbeelding 3: Multi-node LINPACK-prestaties met 8268 @ 2,90 GHz
Zoals afbeelding 3 laat zien, is de LINPACK-prestaties voor een enkel 8268-knooppunt 3059 GFLOPS en 23946 GFLOPS voor 8 knooppunten, wat betekent 7.83 X-schaling van 1 knooppunt tot 8 knooppunten. Efficiëntie voor één knooppunt is ~ 69%, terwijl ~ 67% voor 2, 4 en 8 knooppunten. Efficiëntie zakt van 1 knooppunt tot 2 knooppunten; de schaalbaarheid is echter meestal lineair.
HPCG-benchmark
De HPCG-benchmark is gebaseerd op geconjugeerde-verlichtings solver, waarbij de preconditionr een hiërarchische, "MG) methode van drie niveaus is met Gauss-Seidel.
De HPCG-benchmark functie bouwt een logisch globaal, fysiek gedistribueerd verspreid lineair systeem met behulp van een 27-punt stencil op elk rasterpunt in een 3D-domein, zodat de vergelijking aan het punt (i, j, k) afhankelijk is van de waarden en 26 omliggende Neighbours. Het globale domein dat wordt berekend door benchmark (NRx * NX) X (NRy * NY) X (NRz * NZ), waarbij NX, NY en NZ de afmetingen zijn van lokale subrasters, toegewezen aan elk MPI-proces en het aantal MPI Ranks is # = (NRx X NRy X NRz).
Voor onze analyse hebben we gesplitste tests in twee categorieën:
Skylake VS Cascade Lake – in deze sectie worden Skylake met trapsgewijze Lake vergeleken met behulp van de HPCG-prestaties. We hebben de rastergrootte van 336 ^ 3 gebruikt, die meer dan 1/4th van het totale systeemgeheugen inneemt. Het aantal MPI-processen per knooppunt en het aantal threads is gebaseerd op de beste resultaten en het gebruik van het geheugen.
Afbeelding 4: HPCG-prestaties (Skylake versus Cascade Lake)
Net als per afbeelding 4 bemerkt de aanzienlijke verbetering van de prestaties van de HPCG met trapsgewijze Lake-processors over hun voorafgaande taken. Aangezien HPCG een meer geheugen bindings toepassing is, is de prestatieverbetering met trapsgewijze Lake processoren in overeenstemming met het resultaat van een gegevensstroom-benchmark waarbij 6230 10% beter uitvoert dan 6130.6242 voert 12% beter uit dan 6142 en 8280 voert 7% beter uit dan 8180.
HPCG met meerdere knooppunten – voor benchmarking van meerdere knooppunten hebt u de lokale dimensie grid-grootte van 336 ^ 3 en de beste mpi process-en OpenMP-thread-combinatie gekozen.
Afbeelding 5: HPCG-prestaties met meerdere knooppunten met trapsgewijze Lake
Afbeelding 5 toont de prestaties van HPCG met trapsgewijs Lake 8268 @ 2,9 GHz en schaling tot maximaal 8 knooppunten. HPCG-prestaties zijn 43GFLOPS voor één knooppunt en 84GFLOPS voor twee knooppunten, wat betekent dat de prestaties van 1.96 X met twee knooppunten worden verbeterd. Naarmate we verdergaan met 4 en 8 knooppunten, zal de prestaties tot 7,7 X toenemen.
Conclusie
Met de beschikbaarheid van trapsgewijze Lake-processors kunnen PowerEdge systemen nu de geheugen snelheden van maximaal 2933 MT/s met deze nieuwere generatie processor ondersteunen. Onze tests met Cascade Lake processors tonen een 7-12% betere prestaties in geheugenbandbreedte, 4-15% verbetering in HPL en 7-12% verbetering in HPCG op de CPU-modellen die we vergelijken. Trapsgewijze Lake-tests van 1 tot 8 knooppunten tonen een goede schaalbaarheid, zoals we in het verleden hebben gezien Skylake.
Bovendien introduceert het Cascade Lake VNNI-instructies die diepere onderleer werkings taken kunnen versnellen door 2x-3x, verder besproken in deze blog.
Voor onze toekomstige werkzaamheden zullen we het prestatie voordeel van Cascade Lake evalueren op verschillende HPC applicaties zoals WRF, NAMD, GROMACS, CP2K en LAMMPS