Artikel skriven av Savitha Pareek, Varun Bawa, & Ashish K Singh av HPC och AI Innovation Lab i juni 2019
2nd generation Intel® Xeon® skalbara familje processorer (arkitektur kod -och- kaskad Lake) är Intels efterföljaren till Skylake och är redo för dess primära tid. HPC ingenjörs teamet på Dell EMC hade till gång till några tekniska test enheter och denna blogg presenterar resultaten av vår inledande benchmarking-studie.
Avsikten med den här bloggen är att illustrera och analysera prestanda som erhålls på de senaste Intel® Xeon® skalbara Family-processorer och jämföra prestandan med dess föregångare. Vi har valt data ström-, HPL-och HPCG-riktmärke för vår analys. Studien framhäver prestanda effekten för både enkla och flera noder. Dessa tester har utförts på Dell EMC PowerEdge C6420 (Single Node-studien) och PowerEdge R740 (Multi-Node studie) med rekommenderade BIOS-inställningar för HPC arbets belastningar. Kaskad på den lakee processorn har många förbättringar som Intel® djup inlärnings förstärkning (Intel dl Boost) med VNNI, högre minnes bandbredd och ökad vektorbaserad rörlig punkt prestanda och effektivitet.
Tabell 1: Information om testbed
Server |
PowerEdge C6420 & PowerEdge R740 |
|||
Processorer |
Konfiguration av en nod |
Konfiguration av flera noder |
||
Server-PowerEdge C6420 & PowerEdge R740 |
Server-PowerEdge R740 |
|||
Skylake – Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1 GHz] Intel Xeon® 8180 [28C @ 2.5 GHz] |
Cascade Lake – Intel Xeon® 8268 [24C@2.90GHz] |
|||
Cascade Lake – Intel Xeon® 6242 [16C @ 2,8 GHz] Intel Xeon® 6230 [20C@2.1 GHz] Intel Xeon® 8280 [28C @ 2,7 GHz] |
||||
Minne |
Cascade Lake test-192GB-12 x 16 GB 2933 MT/s DDR4 Skylake test – 192GB-12 x 16 GB 2933 MT/s DDR4 (Active 2666 MT/s) |
|||
Operativsystem |
Red Hat Enterprise Linux 7.6 |
|||
Kernel-version |
3.10.0-957.el7.x86_64 |
|||
BIOS-alternativ |
Turbo = aktive rad, logisk processor = inaktive rad, SubNumaCluster = Enabled, Virtualization Technology = disabled. |
|||
InfiniBand |
Intel dubbelriktad-sökväg med IFS 10.9.2 |
|||
Kompileringsfel |
Intel Parallel Studio XE 2018 uppdatering 4 |
|||
Program |
||||
Benchmarking |
Domän |
Version |
Testkonfiguration |
|
HPL |
LINPACK med hög prestanda |
Intel MKL – 2018 U4 |
Problem storlek – 90% av totalt minne |
|
HPCG |
Färgövertoning med hög prestanda – beräkning |
Intel MKL – 2018 U4 |
Problem storlek – 336 x 336 x 336 |
|
DIREKTUPPSPELA |
Minnes bandbredd |
5.4 |
Triad |
|
Testerna utfördes för att kvantifiera följande två fall:
Direktuppspela
För att erhålla den högsta minnes bandbredds prestandan på Intel Cascade Lake och Skylake har vi valt ledande riktmärke för data ström som är de facto-branschstandardiserade måtten i HPC-domänen för mätning av hållbar minnes bandbredd (i GB/s). TRIAD-värdet har använts för att jämföra minnes bandbredden.
Figure1: STRÖM – Skylake vs. Lake
Den maximala minnes frekvensen som stöds för Skylake är 2666MT/s medan Cascade har stöd för 2933MT/s, vilket innebär 10% högre minnes frekvens med kaskad på Lake. Enligt bild 1 visar Kaskadarna Lake-processorerna 7 – 12% mer minnes bandbredd i förhållande till Skylake. Minnes bandbredden per kärna beror på processorns specifika SKU. Eftersom en del kaskad på sjö SKU: er har ytterligare kärnor i förhållande till Skylake, skiljer sig minnes bandbredden per kärna jämfört med den totala minnes bandbredds jämförelsen. Enligt bild 1 har både 8280 och 6242 en högre minnes bandbredd per kärna upp till 7% än deras respektive föregångare. 6230 visar dock 11% mindre minnes bandbredd per kärna i förhållande till 6130 på grund av 25% ökning av kärnorna för 6230. Minnes bandbredd per kärna kan vara en viktig faktor för program som är beroende av minnes bandbredd.
LINPACK -
Vi mätte processorernas beräknings möjligheter med hjälp av Intel LINPACK. Problem storleken (N) är 90% av system minnet medan block storleken (NB) är 384. Här täcker vi både prestanda och skalning med alla relaterade Lake-processorer.
Skylake vs Lake –
Bild 2: LINPACK prestanda (Skylake vs Lake)
Enligt bild 2 visar LINPACK prestanda förbättring upp till 15% med sjö mans processorer. Jämförelsen baseras på PROCESSORns modell nummer, och jämför Skylake och deras framgångar med Intel Xeon® Scalable Family. Intel Xeon® 6230 med ytterligare 4 kärnor per sockel får en 15-procentig förstärkning i prestanda över 6130, medan både 8280 och 6242 med motsvarande antal som deras föregångare lägger till i prestanda förbättring på grund av ökning av PROCESSORns bas frekvens och högre minnes bandbredd.
Prestanda med flera noder- För studier av flera noder har vi använt ett 8-nods kluster med PowerEdge R740-servrar med Intel Xeon® 8268 och infångade resultat för 1, 2, 4 och 8 noder. Resten av system konfigurationen är tidigare i tabell 2.
Bild 3: LINPACK prestanda med flera noder med 8268 @ 2,90 GHz
Som bild 3 visar LINPACK prestanda för en enda 8268-nod 3059 GFLOPS och 23946 GFLOPS för 8 noder vilket innebär 7.83 X Scaling från 1 nod till 8 noder. Effektiviteten för en enda nod är ~ 69%, och ~ 67% för 2, 4 och 8 noder. Effektiviteten sjunker från 1 nod till 2 noder. men skalbarheten är i huvudsak linjär efteråt.
HPCG benchmark
HPCG-Benchmarken baseras på den konjugatna i problemlösa ren, där före konditioneringen är en hierarki med tre nivåer (MG) med Gauss-Seidel.
HPCG-benchmark-konstruktionen konstruerar ett logiskt globalt, fysiskt distribuerat sparse-linjärt system med en 27-punkt-stencil vid varje rutnäts punkt i en 3D-domän så att ekvationen vid punkten (i, j, k) beror på dess värden och 26 omgivande Neighbours. Den globala domän som beräknas av Benchmark är (NRx * NX) X (NRy * New) X (NRz * NZ), där NX, New och NZ är mått för lokala under rutnät, tilldelat varje MPI-process och antalet MPI-rangordningar = (NRx X NRy X NRz).
För vår analys har vi delat upp test i 2 kategorier-
Skylake vs Lake – i detta avsnitt jämför vi Skylake med relaterade till alla HPCG-prestanda. Vi har använt rutnäts storleken på 336 ^ 3 , vilket förintar mer än 1/4to total system minne. Antalet MPI-processer per nod och antalet trådar baserades på bästa resultat och användning av minnet.
Bild 4: HPCG prestanda (Skylake vs Lake)
Enligt bild 4 rekommenderar vi en avsevärd HPCG prestanda förbättring med relaterade Lake-processorer över deras föregångare. Eftersom HPCG är mer minnes bundet program är prestanda förbättringen med relaterade Lake-processorer i linje med resultatet av STRÖMMENs benchmark där 6230 utför 10% bättre än 6130 och 6242 utför 12% bättre än 6142 och 8280 utför 7% bättre än 8180.
HPCG med multi-Node- för mätning av flera noder har vi valt den lokala dimensions rutnäts storleken på 336 ^ 3 och Best MPI process och OpenMP tråd kombination.
Bild 5: HPCG prestanda med flera noder med överlappande Lake
Bild 5 visar prestanda för HPCG med Cascade Lake 8268 @ 2.9 GHz och skalning upp till 8 noder. HPCG Performance är 43GFLOPS för en nod och 84GFLOPS för två noder, vilket innebär 1.96 X prestanda förbättring med två noder. När vi går framåt med 4 och 8 noder förbättrar prestanda upp till 7,7 X.
Slutsats
Med tillgängligheten av Lake-processorer kan PowerEdge system nu stödja minnes hastigheter på upp till 2933 MT/s med denna nyare generations processor. Våra tester med relaterade Lake-processorer visar en 7-12% prestanda förbättring i minnes bandbredden, 4-15% förbättring i HPL och 7-12% förbättring i HPCG på de CPU-modeller vi jämförde. I kaskad på Lake-tester från 1 till 8 noder visas bra skalbarhet, eftersom vi har sett med Skylake tidigare.
Dessutom innehåller kaskad på sjö VNNI-instruktioner som kan snabba på djupgående arbets belastning för inlärningen med 2x-3x, som ytterligare diskuteras i den här bloggen.
För vårt framtida arbete planerar vi att utvärdera prestanda fördelarna av Cascade för olika HPC applikationer såsom WRF, NAMD, GROMACS, CP2K och LAMMPS