문서 번호: 000133009

Syntetiska prestandatester för HPC med 2:a generationens skalbara Intel Xeon-processorer – STREAM, HPL och HPCG

요약: Se information om HPC syntetisk benchmark-prestanda med den andra generationen Intel® Xeon® skalbara processorer – STREAM, HPL och HPCG

이 문서는 자동으로 번역되었을 수 있습니다. 번역 품질에 대한 의견이 있는 경우 페이지 하단의 양식을 사용해 알려 주시기 바랍니다.

문서 콘텐츠

증상

Artikel skriven av Savitha Pareek, Varun Bawa, & Ashish K Singh av HPC och AI Innovation Lab i juni 2019

2^nd generation Intel® Xeon® skalbara familje processorer (arkitektur kod -och- kaskad Lake) är Intels efterföljaren till Skylake och är redo för dess primära tid. HPC ingenjörs teamet på Dell EMC hade till gång till några tekniska test enheter och denna blogg presenterar resultaten av vår inledande benchmarking-studie.

Avsikten med den här bloggen är att illustrera och analysera prestanda som erhålls på de senaste Intel® Xeon® skalbara Family-processorer och jämföra prestandan med dess föregångare. Vi har valt data ström-, HPL-och HPCG-riktmärke för vår analys. Studien framhäver prestanda effekten för både enkla och flera noder. Dessa tester har utförts på Dell EMC PowerEdge C6420 (Single Node-studien) och PowerEdge R740 (Multi-Node studie) med rekommenderade BIOS-inställningar för HPC arbets belastningar. Kaskad på den lakee processorn har många förbättringar som Intel® djup inlärnings förstärkning (Intel dl Boost) med VNNI, högre minnes bandbredd och ökad vektorbaserad rörlig punkt prestanda och effektivitet.

원인

해결

Tabell 1: Information om testbed

Server	PowerEdge C6420 & PowerEdge R740
Processorer	Konfiguration av en nod		Konfiguration av flera noder
	Server-PowerEdge C6420 & PowerEdge R740		Server-PowerEdge R740
	Skylake – Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1 GHz] Intel Xeon® 8180 [28C @ 2.5 GHz]		Cascade Lake – Intel Xeon® 8268 [24C@2.90GHz]
	Cascade Lake – Intel Xeon® 6242 [16C @ 2,8 GHz] Intel Xeon® 6230 [20C@2.1 GHz] Intel Xeon® 8280 [28C @ 2,7 GHz]
Minne	Cascade Lake test-192GB-12 x 16 GB 2933 MT/s DDR4 Skylake test – 192GB-12 x 16 GB 2933 MT/s DDR4 (Active 2666 MT/s)
Operativsystem	Red Hat Enterprise Linux 7.6
Kernel-version	3.10.0-957.el7.x86_64
BIOS-alternativ	Turbo = aktive rad, logisk processor = inaktive rad, SubNumaCluster = Enabled, Virtualization Technology = disabled.
InfiniBand	Intel dubbelriktad-sökväg med IFS 10.9.2
Kompileringsfel	Intel Parallel Studio XE 2018 uppdatering 4
Program
Benchmarking	Domän	Version		Testkonfiguration
HPL	LINPACK med hög prestanda	Intel MKL – 2018 U4		Problem storlek – 90% av totalt minne
HPCG	Färgövertoning med hög prestanda – beräkning	Intel MKL – 2018 U4		Problem storlek – 336 x 336 x 336
DIREKTUPPSPELA	Minnes bandbredd	5.4		Triad

Testerna utfördes för att kvantifiera följande två fall:

Prestanda förbättring på en enskild nod från Skylake till kaskad på sjö hållningen
Prestanda förbättring med en nod eller multi-Node

Direktuppspela

För att erhålla den högsta minnes bandbredds prestandan på Intel Cascade Lake och Skylake har vi valt ledande riktmärke för data ström som är de facto-branschstandardiserade måtten i HPC-domänen för mätning av hållbar minnes bandbredd (i GB/s). TRIAD-värdet har använts för att jämföra minnes bandbredden.

SLN317735_en_US__1image (10401)

Figure1: STRÖM – Skylake vs. Lake

Den maximala minnes frekvensen som stöds för Skylake är 2666MT/s medan Cascade har stöd för 2933MT/s, vilket innebär 10% högre minnes frekvens med kaskad på Lake. Enligt bild 1 visar Kaskadarna Lake-processorerna 7 – 12% mer minnes bandbredd i förhållande till Skylake. Minnes bandbredden per kärna beror på processorns specifika SKU. Eftersom en del kaskad på sjö SKU: er har ytterligare kärnor i förhållande till Skylake, skiljer sig minnes bandbredden per kärna jämfört med den totala minnes bandbredds jämförelsen. Enligt bild 1 har både 8280 och 6242 en högre minnes bandbredd per kärna upp till 7% än deras respektive föregångare. 6230 visar dock 11% mindre minnes bandbredd per kärna i förhållande till 6130 på grund av 25% ökning av kärnorna för 6230. Minnes bandbredd per kärna kan vara en viktig faktor för program som är beroende av minnes bandbredd.

LINPACK -

Vi mätte processorernas beräknings möjligheter med hjälp av Intel LINPACK. Problem storleken (N) är 90% av system minnet medan block storleken (NB) är 384. Här täcker vi både prestanda och skalning med alla relaterade Lake-processorer.

Skylake vs Lake –

SLN317735_en_US__2image (13765)

Bild 2: LINPACK prestanda (Skylake vs Lake)

Enligt bild 2 visar LINPACK prestanda förbättring upp till 15% med sjö mans processorer. Jämförelsen baseras på PROCESSORns modell nummer, och jämför Skylake och deras framgångar med Intel Xeon® Scalable Family. Intel Xeon® 6230 med ytterligare 4 kärnor per sockel får en 15-procentig förstärkning i prestanda över 6130, medan både 8280 och 6242 med motsvarande antal som deras föregångare lägger till i prestanda förbättring på grund av ökning av PROCESSORns bas frekvens och högre minnes bandbredd.

Prestanda med flera noder- För studier av flera noder har vi använt ett 8-nods kluster med PowerEdge R740-servrar med Intel Xeon® 8268 och infångade resultat för 1, 2, 4 och 8 noder. Resten av system konfigurationen är tidigare i tabell 2.

SLN317735_en_US__3image (10402)

Bild 3: LINPACK prestanda med flera noder med 8268 @ 2,90 GHz

Som bild 3 visar LINPACK prestanda för en enda 8268-nod 3059 GFLOPS och 23946 GFLOPS för 8 noder vilket innebär 7.83 X Scaling från 1 nod till 8 noder. Effektiviteten för en enda nod är ~ 69%, och ~ 67% för 2, 4 och 8 noder. Effektiviteten sjunker från 1 nod till 2 noder. men skalbarheten är i huvudsak linjär efteråt.

HPCG benchmark

HPCG-Benchmarken baseras på den konjugatna i problemlösa ren, där före konditioneringen är en hierarki med tre nivåer (MG) med Gauss-Seidel.

HPCG-benchmark-konstruktionen konstruerar ett logiskt globalt, fysiskt distribuerat sparse-linjärt system med en 27-punkt-stencil vid varje rutnäts punkt i en 3D-domän så att ekvationen vid punkten (i, j, k) beror på dess värden och 26 omgivande Neighbours. Den globala domän som beräknas av Benchmark är (NRx * NX) X (NRy * New) X (NRz * NZ), där NX, New och NZ är mått för lokala under rutnät, tilldelat varje MPI-process och antalet MPI-rangordningar = (NRx X NRy X NRz).

För vår analys har vi delat upp test i 2 kategorier-

Skylake vs Lake – i detta avsnitt jämför vi Skylake med relaterade till alla HPCG-prestanda. Vi har använt rutnäts storleken på 336 ^ 3 , vilket förintar mer än 1/4^to total system minne. Antalet MPI-processer per nod och antalet trådar baserades på bästa resultat och användning av minnet.

SLN317735_en_US__4image (10403)

Bild 4: HPCG prestanda (Skylake vs Lake)

Enligt bild 4 rekommenderar vi en avsevärd HPCG prestanda förbättring med relaterade Lake-processorer över deras föregångare. Eftersom HPCG är mer minnes bundet program är prestanda förbättringen med relaterade Lake-processorer i linje med resultatet av STRÖMMENs benchmark där 6230 utför 10% bättre än 6130 och 6242 utför 12% bättre än 6142 och 8280 utför 7% bättre än 8180.

HPCG med multi-Node- för mätning av flera noder har vi valt den lokala dimensions rutnäts storleken på 336 ^ 3 och Best MPI process och OpenMP tråd kombination.

SLN317735_en_US__5image (10404)

Bild 5: HPCG prestanda med flera noder med överlappande Lake

Bild 5 visar prestanda för HPCG med Cascade Lake 8268 @ 2.9 GHz och skalning upp till 8 noder. HPCG Performance är 43GFLOPS för en nod och 84GFLOPS för två noder, vilket innebär 1.96 X prestanda förbättring med två noder. När vi går framåt med 4 och 8 noder förbättrar prestanda upp till 7,7 X.

Slutsats

Med tillgängligheten av Lake-processorer kan PowerEdge system nu stödja minnes hastigheter på upp till 2933 MT/s med denna nyare generations processor. Våra tester med relaterade Lake-processorer visar en 7-12% prestanda förbättring i minnes bandbredden, 4-15% förbättring i HPL och 7-12% förbättring i HPCG på de CPU-modeller vi jämförde. I kaskad på Lake-tester från 1 till 8 noder visas bra skalbarhet, eftersom vi har sett med Skylake tidigare.

Dessutom innehåller kaskad på sjö VNNI-instruktioner som kan snabba på djupgående arbets belastning för inlärningen med 2x-3x, som ytterligare diskuteras i den här bloggen.

För vårt framtida arbete planerar vi att utvärdera prestanda fördelarna av Cascade för olika HPC applikationer såsom WRF, NAMD, GROMACS, CP2K och LAMMPS

문서 속성

영향을 받는 제품

High Performance Computing Solution Resources

마지막 게시 날짜

18 5월 2021

버전

문서 유형

Solution

맨 위로 이동

환영

환영합니다.