문서 번호: 000133009

Synthetische HPC-benchmarkprestaties met behulp van 2e generatie Intel Xeon schaalbare processors – STREAM, HPL en HPCG (in het Engels)

요약: Raadpleeg de informatie over de HPC synthetische benchmark prestaties met behulp van de tweede generatie Intel® Xeon® schaalbare processors – STREAM, HPL en HPCG

이 문서는 자동으로 번역되었을 수 있습니다. 번역 품질에 대한 의견이 있는 경우 페이지 하단의 양식을 사용해 알려 주시기 바랍니다.

문서 콘텐츠

증상

Artikel geschreven door savitha Pareek, Varun Bawa, & Ashish K Singh van HPC en AI-innovatie Lab in juni 2019

2^ND Generation Intel® Xeon® schaalbare familie processors (architectuur met code-de code " Cascade Lake) is de opvolger van Intel aan Skylake en is klaar voor de bijbehorende periode. Het HPC engineering team op Dell EMC heeft toegang tot een paar engineering test units en deze blog bevat de resultaten van onze initiële benchmarking-studie.

De bedoeling van deze blog is om de prestaties te illustreren en te analyseren die zijn verkregen op de nieuwste Intel® Xeon® schaalbare familie processors en de prestaties te vergelijken met zijn voorganger. We hebben stroom-, HPL-en HPCG-benchmarks gekozen voor onze analyse. De studie markeert de prestatie-effecten voor enkel en meerdere knooppunten. Deze tests zijn uitgevoerd op Dell EMC PowerEdge C6420 (een enkele knooppunt studie) en PowerEdge R740 (multi-node Study) met de Aanbevolen BIOS-instellingen voor HPC werklasten. De Cascade Lake-processor wordt geleverd met vele verbeteringen , zoals Intel® diep Learning Boost (Intel DL Boost) met VNNI, hogere geheugenbandbreedte en verbeterde vector drijvende werking en efficiëntie.

원인

해결

Tabel 1: Informatie over testbed

Server	PowerEdge C6420 & PowerEdge R740
Processoren	Configuratie met één knooppunt		Configuratie met meerdere knooppunten
	Server-PowerEdge C6420 & PowerEdge R740		Server-PowerEdge R740
	Skylake- Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1 GHz] Intel Xeon® 8180 [28C @ 2,5 GHz]		Cascade Lake – Intel Xeon® 8268 [24C@2.90GHz]
	Cascade Lake – Intel Xeon® 6242 [16C @ 2,8 GHz] Intel Xeon® 6230 [20C@2.1 GHz] Intel Xeon® 8280 [28C @ 2,7 GHz]
Geheugen	Cascade Lake test-192GB-12 x 16 GB 2933 MT/s DDR4 Skylake test – 192GB-12 x 16 GB 2933 MT/s DDR4 (Active 2666 MT/s)
Besturingssysteem	Red Hat Enterprise Linux 7.6
Kernel-versie	3.10.0-957.el7.x86_64
Opties voor BIOS	Turbo = ingeschakeld, logische processor = uitgeschakeld, SubNumaCluster = ingeschakeld, Virtualization Technology = uitgeschakeld.
InfiniBand	Intel omnidirectionele pad met IFS 10.9.2
Programma	Intel parallel Studio XE 2018-update 4
Applicaties
Ijkpunt	Domein	Versie		Testconfiguratie
HPL	High Performance LINPACK-rekenkundige	Intel MKL Graphics 2018 U4		Omvang van het probleem-90% van het totale geheugen
HPCG	Hoge prestaties geconjugeerde kleurovergang-rekenkracht	Intel MKL Graphics 2018 U4		Omvang van het probleem – 336 x 336 x 336
VERZ	Geheugenbandbreedte	5.4		Triad

Tests werden uitgevoerd om de volgende twee gevallen te kwantificeren:

Prestatieverbetering op één knooppunt van Skylake tot trapsgewijze Lake
Prestatieverbetering met één knooppunt versus meerdere knooppunten

Verz

Om de piek prestaties van de geheugenbandbreedte op Intel Cascade Lake en Skylake te verkrijgen, hebben we de Stream -benchmark gekozen die de facto Standard-standaard benchmark in HPC domein is voor de meting van de bandbreedte van het duurzame geheugen (in GB/s). TRIAD-waarde is gebruikt om de geheugenbandbreedte te vergelijken.

SLN317735_en_US__1image (10401)

Figure1: STROOM-Skylake VS Cascade Lake

De ondersteunde maximale geheugen frequentie voor Skylake is 2666MT/s terwijl het trapsgewijze Lake 2933MT/s ondersteunt, wat betekent dat de frequentie 10% hoger is met Cascade Lake. Net als per afbeelding 1 geeft trapsgewijs Lake processoren 7-12% meer geheugenbandbreedte weer ten opzichte van Skylake. De geheugenbandbreedte per kern is afhankelijk van de specifieke processor SKU. Omdat sommige trapsgewijze Lake Sku's extra kernen hebben ten opzichte van Skylake, zijn de vergelijkingen per kerngeheugen bandbreedte verschillend van de totale vergelijking van de geheugenbandbreedte. Net als per afbeelding 1 heeft zowel 8280 en 6242 een hogere geheugenbandbreedte per core tot 7% dan hun respectieve voorafgaande taken. 6230 vertoont echter 11% minder geheugenbandbreedte per kern in verhouding tot 6130 vanwege de 25% stijging van cores voor 6230. Geheugenbandbreedte per core kan een belangrijke factor zijn voor toepassingen die gevoelig zijn voor geheugenbandbreedte.

LINPACK -

We hebben de reken mogelijkheden van processors gemeten met behulp van Intel LINPACK. De grootte van het probleem (N) is 90% van het systeemgeheugen terwijl de blokgrootte (NB) 384. Hier hebben we betrekking op prestaties en schaling met trapsgewijze Lake-processors.

Skylake VS Cascade Lake –

SLN317735_en_US__2image (13765)

Afbeelding 2: LINPACK-prestaties (Skylake versus Cascade Lake)

Zoals per afbeelding 2 toont LINPACK de prestatieverbetering tot 15% met trapsgewijze Lake-processors. Deze vergelijking is gebaseerd op het CPU-modelnummer, met een vergelijking Skylake en de opvolgende taken van de Intel Xeon® schaalbare serie. Intel Xeon® 6230 met 4 meer cores per socket verkrijgt 15% hogere prestaties dan 6130 en zowel 8280 als 6242 met gelijksoortige core-telling aangezien hun voorafgaande taken de prestatieverbetering optellen omdat de CPU-basis frequentie en de hogere geheugenbandbreedte toenemen.

Prestaties van meerdere knooppunten -Voor de multi-node-studie hebben we een 8-knoop cluster van PowerEdge R740-servers gebruikt met Intel Xeon® 8268 en zijn de resultaten vastgelegd voor knooppunten van 1, 2, 4 en 8. De rest van de systeemconfiguratie is eerder in tabel 2.

SLN317735_en_US__3image (10402)

Afbeelding 3: Multi-node LINPACK-prestaties met 8268 @ 2,90 GHz

Zoals afbeelding 3 laat zien, is de LINPACK-prestaties voor een enkel 8268-knooppunt 3059 GFLOPS en 23946 GFLOPS voor 8 knooppunten, wat betekent 7.83 X-schaling van 1 knooppunt tot 8 knooppunten. Efficiëntie voor één knooppunt is ~ 69%, terwijl ~ 67% voor 2, 4 en 8 knooppunten. Efficiëntie zakt van 1 knooppunt tot 2 knooppunten; de schaalbaarheid is echter meestal lineair.

HPCG-benchmark

De HPCG-benchmark is gebaseerd op geconjugeerde-verlichtings solver, waarbij de preconditionr een hiërarchische, "MG) methode van drie niveaus is met Gauss-Seidel.

De HPCG-benchmark functie bouwt een logisch globaal, fysiek gedistribueerd verspreid lineair systeem met behulp van een 27-punt stencil op elk rasterpunt in een 3D-domein, zodat de vergelijking aan het punt (i, j, k) afhankelijk is van de waarden en 26 omliggende Neighbours. Het globale domein dat wordt berekend door benchmark (NRx * NX) X (NRy * NY) X (NRz * NZ), waarbij NX, NY en NZ de afmetingen zijn van lokale subrasters, toegewezen aan elk MPI-proces en het aantal MPI Ranks is # = (NRx X NRy X NRz).

Voor onze analyse hebben we gesplitste tests in twee categorieën:

Skylake VS Cascade Lake – in deze sectie worden Skylake met trapsgewijze Lake vergeleken met behulp van de HPCG-prestaties. We hebben de rastergrootte van 336 ^ 3 gebruikt, die meer dan 1/4^th van het totale systeemgeheugen inneemt. Het aantal MPI-processen per knooppunt en het aantal threads is gebaseerd op de beste resultaten en het gebruik van het geheugen.

SLN317735_en_US__4image (10403)

Afbeelding 4: HPCG-prestaties (Skylake versus Cascade Lake)

Net als per afbeelding 4 bemerkt de aanzienlijke verbetering van de prestaties van de HPCG met trapsgewijze Lake-processors over hun voorafgaande taken. Aangezien HPCG een meer geheugen bindings toepassing is, is de prestatieverbetering met trapsgewijze Lake processoren in overeenstemming met het resultaat van een gegevensstroom-benchmark waarbij 6230 10% beter uitvoert dan 6130.6242 voert 12% beter uit dan 6142 en 8280 voert 7% beter uit dan 8180.

HPCG met meerdere knooppunten – voor benchmarking van meerdere knooppunten hebt u de lokale dimensie grid-grootte van 336 ^ 3 en de beste mpi process-en OpenMP-thread-combinatie gekozen.

SLN317735_en_US__5image (10404)

Afbeelding 5: HPCG-prestaties met meerdere knooppunten met trapsgewijze Lake

Afbeelding 5 toont de prestaties van HPCG met trapsgewijs Lake 8268 @ 2,9 GHz en schaling tot maximaal 8 knooppunten. HPCG-prestaties zijn 43GFLOPS voor één knooppunt en 84GFLOPS voor twee knooppunten, wat betekent dat de prestaties van 1.96 X met twee knooppunten worden verbeterd. Naarmate we verdergaan met 4 en 8 knooppunten, zal de prestaties tot 7,7 X toenemen.

Conclusie

Met de beschikbaarheid van trapsgewijze Lake-processors kunnen PowerEdge systemen nu de geheugen snelheden van maximaal 2933 MT/s met deze nieuwere generatie processor ondersteunen. Onze tests met Cascade Lake processors tonen een 7-12% betere prestaties in geheugenbandbreedte, 4-15% verbetering in HPL en 7-12% verbetering in HPCG op de CPU-modellen die we vergelijken. Trapsgewijze Lake-tests van 1 tot 8 knooppunten tonen een goede schaalbaarheid, zoals we in het verleden hebben gezien Skylake.

Bovendien introduceert het Cascade Lake VNNI-instructies die diepere onderleer werkings taken kunnen versnellen door 2x-3x, verder besproken in deze blog.

Voor onze toekomstige werkzaamheden zullen we het prestatie voordeel van Cascade Lake evalueren op verschillende HPC applicaties zoals WRF, NAMD, GROMACS, CP2K en LAMMPS

문서 속성

영향을 받는 제품

High Performance Computing Solution Resources

마지막 게시 날짜

18 5월 2021

버전

문서 유형

Solution

맨 위로 이동

환영

환영합니다.