메인 콘텐츠로 이동
  • 빠르고 간편하게 주문
  • 주문 보기 및 배송 상태 추적
  • 제품 목록을 생성 및 액세스
  • 회사 관리를 사용하여 Dell EMC 사이트, 제품 및 제품 수준 연락처를 관리하십시오.

HPC syntetisk benchmark-ydeevne med 2. generation af Intel Xeon Scalable-processorer – STREAM, HPL og HPCG

요약: Se information om HPC syntetisk benchmark-ydelse vha. 2. generation af Intel® Xeon® Scalable-processorer – STREAM, HPL og HPCG

이 문서는 자동으로 번역되었을 수 있습니다. 번역 품질에 대한 의견이 있는 경우 페이지 하단의 양식을 사용해 알려 주시기 바랍니다.

문서 콘텐츠


증상

Artikel skrevet af Savitha Pareek, Varun Bawa, & Ashish K Singh of HPC og AI-innovations laboratoriet i juni 2019

2nd generation Intel® Xeon® Scalable-Family-processorer (arkitektur med kode- kaskade-indgangs arbejde) er Intel ' efterfølgeren til Skylake og er klar til den primtegne tid. HPC-teknikerens team på Dell EMC havde adgang til et par tekniske test enheder, og denne blog præsenterer resultaterne af vores indledende benchmarking-undersøgelse.

Formålet med denne blog er at illustrere og analysere den opnåede præstation i de seneste Intel® Xeon® Scalable Family-processorer og sammenligne præstationen med den forgænger. Vi har valgt afsnittene STREAM, HPL og HPCG til analyse. Testen fremhæver virkningen af ydeevnen for enkelte såvel som flere knuder. Disse test er udført på Dell EMC PowerEdge C6420 (test af enkelt node) og PowerEdge R740 (multi-node-undersøgelser) med anbefalede BIOS-indstillinger for HPC arbejdsbelastninger. Kaskade på sø-processoren leveres med mange forbedringer såsom Intel® dyb indlærings boost (Intel DL Boost) med VNNI, højere hukommelsesbåndbredde og øget vektor og effektivitet for flydende tal.

원인

 

해결

Tabel 1: Testbed-oplysninger

Server

 PowerEdge C6420 & PowerEdge R740

Processorer

Konfiguration af enkelt node

Konfiguration af multi-node

Server-PowerEdge C6420 & PowerEdge R740

Server-PowerEdge R740

Skylake –

Intel Xeon® 6142 [16C@2.6GHz]

Intel Xeon® 6130 [16C@2.1GHz]

Intel Xeon® 8180 [28C @ 2,5 GHz]

Kaskade-sø-

Intel Xeon® 8268 [24C@2.90GHz]

Kaskade-sø-

Intel Xeon® 6242 [16C @ 2.8 GHz]

Intel Xeon® 6230 [20C@2.1GHz]

Intel Xeon® 8280 [28C @ 2.7 GHz]

Hukommelse

Kaskade-sø test-192GB-12 x 16, 2933 MT/s DDR4

Skylake test – 192GB-12 x 16, 2933 MT/s DDR4 (aktiv 2666 MT/s)

Operativsystem

Red Hat Enterprise Linux 7.6

Kerneversion

3.10.0-957.el7.x86_64

BIOS Indstillinger

Turbo = enabled, Logical processor = disabled, SubNumaCluster = enabled, Virtualization Technology = Disabled.

InfiniBand

Intel Omni-sti med IFS 10.9.2

Compiler

Intel parallel Studio XE 2018 opdatering 4

Programmer

-

Domæne

Version

Testkonfiguration

HPL

Højtydende LINPACK-beregning

Intel MKL – 2018 U4

Problem størrelse – 90% af den totale hukommelse

HPCG

Over konjugat graduering – beregning 

Intel MKL – 2018 U4

Problem størrelse – 336 x 336 x 336

STREAMKORT

Hukommelsesbåndbredde

5.4

Triad

         

Der blev foretaget test for at kvantificere følgende to tilfælde:

  • Forbedring af ydeevnen på en enkelt node fra Skylake til overlappende sø
  • Forbedring af ydeevnen med en enkelt node vs. multi-node

Streamkort

For at opnå den maksimale hukommelsesbåndbredde ydelse på Intel Cascade sø og Skylake har vi valgt en Stream -benchmark, som er de facto-industristandard benchmark i HPC Domain for måling af en bæredygtig hukommelsesbåndbredde (i GB/s). TRIAD-værdien er brugt til at sammenligne hukommelsesbåndbredde.

SLN317735_en_US__1image (10401)

Figure1: STREAM – Skylake vs overlappende sø

Den understøttede maksimale hukommelses frekvens for Skylake er 2666MT/s, mens kaskade vandunder støtter 2933MT/s, hvilket vil være 10% højere hukommelses frekvens med kaskade sø. I henhold til figur 1 viser overlappende sø-processorer 7 – 12% mere hukommelsesbåndbredde i forhold til Skylake. Hukommelsesbåndbredde pr. kerne er afhængig af den specifikke processor SKU. Da nogle kaskade på sø-SKU'er har flere kerner i forhold til Skylake, er de samlede sammenligninger i hukommelses båndbredden forskellig fra den totale sammenligning af hukommelses båndbredden. I henhold til figur 1 er både 8280 og 6242 højere hukommelsesbåndbredde pr. kerne op til 7% end deres respektive forgængere. 6230 viser 11% mindre hukommelsesbåndbredde pr. kerne i forhold til 6130 på grund af de 25% stigninger i kerner for 6230. Hukommelsesbåndbredde pr. kerne kan være en vigtig faktor for programmer, som er følsomme for hukommelsesbåndbredde.

LINPACK -

Vi målte beregnings kapaciteten for processorer ved hjælp af Intel LINPACK. Problemets størrelse (N) er 90% af systemhukommelsen, mens blokstørrelsen (NB) er 384. Her er der både ydeevne og skalerbarhed med kaskade over-processorer.

Skylake vs overlappende sø-  

SLN317735_en_US__2image (13765)

Figur 2: LINPACK-ydelse (Skylake vs overlappende sø)

I henhold til figur 2 viser LINPACK ydelses forbedring op til 15% med overlappende sø-processorer. Denne sammenligning er baseret på CPU-modelnummeret, sammenligning Skylake og deres succeser af Intel Xeon® Scalable-serien. Intel Xeon® 6230 med 4 flere kerner pr. sokkel får en 15% boost i ydeevnen over 6130, mens både 8280 og 6242 med samme kerne antal i henhold til deres forgængere tilføjer i ydeevne forbedringen på grund af øget CPU-basis frekvens og højere hukommelsesbåndbredde.

Multi-node ydelse- For multi-node-undersøgelsen har vi brugt en 8-node-klynge af PowerEdge R740-servere med Intel Xeon® 8268 og indfangede resultater for 1, 2, 4 og 8 noder. Resten af systemkonfigurationen er i det nævnte tabel 2.

SLN317735_en_US__3image (10402)

                                                Figur 3: Multi-node LINPACK-ydelse med 8268 @ 2.90 GHz

Som figur 3 viser LINPACK performance for en enkelt 8268-node 3059 GFLOPS og 23946 GFLOPS for 8 noder, hvilket betyder 7.83 X-skalering fra 1 node til 8 knuder. Effektivitet for en enkelt node er ~ 69%, mens ~ 67% for 2, 4 og 8 noder. Effektivitet falder fra 1 node til 2 knuder. men skalerbarheden er mest lineær bagefter.               

HPCG-benchmark

HPCG-benchmark er baseret på konjugeret gradient-Problemløser, hvor præ-conditionet er en hierarkiske metode med tre niveauer (MG) med Gauss-Seidel.

HPCG benchmark-konstruktionen er et logisk globalt, fysisk distribueret Spar-lineært system, der bruger en 27-punkt stencil ved hvert gitterpunkt i et 3D-domæne, således at ligningen på et sted (i, j, k) afhænger af værdierne og 26 omgivende Neighbours. Det globale domæne, der er beregnet ved benchmark, er (NRx * NX) X (NRy * ny) X (NRz * NZ), hvor NX, ny og NZ er mål for lokale under gitre, der er tildelt til hver MPI-proces og antallet af MPI-Range = (NRx X NRy X NRz).

For vores analyse har vi opdelt test i 2 kategorier-

Skylake vs overlappende sø-i dette afsnit sammenligner vi Skylake med kaskade sø ved hjælp af HPCG-ydelsen. Vi har brugt en gitterstørrelse på 336 ^ 3 , som optager mereend 1/4 samlet systemhukommelse. Antallet af MPI-processer pr. node og antallet af tråde var baseret på de bedste resultater og udnyttelse af hukommelsen.

SLN317735_en_US__4image (10403)  

Figur 4: HPCG-ydelse (Skylake vs overlappende sø)

I henhold til figur 4 observerer vi en betydelig HPCG ydeevne forbedring med kaskade over for deres forgængere. Da HPCG er mere hukommelses bundet program, er ydelses forbedring med kaskade over-processorer i overensstemmelse med resultatet af et STREAM-benchmark, hvor 6230 udfører 10% bedre end 6130, 6242 udfører 12% bedre end 6142 og 8280 udfører 7% bedre end 8180.   

HPCG med multi-node – til benchmarking med flere noder har vi valgt den lokale dimensions gitterstørrelse på 336 ^ 3 og den bedste MPI proces og OpenMP-kæde-kombinationen.

SLN317735_en_US__5image (10404)

Figur 5: Multi-node HPCG-ydelse med overlappende sø

Figur 5 viser ydeevnen for HPCG med overlappende sø 8268 @ 2,9 GHz og skalering op til 8 knuder. HPCG-ydelsen er 43GFLOPS for enkelt node og 84GFLOPS for to noder, hvilket betyder 1.96 X ydelses forbedring med to knuder. Når vi bevæger fremad med 4-og 8-noder, forbedres ydeevnen op til 3,5 X.          

Konklusion

For at få adgang til overlappende sø-processorer, kan PowerEdge systemer nu understøtte hukommelses hastigheder på op til 2933 MT/s med denne nyere generation-processor. Vores tests med Kaskadeede sø-processorer viser en 7-12% forbedring af ydeevnen i hukommelses båndbredden, 4-15%-forbedring i HPL og 7-12% forbedring i HPCG på de CPU-modeller, vi sammenligner. Kaskade over sø-test fra 1 til 8 knuder viser god skalerbarhed, som vi har set med Skylake i fortiden.

Derudover introducerer kaskade-sø VNNI-instruktioner, der kan øge hastigheden på dybe indlærings belastninger med 2x-3x, yderligere omtalt i denne blog.

For vores fremtidige arbejde planlægger vi at vurdere ydelses fordelen ved kaskade ligt sø på forskellige HPC-applikationer såsom WRF, NAMD, GROMACS, CP2K og LAMMPS

문서 속성


영향을 받는 제품

High Performance Computing Solution Resources

마지막 게시 날짜

18 5월 2021

버전

4

문서 유형

Solution