Syntetický srovnávací test výkonu superpočítače pomocí škálovatelných procesorů Intel Xeon 2. generace – STREAM, HPL a HPCG

요약: Přečtěte si informace o rychlosti syntetického benchmarku HPC pomocí 2. generace procesorů Intel® Xeon® Scalable procesorů – STREAM, HPL a HPCG.

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

증상

Článek napsaný společností Savitha Pareek, Varun Bawa, & Ashish K Singh inovované laboratoře HPC a AI v červnu 2019

2 . generace procesorů Intel® Xeon® škálovatelné procesory řady (Architecture codenamed – na sebe Lake) je nástupcem společnosti Intel a je připraven na svůj primární čas. Tým inženýrů HPC společnosti Dell EMC měl přístup k několika technickým testovacím jednotkám a tento blog představuje výsledky našeho počátečního srovnávacího testu.

Účelem tohoto blogu je znázornit a analyzovat výkon, který je k dispozici na nejnovějších procesorech Intel® Xeon® Scalable Family, a porovnat tak jeho výkon. Pro naši analýzu jsme zvolili srovnání STREAMických, HPL a HPCG. Studie zdůrazňuje vliv na výkon u jednoduchých a také z několika uzlů. Tyto testy byly provedeny na serveru Dell EMC PowerEdge C6420 (s jednou uzlem v jediném uzlu) a s PowerEdge R740 (s vícejádrovými studiemi) a s doporučenými nastaveními systému BIOS pro úlohy HPC. Technologie Cascade Lake obsahuje mnoho vylepšení, jako je například Intel® hluboké učení (Intel dl) s VNNI, vyšší propustností paměti a vyšší výkon a efektivita vektorového plovoucího koncového bodu.

원인

해결

Tabulka 1: Informace o testbed

Server	PowerEdge C6420 & PowerEdge R740
Procesory	Jeden uzel, konfigurace		Konfigurace více uzlů
	Server – PowerEdge C6420 & PowerEdge R740		Server – PowerEdge R740
	Skylake Intel Xeon® 6142 [16C@2.6GHz] Procesor Intel Xeon® 6130 [16C@2.1GHz] Procesor Intel Xeon® 8180 [28C, 2,5 GHz]		Kaskádový Lake – Intel Xeon® 8268 [24C@2.90GHz]
	Kaskádový Lake – Procesor Intel Xeon® 6242 [16C, 2,8 GHz] Procesor Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C, 2.7, 2,7 GHz]
Paměť	Na sebe Lake test – 192GB-12 x 16 GB 2933 MT/s DDR4 Test Skylake – 192GB-12 x 16 GB 2933 MT/s DDR4 (Active 2666 MT/s)
Operační systém	Red Hat Enterprise Linux 7.6
Verze jádra	3.10.0-957.el7.x86_64
Možnosti nástroje BIOS	Turbo = Enabled, Logical Processor = disabled, SubNumaCluster = Enabled, Virtualization Technology = Disabled (zakázáno).
InfiniBand	Cesta Intel Omni s IFS 10.9.2
Kompilátoru	Aktualizace Intel Parallel Studio XE 2018 (4)
Aplikace
Benchmark	Doména	Verze		Konfigurace testu
HPL	Vysoce výkonné LINPACK – výpočetní	Intel MKL Graphics 2018 U4		Velikost problému – 90% z celkové paměti
HPCG	Vysoce výkonný sdružený přechod – výpočetní	Intel MKL Graphics 2018 U4		Velikost problému – 336 x 336 x 336
Proudu	Propustnost paměti	5.4		Triad

Byly provedeny testy, které by měly kvantifikovat následující dva případy:

Zlepšení výkonu na jednom uzlu od Skylake po kaskádové Lake
Vylepšení výkonu s jedním uzlem vs. multi-node

Stream

Chcete-li získat špičkový propustnost paměti Intel Cascade Lake a Skylake, zvolili jsme srovnávací benchmark, což je standardní referenční srovnávací test v doméně HPC, který se používá k měření trvalých propustností paměti (v GB/s). Hodnota světel Triad byla použita pro porovnání šířky pásma paměti.

SLN317735_en_US__1image (10401)

Figure1: STREAM – Skylake vs – kaskádová Lake

Podporovanou maximální frekvenci paměti pro Skylake je 2 666 MT/s a zároveň podporuje 2 933 MT/s, což znamená 10% vyšší frekvenci paměti díky kaskádovým Lake. Na obrázku 1 jsou na sebe nataženy procesory 7 až 12% více šířky paměti vztahující se k Skylake. Šířka pásma paměti na jader závisí na konkrétní SKU procesoru. Vzhledem k tomu, že některé kaskádové položky SKU mají další jádra vztahující se k Skylake, porovnání šířky pásma základní paměti se liší od celkového porovnání šířky pásma paměti. Podle obrázku 1 mají obě 8280 a 6242 vyšší šířku pásma paměti na jádro až o 7%, než jejich předchůdci. 6230 však obsahuje 11% méně šířky pásma na jádro vzhledem ke 6130 v důsledku 25% nárůstu jádra v případě 6230. Propustnost paměti v rámci jádra může být důležitým faktorem pro aplikace, které jsou citlivé na šířku pásma.

Linpack

Naměřeno výpočetní schopnosti procesorů pomocí technologie Intel LINPACK. Velikost problému (N) je 90% systémové paměti, zatímco velikost bloku (NB) je 384. Zde pokrýváte výkon a škálovatelnost s kaskádovým Lake procesorem.

Skylake vs – kaskádový Lake –

SLN317735_en_US__2image (13765)

Obrázek 2: LINPACK Performance (Skylake vs – kaskádová Lake)

Na obrázku 2 LINPACK ukazuje zlepšení výkonu až o 15% s procesory s kaskádovým Lake. Toto srovnání je založeno na čísle modelu procesoru, porovnání Skylake a jejich následníků Intel Xeon® Scalable Family. Procesory Intel Xeon® 6230 se 4 jádry na jeden soket přináší 15% zvýšení výkonu v průběhu 6130, zatímco 8280 a 6242 s podobným počtem jader jako jejich předchůdci zvýší výkon v důsledku zvýšení základní frekvence procesoru a vyšší šířky pásma paměti.

Výkon více uzlů – Pro studii s více uzly jsme používali cluster 8 uzlů serverů PowerEdge R740 s procesory Intel Xeon® 8268 a zachycenými výsledky pro uzly 1, 2, 4 a 8. Zbytek konfigurace systému je uvedený v tabulce 2.

SLN317735_en_US__3image (10402)

Obrázek 3: LINPACK výkon s více uzly s 8268 @ 2,90 GHz

Obrázek 3 ukazuje, LINPACK výkon pro jeden uzel 8268 je 3059 GFLOPS a 23946 GFLOPS pro 8 uzlů, což znamená 7.83 škálování X od 1 uzlu na 8 uzlů. Efektivita pro jediný uzel je 69%, zatímco ~ 67% pro 2, 4 a 8 uzlů. Efektivita se odmítá z 1 uzlu na 2 uzly; škálovatelnost je však většinou lineární.

HPCG srovnávací test

Srovnávací HPCG je založen na sdruženém gradientovém řešiteli, kde předprocesor představuje tři úrovně hierarchické metody s více mřížkami (MG) s Gauss-Seidel.

HPCG benchmark vytváří logicky globální a fyzicky distribuovaný řídký lineární systém pomocí vzorníku o 27 bodů v každém bodu mřížky v 3D doméně, takže rovnice v bodu (i, j, k) závisí na jeho hodnotách a 26 sousedních sousedních stran. Globální doména vypočítaná podle benchmarku je (NRx * NX) X (NRy * ny) X (NRz * NZ), kde NX, NY a NZ jsou rozměry místních dílčích mřížek přiřazených ke každému procesu MPI a počtu MPI, které jsou typu NR = (NRx X NRy X NRz).

Pro naši analýzu jsme rozděleni do dvou kategorií –

Skylake vs – kaskádový Lake – v této části jsme poznamenali Skylake s kaskádovou Lake pomocí HPCG výkonu. Využili jsme velikost mřížky v 336 ^ 3 , která zabírá více^{než 1/4 v} celkové systémové paměti. Počet procesů MPI na uzel a počet vláken byl založen na optimálních výsledcích a využití paměti.

SLN317735_en_US__4image (10403)

Obrázek 4: HPCG Performance (Skylake vs – kaskádová Lake)

Podle obrázku 4 sledujeme v porovnání s více než svými předchůdci významné HPCG zlepšení výkonu. Protože HPCG je více aplikací s pamětí, zlepšení výkonu pomocí přenosných procesorů na sebe je v souladu s výsledkem srovnávacího benchmarku, kde 6230 vykonává 10% lepších než 6130, 6242 se o 12% lepší než 6142 a 8280 přináší 7% lepší než 8180.

HPCG s více uzly – pro srovnávací testy s více uzly jsme zvolili velikost místní tabulky dimenzí s hodnotou 336 ^ 3 a Best MPI Process a OpenMP Threads.

SLN317735_en_US__5image (10404)

Obrázek 5: HPCG výkon s více uzly díky kaskádově Lake

Obrázek 5 znázorňuje výkon HPCG s kaskádovým Lake 8268 @ 2.9 GHz a škálováním až 8 uzlů. HPCG Performance je 43GFLOPS pro jeden uzel a 84GFLOPS pro dva uzly, což znamená vylepšení výkonu 1.96 X se dvěma uzly. Jak se pohybujeme vpřed se 4 a 8 uzly, výkon se zlepšuje až 7,7 X.

Závěr

V rámci dostupnosti kaskádových Lake procesorů mohou systémy PowerEdge nyní podporovat rychlosti paměti až 2933 MT/s s tímto novějším procesorem generace. Naše testy s procesory na sebe Lake zobrazují 7-12% zlepšení výkonu v případě propustnosti paměti, 4-15% zlepšení v HPL a 7-12% zlepšení v HPCGch modelech procesoru, které jsme si porovnali. Všechny kaskádové testy z 1 na 8 uzlů zobrazují dobrou škálovatelnost, jak jsme viděli s Skylake v minulosti.

Kaskádové Lake obsahuje také VNNIé pokyny, které mohou urychlit získávání dílčích úloh, a to díky dvojnásobné 3x, dále je popsána v tomto blogu.

V zájmu našich budoucích prací plánujeme zhodnotit využití kaskádové jezera v rámci různých aplikací HPC, jako jsou WRF, NAMD, GROMACS, CP2K a LAMMPS.

해당 제품

High Performance Computing Solution Resources

문서 번호: 000133009

문서 유형: Solution

마지막 수정 시간: 18 5월 2021

버전: 4

디바이스에 지원 서비스가 적용되는지 확인하십시오.

Syntetický srovnávací test výkonu superpočítače pomocí škálovatelných procesorů Intel Xeon 2. generace – STREAM, HPL a HPCG

요약: Přečtěte si informace o rychlosti syntetického benchmarku HPC pomocí 2. generace procesorů Intel® Xeon® Scalable procesorů – STREAM, HPL a HPCG.

증상

원인

해결

해당 제품

문서 속성

다른 Dell 사용자에게 질문에 대한 답변 찾기

지원 서비스

문서 속성

다른 Dell 사용자에게 질문에 대한 답변 찾기

지원 서비스

환영

환영합니다.

Syntetický srovnávací test výkonu superpočítače pomocí škálovatelných procesorů Intel Xeon 2. generace – STREAM, HPL a HPCG

요약: Přečtěte si informace o rychlosti syntetického benchmarku HPC pomocí 2. generace procesorů Intel® Xeon® Scalable procesorů – STREAM, HPL a HPCG.

상세한 문서

증상

원인

해결

해당 제품

증상

원인

해결

해당 제품

문서 속성

다른 Dell 사용자에게 질문에 대한 답변 찾기

지원 서비스

문서 속성

다른 Dell 사용자에게 질문에 대한 답변 찾기

지원 서비스