Přeskočit na hlavní obsah

Syntetický srovnávací test výkonu superpočítače pomocí škálovatelných procesorů Intel Xeon 2. generace – STREAM, HPL a HPCG

Shrnutí: Přečtěte si informace o rychlosti syntetického benchmarku HPC pomocí 2. generace procesorů Intel® Xeon® Scalable procesorů – STREAM, HPL a HPCG.

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

Článek napsaný společností Savitha Pareek, Varun Bawa, & Ashish K Singh inovované laboratoře HPC a AI v červnu 2019

2 . generace procesorů Intel® Xeon® škálovatelné procesory řady (Architecture codenamed – na sebe Lake) je nástupcem společnosti Intel a je připraven na svůj primární čas. Tým inženýrů HPC společnosti Dell EMC měl přístup k několika technickým testovacím jednotkám a tento blog představuje výsledky našeho počátečního srovnávacího testu.

Účelem tohoto blogu je znázornit a analyzovat výkon, který je k dispozici na nejnovějších procesorech Intel® Xeon® Scalable Family, a porovnat tak jeho výkon. Pro naši analýzu jsme zvolili srovnání STREAMických, HPL a HPCG. Studie zdůrazňuje vliv na výkon u jednoduchých a také z několika uzlů. Tyto testy byly provedeny na serveru Dell EMC PowerEdge C6420 (s jednou uzlem v jediném uzlu) a s PowerEdge R740 (s vícejádrovými studiemi) a s doporučenými nastaveními systému BIOS pro úlohy HPC. Technologie Cascade Lake obsahuje mnoho vylepšení, jako je například Intel® hluboké učení (Intel dl) s VNNI, vyšší propustností paměti a vyšší výkon a efektivita vektorového plovoucího koncového bodu.

Příčina

 

Řešení

Tabulka 1: Informace o testbed

Server

 PowerEdge C6420 & PowerEdge R740

Procesory

Jeden uzel, konfigurace

Konfigurace více uzlů

Server – PowerEdge C6420 & PowerEdge R740

Server – PowerEdge R740

Skylake

Intel Xeon® 6142 [16C@2.6GHz]

Procesor Intel Xeon® 6130 [16C@2.1GHz]

Procesor Intel Xeon® 8180 [28C, 2,5 GHz]

Kaskádový Lake –

Intel Xeon® 8268 [24C@2.90GHz]

Kaskádový Lake –

Procesor Intel Xeon® 6242 [16C, 2,8 GHz]

Procesor Intel Xeon® 6230 [20C@2.1GHz]

Intel Xeon® 8280 [28C, 2.7, 2,7 GHz]

Paměť

Na sebe Lake test – 192GB-12 x 16 GB 2933 MT/s DDR4

Test Skylake – 192GB-12 x 16 GB 2933 MT/s DDR4 (Active 2666 MT/s)

Operační systém

Red Hat Enterprise Linux 7.6

Verze jádra

3.10.0-957.el7.x86_64

Možnosti nástroje BIOS

Turbo = Enabled, Logical Processor = disabled, SubNumaCluster = Enabled, Virtualization Technology = Disabled (zakázáno).

InfiniBand

Cesta Intel Omni s IFS 10.9.2

Kompilátoru

Aktualizace Intel Parallel Studio XE 2018 (4)

Aplikace

Benchmark

Doména

Verze

Konfigurace testu

HPL

Vysoce výkonné LINPACK – výpočetní

Intel MKL Graphics 2018 U4

Velikost problému – 90% z celkové paměti

HPCG

Vysoce výkonný sdružený přechod – výpočetní 

Intel MKL Graphics 2018 U4

Velikost problému – 336 x 336 x 336

Proudu

Propustnost paměti

5.4

Triad

         

Byly provedeny testy, které by měly kvantifikovat následující dva případy:

  • Zlepšení výkonu na jednom uzlu od Skylake po kaskádové Lake
  • Vylepšení výkonu s jedním uzlem vs. multi-node

Stream

Chcete-li získat špičkový propustnost paměti Intel Cascade Lake a Skylake, zvolili jsme srovnávací benchmark, což je standardní referenční srovnávací test v doméně HPC, který se používá k měření trvalých propustností paměti (v GB/s). Hodnota světel Triad byla použita pro porovnání šířky pásma paměti.

SLN317735_en_US__1image (10401)

Figure1: STREAM – Skylake vs – kaskádová Lake

Podporovanou maximální frekvenci paměti pro Skylake je 2 666 MT/s a zároveň podporuje 2 933 MT/s, což znamená 10% vyšší frekvenci paměti díky kaskádovým Lake. Na obrázku 1 jsou na sebe nataženy procesory 7 až 12% více šířky paměti vztahující se k Skylake. Šířka pásma paměti na jader závisí na konkrétní SKU procesoru. Vzhledem k tomu, že některé kaskádové položky SKU mají další jádra vztahující se k Skylake, porovnání šířky pásma základní paměti se liší od celkového porovnání šířky pásma paměti. Podle obrázku 1 mají obě 8280 a 6242 vyšší šířku pásma paměti na jádro až o 7%, než jejich předchůdci. 6230 však obsahuje 11% méně šířky pásma na jádro vzhledem ke 6130 v důsledku 25% nárůstu jádra v případě 6230. Propustnost paměti v rámci jádra může být důležitým faktorem pro aplikace, které jsou citlivé na šířku pásma.

Linpack

Naměřeno výpočetní schopnosti procesorů pomocí technologie Intel LINPACK. Velikost problému (N) je 90% systémové paměti, zatímco velikost bloku (NB) je 384. Zde pokrýváte výkon a škálovatelnost s kaskádovým Lake procesorem.

Skylake vs – kaskádový Lake 

SLN317735_en_US__2image (13765)

Obrázek 2: LINPACK Performance (Skylake vs – kaskádová Lake)

Na obrázku 2 LINPACK ukazuje zlepšení výkonu až o 15% s procesory s kaskádovým Lake. Toto srovnání je založeno na čísle modelu procesoru, porovnání Skylake a jejich následníků Intel Xeon® Scalable Family. Procesory Intel Xeon® 6230 se 4 jádry na jeden soket přináší 15% zvýšení výkonu v průběhu 6130, zatímco 8280 a 6242 s podobným počtem jader jako jejich předchůdci zvýší výkon v důsledku zvýšení základní frekvence procesoru a vyšší šířky pásma paměti.

Výkon více uzlů – Pro studii s více uzly jsme používali cluster 8 uzlů serverů PowerEdge R740 s procesory Intel Xeon® 8268 a zachycenými výsledky pro uzly 1, 2, 4 a 8. Zbytek konfigurace systému je uvedený v tabulce 2.

SLN317735_en_US__3image (10402)

                                                Obrázek 3: LINPACK výkon s více uzly s 8268 @ 2,90 GHz

Obrázek 3 ukazuje, LINPACK výkon pro jeden uzel 8268 je 3059 GFLOPS a 23946 GFLOPS pro 8 uzlů, což znamená 7.83 škálování X od 1 uzlu na 8 uzlů. Efektivita pro jediný uzel je 69%, zatímco ~ 67% pro 2, 4 a 8 uzlů. Efektivita se odmítá z 1 uzlu na 2 uzly; škálovatelnost je však většinou lineární.               

HPCG srovnávací test

Srovnávací HPCG je založen na sdruženém gradientovém řešiteli, kde předprocesor představuje tři úrovně hierarchické metody s více mřížkami (MG) s Gauss-Seidel.

HPCG benchmark vytváří logicky globální a fyzicky distribuovaný řídký lineární systém pomocí vzorníku o 27 bodů v každém bodu mřížky v 3D doméně, takže rovnice v bodu (i, j, k) závisí na jeho hodnotách a 26 sousedních sousedních stran. Globální doména vypočítaná podle benchmarku je (NRx * NX) X (NRy * ny) X (NRz * NZ), kde NX, NY a NZ jsou rozměry místních dílčích mřížek přiřazených ke každému procesu MPI a počtu MPI, které jsou typu NR = (NRx X NRy X NRz).

Pro naši analýzu jsme rozděleni do dvou kategorií –

Skylake vs – kaskádový Lakev této části jsme poznamenali Skylake s kaskádovou Lake pomocí HPCG výkonu. Využili jsme velikost mřížky v 336 ^ 3 , která zabírá vícenež 1/4 v celkové systémové paměti. Počet procesů MPI na uzel a počet vláken byl založen na optimálních výsledcích a využití paměti.

SLN317735_en_US__4image (10403)  

Obrázek 4: HPCG Performance (Skylake vs – kaskádová Lake)

Podle obrázku 4 sledujeme v porovnání s více než svými předchůdci významné HPCG zlepšení výkonu. Protože HPCG je více aplikací s pamětí, zlepšení výkonu pomocí přenosných procesorů na sebe je v souladu s výsledkem srovnávacího benchmarku, kde 6230 vykonává 10% lepších než 6130, 6242 se o 12% lepší než 6142 a 8280 přináší 7% lepší než 8180.   

HPCG s více uzly – pro srovnávací testy s více uzly jsme zvolili velikost místní tabulky dimenzí s hodnotou 336 ^ 3 a Best MPI Process a OpenMP Threads.

SLN317735_en_US__5image (10404)

Obrázek 5: HPCG výkon s více uzly díky kaskádově Lake

Obrázek 5 znázorňuje výkon HPCG s kaskádovým Lake 8268 @ 2.9 GHz a škálováním až 8 uzlů. HPCG Performance je 43GFLOPS pro jeden uzel a 84GFLOPS pro dva uzly, což znamená vylepšení výkonu 1.96 X se dvěma uzly. Jak se pohybujeme vpřed se 4 a 8 uzly, výkon se zlepšuje až 7,7 X.          

Závěr

V rámci dostupnosti kaskádových Lake procesorů mohou systémy PowerEdge nyní podporovat rychlosti paměti až 2933 MT/s s tímto novějším procesorem generace. Naše testy s procesory na sebe Lake zobrazují 7-12% zlepšení výkonu v případě propustnosti paměti, 4-15% zlepšení v HPL a 7-12% zlepšení v HPCGch modelech procesoru, které jsme si porovnali. Všechny kaskádové testy z 1 na 8 uzlů zobrazují dobrou škálovatelnost, jak jsme viděli s Skylake v minulosti.

Kaskádové Lake obsahuje také VNNIé pokyny, které mohou urychlit získávání dílčích úloh, a to díky dvojnásobné 3x, dále je popsána v tomto blogu.

V zájmu našich budoucích prací plánujeme zhodnotit využití kaskádové jezera v rámci různých aplikací HPC, jako jsou WRF, NAMD, GROMACS, CP2K a LAMMPS.

Dotčené produkty

High Performance Computing Solution Resources
Vlastnosti článku
Číslo článku: 000133009
Typ článku: Solution
Poslední úprava: 18 kvě 2021
Verze:  4
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.