Článek napsaný společností Savitha Pareek, Varun Bawa, & Ashish K Singh inovované laboratoře HPC a AI v červnu 2019
2 . generace procesorů Intel® Xeon® škálovatelné procesory řady (Architecture codenamed – na sebe Lake) je nástupcem společnosti Intel a je připraven na svůj primární čas. Tým inženýrů HPC společnosti Dell EMC měl přístup k několika technickým testovacím jednotkám a tento blog představuje výsledky našeho počátečního srovnávacího testu.
Účelem tohoto blogu je znázornit a analyzovat výkon, který je k dispozici na nejnovějších procesorech Intel® Xeon® Scalable Family, a porovnat tak jeho výkon. Pro naši analýzu jsme zvolili srovnání STREAMických, HPL a HPCG. Studie zdůrazňuje vliv na výkon u jednoduchých a také z několika uzlů. Tyto testy byly provedeny na serveru Dell EMC PowerEdge C6420 (s jednou uzlem v jediném uzlu) a s PowerEdge R740 (s vícejádrovými studiemi) a s doporučenými nastaveními systému BIOS pro úlohy HPC. Technologie Cascade Lake obsahuje mnoho vylepšení, jako je například Intel® hluboké učení (Intel dl) s VNNI, vyšší propustností paměti a vyšší výkon a efektivita vektorového plovoucího koncového bodu.
Tabulka 1: Informace o testbed
Server |
PowerEdge C6420 & PowerEdge R740 |
|||
Procesory |
Jeden uzel, konfigurace |
Konfigurace více uzlů |
||
Server – PowerEdge C6420 & PowerEdge R740 |
Server – PowerEdge R740 |
|||
Skylake Intel Xeon® 6142 [16C@2.6GHz] Procesor Intel Xeon® 6130 [16C@2.1GHz] Procesor Intel Xeon® 8180 [28C, 2,5 GHz] |
Kaskádový Lake – Intel Xeon® 8268 [24C@2.90GHz] |
|||
Kaskádový Lake – Procesor Intel Xeon® 6242 [16C, 2,8 GHz] Procesor Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C, 2.7, 2,7 GHz] |
||||
Paměť |
Na sebe Lake test – 192GB-12 x 16 GB 2933 MT/s DDR4 Test Skylake – 192GB-12 x 16 GB 2933 MT/s DDR4 (Active 2666 MT/s) |
|||
Operační systém |
Red Hat Enterprise Linux 7.6 |
|||
Verze jádra |
3.10.0-957.el7.x86_64 |
|||
Možnosti nástroje BIOS |
Turbo = Enabled, Logical Processor = disabled, SubNumaCluster = Enabled, Virtualization Technology = Disabled (zakázáno). |
|||
InfiniBand |
Cesta Intel Omni s IFS 10.9.2 |
|||
Kompilátoru |
Aktualizace Intel Parallel Studio XE 2018 (4) |
|||
Aplikace |
||||
Benchmark |
Doména |
Verze |
Konfigurace testu |
|
HPL |
Vysoce výkonné LINPACK – výpočetní |
Intel MKL Graphics 2018 U4 |
Velikost problému – 90% z celkové paměti |
|
HPCG |
Vysoce výkonný sdružený přechod – výpočetní |
Intel MKL Graphics 2018 U4 |
Velikost problému – 336 x 336 x 336 |
|
Proudu |
Propustnost paměti |
5.4 |
Triad |
|
Byly provedeny testy, které by měly kvantifikovat následující dva případy:
Stream
Chcete-li získat špičkový propustnost paměti Intel Cascade Lake a Skylake, zvolili jsme srovnávací benchmark, což je standardní referenční srovnávací test v doméně HPC, který se používá k měření trvalých propustností paměti (v GB/s). Hodnota světel Triad byla použita pro porovnání šířky pásma paměti.
Figure1: STREAM – Skylake vs – kaskádová Lake
Podporovanou maximální frekvenci paměti pro Skylake je 2 666 MT/s a zároveň podporuje 2 933 MT/s, což znamená 10% vyšší frekvenci paměti díky kaskádovým Lake. Na obrázku 1 jsou na sebe nataženy procesory 7 až 12% více šířky paměti vztahující se k Skylake. Šířka pásma paměti na jader závisí na konkrétní SKU procesoru. Vzhledem k tomu, že některé kaskádové položky SKU mají další jádra vztahující se k Skylake, porovnání šířky pásma základní paměti se liší od celkového porovnání šířky pásma paměti. Podle obrázku 1 mají obě 8280 a 6242 vyšší šířku pásma paměti na jádro až o 7%, než jejich předchůdci. 6230 však obsahuje 11% méně šířky pásma na jádro vzhledem ke 6130 v důsledku 25% nárůstu jádra v případě 6230. Propustnost paměti v rámci jádra může být důležitým faktorem pro aplikace, které jsou citlivé na šířku pásma.
Linpack
Naměřeno výpočetní schopnosti procesorů pomocí technologie Intel LINPACK. Velikost problému (N) je 90% systémové paměti, zatímco velikost bloku (NB) je 384. Zde pokrýváte výkon a škálovatelnost s kaskádovým Lake procesorem.
Skylake vs – kaskádový Lake –
Obrázek 2: LINPACK Performance (Skylake vs – kaskádová Lake)
Na obrázku 2 LINPACK ukazuje zlepšení výkonu až o 15% s procesory s kaskádovým Lake. Toto srovnání je založeno na čísle modelu procesoru, porovnání Skylake a jejich následníků Intel Xeon® Scalable Family. Procesory Intel Xeon® 6230 se 4 jádry na jeden soket přináší 15% zvýšení výkonu v průběhu 6130, zatímco 8280 a 6242 s podobným počtem jader jako jejich předchůdci zvýší výkon v důsledku zvýšení základní frekvence procesoru a vyšší šířky pásma paměti.
Výkon více uzlů – Pro studii s více uzly jsme používali cluster 8 uzlů serverů PowerEdge R740 s procesory Intel Xeon® 8268 a zachycenými výsledky pro uzly 1, 2, 4 a 8. Zbytek konfigurace systému je uvedený v tabulce 2.
Obrázek 3: LINPACK výkon s více uzly s 8268 @ 2,90 GHz
Obrázek 3 ukazuje, LINPACK výkon pro jeden uzel 8268 je 3059 GFLOPS a 23946 GFLOPS pro 8 uzlů, což znamená 7.83 škálování X od 1 uzlu na 8 uzlů. Efektivita pro jediný uzel je 69%, zatímco ~ 67% pro 2, 4 a 8 uzlů. Efektivita se odmítá z 1 uzlu na 2 uzly; škálovatelnost je však většinou lineární.
HPCG srovnávací test
Srovnávací HPCG je založen na sdruženém gradientovém řešiteli, kde předprocesor představuje tři úrovně hierarchické metody s více mřížkami (MG) s Gauss-Seidel.
HPCG benchmark vytváří logicky globální a fyzicky distribuovaný řídký lineární systém pomocí vzorníku o 27 bodů v každém bodu mřížky v 3D doméně, takže rovnice v bodu (i, j, k) závisí na jeho hodnotách a 26 sousedních sousedních stran. Globální doména vypočítaná podle benchmarku je (NRx * NX) X (NRy * ny) X (NRz * NZ), kde NX, NY a NZ jsou rozměry místních dílčích mřížek přiřazených ke každému procesu MPI a počtu MPI, které jsou typu NR = (NRx X NRy X NRz).
Pro naši analýzu jsme rozděleni do dvou kategorií –
Skylake vs – kaskádový Lake – v této části jsme poznamenali Skylake s kaskádovou Lake pomocí HPCG výkonu. Využili jsme velikost mřížky v 336 ^ 3 , která zabírá vícenež 1/4 v celkové systémové paměti. Počet procesů MPI na uzel a počet vláken byl založen na optimálních výsledcích a využití paměti.
Obrázek 4: HPCG Performance (Skylake vs – kaskádová Lake)
Podle obrázku 4 sledujeme v porovnání s více než svými předchůdci významné HPCG zlepšení výkonu. Protože HPCG je více aplikací s pamětí, zlepšení výkonu pomocí přenosných procesorů na sebe je v souladu s výsledkem srovnávacího benchmarku, kde 6230 vykonává 10% lepších než 6130, 6242 se o 12% lepší než 6142 a 8280 přináší 7% lepší než 8180.
HPCG s více uzly – pro srovnávací testy s více uzly jsme zvolili velikost místní tabulky dimenzí s hodnotou 336 ^ 3 a Best MPI Process a OpenMP Threads.
Obrázek 5: HPCG výkon s více uzly díky kaskádově Lake
Obrázek 5 znázorňuje výkon HPCG s kaskádovým Lake 8268 @ 2.9 GHz a škálováním až 8 uzlů. HPCG Performance je 43GFLOPS pro jeden uzel a 84GFLOPS pro dva uzly, což znamená vylepšení výkonu 1.96 X se dvěma uzly. Jak se pohybujeme vpřed se 4 a 8 uzly, výkon se zlepšuje až 7,7 X.
Závěr
V rámci dostupnosti kaskádových Lake procesorů mohou systémy PowerEdge nyní podporovat rychlosti paměti až 2933 MT/s s tímto novějším procesorem generace. Naše testy s procesory na sebe Lake zobrazují 7-12% zlepšení výkonu v případě propustnosti paměti, 4-15% zlepšení v HPL a 7-12% zlepšení v HPCGch modelech procesoru, které jsme si porovnali. Všechny kaskádové testy z 1 na 8 uzlů zobrazují dobrou škálovatelnost, jak jsme viděli s Skylake v minulosti.
Kaskádové Lake obsahuje také VNNIé pokyny, které mohou urychlit získávání dílčích úloh, a to díky dvojnásobné 3x, dále je popsána v tomto blogu.
V zájmu našich budoucích prací plánujeme zhodnotit využití kaskádové jezera v rámci různých aplikací HPC, jako jsou WRF, NAMD, GROMACS, CP2K a LAMMPS.