Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Syntetický srovnávací test výkonu superpočítače pomocí škálovatelných procesorů Intel Xeon 2. generace – STREAM, HPL a HPCG

Summary: Přečtěte si informace o rychlosti syntetického benchmarku HPC pomocí 2. generace procesorů Intel® Xeon® Scalable procesorů – STREAM, HPL a HPCG.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Článek napsaný společností Savitha Pareek, Varun Bawa, & Ashish K Singh inovované laboratoře HPC a AI v červnu 2019

2 . generace procesorů Intel® Xeon® škálovatelné procesory řady (Architecture codenamed – na sebe Lake) je nástupcem společnosti Intel a je připraven na svůj primární čas. Tým inženýrů HPC společnosti Dell EMC měl přístup k několika technickým testovacím jednotkám a tento blog představuje výsledky našeho počátečního srovnávacího testu.

Účelem tohoto blogu je znázornit a analyzovat výkon, který je k dispozici na nejnovějších procesorech Intel® Xeon® Scalable Family, a porovnat tak jeho výkon. Pro naši analýzu jsme zvolili srovnání STREAMických, HPL a HPCG. Studie zdůrazňuje vliv na výkon u jednoduchých a také z několika uzlů. Tyto testy byly provedeny na serveru Dell EMC PowerEdge C6420 (s jednou uzlem v jediném uzlu) a s PowerEdge R740 (s vícejádrovými studiemi) a s doporučenými nastaveními systému BIOS pro úlohy HPC. Technologie Cascade Lake obsahuje mnoho vylepšení, jako je například Intel® hluboké učení (Intel dl) s VNNI, vyšší propustností paměti a vyšší výkon a efektivita vektorového plovoucího koncového bodu.

Cause

 

Resolution

Tabulka 1: Informace o testbed

Server

 PowerEdge C6420 & PowerEdge R740

Procesory

Jeden uzel, konfigurace

Konfigurace více uzlů

Server – PowerEdge C6420 & PowerEdge R740

Server – PowerEdge R740

Skylake

Intel Xeon® 6142 [16C@2.6GHz]

Procesor Intel Xeon® 6130 [16C@2.1GHz]

Procesor Intel Xeon® 8180 [28C, 2,5 GHz]

Kaskádový Lake –

Intel Xeon® 8268 [24C@2.90GHz]

Kaskádový Lake –

Procesor Intel Xeon® 6242 [16C, 2,8 GHz]

Procesor Intel Xeon® 6230 [20C@2.1GHz]

Intel Xeon® 8280 [28C, 2.7, 2,7 GHz]

Paměť

Na sebe Lake test – 192GB-12 x 16 GB 2933 MT/s DDR4

Test Skylake – 192GB-12 x 16 GB 2933 MT/s DDR4 (Active 2666 MT/s)

Operační systém

Red Hat Enterprise Linux 7.6

Verze jádra

3.10.0-957.el7.x86_64

Možnosti nástroje BIOS

Turbo = Enabled, Logical Processor = disabled, SubNumaCluster = Enabled, Virtualization Technology = Disabled (zakázáno).

InfiniBand

Cesta Intel Omni s IFS 10.9.2

Kompilátoru

Aktualizace Intel Parallel Studio XE 2018 (4)

Aplikace

Benchmark

Doména

Verze

Konfigurace testu

HPL

Vysoce výkonné LINPACK – výpočetní

Intel MKL Graphics 2018 U4

Velikost problému – 90% z celkové paměti

HPCG

Vysoce výkonný sdružený přechod – výpočetní 

Intel MKL Graphics 2018 U4

Velikost problému – 336 x 336 x 336

Proudu

Propustnost paměti

5.4

Triad

         

Byly provedeny testy, které by měly kvantifikovat následující dva případy:

  • Zlepšení výkonu na jednom uzlu od Skylake po kaskádové Lake
  • Vylepšení výkonu s jedním uzlem vs. multi-node

Stream

Chcete-li získat špičkový propustnost paměti Intel Cascade Lake a Skylake, zvolili jsme srovnávací benchmark, což je standardní referenční srovnávací test v doméně HPC, který se používá k měření trvalých propustností paměti (v GB/s). Hodnota světel Triad byla použita pro porovnání šířky pásma paměti.

SLN317735_en_US__1image (10401)

Figure1: STREAM – Skylake vs – kaskádová Lake

Podporovanou maximální frekvenci paměti pro Skylake je 2 666 MT/s a zároveň podporuje 2 933 MT/s, což znamená 10% vyšší frekvenci paměti díky kaskádovým Lake. Na obrázku 1 jsou na sebe nataženy procesory 7 až 12% více šířky paměti vztahující se k Skylake. Šířka pásma paměti na jader závisí na konkrétní SKU procesoru. Vzhledem k tomu, že některé kaskádové položky SKU mají další jádra vztahující se k Skylake, porovnání šířky pásma základní paměti se liší od celkového porovnání šířky pásma paměti. Podle obrázku 1 mají obě 8280 a 6242 vyšší šířku pásma paměti na jádro až o 7%, než jejich předchůdci. 6230 však obsahuje 11% méně šířky pásma na jádro vzhledem ke 6130 v důsledku 25% nárůstu jádra v případě 6230. Propustnost paměti v rámci jádra může být důležitým faktorem pro aplikace, které jsou citlivé na šířku pásma.

Linpack

Naměřeno výpočetní schopnosti procesorů pomocí technologie Intel LINPACK. Velikost problému (N) je 90% systémové paměti, zatímco velikost bloku (NB) je 384. Zde pokrýváte výkon a škálovatelnost s kaskádovým Lake procesorem.

Skylake vs – kaskádový Lake 

SLN317735_en_US__2image (13765)

Obrázek 2: LINPACK Performance (Skylake vs – kaskádová Lake)

Na obrázku 2 LINPACK ukazuje zlepšení výkonu až o 15% s procesory s kaskádovým Lake. Toto srovnání je založeno na čísle modelu procesoru, porovnání Skylake a jejich následníků Intel Xeon® Scalable Family. Procesory Intel Xeon® 6230 se 4 jádry na jeden soket přináší 15% zvýšení výkonu v průběhu 6130, zatímco 8280 a 6242 s podobným počtem jader jako jejich předchůdci zvýší výkon v důsledku zvýšení základní frekvence procesoru a vyšší šířky pásma paměti.

Výkon více uzlů – Pro studii s více uzly jsme používali cluster 8 uzlů serverů PowerEdge R740 s procesory Intel Xeon® 8268 a zachycenými výsledky pro uzly 1, 2, 4 a 8. Zbytek konfigurace systému je uvedený v tabulce 2.

SLN317735_en_US__3image (10402)

                                                Obrázek 3: LINPACK výkon s více uzly s 8268 @ 2,90 GHz

Obrázek 3 ukazuje, LINPACK výkon pro jeden uzel 8268 je 3059 GFLOPS a 23946 GFLOPS pro 8 uzlů, což znamená 7.83 škálování X od 1 uzlu na 8 uzlů. Efektivita pro jediný uzel je 69%, zatímco ~ 67% pro 2, 4 a 8 uzlů. Efektivita se odmítá z 1 uzlu na 2 uzly; škálovatelnost je však většinou lineární.               

HPCG srovnávací test

Srovnávací HPCG je založen na sdruženém gradientovém řešiteli, kde předprocesor představuje tři úrovně hierarchické metody s více mřížkami (MG) s Gauss-Seidel.

HPCG benchmark vytváří logicky globální a fyzicky distribuovaný řídký lineární systém pomocí vzorníku o 27 bodů v každém bodu mřížky v 3D doméně, takže rovnice v bodu (i, j, k) závisí na jeho hodnotách a 26 sousedních sousedních stran. Globální doména vypočítaná podle benchmarku je (NRx * NX) X (NRy * ny) X (NRz * NZ), kde NX, NY a NZ jsou rozměry místních dílčích mřížek přiřazených ke každému procesu MPI a počtu MPI, které jsou typu NR = (NRx X NRy X NRz).

Pro naši analýzu jsme rozděleni do dvou kategorií –

Skylake vs – kaskádový Lakev této části jsme poznamenali Skylake s kaskádovou Lake pomocí HPCG výkonu. Využili jsme velikost mřížky v 336 ^ 3 , která zabírá vícenež 1/4 v celkové systémové paměti. Počet procesů MPI na uzel a počet vláken byl založen na optimálních výsledcích a využití paměti.

SLN317735_en_US__4image (10403)  

Obrázek 4: HPCG Performance (Skylake vs – kaskádová Lake)

Podle obrázku 4 sledujeme v porovnání s více než svými předchůdci významné HPCG zlepšení výkonu. Protože HPCG je více aplikací s pamětí, zlepšení výkonu pomocí přenosných procesorů na sebe je v souladu s výsledkem srovnávacího benchmarku, kde 6230 vykonává 10% lepších než 6130, 6242 se o 12% lepší než 6142 a 8280 přináší 7% lepší než 8180.   

HPCG s více uzly – pro srovnávací testy s více uzly jsme zvolili velikost místní tabulky dimenzí s hodnotou 336 ^ 3 a Best MPI Process a OpenMP Threads.

SLN317735_en_US__5image (10404)

Obrázek 5: HPCG výkon s více uzly díky kaskádově Lake

Obrázek 5 znázorňuje výkon HPCG s kaskádovým Lake 8268 @ 2.9 GHz a škálováním až 8 uzlů. HPCG Performance je 43GFLOPS pro jeden uzel a 84GFLOPS pro dva uzly, což znamená vylepšení výkonu 1.96 X se dvěma uzly. Jak se pohybujeme vpřed se 4 a 8 uzly, výkon se zlepšuje až 7,7 X.          

Závěr

V rámci dostupnosti kaskádových Lake procesorů mohou systémy PowerEdge nyní podporovat rychlosti paměti až 2933 MT/s s tímto novějším procesorem generace. Naše testy s procesory na sebe Lake zobrazují 7-12% zlepšení výkonu v případě propustnosti paměti, 4-15% zlepšení v HPL a 7-12% zlepšení v HPCGch modelech procesoru, které jsme si porovnali. Všechny kaskádové testy z 1 na 8 uzlů zobrazují dobrou škálovatelnost, jak jsme viděli s Skylake v minulosti.

Kaskádové Lake obsahuje také VNNIé pokyny, které mohou urychlit získávání dílčích úloh, a to díky dvojnásobné 3x, dále je popsána v tomto blogu.

V zájmu našich budoucích prací plánujeme zhodnotit využití kaskádové jezera v rámci různých aplikací HPC, jako jsou WRF, NAMD, GROMACS, CP2K a LAMMPS.

Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000133009
Article Type: Solution
Last Modified: 18 May 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.