Výkon aplikací HPC v řešení C4140 Configuration M

Summary: Podrobnosti o novém řešení serveru Dell EMC PowerEdge C4140 s názvem „Configuration M“.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Článek napsali Frank Han, Rengan Xu a Quy Ta z oddělení Dell EMC HPC and AI Innovation Lab v lednu 2019.

Resolution

Shrnutí

Nedávno k systému Dell EMC PowerEdge C4140 přibylo nové řešení „Configuration M“. Jelikož se tato nejnovější možnost připojila k řadě C4140, tento článek uvádí výsledky studie hodnocení výkonu řešení Configuration M oproti Configuration K pro různé aplikace HPC, včetně HPL, GROMACS a NAMD.

Přehled

PowerEdge C4140 je rackový server 1U se 2 sockety. Je vybaven podporou procesorů Intel Skylake, až 24 sloty DIMM a 4 grafickými kartami NVIDIA Volta s dvojnásobnou šířkou. Řada serverů C4140 obsahuje dvě konfigurace, které podporují technologii NVLINK, a sice Configuration K a Configuration M. Porovnání obou topologií je znázorněno na obrázku 1. Dva hlavní rozdíly mezi těmito dvěma konfiguracemi jsou popsány níže:

Vyšší šířka pásma PCIe: V řešení Configuration K jsou procesory připojeny ke čtyřem grafickým kartám pouze pomocí jednoho spojení PCIe. V řešení Configuration M je však každá grafická karta připojena k procesoru přímo pomocí vyhrazeného spojení PCIe. Proto jsou mezi dvěma procesory se čtyřmi grafickými kartami celkem čtyři spojení PCIe, které v řešení Configuration M zajišťují větší šířku pásma PCIe.
Nižší latence: Řešení Configuration M nemá mezi procesorem a grafickými kartami přepínač PCIe. Přímé připojení snižuje počet přechodů v přenosu dat mezi procesorem a grafickou kartou, takže obousměrné zpoždění je v řešení Configuration M nižší.

Tento blog uvádí výkon aplikací HPC v těchto dvou konfiguracích. Provedli jsme srovnávací testy aplikací HPL, GROMACS a NAMD s grafickými kartami V100-SXM2 16G. V tabulce 1 jsou uvedeny údaje o hardwaru a softwaru.
SLN315976_en_US__2table

p2pBandwidthLatencyTest

SLN315976_en_US__3latency
Obrázek 2: Latence mezi kartami se zakázaným spojením P2P v řešení C4140 Configuration K a M

p2pBandwidthLatencyTest je mikro srovnávací test obsažený v sadě CUDA SDK. Měří latenci a šířku pásma mezi kartami s povolenou i zakázanou funkcí GPUDirect™ Peer-to-Peer. Tento test se zaměřuje na latenci, jelikož program neměří současně šířku pásma. V níže uvedené relaci HPL najdete diskusi o skutečné dostupné šířce pásma pro aplikace. Čísla uvedená na obrázku 2 představují průměr 100násobné jednosměrné latence mezi kartami v mikrosekundách. Pokaždé, když kód odešle jeden bajt z jedné karty do druhé, se v této tabulce vybere číslo zakázaného spojení P2P. A pokud je spojení P2P povoleno, data se místo toho přenesou přes technologii NVLINK. Latence PCIe řešení Configuration M je o 1,368 μs nižší než v případě řešení Configuration K z důvodu různých topologií PCIe.

High Performance Linpack (HPL)

(a) Výkon

(b ) Průměrná šířka pásma PCIe pro každou grafickou kartu V100
SLN315976_en_US__63(12)

Obrázek 3 (a) zobrazuje výkon HPL na platformě C4140 s 1, 2, 4 a 8 grafickými kartami V100-SXM2. Výsledky 1–4 grafických karet pochází z jednoho serveru C4140, výsledek výkonu 8 grafických karet pochází ze dvou serverů. V tomto testu byla použita verze HPL poskytována společností NVIDIA, která byla zkompilována s nedávno vydanými verzemi CUDA 10 a OpenMPI. Z výsledků HPL lze vypozorovat následující aspekty:

1) Jeden uzel: Při testu všech 4 grafických karet je řešení Configuration M přibližně o 16 % rychlejší než Configuration K. Když všechny grafické karty přenášejí data současně, aplikace HPL před spuštěním výpočtu měří dostupné šířky pásma PCIe ze zařízení do hostitele (D2H) a z hostitele do zařízení (H2D) u každé grafické karty. V případě, že aplikace HPL kopíruje matici N*N do všech pamětí grafických karet současně, poskytují tyto údaje užitečné informace o skutečné šířce pásma PCIe pro každou kartu. Jak ukazuje obrázek 3 (b), čísla D2H i H2D řešení Configuration M jsou mnohem vyšší a dosahují teoretické propustnosti PCIe x16. To odpovídá topologii hardwaru, protože každá grafická karta v řešení Configuration M má pro procesor vyhrazená spojení PCIe x16. V řešení Configuration K musí všechny čtyři karty V100 sdílet jedno spojení PCIe x16 přes přepínač PLX PCIe, takže každá z nich má k dispozici rychlost pouze 2,5 GB/s. Vzhledem k rozdílu šířky pásma trvá zkopírování 4 kusů matice N*N 16GB do globální paměti každé grafické karty 1,33 sekund u řešení Configuration M a 5,33 sekund u řešení Configuration K. Celá aplikace HPL běží přibližně 23 až 25 sekund. Vzhledem k tomu, že jsou všechny karty V100-SXM2 stejné, je stejná i doba výpočtu. Díky této 4sekundové úspoře při kopírování dat je řešení Configuration M o 16 % rychlejší.

2) Více uzlů: Výsledky dvou uzlů C4140 s 8 grafickými kartami vykazují minimálně 15% zlepšení aplikace HPL ve dvou uzlech. To znamená, že řešení Configuration M má ze stejného důvodu jako ve výše uvedeném případě 4 karet v samostatném uzlu lepší škálovatelnost napříč uzly než řešení Configuration K.

3) Účinnost: Spotřeba energie byla měřena pomocí řadiče iDRAC. Obrázek 3 (c) ukazuje výkon v časových řadách. Oba systémy dosahují ve špičce výkonu přibližně 1 850 W. Díky vyššímu číslu GFLOPS řešení Configuration M poskytuje vyšší výkon na watt i efektivitu HPL.

HPL je srovnávací test na úrovni systému, jehož výsledky určují komponenty, jako je procesor, grafická karta, paměť a šířka pásma PCIe. Řešení Configuration M používá mezi dvěma procesory vyvážené provedení. Proto v tomto srovnávacím testu HPL překonává řešení Configuration K.

GROMACS

GROMACS je aplikace open source s molekulární dynamikou navržená k simulaci biochemických molekul, jako jsou proteiny, lipidy a nukleové kyseliny, které mají mezi sebou mnoho komplikovaných provázaných interakcí. Verze 2018.3 se testuje na souboru dat vody 3072, která obsahuje 3 miliony atomů.

SLN315976_en_US__71(17)

Obrázek 4: Výsledky výkonu aplikace GROMACS s více kartami V100 v serveru C4140 řešení Configuration K a M.

Na obrázku 4 je znázorněno zlepšení výkonu řešení Configuration M oproti K. Výkon jedné karty je u obou konfigurací stejný, protože se datová cesta nijak neliší. V případě 2 a 4 grafických karet je řešení Configuration M přibližně o 5 % rychlejší než řešení K. Při testování ve 2 uzlech má řešení Configuration M až o 10 % vyšší výkon. Hlavním důvodem je zvýšený počet připojení PCIe, které poskytují větší šířku pásma a umožňují rychlé odesílání většího počtu dat do grafických karet. Aplikace GROMACS je lépe akcelerována grafickými kartami, k výpočtu však paralelně používá jak grafické karty, tak i procesor. Je-li proto GROMACS hlavní aplikací v clusteru, doporučujeme použít výkonný procesor. Tento graf také zobrazuje škálování výkonu aplikace GROMACS v případě více serverů a grafických karet. Výkon aplikace se s větším množstvím grafických karet a serverů zvyšuje, ale v případě dalších grafických karet není nárůst výkonu lineární.

NAnoscale Molecular Dynamics (NAMD)

NAMD je kód molekulární dynamiky navržený pro vysoce výkonné simulaci velkých biomolekulárních systémů. V těchto testech nebyl použit přednastavený binární kód. Namísto toho byl kód NAMD vytvořen pomocí nejnovějšího zdrojového kódu (NAMD_Git-2018-10-31_Source) v architektuře CUDA 10. Obrázek 4 znázorňuje výsledky výkonu pomocí datové sady STMV (1 066 628 atomů, pravidelné, PME). Testy v menších datových sadách, jako je f1atpase (327 506 atomů, periodická, PME) a apoa1 (92 224 atomů, periodická, PME) vedly k podobnému srovnání mezi řešeními Configuration M a Configuration K, z důvodu stručnosti zde však nejsou uvedeny.

SLN315976_en_US__81(16)
Obrázek 5: Výsledky výkonu aplikace NAMD s více kartami V100 v serveru C4140 řešení Configuration K a M.

Podobně jako je tomu u aplikace GROMACS, i v případě aplikace NAMD pomáhá výkonu 4krát větší šířka pásma PCIe. Obrázek 5 ukazuje, že výkon řešení Configuration M se 2 kartami je v případě datové sady STMV o 16 % vyšší a se 4 kartami o 30 % vyšší než řešení Configuration K. Očekává se, že výkon jedné karty bude stejný, protože při testu s jednou grafickou kartou je šířka pásma rozhraní PCIe také stejná.

Závěry a budoucí práce

Na tomto blogu byl porovnán výkon aplikací HPC s HPL, GROMACS a NAMD ve dvou různých konfiguracích NVLINK serveru PowerEdge C4140. Aplikace HPL, GROMACS a NAMD mají v řešení Configuration M přibližně o 10 % lepší výkon než v řešení Configuration K. Ve všech testech řešení Configuration M poskytuje minimálně stejný výkon jako řešení Configuration K, protože sdílí všechny dobré funkce, a také má více spojení PCIe a neobsahuje žádné přepínače PCIe. Do budoucna se plánují další testy více aplikací, jako je RELION, HOOMD a AMBER, a také testy s grafickou kartou V100 32G.

Affected Products

High Performance Computing Solution Resources, Poweredge C4140

Article Number: 000181595

Article Type: Solution

Last Modified: 21 Feb 2021

Version: 2

Check if your device is covered by Support Services.

Výkon aplikací HPC v řešení C4140 Configuration M

Summary: Podrobnosti o novém řešení serveru Dell EMC PowerEdge C4140 s názvem „Configuration M“.

Symptoms

Resolution

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Výkon aplikací HPC v řešení C4140 Configuration M

Summary: Podrobnosti o novém řešení serveru Dell EMC PowerEdge C4140 s názvem „Configuration M“.

Detailed Article

Symptoms

Resolution

Affected Products

Symptoms

Resolution

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services