Shrnutí
Nedávno k systému Dell EMC PowerEdge C4140 přibylo nové řešení „Configuration M“. Jelikož se tato nejnovější možnost připojila k řadě C4140, tento článek uvádí výsledky studie hodnocení výkonu řešení Configuration M oproti Configuration K pro různé aplikace HPC, včetně HPL, GROMACS a NAMD.
Přehled
PowerEdge C4140 je rackový server 1U se 2 sockety. Je vybaven podporou procesorů Intel Skylake, až 24 sloty DIMM a 4 grafickými kartami NVIDIA Volta s dvojnásobnou šířkou. Řada serverů C4140 obsahuje dvě konfigurace, které podporují technologii NVLINK, a sice Configuration K a Configuration M. Porovnání obou topologií je znázorněno na obrázku 1. Dva hlavní rozdíly mezi těmito dvěma konfiguracemi jsou popsány níže:
p2pBandwidthLatencyTest
Obrázek 2: Latence mezi kartami se zakázaným spojením P2P v řešení C4140 Configuration K a M
p2pBandwidthLatencyTest je mikro srovnávací test obsažený v sadě CUDA SDK. Měří latenci a šířku pásma mezi kartami s povolenou i zakázanou funkcí GPUDirect™ Peer-to-Peer. Tento test se zaměřuje na latenci, jelikož program neměří současně šířku pásma. V níže uvedené relaci HPL najdete diskusi o skutečné dostupné šířce pásma pro aplikace. Čísla uvedená na obrázku 2 představují průměr 100násobné jednosměrné latence mezi kartami v mikrosekundách. Pokaždé, když kód odešle jeden bajt z jedné karty do druhé, se v této tabulce vybere číslo zakázaného spojení P2P. A pokud je spojení P2P povoleno, data se místo toho přenesou přes technologii NVLINK. Latence PCIe řešení Configuration M je o 1,368 μs nižší než v případě řešení Configuration K z důvodu různých topologií PCIe.
High Performance Linpack (HPL)
Obrázek 3 (a) zobrazuje výkon HPL na platformě C4140 s 1, 2, 4 a 8 grafickými kartami V100-SXM2. Výsledky 1–4 grafických karet pochází z jednoho serveru C4140, výsledek výkonu 8 grafických karet pochází ze dvou serverů. V tomto testu byla použita verze HPL poskytována společností NVIDIA, která byla zkompilována s nedávno vydanými verzemi CUDA 10 a OpenMPI. Z výsledků HPL lze vypozorovat následující aspekty:
1) Jeden uzel: Při testu všech 4 grafických karet je řešení Configuration M přibližně o 16 % rychlejší než Configuration K. Když všechny grafické karty přenášejí data současně, aplikace HPL před spuštěním výpočtu měří dostupné šířky pásma PCIe ze zařízení do hostitele (D2H) a z hostitele do zařízení (H2D) u každé grafické karty. V případě, že aplikace HPL kopíruje matici N*N do všech pamětí grafických karet současně, poskytují tyto údaje užitečné informace o skutečné šířce pásma PCIe pro každou kartu. Jak ukazuje obrázek 3 (b), čísla D2H i H2D řešení Configuration M jsou mnohem vyšší a dosahují teoretické propustnosti PCIe x16. To odpovídá topologii hardwaru, protože každá grafická karta v řešení Configuration M má pro procesor vyhrazená spojení PCIe x16. V řešení Configuration K musí všechny čtyři karty V100 sdílet jedno spojení PCIe x16 přes přepínač PLX PCIe, takže každá z nich má k dispozici rychlost pouze 2,5 GB/s. Vzhledem k rozdílu šířky pásma trvá zkopírování 4 kusů matice N*N 16GB do globální paměti každé grafické karty 1,33 sekund u řešení Configuration M a 5,33 sekund u řešení Configuration K. Celá aplikace HPL běží přibližně 23 až 25 sekund. Vzhledem k tomu, že jsou všechny karty V100-SXM2 stejné, je stejná i doba výpočtu. Díky této 4sekundové úspoře při kopírování dat je řešení Configuration M o 16 % rychlejší.
2) Více uzlů: Výsledky dvou uzlů C4140 s 8 grafickými kartami vykazují minimálně 15% zlepšení aplikace HPL ve dvou uzlech. To znamená, že řešení Configuration M má ze stejného důvodu jako ve výše uvedeném případě 4 karet v samostatném uzlu lepší škálovatelnost napříč uzly než řešení Configuration K.
3) Účinnost: Spotřeba energie byla měřena pomocí řadiče iDRAC. Obrázek 3 (c) ukazuje výkon v časových řadách. Oba systémy dosahují ve špičce výkonu přibližně 1 850 W. Díky vyššímu číslu GFLOPS řešení Configuration M poskytuje vyšší výkon na watt i efektivitu HPL.
HPL je srovnávací test na úrovni systému, jehož výsledky určují komponenty, jako je procesor, grafická karta, paměť a šířka pásma PCIe. Řešení Configuration M používá mezi dvěma procesory vyvážené provedení. Proto v tomto srovnávacím testu HPL překonává řešení Configuration K.
GROMACS
GROMACS je aplikace open source s molekulární dynamikou navržená k simulaci biochemických molekul, jako jsou proteiny, lipidy a nukleové kyseliny, které mají mezi sebou mnoho komplikovaných provázaných interakcí. Verze 2018.3 se testuje na souboru dat vody 3072, která obsahuje 3 miliony atomů.
Obrázek 4: Výsledky výkonu aplikace GROMACS s více kartami V100 v serveru C4140 řešení Configuration K a M.
Na obrázku 4 je znázorněno zlepšení výkonu řešení Configuration M oproti K. Výkon jedné karty je u obou konfigurací stejný, protože se datová cesta nijak neliší. V případě 2 a 4 grafických karet je řešení Configuration M přibližně o 5 % rychlejší než řešení K. Při testování ve 2 uzlech má řešení Configuration M až o 10 % vyšší výkon. Hlavním důvodem je zvýšený počet připojení PCIe, které poskytují větší šířku pásma a umožňují rychlé odesílání většího počtu dat do grafických karet. Aplikace GROMACS je lépe akcelerována grafickými kartami, k výpočtu však paralelně používá jak grafické karty, tak i procesor. Je-li proto GROMACS hlavní aplikací v clusteru, doporučujeme použít výkonný procesor. Tento graf také zobrazuje škálování výkonu aplikace GROMACS v případě více serverů a grafických karet. Výkon aplikace se s větším množstvím grafických karet a serverů zvyšuje, ale v případě dalších grafických karet není nárůst výkonu lineární.
NAnoscale Molecular Dynamics (NAMD)
NAMD je kód molekulární dynamiky navržený pro vysoce výkonné simulaci velkých biomolekulárních systémů. V těchto testech nebyl použit přednastavený binární kód. Namísto toho byl kód NAMD vytvořen pomocí nejnovějšího zdrojového kódu (NAMD_Git-2018-10-31_Source) v architektuře CUDA 10. Obrázek 4 znázorňuje výsledky výkonu pomocí datové sady STMV (1 066 628 atomů, pravidelné, PME). Testy v menších datových sadách, jako je f1atpase (327 506 atomů, periodická, PME) a apoa1 (92 224 atomů, periodická, PME) vedly k podobnému srovnání mezi řešeními Configuration M a Configuration K, z důvodu stručnosti zde však nejsou uvedeny.
Obrázek 5: Výsledky výkonu aplikace NAMD s více kartami V100 v serveru C4140 řešení Configuration K a M.
Podobně jako je tomu u aplikace GROMACS, i v případě aplikace NAMD pomáhá výkonu 4krát větší šířka pásma PCIe. Obrázek 5 ukazuje, že výkon řešení Configuration M se 2 kartami je v případě datové sady STMV o 16 % vyšší a se 4 kartami o 30 % vyšší než řešení Configuration K. Očekává se, že výkon jedné karty bude stejný, protože při testu s jednou grafickou kartou je šířka pásma rozhraní PCIe také stejná.
Závěry a budoucí práce
Na tomto blogu byl porovnán výkon aplikací HPC s HPL, GROMACS a NAMD ve dvou různých konfiguracích NVLINK serveru PowerEdge C4140. Aplikace HPL, GROMACS a NAMD mají v řešení Configuration M přibližně o 10 % lepší výkon než v řešení Configuration K. Ve všech testech řešení Configuration M poskytuje minimálně stejný výkon jako řešení Configuration K, protože sdílí všechny dobré funkce, a také má více spojení PCIe a neobsahuje žádné přepínače PCIe. Do budoucna se plánují další testy více aplikací, jako je RELION, HOOMD a AMBER, a také testy s grafickou kartou V100 32G.