Jako nástupce architektury Volta je Turing™ nejnovější řadou grafických karet NVIDIA®. Grafická karta Turing™ je vybavena technologií GeForce®, která se používá k vykreslení vysoce realistických her, a technologií Quadro®, která urychluje pracovní postupy vytváření obsahu. Řada NVIDIA® Tesla® dokáže v datových centrech zpracovávat systémy umělé inteligence a pracovní postupy superpočítačů. NVIDIA® Tesla® T4 je na trhu jedinou grafickou kartou pro servery, která je vybavena architekturou Turing™ a je podporována servery Dell EMC PowerEdge R640, R740, R740xd a R7425. Tento blog se zabývá výkonem nových karet Tesla T4 a porovnává je s nejnovějšími kartami Volta V100-PCIe v serveru PowerEdge R740 pro různé aplikace superpočítačů, včetně HOOMD-blue, Amber, NAMD a HPL.
Server PowerEdge R740 je server 2U Intel® pro montáž do racku založený na procesoru Skylake, který poskytuje ideální rovnováhu mezi úložištěm, I/O a podporou akcelerátoru. Podporuje až čtyři* grafické karty T4 s jedním slotem nebo tři karty V100-PCIe se dvěma sloty x16 PCIe 3.0. Tabulka 1 zobrazuje rozdíly mezi kartami T4 a V100. Karta Volta™ V100 je k dispozici v konfiguracích s 16 GB a 32 GB pamětí. Vzhledem k tomu, že je karta T4 k dispozici pouze v 16GB verzi, byla k porovnání výkonu použita karta V100 s 16GB pamětí. V Tabulce 2 jsou uvedeny údaje o hardwaru a softwaru testbedu.
Tabulka 1: Srovnání karet T4 a V100
Tesla V100-PCIe |
Tesla T4 |
|
---|---|---|
Architektura |
Volta |
Turing |
Jádra CUDA |
5120 |
2560 |
Jádra Tensor |
640 |
320 |
Výpočetní schopnost |
7,0 |
7,5 |
Taktovací frekvence grafické karty |
1245 MHz |
585 MHz |
Zvýšení taktovací frekvence |
1 380 MHz |
1 590 MHz |
Typ paměti |
HBM2 |
GDDR6 |
Paměťová sběrnice |
4 096 bitů |
256 bitů |
Šířka pásma |
900 GB/s |
320 GB/s |
Šířka slotu |
Dva sloty |
Jeden slot |
FP32 s jednoduchou přesností |
14 TFLOPS |
8.1 TFLOPS |
Kombinovaná přesnost (FP16/FP32) |
112 TFLOPS |
65 TFLOPS |
FP64 dvojitá přesnost |
7 TFLOPS |
254,4 GFLOPS |
TDP |
250 W |
70 W |
Tabulka 2: Podrobnosti o konfiguraci R740 a verzi softwaru
Procesor |
2x Intel® Xeon® Gold 6136 s frekvencí 3,0 GHz, 12 jader |
---|---|
Paměť |
384 G (12 × 32 G při frekvenci 2 666 MHz) |
Místní disk |
480G SSD |
Operační systém |
Red Hat Enterprise Linux Server verze 7.5 |
GPU |
3x V100-PCIe 16 GB nebo 4x T4 16 GB |
Ovladač CUDA |
410.66 |
Sada nástrojů CUDA |
10.0 |
Nastavení procesoru > Logické procesory |
Disabled |
Profily systému |
Výkon |
HPL |
Kompilováno s architekturou CUDA 10.0 |
NAMD |
NAMD_Git-2019-02-11 |
Žlutá |
18.12 |
HOOMD-blue |
v2.5.0 |
OpenMPI |
4.0.0 |
Obrázek 1: Výsledky výkonu HOOMD-blue s jednoduchou a dvojitou přesností u karet V100 a T4 v serveru PowerEdge R740
HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics - blue) je obecný molekulární dynamický simulátor. Ve výchozím nastavení je simulátor HOOMD-blue kompilován v dvojité přesnosti (FP64) a verze 2.5 obsahuje parametr SINGLE_PRECISION=ON, který ji dokáže přinutit kompilovat v jednoduché přesnosti (FP32). Obrázek 1 znázorňuje výsledky datové sady mikrosféry pro jednoduchou a dvojitou přesnost. Osa x představuje počet grafických karet a metrika výkonu je doba, po kterou se spouští kroky 10e6.
Jedním výsledkem je, že výkon FP64 karty T4 je poměrně nízký. Důvodem je omezení hardwaru. Karta T4 může teoreticky v dvojité přesnosti dodat špičkový výkon 254 GFLOPS (viz Tabulka 1), zatímco karta V100 je asi 27x lepší. Ale výkon aplikací, jako je HOOMD-blue, které lze zkompilovat a spustit s jednoduchou přesností, mohou mít lepší výkon díky možnosti kompilace FP32. Komunita aplikace HOOMD-blue zvážila naše návrhy na podporu kombinované přesnosti ve všech modulech HOOMD-blue. Jakmile je toto provedeno, aplikace HOOMD-blue může díky hardwaru s podporou kombinované přesnosti dosáhnout lepšího výkonu.
Při porovnání výkonu karet T4 a V100 s jednoduchou přesností jsme zjistili, že karta V100 je 3x lepší než T4. Takový výkon karty T4 se očekává z důvodu počtu jader CUDA a energetického ohodnocení akcelerátoru.
Grafické karty jsou v serveru PowerEdge R740 připojeny prostřednictvím rozhraní PCIe. V případě tří datových bodů grafické karty V100 se sběrnice PCIe nasytí v důsledku komunikace typu peer-to-peer. To má vliv na celkový výkon, což vede ke stejnému výkonu, jaký má jedna grafická karta.
Amber je kolektivní název sady programů, který umožňuje uživatelům provádět simulace molekulární dynamiky, zejména v oblasti biomolekul. Termín Amber se také používá k označení empirických silových polí, která jsou implementována v této sadě. Verze Amber 18.12 s nástroji AmberTools 18.13 se testuje pomocí sady srovnávacích testů Amber 18 Benchmark Suite, která zahrnuje datové sady JAC, celulózy, FactorIX, STMV, TRPCage, myoglobinu a nukleozomů.
Obrázek 2: Výsledky explicitního rozpouštědla Amber v případě karet V100 a T4 v serveru PowerEdge R740
Obrázek 3: Výsledky implicitního rozpouštědla Amber v případě karet V100s a T4 v serveru PowerEdge R740
Obrázek 2 a Obrázek 3 ukazují údaje o výkonu jedné karty a celého systému v případě explicitního a implicitního rozpouštědla. Datový bod „system“ z výše uvedeného grafu představuje celkovou agregovanou propustnost všech grafických karet. Server PowerEdge R740 podporuje tři karty V100 nebo čtyři T4, takže červené a modré sloupce „system“ představují výsledky dosažené pomocí tři karet V100 nebo čtyř karet T4.
Důvodem, proč se upřednostňují agregovaná data více grafických karet, je, že řadu Pascal a novější grafické karty nelze pro aplikaci Amber škálovat nad rámec jednoho akcelerátoru. Uživatelé obvykle pracují s více simulacemi na jiných grafických kartách souběžně. S ohledem na výkon velké datové sady, jako je STMV (1 067 095 atomů), představuje jedna karta T4 33 % a celý systém 44 % kapacity karty V100. Datové sady jako TRPCage (pouze 304 atomů) jsou příliš malé na to, aby byly karty V100 účinné – jejich výkon není o mnoho rychlejší než u karet T4, jelikož jsou určena pro větší cykly PME. Na základě výsledků na oficiální webové stránce Amber jsou grafické karty téměř vždy tři až čtyřikrát rychlejší než v případě použití pouze s procesorem. Karta T4 je proto ideální pro použití v serveru, který se zabývá malými datovými sadami.
Obrázek 4: Výsledky výkonu NAMD karet V100 a T4 na serveru PowerEdge R740
NAMD je kód molekulární dynamiky navržený pro vysoce výkonné simulaci velkých biomolekulárních systémů. V rámci těchto testů nebyl použit předem sestavený binární soubor. Namísto toho byl kód NAMD vytvořen pomocí nejnovějšího zdrojového kódu (NAMD_Git-2019-02-11) s architekturou CUDA 10.0. Pro dosažení nejlepšího výkonu byl kód NAMD zkompilován pomocí kompilátoru Intel® a knihoven (verze 2018u3). Obrázek 4 znázorňuje výsledky výkonu pomocí datové sady STMV (1 066 628 atomů, pravidelné, PME). Kód NAMD nelze škálovat nad rámec jedné karty V100, ale lze jej dobře škálovat pomocí tří karet T4. Jedna grafická karta T4 dodává 42 % výkonu karty V100. Toto je slušný výkon, když uvážíme, že dosahuje pouze 28 % nejvyššího tepelného výkonu karty V100. Karta T4 je proto vhodná pro datová centra s omezenou možností napájení a chlazení.
Obrázek 5: Výsledky HPL karet V100 a T4 na serveru PowerEdge R740
Obrázek 5 znázorňuje výkon HPL na serveru PowerEdge R740 s několika grafickými kartami V100 nebo T4. Podle očekávání se údaje HPL v případě karet V100 a T4 dobře škálují pomocí více grafických karet. Ale výkon u karty T4 je výrazně menší než u karty V100 z důvodu omezení FP64. Vzhledem k omezené funkci dvojité přesnosti na kartě T4 není srovnání výkonu s kartou V100 ideální a karta Volta V100 zůstává pro aplikace s dvojitou přesností nejlepší volbou.
Na tomto blogu byl mezi kartami V100 a T4 v serveru Dell EMC PowerEdge R740 porovnán výkon aplikací HPC jako s HOOMD-blue, Amber, NAMD a HPL. Karta T4 se nepoužívá pouze pro hluboké učení; je také výhodná pro aplikace HPC s jednoduchou nebo kombinovanou přesností. Její nízký nejvyšší tepelný výkon může pomoci urychlit tradiční datová centra, kde jsou omezené možnosti napájení a chlazení. Provedení rozhraní PCIe karet T4 je vhodné pro obecnější servery PowerEdge. Do budoucna počítá s dalšími testy u více aplikací, jako je RELION, GROMACS a LAMMPS, a také testy pro aplikace, které mohou využívat kombinovanou přesnost.
* Zřeknutí se odpovědnosti: Pro účely srovnávání byly použity čtyři grafické karty T4 v serveru Dell PowerEdge R740. V současné době server PowerEdge R740 oficiálně podporuje maximálně tři karty T4 ve slotech x16 PCIe.