Skip to main content

Výkon aplikací superpočítače s architekturou Turing

Summary: Článek napsali Frank Han, Rengan Xu, Deepthi Cherlopalle a Quy Ta z oddělení Dell EMC HPC and AI Innovation Lab v březnu 2019

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms


Obsah:

  1. Shrnutí
  2. Přehled
  3. HOOMD-blue
  4. Žlutá
  5. NAnoscale Molecular Dynamics (NAMD)
  6. High Performance Linpack (HPL)
  7. Závěry a budoucí práce

 

Shrnutí

 

Jako nástupce architektury Volta je Turing™ nejnovější řadou grafických karet NVIDIA®. Grafická karta Turing™ je vybavena technologií GeForce®, která se používá k vykreslení vysoce realistických her, a technologií Quadro®, která urychluje pracovní postupy vytváření obsahu. Řada NVIDIA® Tesla® dokáže v datových centrech zpracovávat systémy umělé inteligence a pracovní postupy superpočítačů. NVIDIA® Tesla® T4 je na trhu jedinou grafickou kartou pro servery, která je vybavena architekturou Turing™ a je podporována servery Dell EMC PowerEdge R640, R740, R740xd a R7425. Tento blog se zabývá výkonem nových karet Tesla T4 a porovnává je s nejnovějšími kartami Volta V100-PCIe v serveru PowerEdge R740 pro různé aplikace superpočítačů, včetně HOOMD-blue, Amber, NAMD a HPL.


Zpět na začátek


 

Přehled

 

Server PowerEdge R740 je server 2U Intel® pro montáž do racku založený na procesoru Skylake, který poskytuje ideální rovnováhu mezi úložištěm, I/O a podporou akcelerátoru. Podporuje až čtyři* grafické karty T4 s jedním slotem nebo tři karty V100-PCIe se dvěma sloty x16 PCIe 3.0.  Tabulka 1 zobrazuje rozdíly mezi kartami T4 a V100. Karta Volta™ V100 je k dispozici v konfiguracích s 16 GB a 32 GB pamětí.  Vzhledem k tomu, že je karta T4 k dispozici pouze v 16GB verzi, byla k porovnání výkonu použita karta V100 s 16GB pamětí. V Tabulce 2 jsou uvedeny údaje o hardwaru a softwaru testbedu.

Tabulka 1: Srovnání karet T4 a V100

 

Tesla V100-PCIe

Tesla T4

Architektura

Volta

Turing

Jádra CUDA

5120

2560

Jádra Tensor

640

320

Výpočetní schopnost

7,0

7,5

Taktovací frekvence grafické karty

1245 MHz

585 MHz

Zvýšení taktovací frekvence

1 380 MHz

1 590 MHz

Typ paměti

HBM2

GDDR6

Paměťová sběrnice

4 096 bitů

256 bitů

Šířka pásma

900 GB/s

320 GB/s

Šířka slotu

Dva sloty

Jeden slot

FP32 s jednoduchou přesností

14 TFLOPS

8.1 TFLOPS

Kombinovaná přesnost (FP16/FP32)

112 TFLOPS

65 TFLOPS

FP64 dvojitá přesnost

7 TFLOPS

254,4 GFLOPS

TDP

250 W

70 W

 

Tabulka 2: Podrobnosti o konfiguraci R740 a verzi softwaru

Procesor

2x Intel® Xeon® Gold 6136 s frekvencí 3,0 GHz, 12 jader

Paměť

384 G (12 × 32 G při frekvenci 2 666 MHz)

Místní disk

480G SSD

Operační systém

Red Hat Enterprise Linux Server verze 7.5

GPU

3x V100-PCIe 16 GB nebo 4x T4 16 GB

Ovladač CUDA

410.66

Sada nástrojů CUDA

10.0

Nastavení procesoru > Logické procesory

Disabled

Profily systému

Výkon

HPL

Kompilováno s architekturou CUDA 10.0

NAMD

NAMD_Git-2019-02-11

Žlutá

18.12

HOOMD-blue

v2.5.0

OpenMPI

4.0.0

 


Zpět na začátek


 

Cause

HOOMD-blue

 

SLN316570_en_US__1image(9290)

Obrázek 1: Výsledky výkonu HOOMD-blue s jednoduchou a dvojitou přesností u karet V100 a T4 v serveru PowerEdge R740

HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics - blue) je obecný molekulární dynamický simulátor. Ve výchozím nastavení je simulátor HOOMD-blue kompilován v dvojité přesnosti (FP64) a verze 2.5 obsahuje parametr SINGLE_PRECISION=ON, který ji dokáže přinutit kompilovat v jednoduché přesnosti (FP32). Obrázek 1 znázorňuje výsledky datové sady mikrosféry pro jednoduchou a dvojitou přesnost. Osa x představuje počet grafických karet a metrika výkonu je doba, po kterou se spouští kroky 10e6.

  1. Jedním výsledkem je, že výkon FP64 karty T4 je poměrně nízký. Důvodem je omezení hardwaru. Karta T4 může teoreticky v dvojité přesnosti dodat špičkový výkon 254 GFLOPS (viz Tabulka 1), zatímco karta V100 je asi 27x lepší. Ale výkon aplikací, jako je HOOMD-blue, které lze zkompilovat a spustit s jednoduchou přesností, mohou mít lepší výkon díky možnosti kompilace FP32. Komunita aplikace HOOMD-blue zvážila naše návrhy na podporu kombinované přesnosti ve všech modulech HOOMD-blue. Jakmile je toto provedeno, aplikace HOOMD-blue může díky hardwaru s podporou kombinované přesnosti dosáhnout lepšího výkonu.

  2. Při porovnání výkonu karet T4 a V100 s jednoduchou přesností jsme zjistili, že karta V100 je 3x lepší než T4. Takový výkon karty T4 se očekává z důvodu počtu jader CUDA a energetického ohodnocení akcelerátoru.

  3. Grafické karty jsou v serveru PowerEdge R740 připojeny prostřednictvím rozhraní PCIe. V případě tří datových bodů grafické karty V100 se sběrnice PCIe nasytí v důsledku komunikace typu peer-to-peer. To má vliv na celkový výkon, což vede ke stejnému výkonu, jaký má jedna grafická karta.

 


Zpět na začátek


 

Žlutá

 


Amber je kolektivní název sady programů, který umožňuje uživatelům provádět simulace molekulární dynamiky, zejména v oblasti biomolekul. Termín Amber se také používá k označení empirických silových polí, která jsou implementována v této sadě. Verze Amber 18.12 s nástroji AmberTools 18.13 se testuje pomocí sady srovnávacích testů Amber 18 Benchmark Suite, která zahrnuje datové sady JAC, celulózy, FactorIX, STMV, TRPCage, myoglobinu a nukleozomů.

SLN316570_en_US__2image(9276)

Obrázek 2: Výsledky explicitního rozpouštědla Amber v případě karet V100 a T4 v serveru PowerEdge R740

SLN316570_en_US__3image(9277)

Obrázek 3: Výsledky implicitního rozpouštědla Amber v případě karet V100s a T4 v serveru PowerEdge R740 

Obrázek 2 a Obrázek 3 ukazují údaje o výkonu jedné karty a celého systému v případě explicitního a implicitního rozpouštědla.  Datový bod „system“ z výše uvedeného grafu představuje celkovou agregovanou propustnost všech grafických karet. Server PowerEdge R740 podporuje tři karty V100 nebo čtyři T4, takže červené a modré sloupce „system“ představují výsledky dosažené pomocí tři karet V100 nebo čtyř karet T4.

Důvodem, proč se upřednostňují agregovaná data více grafických karet, je, že řadu Pascal a novější grafické karty nelze pro aplikaci Amber škálovat nad rámec jednoho akcelerátoru. Uživatelé obvykle pracují s více simulacemi na jiných grafických kartách souběžně. S ohledem na výkon velké datové sady, jako je STMV (1 067 095 atomů), představuje jedna karta T4 33 % a celý systém 44 % kapacity karty V100. Datové sady jako TRPCage (pouze 304 atomů) jsou příliš malé na to, aby byly karty V100 účinné – jejich výkon není o mnoho rychlejší než u karet T4, jelikož jsou určena pro větší cykly PME. Na základě výsledků na oficiální webové stránce Amber jsou grafické karty téměř vždy tři až čtyřikrát rychlejší než v případě použití pouze s procesorem. Karta T4 je proto ideální pro použití v serveru, který se zabývá malými datovými sadami.


Zpět na začátek


 

Resolution

NAnoscale Molecular Dynamics (NAMD)

 

SLN316570_en_US__4image(9278)

Obrázek 4: Výsledky výkonu NAMD karet V100 a T4 na serveru PowerEdge R740

NAMD je kód molekulární dynamiky navržený pro vysoce výkonné simulaci velkých biomolekulárních systémů. V rámci těchto testů nebyl použit předem sestavený binární soubor. Namísto toho byl kód NAMD vytvořen pomocí nejnovějšího zdrojového kódu (NAMD_Git-2019-02-11) s architekturou CUDA 10.0. Pro dosažení nejlepšího výkonu byl kód NAMD zkompilován pomocí kompilátoru Intel® a knihoven (verze 2018u3). Obrázek 4 znázorňuje výsledky výkonu pomocí datové sady STMV (1 066 628 atomů, pravidelné, PME). Kód NAMD nelze škálovat nad rámec jedné karty V100, ale lze jej dobře škálovat pomocí tří karet T4. Jedna grafická karta T4 dodává 42 % výkonu karty V100. Toto je slušný výkon, když uvážíme, že dosahuje pouze 28 % nejvyššího tepelného výkonu karty V100. Karta T4 je proto vhodná pro datová centra s omezenou možností napájení a chlazení.


Zpět na začátek


 

High Performance Linpack (HPL)

 

SLN316570_en_US__5image(9283)

Obrázek 5: Výsledky HPL karet V100 a T4 na serveru PowerEdge R740

Obrázek 5 znázorňuje výkon HPL na serveru PowerEdge R740 s několika grafickými kartami V100 nebo T4. Podle očekávání se údaje HPL v případě karet V100 a T4 dobře škálují pomocí více grafických karet. Ale výkon u karty T4 je výrazně menší než u karty V100 z důvodu omezení FP64. Vzhledem k omezené funkci dvojité přesnosti na kartě T4 není srovnání výkonu s kartou V100 ideální a karta Volta V100 zůstává pro aplikace s dvojitou přesností nejlepší volbou.


Zpět na začátek


 

Závěry a budoucí práce

 

Na tomto blogu byl mezi kartami V100 a T4 v serveru Dell EMC PowerEdge R740 porovnán výkon aplikací HPC jako s HOOMD-blue, Amber, NAMD a HPL. Karta T4 se nepoužívá pouze pro hluboké učení; je také výhodná pro aplikace HPC s jednoduchou nebo kombinovanou přesností. Její nízký nejvyšší tepelný výkon může pomoci urychlit tradiční datová centra, kde jsou omezené možnosti napájení a chlazení. Provedení rozhraní PCIe karet T4 je vhodné pro obecnější servery PowerEdge. Do budoucna počítá s dalšími testy u více aplikací, jako je RELION, GROMACS a LAMMPS, a také testy pro aplikace, které mohou využívat kombinovanou přesnost.

* Zřeknutí se odpovědnosti: Pro účely srovnávání byly použity čtyři grafické karty T4 v serveru Dell PowerEdge R740. V současné době server PowerEdge R740 oficiálně podporuje maximálně tři karty T4 ve slotech x16 PCIe.


Zpět na začátek


Affected Products

High Performance Computing Solution Resources, PowerEdge R740
Article Properties
Article Number: 000130819
Article Type: Solution
Last Modified: 28 Sep 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.