Wydajność aplikacji HPC z rozwiązaniem Turing

Summary: Autorzy artykułu: Frank Han, Rengan Xu, Deepthi Cherlopalle i Quy Ta z laboratorium HPC and AI Innovation Lab firmy Dell EMC, marzec 2019 r.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Następca architektury Volta, Turing™, to najnowsza rodzina procesorów graficznych firmy NVIDIA®. Procesory graficzne Turing™ są dostępne w kartach GeForce®, w których służą do renderowania wysoce realistycznych gier, a także w kartach Quadro®, gdzie umożliwiają akcelerację przepływów pracy związanych z tworzeniem treści. Seria NVIDIA® Tesla® została stworzona w celu obsługi systemów sztucznej inteligencji i systemów obliczeniowych o wysokiej wydajności (HPC) w centrach przetwarzania danych. NVIDIA® Tesla® T4 to jedyna karta graficzna klasy serwerowej z mikroarchitekturą Turing™ dostępna obecnie na rynku. Jest obsługiwana przez serwery Dell EMC PowerEdge R640, R740, R740xd i R7425. Ten blog zawiera opis wydajności nowej karty graficznej Tesla T4 w porównaniu z najnowszą kartą Volta V100-PCIe w serwerze PowerEdge R740 w różnych zastosowaniach HPC, w tym HOOMD-Blue, Amber, NAMD i HPL.

Powrót do góry

Omówienie

Serwer PowerEdge R740 to oparty na procesorze Intel® Skylake serwer montowany w szafie serwerowej 2U, który zapewnia idealną równowagę między pamięcią masową, we/wy i akceleracją. Obsługuje maksymalnie cztery* jednogniazdowe karty T4 lub trzy dwugniazdowe karty V100-PCIe w gniazdach x16 PCIe 3.0. Tabela 1 przedstawia różnice pomiędzy pojedynczymi kartami T4 i V100. Karty Volta™ V100 są dostępne w konfiguracji z 16 GB lub 32 GB pamięci. Karta T4 jest dostępna tylko w wersji 16 GB, w związku czym w teście użyto karty V100 z 16 GB pamięci, aby zapewnić możliwe do porównania wyniki wydajności. Tabela 2 przedstawia szczegóły dotyczące sprzętu i oprogramowania stanowiska badawczego.

Tabela 1: Różnica między T4 a V100:

	Tesla V100-PCIe	Tesla T4
Architektura	Volta	Turing
Rdzenie CUDA	5120	2560
Rdzenie Tensor	640	320
Zdolności obliczeniowe	7,0	7,5
Zegar procesora graficznego	1245 MHz	585 MHz
Zegar przyspieszenia	1380 MHz	1590 MHz
Typ pamięci	HBM2	GDDR6
Magistrala pamięci	4096 bitów	256 bitów
Przepustowość	900 GB/s	320 GB/s
Szerokość gniazda	Podwójne gniazdo	Pojedyncze gniazdo
Pojedyncza precyzja FP32	14 TFLOPS	8,1 TFLOPS
Mieszana precyzja (FP16/FP32)	112 TFLOPS	65 TFLOPS
Podwójna precyzja FP64	7 TFLOPS	254,4 GFLOPS
TDP	250 W	70 W

Tabela 2: Szczegółowe dane konfiguracji serwera R740 i wersja oprogramowania

Procesor	2x Intel® Xeon® Gold 6136, 3,0 GHz, 12 rdzeni
Pamięć	384 GB (12*32 GB, 2666 MHz)
Dysk lokalny	SSD 480 GB
System operacyjny	Red Hat Enterprise Linux Server, wersja 7.5
GPU	3x V100-PCIe 16 GB lub 4x T4 16 GB
Sterownik CUDA	410,66
CUDA Toolkit	10,0
Ustawienia procesorów > procesory logiczne	Wyłączona
Profile systemu	Performance (Wydajność).
HPL	Skompilowano z CUDA10.0
NAMD	NAMD_Git-2019-02-11
Światło pomarańczowe	18,12
HOOMD-blue	2.5.0
OpenMPI	4.0.0

Powrót do góry

Cause

HOOMD-blue

SLN316570_en_US__1image(9290)

Rysunek 1: Wyniki testów HOOMD-blue pojedynczej i podwójnej precyzji dla kart V100 i T4 w serwerze PowerEdge R740

HOOMD-blue (skrót od Highly Optimized Object-oriented Many-particle Dynamics - blue) to symulator dynamiki cząsteczek ogólnego przeznaczenia. Domyślnie HOOMD-blue jest skompilowany w wersji z podwójną precyzją (FP64), a wersja 2.5 zawiera parametr SINGLE_PRECISION = ON, który wymusza kompilację z pojedynczą precyzją (FP32). Rysunek 1 przedstawia wyniki dla zestawu danych mikrosfery w wersjach z pojedynczą i podwójną precyzją. Oś x to liczba procesorów graficznych, a miara wydajności to czas (w godzinach) potrzebny do wykonania 10e6 kroków.

Jeden z wniosków to spostrzeżenie, że wydajność FP64 karty T4 jest stosunkowo niska. Jest to spowodowane ograniczeniami sprzętowymi. Teoretycznie karta T4 może zapewniać wydajność szczytową 254 GFLOPS (patrz Tabela 1) dla testów podwójnej precyzji, podczas gdy karta V100 jest ok. 27x bardziej wydajna. Jednak wydajność aplikacji takich jak HOOMD-blue, które mogą być kompilowane i uruchamiane w wersji z pojedynczą precyzją, może zapewniać przewagę konkurencyjną w przypadku opcji kompilacji FP32. Społeczność HOOMD-blue wzięła pod uwagę naszą sugestię dotyczącą obsługi testów mieszanej precyzji we wszystkich modułach HOOMD-blue. Po zakończeniu działań test HOOMD-blue może lepiej wykorzystywać sprzęt z obsługą mieszanej precyzji.
Przy porównaniu wydajności pojedynczej precyzji kart T4 i V100 zauważyliśmy, że karta V100 osiąga 3x lepsze wyniki niż T4. Jest to wydajność oczekiwana od karty T4 ze względu na liczbę rdzeni CUDA i moc znamionową akceleratora graficznego.
Karty graficzne serwera PowerEdge R740 są podłączane przy użyciu gniazda PCIe. W przypadku punktu danych dla trzech kart V100 magistrala PCIe jest nasycona ze względu na komunikację równorzędną. Wpływa to na ogólną wydajność, powodując uzyskanie wydajności podobnej do wydajności jednej karty graficznej.

Powrót do góry

Światło pomarańczowe

Amber to nazwa pakietu programów, który umożliwia wykonywanie symulacji dynamiki cząsteczkowej, szczególnie w przypadku biomolekuł. Termin Amber jest stosowany również do empirycznych pól siłowych wdrożonych w tym pakiecie. Pakiet Amber w wersji 18.12 z narzędziami AmberTools 18.13 został wykorzystany w testach Amber 18 Benchmark Suite, który obejmuje zestawy danych JAC, Cellulose, FactorIX, STMV, TRPCage, mioglobin i nukleosomów.

SLN316570_en_US__2image(9276)

Rysunek 2. Wyniki testu Amber Explicit Solvent dla kart V100 i T4 w serwerze PowerEdge R740

SLN316570_en_US__3image(9277)

Rysunek 3: Wyniki testu Amber Implicit Solvent dla kart V100 i T4 w serwerze PowerEdge R740

Rysunek 2 i rysunek 3 przedstawiają odpowiednio wyniki jednej karty i całego systemu w testach Explicit Solvent i Implicit Solvent. Punkt danych „system” powyższego wykresu przedstawia pełną zagregowaną przepływność systemu wszystkich procesorów graficznych. Serwer PowerEdge R740 obsługuje trzy karty V100 lub cztery karty T4, w związku z czym paski „system” w kolorze czerwonym i niebieskim to wyniki z trzema kartami V100 lub czterema T4.

Powodem preferencji danych zagregowanych wielu kart graficznych jest fakt, że procesory graficzne Pascal i nowsze nie skalują się poza jednym akceleratorem w aplikacji Amber. Użytkownicy zazwyczaj uruchamiają równolegle inne symulacje na innych kartach graficznych. Jeśli chodzi o wydajność przy dużych zestawach danych, takich jak STMV (1 067 095 atomów), pojedyncza karta T4 zapewnia 33 procent, a cały system 44 procent wydajności karty V100. Zestawy danych takie jak TRPCage (tylko 304 atomy) są zbyt małe, aby efektywnie wykorzystać możliwości karty V100, w związku z czym jej wydajność nie jest wyższa w porównaniu z kartą T4 o tyle, co w przypadku większych testów PME. Zgodnie z wynikami z oficjalnej strony internetowej aplikacji Amber, dane niemal wszystkich kart graficznych pokazują trzy- lub czterokrotnie większą wydajność niż testy z użyciem samych procesorów, w związku z tym użycie karty T4 w serwerze pracującym na małych zestawach danych jest dobrą opcją.

Powrót do góry

Resolution

NAnoscale Molecular Dynamics (NAMD)

SLN316570_en_US__4image(9278)

Rysunek 4. Wyniki testu NAMD dla kart V100 i T4 w serwerze PowerEdge R740

NAMD to kod dynamiki cząsteczkowej przeznaczony do wydajnej symulacji dużych systemów biomolekularnych. W tych testach nie zastosowano zbudowanego wstępnie pliku binarnego. Zamiast tego test NAMD został skompilowany przy użyciu najnowszego kodu źródłowego (NAMD_Git-2019-02-11) z CUDA 10.0. W celu uzyskania najwyższej wydajności test NAMD został skompilowany przy użyciu kompilatora i bibliotek Intel® (wersja 2018u3). Rysunek 4 przedstawia wyniki wydajności przy użyciu zestawu danych STMV (1 066 628 atomów, okresowy, PME). Test NAMD nie skaluje się poza jedną kartę V100 i zapewnia dobre skalowanie przy trzech kartach T4. Jedna karta graficzna T4 zapewnia 42 procent wydajności karty V100. Jest to niezły wynik, biorąc pod uwagę fakt, że dysponuje tylko 28 procent TDP karty V100. Karta T4 może być dobrym rozwiązaniem dla centrów danych z ograniczonymi możliwościami w zakresie zasilania i chłodzenia.

Powrót do góry

High Performance Linpack (HPL)

SLN316570_en_US__5image(9283)

Rysunek 5. Wyniki testu HPL dla kart V100 i T4 w serwerze PowerEdge R740

Rysunek 5 przedstawia wyniki testu HPL serwera PowerEdge R740 z wieloma kartami graficznymi V100 lub T4. Zgodnie z oczekiwaniami, wyniki HPL dobrze się skalują przy wielu kartach graficznych V100 i T4. Wydajność kart T4 jest jednak znacznie niższa niż V100 ze względu na ograniczenia FP64. Ze względu na ograniczone możliwości T4 w zakresie podwójnej precyzji, porównanie wydajności z V100 nie jest idealne, a Volta V100 pozostaje najlepszym wyborem dla zastosowań o podwójnej precyzji tego typu.

Powrót do góry

Wnioski i przyszłe prace

W niniejszym blogu porównano wydajność aplikacji HPC (przy użyciu testów HOOMD-blue, Amber, NAMD i HPL) dla kart V100 i T4 zainstalowanych w serwerze Dell EMC PowerEdge R740. Karta T4 jest używana nie tylko w zastosowaniach uczenia głębokiego, lecz sprawdza się także w zastosowaniach HPC z obsługą pojedynczej i mieszanej precyzji. Niska wartość TDP może zapewnić wzrost wydajności tradycyjnych centrów danych o ograniczonych możliwościach w zakresie zasilania i chłodzenia. Niewielki rozmiar PCIe karty T4 czyni ją dobrym rozwiązaniem dla serwerów PowerEdge do zastosowań bardziej ogólnych. W przyszłości planowane są dodatkowe testy przy użyciu innych aplikacji, takich jak RELION, GROMACS i LAMMPS, a także testy aplikacji, które mogą wykorzystać mieszaną precyzję.

* Zastrzeżenie: dla celów testów porównawczych oceniono cztery karty graficzne T4 w serwerze Dell PowerEdge R740. Obecnie serwer PowerEdge R740 oficjalnie obsługuje maksymalnie trzy karty T4 w gniazdach PCIe x16.

Powrót do góry

Affected Products

High Performance Computing Solution Resources, PowerEdge R740

Article Number: 000130819

Article Type: Solution

Last Modified: 28 Sep 2021

Version: 4

Check if your device is covered by Support Services.

Wydajność aplikacji HPC z rozwiązaniem Turing

Summary: Autorzy artykułu: Frank Han, Rengan Xu, Deepthi Cherlopalle i Quy Ta z laboratorium HPC and AI Innovation Lab firmy Dell EMC, marzec 2019 r.

Symptoms

Spis treści:

Streszczenie

Omówienie

Cause

HOOMD-blue

Światło pomarańczowe

Resolution

NAnoscale Molecular Dynamics (NAMD)

High Performance Linpack (HPL)

Wnioski i przyszłe prace

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Wydajność aplikacji HPC z rozwiązaniem Turing

Summary: Autorzy artykułu: Frank Han, Rengan Xu, Deepthi Cherlopalle i Quy Ta z laboratorium HPC and AI Innovation Lab firmy Dell EMC, marzec 2019 r.

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services