Następca architektury Volta, Turing™, to najnowsza rodzina procesorów graficznych firmy NVIDIA®. Procesory graficzne Turing™ są dostępne w kartach GeForce®, w których służą do renderowania wysoce realistycznych gier, a także w kartach Quadro®, gdzie umożliwiają akcelerację przepływów pracy związanych z tworzeniem treści. Seria NVIDIA® Tesla® została stworzona w celu obsługi systemów sztucznej inteligencji i systemów obliczeniowych o wysokiej wydajności (HPC) w centrach przetwarzania danych. NVIDIA® Tesla® T4 to jedyna karta graficzna klasy serwerowej z mikroarchitekturą Turing™ dostępna obecnie na rynku. Jest obsługiwana przez serwery Dell EMC PowerEdge R640, R740, R740xd i R7425. Ten blog zawiera opis wydajności nowej karty graficznej Tesla T4 w porównaniu z najnowszą kartą Volta V100-PCIe w serwerze PowerEdge R740 w różnych zastosowaniach HPC, w tym HOOMD-Blue, Amber, NAMD i HPL.
Serwer PowerEdge R740 to oparty na procesorze Intel® Skylake serwer montowany w szafie serwerowej 2U, który zapewnia idealną równowagę między pamięcią masową, we/wy i akceleracją. Obsługuje maksymalnie cztery* jednogniazdowe karty T4 lub trzy dwugniazdowe karty V100-PCIe w gniazdach x16 PCIe 3.0. Tabela 1 przedstawia różnice pomiędzy pojedynczymi kartami T4 i V100. Karty Volta™ V100 są dostępne w konfiguracji z 16 GB lub 32 GB pamięci. Karta T4 jest dostępna tylko w wersji 16 GB, w związku czym w teście użyto karty V100 z 16 GB pamięci, aby zapewnić możliwe do porównania wyniki wydajności. Tabela 2 przedstawia szczegóły dotyczące sprzętu i oprogramowania stanowiska badawczego.
Tabela 1: Różnica między T4 a V100:
Tesla V100-PCIe |
Tesla T4 |
|
---|---|---|
Architektura |
Volta |
Turing |
Rdzenie CUDA |
5120 |
2560 |
Rdzenie Tensor |
640 |
320 |
Zdolności obliczeniowe |
7,0 |
7,5 |
Zegar procesora graficznego |
1245 MHz |
585 MHz |
Zegar przyspieszenia |
1380 MHz |
1590 MHz |
Typ pamięci |
HBM2 |
GDDR6 |
Magistrala pamięci |
4096 bitów |
256 bitów |
Przepustowość |
900 GB/s |
320 GB/s |
Szerokość gniazda |
Podwójne gniazdo |
Pojedyncze gniazdo |
Pojedyncza precyzja FP32 |
14 TFLOPS |
8,1 TFLOPS |
Mieszana precyzja (FP16/FP32) |
112 TFLOPS |
65 TFLOPS |
Podwójna precyzja FP64 |
7 TFLOPS |
254,4 GFLOPS |
TDP |
250 W |
70 W |
Tabela 2: Szczegółowe dane konfiguracji serwera R740 i wersja oprogramowania
Procesor |
2x Intel® Xeon® Gold 6136, 3,0 GHz, 12 rdzeni |
---|---|
Pamięć |
384 GB (12*32 GB, 2666 MHz) |
Dysk lokalny |
SSD 480 GB |
System operacyjny |
Red Hat Enterprise Linux Server, wersja 7.5 |
GPU |
3x V100-PCIe 16 GB lub 4x T4 16 GB |
Sterownik CUDA |
410,66 |
CUDA Toolkit |
10,0 |
Ustawienia procesorów > procesory logiczne |
Wyłączona |
Profile systemu |
Performance (Wydajność). |
HPL |
Skompilowano z CUDA10.0 |
NAMD |
NAMD_Git-2019-02-11 |
Światło pomarańczowe |
18,12 |
HOOMD-blue |
2.5.0 |
OpenMPI |
4.0.0 |
Rysunek 1: Wyniki testów HOOMD-blue pojedynczej i podwójnej precyzji dla kart V100 i T4 w serwerze PowerEdge R740
HOOMD-blue (skrót od Highly Optimized Object-oriented Many-particle Dynamics - blue) to symulator dynamiki cząsteczek ogólnego przeznaczenia. Domyślnie HOOMD-blue jest skompilowany w wersji z podwójną precyzją (FP64), a wersja 2.5 zawiera parametr SINGLE_PRECISION = ON, który wymusza kompilację z pojedynczą precyzją (FP32). Rysunek 1 przedstawia wyniki dla zestawu danych mikrosfery w wersjach z pojedynczą i podwójną precyzją. Oś x to liczba procesorów graficznych, a miara wydajności to czas (w godzinach) potrzebny do wykonania 10e6 kroków.
Jeden z wniosków to spostrzeżenie, że wydajność FP64 karty T4 jest stosunkowo niska. Jest to spowodowane ograniczeniami sprzętowymi. Teoretycznie karta T4 może zapewniać wydajność szczytową 254 GFLOPS (patrz Tabela 1) dla testów podwójnej precyzji, podczas gdy karta V100 jest ok. 27x bardziej wydajna. Jednak wydajność aplikacji takich jak HOOMD-blue, które mogą być kompilowane i uruchamiane w wersji z pojedynczą precyzją, może zapewniać przewagę konkurencyjną w przypadku opcji kompilacji FP32. Społeczność HOOMD-blue wzięła pod uwagę naszą sugestię dotyczącą obsługi testów mieszanej precyzji we wszystkich modułach HOOMD-blue. Po zakończeniu działań test HOOMD-blue może lepiej wykorzystywać sprzęt z obsługą mieszanej precyzji.
Przy porównaniu wydajności pojedynczej precyzji kart T4 i V100 zauważyliśmy, że karta V100 osiąga 3x lepsze wyniki niż T4. Jest to wydajność oczekiwana od karty T4 ze względu na liczbę rdzeni CUDA i moc znamionową akceleratora graficznego.
Karty graficzne serwera PowerEdge R740 są podłączane przy użyciu gniazda PCIe. W przypadku punktu danych dla trzech kart V100 magistrala PCIe jest nasycona ze względu na komunikację równorzędną. Wpływa to na ogólną wydajność, powodując uzyskanie wydajności podobnej do wydajności jednej karty graficznej.
Amber to nazwa pakietu programów, który umożliwia wykonywanie symulacji dynamiki cząsteczkowej, szczególnie w przypadku biomolekuł. Termin Amber jest stosowany również do empirycznych pól siłowych wdrożonych w tym pakiecie. Pakiet Amber w wersji 18.12 z narzędziami AmberTools 18.13 został wykorzystany w testach Amber 18 Benchmark Suite, który obejmuje zestawy danych JAC, Cellulose, FactorIX, STMV, TRPCage, mioglobin i nukleosomów.
Rysunek 2. Wyniki testu Amber Explicit Solvent dla kart V100 i T4 w serwerze PowerEdge R740
Rysunek 3: Wyniki testu Amber Implicit Solvent dla kart V100 i T4 w serwerze PowerEdge R740
Rysunek 2 i rysunek 3 przedstawiają odpowiednio wyniki jednej karty i całego systemu w testach Explicit Solvent i Implicit Solvent. Punkt danych „system” powyższego wykresu przedstawia pełną zagregowaną przepływność systemu wszystkich procesorów graficznych. Serwer PowerEdge R740 obsługuje trzy karty V100 lub cztery karty T4, w związku z czym paski „system” w kolorze czerwonym i niebieskim to wyniki z trzema kartami V100 lub czterema T4.
Powodem preferencji danych zagregowanych wielu kart graficznych jest fakt, że procesory graficzne Pascal i nowsze nie skalują się poza jednym akceleratorem w aplikacji Amber. Użytkownicy zazwyczaj uruchamiają równolegle inne symulacje na innych kartach graficznych. Jeśli chodzi o wydajność przy dużych zestawach danych, takich jak STMV (1 067 095 atomów), pojedyncza karta T4 zapewnia 33 procent, a cały system 44 procent wydajności karty V100. Zestawy danych takie jak TRPCage (tylko 304 atomy) są zbyt małe, aby efektywnie wykorzystać możliwości karty V100, w związku z czym jej wydajność nie jest wyższa w porównaniu z kartą T4 o tyle, co w przypadku większych testów PME. Zgodnie z wynikami z oficjalnej strony internetowej aplikacji Amber, dane niemal wszystkich kart graficznych pokazują trzy- lub czterokrotnie większą wydajność niż testy z użyciem samych procesorów, w związku z tym użycie karty T4 w serwerze pracującym na małych zestawach danych jest dobrą opcją.
Rysunek 4. Wyniki testu NAMD dla kart V100 i T4 w serwerze PowerEdge R740
NAMD to kod dynamiki cząsteczkowej przeznaczony do wydajnej symulacji dużych systemów biomolekularnych. W tych testach nie zastosowano zbudowanego wstępnie pliku binarnego. Zamiast tego test NAMD został skompilowany przy użyciu najnowszego kodu źródłowego (NAMD_Git-2019-02-11) z CUDA 10.0. W celu uzyskania najwyższej wydajności test NAMD został skompilowany przy użyciu kompilatora i bibliotek Intel® (wersja 2018u3). Rysunek 4 przedstawia wyniki wydajności przy użyciu zestawu danych STMV (1 066 628 atomów, okresowy, PME). Test NAMD nie skaluje się poza jedną kartę V100 i zapewnia dobre skalowanie przy trzech kartach T4. Jedna karta graficzna T4 zapewnia 42 procent wydajności karty V100. Jest to niezły wynik, biorąc pod uwagę fakt, że dysponuje tylko 28 procent TDP karty V100. Karta T4 może być dobrym rozwiązaniem dla centrów danych z ograniczonymi możliwościami w zakresie zasilania i chłodzenia.
Rysunek 5. Wyniki testu HPL dla kart V100 i T4 w serwerze PowerEdge R740
Rysunek 5 przedstawia wyniki testu HPL serwera PowerEdge R740 z wieloma kartami graficznymi V100 lub T4. Zgodnie z oczekiwaniami, wyniki HPL dobrze się skalują przy wielu kartach graficznych V100 i T4. Wydajność kart T4 jest jednak znacznie niższa niż V100 ze względu na ograniczenia FP64. Ze względu na ograniczone możliwości T4 w zakresie podwójnej precyzji, porównanie wydajności z V100 nie jest idealne, a Volta V100 pozostaje najlepszym wyborem dla zastosowań o podwójnej precyzji tego typu.
W niniejszym blogu porównano wydajność aplikacji HPC (przy użyciu testów HOOMD-blue, Amber, NAMD i HPL) dla kart V100 i T4 zainstalowanych w serwerze Dell EMC PowerEdge R740. Karta T4 jest używana nie tylko w zastosowaniach uczenia głębokiego, lecz sprawdza się także w zastosowaniach HPC z obsługą pojedynczej i mieszanej precyzji. Niska wartość TDP może zapewnić wzrost wydajności tradycyjnych centrów danych o ograniczonych możliwościach w zakresie zasilania i chłodzenia. Niewielki rozmiar PCIe karty T4 czyni ją dobrym rozwiązaniem dla serwerów PowerEdge do zastosowań bardziej ogólnych. W przyszłości planowane są dodatkowe testy przy użyciu innych aplikacji, takich jak RELION, GROMACS i LAMMPS, a także testy aplikacji, które mogą wykorzystać mieszaną precyzję.
* Zastrzeżenie: dla celów testów porównawczych oceniono cztery karty graficzne T4 w serwerze Dell PowerEdge R740. Obecnie serwer PowerEdge R740 oficjalnie obsługuje maksymalnie trzy karty T4 w gniazdach PCIe x16.