Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Wydajność aplikacji HPC z rozwiązaniem Turing

Summary: Autorzy artykułu: Frank Han, Rengan Xu, Deepthi Cherlopalle i Quy Ta z laboratorium HPC and AI Innovation Lab firmy Dell EMC, marzec 2019 r.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms


Spis treści:

  1. Streszczenie
  2. Omówienie
  3. HOOMD-blue
  4. Światło pomarańczowe
  5. NAnoscale Molecular Dynamics (NAMD)
  6. High Performance Linpack (HPL)
  7. Wnioski i przyszłe prace

 

Streszczenie

 

Następca architektury Volta, Turing™, to najnowsza rodzina procesorów graficznych firmy NVIDIA®. Procesory graficzne Turing™ są dostępne w kartach GeForce®, w których służą do renderowania wysoce realistycznych gier, a także w kartach Quadro®, gdzie umożliwiają akcelerację przepływów pracy związanych z tworzeniem treści. Seria NVIDIA® Tesla® została stworzona w celu obsługi systemów sztucznej inteligencji i systemów obliczeniowych o wysokiej wydajności (HPC) w centrach przetwarzania danych. NVIDIA® Tesla® T4 to jedyna karta graficzna klasy serwerowej z mikroarchitekturą Turing™ dostępna obecnie na rynku. Jest obsługiwana przez serwery Dell EMC PowerEdge R640, R740, R740xd i R7425. Ten blog zawiera opis wydajności nowej karty graficznej Tesla T4 w porównaniu z najnowszą kartą Volta V100-PCIe w serwerze PowerEdge R740 w różnych zastosowaniach HPC, w tym HOOMD-Blue, Amber, NAMD i HPL.


Powrót do góry


 

Omówienie

 

Serwer PowerEdge R740 to oparty na procesorze Intel® Skylake serwer montowany w szafie serwerowej 2U, który zapewnia idealną równowagę między pamięcią masową, we/wy i akceleracją. Obsługuje maksymalnie cztery* jednogniazdowe karty T4 lub trzy dwugniazdowe karty V100-PCIe w gniazdach x16 PCIe 3.0.  Tabela 1 przedstawia różnice pomiędzy pojedynczymi kartami T4 i V100. Karty Volta™ V100 są dostępne w konfiguracji z 16 GB lub 32 GB pamięci.  Karta T4 jest dostępna tylko w wersji 16 GB, w związku czym w teście użyto karty V100 z 16 GB pamięci, aby zapewnić możliwe do porównania wyniki wydajności. Tabela 2 przedstawia szczegóły dotyczące sprzętu i oprogramowania stanowiska badawczego.

Tabela 1: Różnica między T4 a V100:

 

Tesla V100-PCIe

Tesla T4

Architektura

Volta

Turing

Rdzenie CUDA

5120

2560

Rdzenie Tensor

640

320

Zdolności obliczeniowe

7,0

7,5

Zegar procesora graficznego

1245 MHz

585 MHz

Zegar przyspieszenia

1380 MHz

1590 MHz

Typ pamięci

HBM2

GDDR6

Magistrala pamięci

4096 bitów

256 bitów

Przepustowość

900 GB/s

320 GB/s

Szerokość gniazda

Podwójne gniazdo

Pojedyncze gniazdo

Pojedyncza precyzja FP32

14 TFLOPS

8,1 TFLOPS

Mieszana precyzja (FP16/FP32)

112 TFLOPS

65 TFLOPS

Podwójna precyzja FP64

7 TFLOPS

254,4 GFLOPS

TDP

250 W

70 W

 

Tabela 2: Szczegółowe dane konfiguracji serwera R740 i wersja oprogramowania

Procesor

2x Intel® Xeon® Gold 6136, 3,0 GHz, 12 rdzeni

Pamięć

384 GB (12*32 GB, 2666 MHz)

Dysk lokalny

SSD 480 GB

System operacyjny

Red Hat Enterprise Linux Server, wersja 7.5

GPU

3x V100-PCIe 16 GB lub 4x T4 16 GB

Sterownik CUDA

410,66

CUDA Toolkit

10,0

Ustawienia procesorów > procesory logiczne

Wyłączona

Profile systemu

Performance (Wydajność).

HPL

Skompilowano z CUDA10.0

NAMD

NAMD_Git-2019-02-11

Światło pomarańczowe

18,12

HOOMD-blue

2.5.0

OpenMPI

4.0.0

 


Powrót do góry


 

Cause

HOOMD-blue

 

SLN316570_en_US__1image(9290)

Rysunek 1: Wyniki testów HOOMD-blue pojedynczej i podwójnej precyzji dla kart V100 i T4 w serwerze PowerEdge R740

HOOMD-blue (skrót od Highly Optimized Object-oriented Many-particle Dynamics - blue) to symulator dynamiki cząsteczek ogólnego przeznaczenia. Domyślnie HOOMD-blue jest skompilowany w wersji z podwójną precyzją (FP64), a wersja 2.5 zawiera parametr SINGLE_PRECISION = ON, który wymusza kompilację z pojedynczą precyzją (FP32). Rysunek 1 przedstawia wyniki dla zestawu danych mikrosfery w wersjach z pojedynczą i podwójną precyzją. Oś x to liczba procesorów graficznych, a miara wydajności to czas (w godzinach) potrzebny do wykonania 10e6 kroków.

  1. Jeden z wniosków to spostrzeżenie, że wydajność FP64 karty T4 jest stosunkowo niska. Jest to spowodowane ograniczeniami sprzętowymi. Teoretycznie karta T4 może zapewniać wydajność szczytową 254 GFLOPS (patrz Tabela 1) dla testów podwójnej precyzji, podczas gdy karta V100 jest ok. 27x bardziej wydajna. Jednak wydajność aplikacji takich jak HOOMD-blue, które mogą być kompilowane i uruchamiane w wersji z pojedynczą precyzją, może zapewniać przewagę konkurencyjną w przypadku opcji kompilacji FP32. Społeczność HOOMD-blue wzięła pod uwagę naszą sugestię dotyczącą obsługi testów mieszanej precyzji we wszystkich modułach HOOMD-blue. Po zakończeniu działań test HOOMD-blue może lepiej wykorzystywać sprzęt z obsługą mieszanej precyzji.

  2. Przy porównaniu wydajności pojedynczej precyzji kart T4 i V100 zauważyliśmy, że karta V100 osiąga 3x lepsze wyniki niż T4. Jest to wydajność oczekiwana od karty T4 ze względu na liczbę rdzeni CUDA i moc znamionową akceleratora graficznego.

  3. Karty graficzne serwera PowerEdge R740 są podłączane przy użyciu gniazda PCIe. W przypadku punktu danych dla trzech kart V100 magistrala PCIe jest nasycona ze względu na komunikację równorzędną. Wpływa to na ogólną wydajność, powodując uzyskanie wydajności podobnej do wydajności jednej karty graficznej.

 


Powrót do góry


 

Światło pomarańczowe

 


Amber to nazwa pakietu programów, który umożliwia wykonywanie symulacji dynamiki cząsteczkowej, szczególnie w przypadku biomolekuł. Termin Amber jest stosowany również do empirycznych pól siłowych wdrożonych w tym pakiecie. Pakiet Amber w wersji 18.12 z narzędziami AmberTools 18.13 został wykorzystany w testach Amber 18 Benchmark Suite, który obejmuje zestawy danych JAC, Cellulose, FactorIX, STMV, TRPCage, mioglobin i nukleosomów.

SLN316570_en_US__2image(9276)

Rysunek 2. Wyniki testu Amber Explicit Solvent dla kart V100 i T4 w serwerze PowerEdge R740

SLN316570_en_US__3image(9277)

Rysunek 3: Wyniki testu Amber Implicit Solvent dla kart V100 i T4 w serwerze PowerEdge R740 

Rysunek 2 i rysunek 3 przedstawiają odpowiednio wyniki jednej karty i całego systemu w testach Explicit Solvent i Implicit Solvent.  Punkt danych „system” powyższego wykresu przedstawia pełną zagregowaną przepływność systemu wszystkich procesorów graficznych. Serwer PowerEdge R740 obsługuje trzy karty V100 lub cztery karty T4, w związku z czym paski „system” w kolorze czerwonym i niebieskim to wyniki z trzema kartami V100 lub czterema T4.

Powodem preferencji danych zagregowanych wielu kart graficznych jest fakt, że procesory graficzne Pascal i nowsze nie skalują się poza jednym akceleratorem w aplikacji Amber. Użytkownicy zazwyczaj uruchamiają równolegle inne symulacje na innych kartach graficznych. Jeśli chodzi o wydajność przy dużych zestawach danych, takich jak STMV (1 067 095 atomów), pojedyncza karta T4 zapewnia 33 procent, a cały system 44 procent wydajności karty V100. Zestawy danych takie jak TRPCage (tylko 304 atomy) są zbyt małe, aby efektywnie wykorzystać możliwości karty V100, w związku z czym jej wydajność nie jest wyższa w porównaniu z kartą T4 o tyle, co w przypadku większych testów PME. Zgodnie z wynikami z oficjalnej strony internetowej aplikacji Amber, dane niemal wszystkich kart graficznych pokazują trzy- lub czterokrotnie większą wydajność niż testy z użyciem samych procesorów, w związku z tym użycie karty T4 w serwerze pracującym na małych zestawach danych jest dobrą opcją.


Powrót do góry


 

Resolution

NAnoscale Molecular Dynamics (NAMD)

 

SLN316570_en_US__4image(9278)

Rysunek 4. Wyniki testu NAMD dla kart V100 i T4 w serwerze PowerEdge R740

NAMD to kod dynamiki cząsteczkowej przeznaczony do wydajnej symulacji dużych systemów biomolekularnych. W tych testach nie zastosowano zbudowanego wstępnie pliku binarnego. Zamiast tego test NAMD został skompilowany przy użyciu najnowszego kodu źródłowego (NAMD_Git-2019-02-11) z CUDA 10.0. W celu uzyskania najwyższej wydajności test NAMD został skompilowany przy użyciu kompilatora i bibliotek Intel® (wersja 2018u3). Rysunek 4 przedstawia wyniki wydajności przy użyciu zestawu danych STMV (1 066 628 atomów, okresowy, PME). Test NAMD nie skaluje się poza jedną kartę V100 i zapewnia dobre skalowanie przy trzech kartach T4. Jedna karta graficzna T4 zapewnia 42 procent wydajności karty V100. Jest to niezły wynik, biorąc pod uwagę fakt, że dysponuje tylko 28 procent TDP karty V100. Karta T4 może być dobrym rozwiązaniem dla centrów danych z ograniczonymi możliwościami w zakresie zasilania i chłodzenia.


Powrót do góry


 

High Performance Linpack (HPL)

 

SLN316570_en_US__5image(9283)

Rysunek 5. Wyniki testu HPL dla kart V100 i T4 w serwerze PowerEdge R740

Rysunek 5 przedstawia wyniki testu HPL serwera PowerEdge R740 z wieloma kartami graficznymi V100 lub T4. Zgodnie z oczekiwaniami, wyniki HPL dobrze się skalują przy wielu kartach graficznych V100 i T4. Wydajność kart T4 jest jednak znacznie niższa niż V100 ze względu na ograniczenia FP64. Ze względu na ograniczone możliwości T4 w zakresie podwójnej precyzji, porównanie wydajności z V100 nie jest idealne, a Volta V100 pozostaje najlepszym wyborem dla zastosowań o podwójnej precyzji tego typu.


Powrót do góry


 

Wnioski i przyszłe prace

 

W niniejszym blogu porównano wydajność aplikacji HPC (przy użyciu testów HOOMD-blue, Amber, NAMD i HPL) dla kart V100 i T4 zainstalowanych w serwerze Dell EMC PowerEdge R740. Karta T4 jest używana nie tylko w zastosowaniach uczenia głębokiego, lecz sprawdza się także w zastosowaniach HPC z obsługą pojedynczej i mieszanej precyzji. Niska wartość TDP może zapewnić wzrost wydajności tradycyjnych centrów danych o ograniczonych możliwościach w zakresie zasilania i chłodzenia. Niewielki rozmiar PCIe karty T4 czyni ją dobrym rozwiązaniem dla serwerów PowerEdge do zastosowań bardziej ogólnych. W przyszłości planowane są dodatkowe testy przy użyciu innych aplikacji, takich jak RELION, GROMACS i LAMMPS, a także testy aplikacji, które mogą wykorzystać mieszaną precyzję.

* Zastrzeżenie: dla celów testów porównawczych oceniono cztery karty graficzne T4 w serwerze Dell PowerEdge R740. Obecnie serwer PowerEdge R740 oficjalnie obsługuje maksymalnie trzy karty T4 w gniazdach PCIe x16.


Powrót do góry


Affected Products

High Performance Computing Solution Resources, PowerEdge R740
Article Properties
Article Number: 000130819
Article Type: Solution
Last Modified: 28 Sep 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.