メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能

Serwer Dell EMC DSS 8440 z kartą graficzną NVIDIA RTX dla HPC i obciążeń roboczych AI

概要: Program Dell EMC DSS8440 Server to 2 gniazda, serwer 4U przeznaczony do wysokiej wydajności, uczenia maszynowego (ML) i jego głębokiego uczenia. Ten artykuł zawiera porównanie wydajności różnych procesorów GPU, takich jak NVIDIA Volta V100S oraz dwurdzeniowe procesory NVIDIA Tesla T4, oraz NVIDIA Quadro RTX GPU w tym systemie. ...

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

 

Deepthi Cherlopalle i Piotr Han

 

Dell EMC HPC i AI laboratorium innowacji 2020 czerwca

 

Program Dell EMC DSS8440 Server to 2 gniazda, serwer 4U przeznaczony do wysokiej wydajności, uczenia maszynowego (ml) i jego głębokiego uczenia. Obsługuje różnorodne procesory GPU, takie jak NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 i NVIDIA Tesla, SLN321776_en_US__1iC_External_Link_BD_v1 dwurdzeniowe procesory GPU, a także NVIDIA Quadro RTX GPUSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Rysunek 1 Dell EMC serwer DSS840)

W tym blogu oceniamy wydajność współdziałania NVIDIA Quadro RTX 6000 i NVIDIA Quadro RTX 8000 GPU w porównaniu z górną warstwą GPU V100S GPU za pomocą różnych standardowych narzędzi do wykonywania testów wydajności. Dotyczy to także testowania obciążeń jednego urządzenia vs z podwójną precyzją. Chociaż seria Quadro istniała przez dłuższy czas, RTX procesorów GPU z architekturą NVIDIA włączania, która została uruchomiona w ciągu późnych 2018. Dane techniczne w tabeli 1 pokazują, że procesor RTX 8000 GPU jest wyższy do RTX 6000 w odniesieniu do większej konfiguracji pamięci. Jednakże procesory RTX 8000 i RTX 6000 GPU mają wyższy poziom zasilania niż procesor GPU. W przypadku obciążeń wymagających większych pojemności pamięci RTX 8000 jest lepszym wyborem.

Dane techniczne RTX 6000 RTX 8000 V100S-32 GB
Architektura Turing Volta
Pamięć 24 GB GDDR6 48 GB GDDR6 32 GB HBM2
Domyślna częstotliwość taktowania (MHz) 1395 1245
Maksymalna częstotliwość taktowania procesora (w MHz) 1770 1597
Rdzenie CUDA 4608 5120
FP32 (maksymalny TFLOPS) 16,3 16,4
Przepustowość pamięci (GB/s) 672 1134
Zasilanie 295 W 250 W

Tabela. 1 dane techniczne procesora graficznego

Serwer DellEMC, PowerEdge, system DSS8440
Procesor 2 x Intel Xeon 6248, 20 °C przy 2,5 GHz
Pamięć 24 x 32 GB @ 2933 MT/s (razem z 768 GB)
PROCESORÓW  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S PCIe 
Pamięć masowa 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Zasilacze 4 x 2400 W

Tabela. 2 szczegóły konfiguracji serwera

BIOS 2.5.4
System operacyjny: RHEL 7,6
Jądro 3.10.0-957.el7.x86_64
Profil systemu Zoptymalizowana wydajność
Zestaw narzędzi cuda
Sterownik CUDA
10,1
440.33.01

Tabela. 3 szczegółowe informacje o oprogramowaniu systemu

Aplikacja Wersja
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 Update 4
LAMMPS Marzec 3 2020
OpenMPI – 4.0.3
MLPERF SLN321776_en_US__1iC_External_Link_BD_v1 trening
v 0,6 Dock 19,03

Tabela. 4 informacje o aplikacji

原因

LAMMPS

LammpsSLN321776_en_US__6iC_External_Link_BD_v1 jest to aplikacja do zarządzania cząsteczkami molekularną, która jest obsługiwana przez badaczy w laboratoriach krajowych Sandia i Temple University. LAMMPS został skompilowany razem z pakietem KOKKOS w SLN321776_en_US__6iC_External_Link_BD_v1 celu wydajnej pracy na chipsetach NVIDIA. Lennard Nowak, że zestaw danych został użyty do porównania wydajności, a Timesteps/s jest metryką, jak pokazano na rysunku 2:

SLN321776_en_US__8image (18427)

(Rysunek 2 Lennard, wykres Nowak)

 Zgodnie z wymienionymi w tabeli 1 procesory RTX 6000 i RTX 8000 współdziałające mają taką samą liczbę rdzeni, pojedynczej precyzji, jak przepustowość procesora graficznego, a także używa różnych modułów pamięci graficznej. Ponieważ obie procesory RTX obsługują podobne konfiguracje, wydajność jest również w tym samym zakresie. RTX Skala procesorów GPU dla tej aplikacji oraz wydajność dla obu procesorów GPU są identyczne.

Wydajność procesora Volta V100S GPU jest około trzech razy szybsza niż w przypadku procesorów procesorów Quadro RTX. Kluczowym czynnikiem dla tej wyższej wydajności jest większa przepustowość pamięci GPU V100S GPU.


High Performance Linpack (HPL)

HPL jest standardowym testem porównawczym HPC, który mierzy wydajność obliczeniową. Jest ona używana jako test porównawczy za pomocą listy TOP500 w celu klasyfikowania komputerów na całym świecie.

Poniższy rysunek przedstawia wydajność RTX 6000, RTX 8000 i V100S GPU przy użyciu serwera DSS 8440. W miarę jak widać, wydajność procesorów RTX GPU jest znacznie niższa niż V100S GPU. Oczekuje się, że HPL wykonuje factorization macierz LU, która ma przede wszystkim operacje zmiennoprzecinkowe o podwójnej precyzji.

SLN321776_en_US__9image (18428)

(Ilustracja. 3 HPL wydajność z różnymi standardami GPU)

W przypadku porównania teoretycznej wydajności zmiennoprzecinkowej, czyli Rpeak obu procesorów GPU, widać, że wydajność V100S GPU jest znacznie wyższa. Teoretyczna wartość Rpeak na pojedynczym PROCESORze RTX jest w przybliżeniu 500GFlops. Ta wartość reaguje mniej wydajnie (RMAX) na procesor GPU. Wartość Rpeak dla Volta V100S GPU to 8.2 TFlops, co daje znacznie wyższą wydajność z każdej karty.


MLPerf

Konieczność standardowych wzorców wydajności w odniesieniu do ML świeci rozwojowi MLPerf Suite. Ten zestaw obejmuje testy wydajności szkoleń i oprogramowania dotyczących ML sprzętu i oprogramowania. Ta sekcja dotyczy tylko wydajności szkoleniowej procesorów GPU. Poniższa tabela zawiera listę kryteriów głębokiego uczenia, zestawów danych i docelowych kryteriów używanych do szacowania procesorów GPU.

Zawarty Występuje Tarcza jakości Model implementacji odniesienia
Klasyfikacja obrazu ImageNet (224x224) 75,9% dokładności do 1 Resnet-50 v 1.5
Wykrywanie obiektu
(masa światła)
COCO 2017 23% mAP Dysk SSD-ResNet34
Wykrywanie obiektu
(ciężar ciężki)
COCO 2017 0,377 Box minimalna wartość AP
0,339 maska minimalna
Maska p-CNN
Tłumaczenie
(bieżące)
WMT angielski (wersja Niemiecka) 24,0 BLEU GNMT
Tłumaczenie
(niebieżące)
 WMT angielski (wersja Niemiecka)  25,0 BLEU Transformatora
Uczenie wzmacniające Nie dotyczy Wstępnie przeszkolony punkt kontrolny Mini-go (mini)

Table. 5 zestawy danych MLPerf i kryteria docelowe (Źródło:https://mlperf.org/Training-Overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

Poniższy rysunek przedstawia czas spełniający kryteria docelowe zarówno dla procesorów RTX, jak i V100S GPU:

SLN321776_en_US__11image (18441)
(Ilustracja. 4 MLPERF wydajność)

Wyniki są uznawane po wykonaniu wielu operacji, odrzucaniu najwyższej i najniższej wartości, a także uśredniania innych uruchomień zgodnie z wymienionymi wytycznymi. Wydajność obu procesorów RTX GPU jest podobna. Procentowa wartość wariancji między RTX GPU jest minimalna i mieści się w zakresie akceptowania zgodnie z wytycznymi MLPerf. Chociaż Volta V100 GPU zapewnia najlepszą wydajność, wszystkie procesory GPU również działają z wyjątkiem testów wydajności wykrycia obiektu.

W chwili publikacji test wydajności klasyfikacji obrazu w MLPerf nie powiódł się z wyRTXniem procesorów GPU z powodu błędu Convolution. Ten problem należy rozwiązać w przyszłym cuDNN uwalnianiem.

解決方法

Streszczenie

W tym blogu omówiono wydajność Dell EMC DSS 8440 GPU Server i NVIDIA RTX GPU dla HPC i AI. obciążenia. Wydajność dla obu procesorów RTX jest podobna, jednak RTX 8000 GPU byłaby najlepszą opcją dla aplikacji wymagających większej ilości pamięci. W przypadku obciążeń o podwójnej precyzji lub obciążeń, które wymagają użycia Volta V100S, a nowy procesor NVIDIA A100 GPU są najlepszym wyborem.

W przyszłości planuje się dostarczenie studiów wydajności na RTX procesorów GPU z innymi aplikacjami o wysokiej precyzji i badaniach wnioskowania na RTX i A100 procesorów GPU.


対象製品

High Performance Computing Solution Resources
文書のプロパティ
文書番号: 000132886
文書の種類: Solution
最終更新: 25 2月 2021
バージョン:  4
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。