Program Dell EMC DSS8440 Server to 2 gniazda, serwer 4U przeznaczony do wysokiej wydajności, uczenia maszynowego (ml) i jego głębokiego uczenia. Obsługuje różnorodne procesory GPU, takie jak NVIDIA Volta V100S i NVIDIA Tesla, dwurdzeniowe procesory GPU, a także NVIDIA Quadro RTX GPU .
(Rysunek 1 Dell EMC serwer DSS840)
W tym blogu oceniamy wydajność współdziałania NVIDIA Quadro RTX 6000 i NVIDIA Quadro RTX 8000 GPU w porównaniu z górną warstwą GPU V100S GPU za pomocą różnych standardowych narzędzi do wykonywania testów wydajności. Dotyczy to także testowania obciążeń jednego urządzenia vs z podwójną precyzją. Chociaż seria Quadro istniała przez dłuższy czas, RTX procesorów GPU z architekturą NVIDIA włączania, która została uruchomiona w ciągu późnych 2018. Dane techniczne w tabeli 1 pokazują, że procesor RTX 8000 GPU jest wyższy do RTX 6000 w odniesieniu do większej konfiguracji pamięci. Jednakże procesory RTX 8000 i RTX 6000 GPU mają wyższy poziom zasilania niż procesor GPU. W przypadku obciążeń wymagających większych pojemności pamięci RTX 8000 jest lepszym wyborem.
Dane techniczne | RTX 6000 | RTX 8000 | V100S-32 GB |
---|---|---|---|
Architektura | Turing | Volta | |
Pamięć | 24 GB GDDR6 | 48 GB GDDR6 | 32 GB HBM2 |
Domyślna częstotliwość taktowania (MHz) | 1395 | 1245 | |
Maksymalna częstotliwość taktowania procesora (w MHz) | 1770 | 1597 | |
Rdzenie CUDA | 4608 | 5120 | |
FP32 (maksymalny TFLOPS) | 16,3 | 16,4 | |
Przepustowość pamięci (GB/s) | 672 | 1134 | |
Zasilanie | 295 W | 250 W |
Tabela. 1 dane techniczne procesora graficznego
Serwer | DellEMC, PowerEdge, system DSS8440 | ||
---|---|---|---|
Procesor | 2 x Intel Xeon 6248, 20 °C przy 2,5 GHz | ||
Pamięć | 24 x 32 GB @ 2933 MT/s (razem z 768 GB) | ||
PROCESORÓW | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S PCIe |
Pamięć masowa | 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500) | ||
Zasilacze | 4 x 2400 W |
Tabela. 2 szczegóły konfiguracji serwera
BIOS | 2.5.4 |
---|---|
System operacyjny: | RHEL 7,6 |
Jądro | 3.10.0-957.el7.x86_64 |
Profil systemu | Zoptymalizowana wydajność |
Zestaw narzędzi cuda Sterownik CUDA |
10,1 440.33.01 |
Tabela. 3 szczegółowe informacje o oprogramowaniu systemu
Aplikacja | Wersja |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 Update 4 |
LAMMPS | Marzec 3 2020 OpenMPI – 4.0.3 |
MLPERF | trening v 0,6 Dock 19,03 |
Tabela. 4 informacje o aplikacji
Lammps jest to aplikacja do zarządzania cząsteczkami molekularną, która jest obsługiwana przez badaczy w laboratoriach krajowych Sandia i Temple University. LAMMPS został skompilowany razem z pakietem KOKKOS w celu wydajnej pracy na chipsetach NVIDIA. Lennard Nowak, że zestaw danych został użyty do porównania wydajności, a Timesteps/s jest metryką, jak pokazano na rysunku 2:
(Rysunek 2 Lennard, wykres Nowak)
Zgodnie z wymienionymi w tabeli 1 procesory RTX 6000 i RTX 8000 współdziałające mają taką samą liczbę rdzeni, pojedynczej precyzji, jak przepustowość procesora graficznego, a także używa różnych modułów pamięci graficznej. Ponieważ obie procesory RTX obsługują podobne konfiguracje, wydajność jest również w tym samym zakresie. RTX Skala procesorów GPU dla tej aplikacji oraz wydajność dla obu procesorów GPU są identyczne.
Wydajność procesora Volta V100S GPU jest około trzech razy szybsza niż w przypadku procesorów procesorów Quadro RTX. Kluczowym czynnikiem dla tej wyższej wydajności jest większa przepustowość pamięci GPU V100S GPU.
HPL jest standardowym testem porównawczym HPC, który mierzy wydajność obliczeniową. Jest ona używana jako test porównawczy za pomocą listy TOP500 w celu klasyfikowania komputerów na całym świecie.
Poniższy rysunek przedstawia wydajność RTX 6000, RTX 8000 i V100S GPU przy użyciu serwera DSS 8440. W miarę jak widać, wydajność procesorów RTX GPU jest znacznie niższa niż V100S GPU. Oczekuje się, że HPL wykonuje factorization macierz LU, która ma przede wszystkim operacje zmiennoprzecinkowe o podwójnej precyzji.
(Ilustracja. 3 HPL wydajność z różnymi standardami GPU)
W przypadku porównania teoretycznej wydajności zmiennoprzecinkowej, czyli Rpeak obu procesorów GPU, widać, że wydajność V100S GPU jest znacznie wyższa. Teoretyczna wartość Rpeak na pojedynczym PROCESORze RTX jest w przybliżeniu 500GFlops. Ta wartość reaguje mniej wydajnie (RMAX) na procesor GPU. Wartość Rpeak dla Volta V100S GPU to 8.2 TFlops, co daje znacznie wyższą wydajność z każdej karty.
Konieczność standardowych wzorców wydajności w odniesieniu do ML świeci rozwojowi MLPerf Suite. Ten zestaw obejmuje testy wydajności szkoleń i oprogramowania dotyczących ML sprzętu i oprogramowania. Ta sekcja dotyczy tylko wydajności szkoleniowej procesorów GPU. Poniższa tabela zawiera listę kryteriów głębokiego uczenia, zestawów danych i docelowych kryteriów używanych do szacowania procesorów GPU.
Zawarty | Występuje | Tarcza jakości | Model implementacji odniesienia |
---|---|---|---|
Klasyfikacja obrazu | ImageNet (224x224) | 75,9% dokładności do 1 | Resnet-50 v 1.5 |
Wykrywanie obiektu (masa światła) |
COCO 2017 | 23% mAP | Dysk SSD-ResNet34 |
Wykrywanie obiektu (ciężar ciężki) |
COCO 2017 | 0,377 Box minimalna wartość AP 0,339 maska minimalna |
Maska p-CNN |
Tłumaczenie (bieżące) |
WMT angielski (wersja Niemiecka) | 24,0 BLEU | GNMT |
Tłumaczenie (niebieżące) |
WMT angielski (wersja Niemiecka) | 25,0 BLEU | Transformatora |
Uczenie wzmacniające | Nie dotyczy | Wstępnie przeszkolony punkt kontrolny | Mini-go (mini) |
Table. 5 zestawy danych MLPerf i kryteria docelowe (Źródło:https://mlperf.org/Training-Overview/#overview )
Poniższy rysunek przedstawia czas spełniający kryteria docelowe zarówno dla procesorów RTX, jak i V100S GPU:
(Ilustracja. 4 MLPERF wydajność)
Wyniki są uznawane po wykonaniu wielu operacji, odrzucaniu najwyższej i najniższej wartości, a także uśredniania innych uruchomień zgodnie z wymienionymi wytycznymi. Wydajność obu procesorów RTX GPU jest podobna. Procentowa wartość wariancji między RTX GPU jest minimalna i mieści się w zakresie akceptowania zgodnie z wytycznymi MLPerf. Chociaż Volta V100 GPU zapewnia najlepszą wydajność, wszystkie procesory GPU również działają z wyjątkiem testów wydajności wykrycia obiektu.
W chwili publikacji test wydajności klasyfikacji obrazu w MLPerf nie powiódł się z wyRTXniem procesorów GPU z powodu błędu Convolution. Ten problem należy rozwiązać w przyszłym cuDNN uwalnianiem.
W tym blogu omówiono wydajność Dell EMC DSS 8440 GPU Server i NVIDIA RTX GPU dla HPC i AI. obciążenia. Wydajność dla obu procesorów RTX jest podobna, jednak RTX 8000 GPU byłaby najlepszą opcją dla aplikacji wymagających większej ilości pamięci. W przypadku obciążeń o podwójnej precyzji lub obciążeń, które wymagają użycia Volta V100S, a nowy procesor NVIDIA A100 GPU są najlepszym wyborem.
W przyszłości planuje się dostarczenie studiów wydajności na RTX procesorów GPU z innymi aplikacjami o wysokiej precyzji i badaniach wnioskowania na RTX i A100 procesorów GPU.