Server Dell EMC DSS8440 je 2 zásuvka, server 4U navržený pro vysoce výkonné výpočetní technologie, strojové učení (ml) a úlohy s hloubkovým učením. Podporuje různé grafické karty GPU, jako jsou NVIDIA Volta V100S a NVIDIA Tesla T4 tensor Core GPU a také NVIDIA Quadro RTX GPU .
(Obrázek: 1 Server Dell EMC DSS840)
V tomto blogu vyhodnocujeme výkon cenově nejefektivnějších nástrojů NVIDIA Quadro RTX 6000 a grafické karty NVIDIA Quadro RTX 8000 v porovnání s PROCESORem V100S s horním stupněm. To zahrnuje testování v porovnání s jednoduchými a dvojitými přesnými úlohami. Řada Quadro již existuje po dlouhou dobu, RTX GPU s architekturou NVIDIA Turing se spustí v pozdě 2018. Specifikace uvedené v tabulce 1 ukazují, že je grafický procesor RTX 8000 ve RTX 6000 s ohledem na vyšší konfiguraci paměti. Grafické karty RTX 8000 a RTX 6000 však mají vyšší požadavky na napájení ve srovnání s grafickým procesorem V100S. V případě pracovních úloh, které vyžadují vyšší kapacitu paměti, je RTX 8000 vhodnější.
Technické údaje | RTX 6000 | RTX 8000 | V100S – 32 GB |
---|---|---|---|
Architektura | Turing | Volta | |
Paměť | 24 GB GDDR6 | 48 GB GDDR6 | 32 GB HBM2 |
Výchozí taktovací frekvence (MHz) | 1395 | 1245 | |
Maximální taktovací frekvence GPU (MHz) | 1770 | 1597 | |
Jádra CUDA | 4608 | 5120 | |
FP32 (TFLOPS max.) | 16,3 | 16,4 | |
Šířka pásma paměti (GB/s) | 672 | 1134 | |
Napájení | 295 W | 250 W |
Tabulka: 1 specifikace grafické karty
Server | DellEMC, PowerEdge, DSS8440 | ||
---|---|---|---|
Procesor | 2 x procesory Intel Xeon 6248, 20 °C @ 2,5 GHz | ||
Paměť | 24 × 32 GB @ 2933 MT/s (768 GB celkem) | ||
Gpu | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S – PCIe |
Úložiště | 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500) | ||
Napájecí zdroje | 4 x 2400 W |
Podrobnosti konfigurace serveru Table. 2
BIOS | 2.5.4 |
---|---|
OS: | RHEL 7,6 |
Jádro | 3.10.0-957.el7.x86_64 |
Profil systému | Performance Optimized |
CUDA Toolkit Ovladač CUDA |
10,1 440.33.01 |
Podrobnosti o firmwaru systému Table. 3
Aplikace | Verze |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 Update 4 |
LAMMPS | Březen 3 2020 openmps – 4.0.3 |
MLPERF | školení v 0,6 dokovací zařízení Docker 19,03 |
Tabulka 4 informace o aplikaci
LAMMPS je program molekulárního dynamiky, který je udržován výzkumnými pracovníky v Sandia národní laboratoři a Templeou vysokou školu. LAMMPS byla zkompilována s balíčkem KOKKOS , aby bylo možné efektivně pracovat na grafické kartě NVIDIA. Lennard Novák DataSet použit pro porovnání výkonu a Timesteps/s je metrika, jak je znázorněno na obrázku 2:
(Obrázek. 2 Lennard Petr)
Jak je uvedeno v tabulce 1, jsou grafické karty RTX 6000 a RTX 8000 stejného počtu jader, s jednoduchou přesností a propustností grafického procesoru, ale s odlišnou pamětí grafického procesoru. Vzhledem k tomu, že oba grafické procesory RTX mají podobnou konfiguraci, výkon je rovněž ve stejném rozsahu. RTXe GPU je vhodný pro tuto aplikaci a výkon pro oba grafické karty je stejný.
Výkon grafického procesoru Volta V100S je přibližně třikrát rychlejší než na GPU Quadro RTX. Klíčovým faktorem pro tento vyšší výkon je větší propustnost paměti GRAFICKÉho procesoru V100S GPU.
HPL je standardní srovnávací test HPC, který měří výpočetní výkon. Používá se jako referenční srovnávací test, který je uveden v seznamu TOP500 za účelem ohodnocení počítačů na celém světě.
Na následujícím obrázku je znázorněn výkon RTX 6000, RTX 8000 a V100S GPU pomocí serveru DSS 8440. Jak vidíte, výkon grafické karty RTX je výrazně nižší než V100S grafický procesor. To je třeba očekávat, že HPL provádí faktoring typu Matrix LU, který je primárně dvakrát Precision s pohyblivou řádovou čárkou.
(Obrázek 3 HPL výkon s různými procesory GPU)
V případě, že srovnání teoretického výkonu s plovoucí řádovou čárkou je Rpeak, to znamená, že výkon V100S grafického procesoru je mnohem vyšší. Teoretická hodnota Rpeak na jednom RTX grafickém procesoru je přibližně 500GFlops. Tato hodnota poskytuje méně Performance (Rmax) na procesory GPU. Hodnota Rpeak pro Volta V100S GPU je 8.2 TFlops, což vede k mnohem vyššímu výkonu jednotlivých karet.
Nutnost standardních srovnávacích testů výkonnosti pro MILILITRy LED pro vývoj MLPerf Suite. Tato sada zahrnuje srovnávací testy pro hodnocení školení a vypořádání hardwarového a softwarového vybavení. Tato část pouze řeší výkon školicích programů GPU. V následující tabulce jsou uvedeny úlohy hloubkového vzdělávání, datové sady a cílová kritéria, které se používají k vyhodnocení GPU.
Benchmark | Dataset | Jakostní cíl | Referenční model implementace |
---|---|---|---|
Klasifikace bitových obrazů | ImageNet (224x224) | 75,9% Top – 1 přesnost | RESNET-50 v 1.5 |
Rozpoznání objektu (hmotnost světla) |
COCO 2017 | 23% mapy | Disk SSD (ResNet34) |
Rozpoznání objektu (silná hmotnost) |
COCO 2017 | minimální přístupový bod 0,377 v krabici 0,339 minimální přístupový bod |
Maska R – CNN |
Překlad (přestávající) |
WMT angličtina – němčina | 24,0 BLEU | GNMT |
Překlad (přestávající) |
WMT angličtina – němčina | 25,0 BLEU | Transformátor |
Posílení učení | Není k dispozici | Předem připravené kontrolní body | Mini go |
Tabulka. 5 MLPerf datové sady a cílová kritéria (zdroj:https://mlperf.org/Training-Overview/#overview )
na následujícím obrázku je znázorněn čas potřebný k splnění cílových kritérií pro rozhraní GPU RTX a V100S:
(Obrázek: 4 MLPERF výkon)
Výsledky se vezmou v úvahu po provedení násobku, nejvyšší a nejnižší hodnotu a průměrné hodnoty ostatních běží na základě uvedených pokynů. Výkon pro RTX GPU je podobný. Procentuální odchylka odchylky mezi oběma RTX GPU je minimální a v rozmezí převzetí v souladu s pokyny MLPerf. Zatímco Volta V100 GPU poskytuje maximální výkon, RTX GPU také pracuje stejně, s výjimkou srovnávacího benchmarku pro detekci objektu.
V době zveřejnění selhalo srovnávací test klasifikace bitových obrazů v MLPerf s RTX GPU z důvodu chyby konvoluce. Očekává se, že tento problém bude opraven v budoucí cuDNN vydání.
V tomto blogu jsme probrali výkon serveru GPU Dell EMC DSS 8440 a NVIDIA RTX GPU pro úlohy HPC a AI. Výkon pro oba RTX GPU je podobný, ale RTX 8000 GPU je ideální volbou pro aplikace, které vyžadují vyšší objem paměti. V případě pracovních úloh s dvojnásobnou přesností nebo úloh, které vyžadují velkou propustnost paměti Volta V100S a nového grafického procesoru NVIDIA A100, je nejvhodnější volbou.
V budoucnosti jsme pomohli poskytnout výkonnostní studii na RTX GPU s dalšími aplikacemi s přesností na Precision a s vyodvoznou studií na RTX a A100 GPU.