メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能

Server Dell EMC DSS 8440 využívající grafické karty NVIDIA RTX pro zatížení superpočítačů a umělé inteligence

概要: Server Dell EMC DSS8440 je 2 zásuvka, server 4U navržený pro vysoce výkonné výpočetní technologie, strojové učení (ML) a úlohy s hloubkovým učením. Tento článek porovnává výkon různých grafických procesorů NVIDIA Volta V100S a NVIDIA Tesla T4 tensor Core GPU a grafického rozhraní NVIDIA Quadro RTX v tomto systému. ...

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

 

Deepthi Cherlopalle a Josef Han

 

Inovace HPC a AI v laboratoři Dell EMC. června 2020

 

Server Dell EMC DSS8440 je 2 zásuvka, server 4U navržený pro vysoce výkonné výpočetní technologie, strojové učení (ml) a úlohy s hloubkovým učením. Podporuje různé grafické karty GPU, jako jsou NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 a NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 tensor Core GPU a také NVIDIA Quadro RTX GPUSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Obrázek: 1 Server Dell EMC DSS840)

V tomto blogu vyhodnocujeme výkon cenově nejefektivnějších nástrojů NVIDIA Quadro RTX 6000 a grafické karty NVIDIA Quadro RTX 8000 v porovnání s PROCESORem V100S s horním stupněm. To zahrnuje testování v porovnání s jednoduchými a dvojitými přesnými úlohami. Řada Quadro již existuje po dlouhou dobu, RTX GPU s architekturou NVIDIA Turing se spustí v pozdě 2018. Specifikace uvedené v tabulce 1 ukazují, že je grafický procesor RTX 8000 ve RTX 6000 s ohledem na vyšší konfiguraci paměti. Grafické karty RTX 8000 a RTX 6000 však mají vyšší požadavky na napájení ve srovnání s grafickým procesorem V100S. V případě pracovních úloh, které vyžadují vyšší kapacitu paměti, je RTX 8000 vhodnější.

Technické údaje RTX 6000 RTX 8000 V100S – 32 GB
Architektura Turing Volta
Paměť 24 GB GDDR6 48 GB GDDR6 32 GB HBM2
Výchozí taktovací frekvence (MHz) 1395 1245
Maximální taktovací frekvence GPU (MHz) 1770 1597
Jádra CUDA 4608 5120
FP32 (TFLOPS max.) 16,3 16,4
Šířka pásma paměti (GB/s) 672 1134
Napájení 295 W 250 W

Tabulka: 1 specifikace grafické karty

Server DellEMC, PowerEdge, DSS8440
Procesor 2 x procesory Intel Xeon 6248, 20 °C @ 2,5 GHz
Paměť 24 × 32 GB @ 2933 MT/s (768 GB celkem)
Gpu  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S – PCIe 
Úložiště 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Napájecí zdroje 4 x 2400 W

Podrobnosti konfigurace serveru Table. 2

BIOS 2.5.4
OS: RHEL 7,6
Jádro 3.10.0-957.el7.x86_64
Profil systému Performance Optimized
CUDA Toolkit
Ovladač CUDA
10,1
440.33.01

Podrobnosti o firmwaru systému Table. 3

Aplikace Verze
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 Update 4
LAMMPS Březen 3 2020
openmps – 4.0.3
MLPERF SLN321776_en_US__1iC_External_Link_BD_v1 školení
v 0,6 dokovací zařízení Docker 19,03

Tabulka 4 informace o aplikaci

原因

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 je program molekulárního dynamiky, který je udržován výzkumnými pracovníky v Sandia národní laboratoři a Templeou vysokou školu. LAMMPS byla zkompilována s balíčkem KOKKOSSLN321776_en_US__6iC_External_Link_BD_v1 , aby bylo možné efektivně pracovat na grafické kartě NVIDIA. Lennard Novák DataSet použit pro porovnání výkonu a Timesteps/s je metrika, jak je znázorněno na obrázku 2:

SLN321776_en_US__8image (18427)

(Obrázek. 2 Lennard Petr)

 Jak je uvedeno v tabulce 1, jsou grafické karty RTX 6000 a RTX 8000 stejného počtu jader, s jednoduchou přesností a propustností grafického procesoru, ale s odlišnou pamětí grafického procesoru. Vzhledem k tomu, že oba grafické procesory RTX mají podobnou konfiguraci, výkon je rovněž ve stejném rozsahu. RTXe GPU je vhodný pro tuto aplikaci a výkon pro oba grafické karty je stejný.

Výkon grafického procesoru Volta V100S je přibližně třikrát rychlejší než na GPU Quadro RTX. Klíčovým faktorem pro tento vyšší výkon je větší propustnost paměti GRAFICKÉho procesoru V100S GPU.


High Performance Linpack (HPL)

HPL je standardní srovnávací test HPC, který měří výpočetní výkon. Používá se jako referenční srovnávací test, který je uveden v seznamu TOP500 za účelem ohodnocení počítačů na celém světě.

Na následujícím obrázku je znázorněn výkon RTX 6000, RTX 8000 a V100S GPU pomocí serveru DSS 8440. Jak vidíte, výkon grafické karty RTX je výrazně nižší než V100S grafický procesor. To je třeba očekávat, že HPL provádí faktoring typu Matrix LU, který je primárně dvakrát Precision s pohyblivou řádovou čárkou.

SLN321776_en_US__9image (18428)

(Obrázek 3 HPL výkon s různými procesory GPU)

V případě, že srovnání teoretického výkonu s plovoucí řádovou čárkou je Rpeak, to znamená, že výkon V100S grafického procesoru je mnohem vyšší. Teoretická hodnota Rpeak na jednom RTX grafickém procesoru je přibližně 500GFlops. Tato hodnota poskytuje méně Performance (Rmax) na procesory GPU. Hodnota Rpeak pro Volta V100S GPU je 8.2 TFlops, což vede k mnohem vyššímu výkonu jednotlivých karet.


MLPerf

Nutnost standardních srovnávacích testů výkonnosti pro MILILITRy LED pro vývoj MLPerf Suite. Tato sada zahrnuje srovnávací testy pro hodnocení školení a vypořádání hardwarového a softwarového vybavení. Tato část pouze řeší výkon školicích programů GPU. V následující tabulce jsou uvedeny úlohy hloubkového vzdělávání, datové sady a cílová kritéria, které se používají k vyhodnocení GPU.

Benchmark Dataset Jakostní cíl Referenční model implementace
Klasifikace bitových obrazů ImageNet (224x224) 75,9% Top – 1 přesnost RESNET-50 v 1.5
Rozpoznání objektu
(hmotnost světla)
COCO 2017 23% mapy Disk SSD (ResNet34)
Rozpoznání objektu
(silná hmotnost)
COCO 2017 minimální přístupový bod 0,377 v krabici
0,339 minimální přístupový bod
Maska R – CNN
Překlad
(přestávající)
WMT angličtina – němčina 24,0 BLEU GNMT
Překlad
(přestávající)
 WMT angličtina – němčina  25,0 BLEU Transformátor
Posílení učení Není k dispozici Předem připravené kontrolní body Mini go

Tabulka. 5 MLPerf datové sady a cílová kritéria (zdroj:https://mlperf.org/Training-Overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

na následujícím obrázku je znázorněn čas potřebný k splnění cílových kritérií pro rozhraní GPU RTX a V100S:

SLN321776_en_US__11image (18441)
(Obrázek: 4 MLPERF výkon)

Výsledky se vezmou v úvahu po provedení násobku, nejvyšší a nejnižší hodnotu a průměrné hodnoty ostatních běží na základě uvedených pokynů. Výkon pro RTX GPU je podobný. Procentuální odchylka odchylky mezi oběma RTX GPU je minimální a v rozmezí převzetí v souladu s pokyny MLPerf. Zatímco Volta V100 GPU poskytuje maximální výkon, RTX GPU také pracuje stejně, s výjimkou srovnávacího benchmarku pro detekci objektu.

V době zveřejnění selhalo srovnávací test klasifikace bitových obrazů v MLPerf s RTX GPU z důvodu chyby konvoluce. Očekává se, že tento problém bude opraven v budoucí cuDNN vydání.

解決方法

Shrnutí:

V tomto blogu jsme probrali výkon serveru GPU Dell EMC DSS 8440 a NVIDIA RTX GPU pro úlohy HPC a AI. Výkon pro oba RTX GPU je podobný, ale RTX 8000 GPU je ideální volbou pro aplikace, které vyžadují vyšší objem paměti. V případě pracovních úloh s dvojnásobnou přesností nebo úloh, které vyžadují velkou propustnost paměti Volta V100S a nového grafického procesoru NVIDIA A100, je nejvhodnější volbou.

V budoucnosti jsme pomohli poskytnout výkonnostní studii na RTX GPU s dalšími aplikacemi s přesností na Precision a s vyodvoznou studií na RTX a A100 GPU.


対象製品

High Performance Computing Solution Resources
文書のプロパティ
文書番号: 000132886
文書の種類: Solution
最終更新: 25 2月 2021
バージョン:  4
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。