HPC-programprestanda med Turing

Summary: Artikel skriven av Frank Han, Rengan Xxx, Deepthi Cherlopalle och Quy Ta från Dell EMC HPC and AI Innovation Lab mars 2019

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Som efterträdare till Volta-arkitekturen är Turing™ NVIDIA® senaste GRAFIKprocessorserie från NVIDIA. Turing™ GPU finns tillgänglig med GeForce®, där den används för att återge realistiska spel och med Quadro®, vilket accelererar arbetsflöden för innehållsskapande. NVIDIA® Tesla®-serien är utformad för att hantera system för artificiell intelligens och HPC-arbetsbelastningar (High Performance Computing) i datacenter. NVIDIA® Tesla® T4 är den enda GPU i serverklass med Turing™ mikroarkitektur som finns på marknaden nu, och den stöds av Dell EMC PowerEdge R640-, R740-, R740xd- och R7425-servrar. I den här bloggen diskuteras prestanda för nya Tesla T4 jämfört med den senaste Volta V100-PCIe-enheten på PowerEdge R740-servern för olika HPC-program, bland andra HOOMD-blue, Amber, NAMD och HPL.

Överst på sidan

Översikt

PowerEdge R740-servern är en 2U Intel® Skylake-baserad rackmonteringsserver som ger en perfekt balans mellan lagring, I/O och acceleratorstöd. Den har stöd för upp till fyra * T4-kortplatser med ett eller tre V100-PCIe-GPU:er med dubbel kortplatsbredd i x16 PCIe 3.0-kortplatser. Tabell 1 visar skillnaderna mellan en enda T4 och V100. Volta™ V100 finns i 16 GB eller 32 GB minneskonfigurationer. Eftersom T4 bara finns i en 16 GB-version användes V100-kortet med 16 GB minne i jämförelsen av prestanda. Tabell 2 innehåller information om testbäddens maskin- och programvara.

Tabell 1: Jämförelse mellan T4 och V100

	Tesla V100-PCIe	Tesla T4
Arkitektur	Volta	Turing
CUDA-kärnor	5120	2560
Tensor-kärnor	640	320
Beräkningskapacitet	7.0	7.5
GPU-klocka	1245 MHz	585 MHz
Boostklocka	1380 MHz	1590 MHz
Minnestyp	HBM2	GDDR6
Minnesbuss	4096bit	256bit
Bandbredd	900 GB/s	320GB/s
Kortplatsbredd	Dubbel kortplatsbredd	Enkel kortplatsbredd
FP32 enkel precision	14 TFLOPS	8,1 TFLOPS
Blandad precision (FP16/FP32)	112 TFLOPS	65 TFLOPS
FP64 dubbel precision	7 TFLOPS	254,4 GFLOPS
TDP	250 W	70 W

Tabell 2: Information om konfiguration och programvaruversion för R740

Processor	2x Intel® Xeon ® Gold 6136 vid 3,0 GHz, 12c
Minne	384G (12 * 32 G vid 2 666 MHz)
Lokal disk	480G SSD
Operativsystem	Red Hat Enterprise Linux Server version 7.5
GPU	3x V100-PCIe 16 GB eller 4x T4 16 GB
CUDA-drivrutin	410,66
CUDA-verktyg	10,0
Processorinställningar > logiska processorer	Disabled (avaktiverad)
Systemprofiler	Prestanda
HPL	Kompilerat med CUDA10.0
NAMD	NAMD_Git-2019-02-11
Gult	18,12
HOOMD-blue	v2.5.0
OpenMPI	4.0.0

Överst på sidan

Cause

HOOMD-blue

SLN316570_en_US__1image (9290)

Bild 1: Prestandaresultat för HOOMD-blue med enkel och dubbel precision med V100 och T4 på PowerEdge R740-servern

HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics – blue) är en molekylärdynamiksimulator för allmänt bruk. Som standard kompileras HOOMD-blue med dubbel precision (FP64) och i version 2.5 finns parametern SINGLE_PRECISION=ON för att tvinga kompilering med enkel precision (FP32). Bild 1 visar mikrosfärdatauppsättningens resultat för enkel och dubbel precision. X-axeln är antalet GPU:er och prestandamätetalet är timmar för att köra 10e6-steg.

En observation är att FP64-prestanda hos T4 är relativt låg. Det beror på maskinvarubegränsningen. I teorin kan T4 leverera högsta prestanda på 254 GFLOPS (se tabell 1) med dubbel precision, medan V100 är ~27x bättre. Prestanda för program som HOOMD-blue, som kan kompileras och köras med enkel precision, kan emellertid ha en prestandafördel med kompileringsalternativet FP32. HOOMD-blue-gemenskapen har övervägt vårt förslag om att ge stöd åt blandad precision på alla HOOMD-blue-moduler. När arbetet är klart kan HOOMD-blue bättre utnyttja maskinvara med stöd för blandad precision.
Genom att jämföra prestanda för enkel precision för T4 och V100 har vi sett att V100 är tre gånger bättre än T4. Dessa prestanda förväntas från och med T4 på grund av antalet CUDA-kärnor och acceleratorns märkeffekt.
GPU:er i PowerEdge R740-servern ansluts via PCIe. För datapunkten för tre V100-GPU:er mättas PCIe-bussen på grund av peer-to-peer-kommunikation. Det påverkar totala prestanda, vilket ger samma prestanda som en GPU.

Överst på sidan

Gult

Amber är namnet på en serie program med vilka användare kan utföra molekyldynamiksimuleringar, särskilt för biomolekyler. Termen Amber används också för att hänvisa till de empiriska kraftfält som används i programserien. Amber-version 18.12 med AmberTools 18.13 har testats med Amber 18 Benchmark Suite, som inkluderar JAC, Cellulose, FactorIX, STMV, TRPCage, myoglobin- och nukleosom-datauppsättning.

SLN316570_en_US__2image (9276)

Bild 2: Amber-resultat för explicit lösning med V100 och T4 på PowerEdge R740-servern

SLN316570_en_US__3image (9277)

Bild 3: Amber-resultat för implicita lösningsmedel med V100 och T4 på PowerEdge R740-servern

Bild 2 och bild 3 visar prestandatal för det enskilda kortet och för hela systemet för både explicit och implicit beräkning. Datapunkten "system" i diagrammet ovan representerar hela systemets totala genomströmning för alla grafikprocessorer. PowerEdge R740-servern har stöd för tre V100 eller fyra T4, så "system"-staplar i rött och blått är resultatet med tre V100 eller fyra T4.

Anledningen till att föredra aggregerade data på flera grafikkort är att Pascal och senare grafikkort inte kan skalas högre än till en enkel accelerator för Amber-program. Användare kör i allmänhet flera simuleringar parallellt på andra GPU:er. När det gäller prestanda med en stor datauppsättning som STMV (1 067 095 atomer) har enkel T4 33 procent och hela systemet 44 procent av kapaciteten för V100. Datauppsättningar som TRPCage (endast 304 atomer) är för små för att kunna använda V100 effektivt. Därför är dess prestanda inte mycket snabbare än T4 eftersom den är till för större PME-körningar. Enligt resultatet på Ambers officiella webbplats är nästan alla GPU-nummer tre till fyra gånger snabbare än körningar med enbart processor. Därför är det ett bra alternativ att ha ett T4-kort i en server som hanterar små datauppsättningar.

Överst på sidan

Resolution

NAMD (Nanoscale Molecular Dynamics)

SLN316570_en_US__4image (9278)

Bild 4: Prestandaresultat för NAMD med V100 och T4 på PowerEdge R740-servern

NAMD är en molekylär dynamikkod utformad för simulering med höga prestanda av stora biomolekylära system. I dessa test användes inte den förbyggda binära koden. Istället byggdes NAMD med den senaste källkoden (NAMD_GIT-2019-02-11) med CUDA 10.0. För bästa prestanda kompilerades NAMD med Intel®-kompilator och bibliotek (version 2018u3). På bild 4 visas prestandaresultaten utifrån STMV-datauppsättningen (1 066 628 atomer, periodisk, PME). NAMD kan inte skalas upp mer än ett V100-kort och kan skalas upp med tre T4-kort. Och en T4-GPU ger 42 procent av V100:s prestanda. Det är bra siffror med tanke på att den bara har 28 procent av V100:s TDP. T4 kan vara ett alternativ för datacenter med begränsad effekt- och kylningskapacitet.

Överst på sidan

HPL (High Performance Linpack)

SLN316570_en_US__5image (9283)

Bild 5: HPL-resultat med V100 och T4 på PowerEdge R740-servern

På bild 5 visas HPL-prestanda för PowerEdge R740 med flera V100- eller T4-GPU:er. Som förväntat kan HPL-siffror skalas upp väl med flera GPU:er för V100 och T4. Men prestanda för T4 är betydligt lägre än för V100 på grund av dess FP64-begränsning. På grund av den begränsade kapaciteten för dubbel precision hos T4 är prestandajämförelsen med V100 inte idealisk och Volta V100 är fortfarande det bästa alternativet för sådana program med dubbel precision.

Överst på sidan

Slutsatser och framtida arbete

I den här bloggen jämfördes HPC-programprestanda för HOOMD-blue, Amber, NAMD och HPL mellan V100 och T4 på Dell EMC PowerEdge R740. T4 används inte bara för djupinlärningsinferens, utan är också fördelaktigt för HPC-program med stöd för enkel och blandad precision. Dess låga TDP kan hjälpa till att snabba upp traditionella datacenter med begränsad effekt- och kylningskapacitet. Den lilla PCIe-formfaktorn för T4 gör att det passar bra för PowerEdge-servrar för mer allmänt bruk. I framtiden planeras ytterligare test med fler program som RELION, GROMACS och LAMMPS, samt test för program som kan utnyttja blandad precision.

*Friskrivning: I jämförelsesyfte utvärderades fyra T4-grafikprocessorer i Dell PowerEdge R740. För närvarande har PowerEdge R740 officiellt stöd för högst tre T4 på x16 PCIe-kortplatser.

Överst på sidan

Affected Products

High Performance Computing Solution Resources, PowerEdge R740

Article Number: 000130819

Article Type: Solution

Last Modified: 28 Sep 2021

Version: 4

Check if your device is covered by Support Services.

HPC-programprestanda med Turing

Summary: Artikel skriven av Frank Han, Rengan Xxx, Deepthi Cherlopalle och Quy Ta från Dell EMC HPC and AI Innovation Lab mars 2019

Symptoms

Innehållsförteckning:

Sammanfattning

Översikt

Cause

HOOMD-blue

Gult

Resolution

NAMD (Nanoscale Molecular Dynamics)

HPL (High Performance Linpack)

Slutsatser och framtida arbete

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

HPC-programprestanda med Turing

Summary: Artikel skriven av Frank Han, Rengan Xxx, Deepthi Cherlopalle och Quy Ta från Dell EMC HPC and AI Innovation Lab mars 2019

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services