Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

HPC-programprestanda med Turing

Summary: Artikel skriven av Frank Han, Rengan Xxx, Deepthi Cherlopalle och Quy Ta från Dell EMC   HPC and AI Innovation Lab mars 2019

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms


Innehållsförteckning:

  1. Sammanfattning
  2. Översikt
  3. HOOMD-blue
  4. Gult
  5. NAMD (Nanoscale Molecular Dynamics)
  6. HPL (High Performance Linpack)
  7. Slutsatser och framtida arbete

 

Sammanfattning

 

Som efterträdare till Volta-arkitekturen är Turing™ NVIDIA® senaste GRAFIKprocessorserie från NVIDIA. Turing™ GPU finns tillgänglig med GeForce®, där den används för att återge realistiska spel och med Quadro®, vilket accelererar arbetsflöden för innehållsskapande. NVIDIA® Tesla®-serien är utformad för att hantera system för artificiell intelligens och HPC-arbetsbelastningar (High Performance Computing) i datacenter. NVIDIA® Tesla® T4 är den enda GPU i serverklass med Turing™ mikroarkitektur som finns på marknaden nu, och den stöds av Dell EMC PowerEdge R640-, R740-, R740xd- och R7425-servrar. I den här bloggen diskuteras prestanda för nya Tesla T4 jämfört med den senaste Volta V100-PCIe-enheten på PowerEdge R740-servern för olika HPC-program, bland andra HOOMD-blue, Amber, NAMD och HPL.


Överst på sidan


 

Översikt

 

PowerEdge R740-servern är en 2U Intel® Skylake-baserad rackmonteringsserver som ger en perfekt balans mellan lagring, I/O och acceleratorstöd. Den har stöd för upp till fyra * T4-kortplatser med ett eller tre V100-PCIe-GPU:er med dubbel kortplatsbredd i x16 PCIe 3.0-kortplatser.  Tabell 1 visar skillnaderna mellan en enda T4 och V100. Volta™ V100 finns i 16 GB eller 32 GB minneskonfigurationer.  Eftersom T4 bara finns i en 16 GB-version användes V100-kortet med 16 GB minne i jämförelsen av prestanda. Tabell 2 innehåller information om testbäddens maskin- och programvara.

Tabell 1: Jämförelse mellan T4 och V100

 

Tesla V100-PCIe

Tesla T4

Arkitektur

Volta

Turing

CUDA-kärnor

5120

2560

Tensor-kärnor

640

320

Beräkningskapacitet

7.0

7.5

GPU-klocka

1245 MHz

585 MHz

Boostklocka

1380 MHz

1590 MHz

Minnestyp

HBM2

GDDR6

Minnesbuss

4096bit

256bit

Bandbredd

900 GB/s

320GB/s

Kortplatsbredd

Dubbel kortplatsbredd

Enkel kortplatsbredd

FP32 enkel precision

14 TFLOPS

8,1 TFLOPS

Blandad precision (FP16/FP32)

112 TFLOPS

65 TFLOPS

FP64 dubbel precision

7 TFLOPS

254,4 GFLOPS

TDP

250 W

70 W

 

Tabell 2: Information om konfiguration och programvaruversion för R740

Processor

2x Intel® Xeon ® Gold 6136 vid 3,0 GHz, 12c

Minne

384G (12 * 32 G vid 2 666 MHz)

Lokal disk

480G SSD

Operativsystem

Red Hat Enterprise Linux Server version 7.5

GPU

3x V100-PCIe 16 GB eller 4x T4 16 GB

CUDA-drivrutin

410,66

CUDA-verktyg

10,0

Processorinställningar > logiska processorer

Disabled (avaktiverad)

Systemprofiler

Prestanda

HPL

Kompilerat med CUDA10.0

NAMD

NAMD_Git-2019-02-11

Gult

18,12

HOOMD-blue

v2.5.0

OpenMPI

4.0.0

 


Överst på sidan


 

Cause

HOOMD-blue

 

SLN316570_en_US__1image (9290)

Bild 1: Prestandaresultat för HOOMD-blue med enkel och dubbel precision med V100 och T4 på PowerEdge R740-servern

HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics – blue) är en molekylärdynamiksimulator för allmänt bruk. Som standard kompileras HOOMD-blue med dubbel precision (FP64) och i version 2.5 finns parametern SINGLE_PRECISION=ON för att tvinga kompilering med enkel precision (FP32). Bild 1 visar mikrosfärdatauppsättningens resultat för enkel och dubbel precision. X-axeln är antalet GPU:er och prestandamätetalet är timmar för att köra 10e6-steg.

  1. En observation är att FP64-prestanda hos T4 är relativt låg. Det beror på maskinvarubegränsningen. I teorin kan T4 leverera högsta prestanda på 254 GFLOPS (se tabell 1) med dubbel precision, medan V100 är ~27x bättre. Prestanda för program som HOOMD-blue, som kan kompileras och köras med enkel precision, kan emellertid ha en prestandafördel med kompileringsalternativet FP32. HOOMD-blue-gemenskapen har övervägt vårt förslag om att ge stöd åt blandad precision på alla HOOMD-blue-moduler. När arbetet är klart kan HOOMD-blue bättre utnyttja maskinvara med stöd för blandad precision.

  2. Genom att jämföra prestanda för enkel precision för T4 och V100 har vi sett att V100 är tre gånger bättre än T4. Dessa prestanda förväntas från och med T4 på grund av antalet CUDA-kärnor och acceleratorns märkeffekt.

  3. GPU:er i PowerEdge R740-servern ansluts via PCIe. För datapunkten för tre V100-GPU:er mättas PCIe-bussen på grund av peer-to-peer-kommunikation. Det påverkar totala prestanda, vilket ger samma prestanda som en GPU.

 


Överst på sidan


 

Gult

 


Amber är namnet på en serie program med vilka användare kan utföra molekyldynamiksimuleringar, särskilt för biomolekyler. Termen Amber används också för att hänvisa till de empiriska kraftfält som används i programserien. Amber-version 18.12 med AmberTools 18.13 har testats med Amber 18 Benchmark Suite, som inkluderar JAC, Cellulose, FactorIX, STMV, TRPCage, myoglobin- och nukleosom-datauppsättning.

SLN316570_en_US__2image (9276)

Bild 2: Amber-resultat för explicit lösning med V100 och T4 på PowerEdge R740-servern

SLN316570_en_US__3image (9277)

Bild 3: Amber-resultat för implicita lösningsmedel med V100 och T4 på PowerEdge R740-servern 

Bild 2 och bild 3 visar prestandatal för det enskilda kortet och för hela systemet för både explicit och implicit beräkning.  Datapunkten "system" i diagrammet ovan representerar hela systemets totala genomströmning för alla grafikprocessorer. PowerEdge R740-servern har stöd för tre V100 eller fyra T4, så "system"-staplar i rött och blått är resultatet med tre V100 eller fyra T4.

Anledningen till att föredra aggregerade data på flera grafikkort är att Pascal och senare grafikkort inte kan skalas högre än till en enkel accelerator för Amber-program. Användare kör i allmänhet flera simuleringar parallellt på andra GPU:er. När det gäller prestanda med en stor datauppsättning som STMV (1 067 095 atomer) har enkel T4 33 procent och hela systemet 44 procent av kapaciteten för V100. Datauppsättningar som TRPCage (endast 304 atomer) är för små för att kunna använda V100 effektivt. Därför är dess prestanda inte mycket snabbare än T4 eftersom den är till för större PME-körningar. Enligt resultatet på Ambers officiella webbplats är nästan alla GPU-nummer tre till fyra gånger snabbare än körningar med enbart processor. Därför är det ett bra alternativ att ha ett T4-kort i en server som hanterar små datauppsättningar.


Överst på sidan


 

Resolution

NAMD (Nanoscale Molecular Dynamics)

 

SLN316570_en_US__4image (9278)

Bild 4: Prestandaresultat för NAMD med V100 och T4 på PowerEdge R740-servern

NAMD är en molekylär dynamikkod utformad för simulering med höga prestanda av stora biomolekylära system. I dessa test användes inte den förbyggda binära koden. Istället byggdes NAMD med den senaste källkoden (NAMD_GIT-2019-02-11) med CUDA 10.0. För bästa prestanda kompilerades NAMD med Intel®-kompilator och bibliotek (version 2018u3). På bild 4 visas prestandaresultaten utifrån STMV-datauppsättningen (1 066 628 atomer, periodisk, PME). NAMD kan inte skalas upp mer än ett V100-kort och kan skalas upp med tre T4-kort. Och en T4-GPU ger 42 procent av V100:s prestanda. Det är bra siffror med tanke på att den bara har 28 procent av V100:s TDP. T4 kan vara ett alternativ för datacenter med begränsad effekt- och kylningskapacitet.


Överst på sidan


 

HPL (High Performance Linpack)

 

SLN316570_en_US__5image (9283)

Bild 5: HPL-resultat med V100 och T4 på PowerEdge R740-servern

På bild 5 visas HPL-prestanda för PowerEdge R740 med flera V100- eller T4-GPU:er. Som förväntat kan HPL-siffror skalas upp väl med flera GPU:er för V100 och T4. Men prestanda för T4 är betydligt lägre än för V100 på grund av dess FP64-begränsning. På grund av den begränsade kapaciteten för dubbel precision hos T4 är prestandajämförelsen med V100 inte idealisk och Volta V100 är fortfarande det bästa alternativet för sådana program med dubbel precision.


Överst på sidan


 

Slutsatser och framtida arbete

 

I den här bloggen jämfördes HPC-programprestanda för HOOMD-blue, Amber, NAMD och HPL mellan V100 och T4 på Dell EMC PowerEdge R740. T4 används inte bara för djupinlärningsinferens, utan är också fördelaktigt för HPC-program med stöd för enkel och blandad precision. Dess låga TDP kan hjälpa till att snabba upp traditionella datacenter med begränsad effekt- och kylningskapacitet. Den lilla PCIe-formfaktorn för T4 gör att det passar bra för PowerEdge-servrar för mer allmänt bruk. I framtiden planeras ytterligare test med fler program som RELION, GROMACS och LAMMPS, samt test för program som kan utnyttja blandad precision.

*Friskrivning: I jämförelsesyfte utvärderades fyra T4-grafikprocessorer i Dell PowerEdge R740. För närvarande har PowerEdge R740 officiellt stöd för högst tre T4 på x16 PCIe-kortplatser.


Överst på sidan


Affected Products

High Performance Computing Solution Resources, PowerEdge R740
Article Properties
Article Number: 000130819
Article Type: Solution
Last Modified: 28 Sep 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.