Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

HPC-programmers ydeevne med Turing

Summary: Artikel skrevet af Frank Han, Rengan Xu, Deepthi Cherlopalle og Quy Ta fra Dell   EMC HPC og AI Innovation Lab i marts 2019

This article applies to   This article does not apply to 

Symptoms


Indholdsfortegnelse:

  1. Uddrag
  2. Oversigt
  3. HOOMD-blue
  4. Amber
  5. NAnoscale Molecular Dynamics (NAMD)
  6. High Performance Linpack (HPL)
  7. Konklusioner og fremtidigt arbejde

 

Uddrag

 

Som efterfølgeren til Volta-arkitekturen er Turing™ NVIDIA® nyeste NVIDIA-serie af GPU'er. Turing™ GPU fås med GeForce®, hvor den bruges til at gøre spil meget realistiske, og med Quadro®, der accelererer workflows til oprettelse af indhold. NVIDIA® Tesla®-serien er designet til at håndtere systemer med kunstig intelligens og højtydende databehandling (HPC) i datacentre. NVIDIA® Tesla® T4 er den eneste serverbaserede GPU med Turing™ mikroarkitektur, der er tilgængelig på markedet nu, og den understøttes af Dell EMC PowerEdge R640-, R740-, R740xd- og R7425-servere. Denne blog diskuterer den nye Tesla T4's ydeevne sammenlignet med den nyeste Volta V100-PCIe på PowerEdge R740-serveren for forskellige HPC-programmer, herunder HOOMD-blue, Amber, NAMD og HPL.


Tilbage til toppen


 

Oversigt

 

PowerEdge R740-serveren er en 2U Intel® Skylake-baseret rackmonteringsserver, der giver en ideel balance mellem storage-, I/O- og accelerator-understøttelse. Den understøtter op til fire* enkeltstik T4- eller tre V100-PCIe- dobbeltstik GPU'er i x16 PCIe 3.0-stik.  Tabel 1 viser forskellene mellem en enkelt T4 og V100. Volta™ V100 fås i 16 GB eller 32 GB hukommelseskonfigurationer.  Da T4 kun er tilgængelig i 16 GB-versionen, blev V100-kortet med 16 GB hukommelse brugt for at kunne sammenligne resultaterne. Tabel 2 viser testbænkens hardware- og softwaredetaljer.

Tabel 1: Sammenligningen mellem T4 og V100

 

Tesla V100-PCIe

Tesla T4

Arkitektur

Volta

Turing

CUDA-kerner

5120

2560

Tensor-kerner

640

320

Beregningskapacitet

7.0

7.5

GPU-clock

1245 MHz

585 MHz

Boost-clock

1380 MHz

1590 MHz

Hukommelsestype

HBM2

GDDR6

Hukommelsesbus

4096bit

256bit

Båndbredde

900 GB/s

320GB/s

Stikbredde

Dobbelstik

Enkeltstik

FP32 enkeltpræcision

14 TFLOPS

8,1 TFLOPS

Blandet præcision (FP16/FP32)

112 TFLOPS

65 TFLOPS

FP64 dobbeltpræcision

7 TFLOPS

254,4 GFLOPS

TDP

250 W

70 W

 

Tabel 2: Oplysninger om R740-konfiguration og -softwareversion

Processor

2x Intel® Xeon ® Gold 6136 ved 3,0 GHz, 12c

Hukommelse

384 G (12*32 G ved 2666 MHz)

Lokal disk

480 G SSD

Operativsystem

Red Hat Enterprise Linux Server, version 7.5

GPU

3x V100-PCIe 16 GB eller 4x T4 16 GB

CUDA-driver

410,66

CUDA Toolkit

10,0

Processor-indstillinger >logiske processorer

Deaktiveret

Systemprofiler

Performance (Ydeevne)

HPL

Kompileret med CUDA 10.0

NAMD

NAMD_Git-2019-02-11

Amber

18,12

HOOMD-blue

v2.5.0

OpenMPI

4.0.0

 


Tilbage til toppen


 

Cause

HOOMD-blue

 

SLN316570_en_US__1image(9290)

Figur 1: HOOMD-blue enkelt- og dobbeltpræcisionsydeevneresultater med V100'er og T4'er på PowerEdge R740-serveren

HOOMD-blue (Highly Optimized Objet-oriented Many-particle Dynamics - blue) er en simulator for molekylær dynamik til generel brug. Som standard kompileres HOOMD-blue i dobbeltpræcision (FP64) og version 2.5 har et parameter SINGLE_PRECISION=ON til at gennemtvinge en kompilering i enkeltpræcision (FP32). Figur 1 viser mikrosfæredatasætresultaterne for enkelt- og dobbeltpræcision. X-aksen er antallet af GPU'er, og ydelsesmåleenheden er timer for at køre 10e6-trin.

  1. Det observeres, at FP64-ydelsen for T4 er relativt lav. Dette skyldes hardware-begrænsningen. I teorien har T4 en optimal ydeevne på 254 GFLOPS (se tabel 1) i dobbeltpræcision, hvorimod V100 er ~27x bedre. Men ydeevnen af programmer som HOOMD-blue, som kan kompileres og køres med enkeltpræcision, kan have en ydeevnefordel med FP32-kompileringsindstillingen. HOOMD-blue-fællesskabet har vurderet vores forslag om at understøtte blandet præcision på alle HOOMD-blue moduler. Når indsatsen er gennemført, kan HOOMD-Blue udnyttes bedre på hardware, som understøtter blandet præcision.

  2. Når vi sammenlignede enkeltpræcisionsydelsen for T4 og V100, konstaterede vi, at V100 er 3x bedre end T4. Denne ydelse er forventelig for T4 pga. antallet af CUDA-kerner og acceleratorens strømklassificering.

  3. GPU'erne i PowerEdge R740-serveren er forbundet via PCIe. For de tre V100 GPU-datapunkter er PCIe-bussen mættet på grund af peer-to-peer-kommunikation. Dette påvirker den generelle ydeevne, hvilket resulterer i den samme ydelse som én GPU.

 


Tilbage til toppen


 

Amber

 


Amber er det overordnede navn for en pakke af programmer, der gør det muligt for brugere at udføre simuleringer af molekyledynamik, især for biomolekyler. Ordet Amber henviser også til de empiriske kraftfelter, der er implementeret i denne pakke. Amber version 18.12 med AmberTools 18.13 er testet med Amber 18-benchmarkpakken, som omfatter JAC, Cellulose, FactorIX, STMV, TRPCage, myoglobin- og nukleosom-datasæt.

SLN316570_en_US__2image(9276)

Figur 2: Amber-resultater med eksplicitte opløsningsmidler med V100'er og T4'er på PowerEdge R740-serveren

SLN316570_en_US__3image(9277)

Figur 3: Amber-resultater med implicitte opløsningsmidler med V100'er og T4'er på PowerEdge R740-serveren 

Figur 2 og 3 viser det enkelte kort og tallene for hele den samlede systemydelse for henholdsvis explicitte og implicitte opløsningsmidler.  Datapunktet "system" fra ovenstående graf repræsenterer systemets samlede overførselshastighed for alle GPU'er. PowerEdge R740-serveren understøtter tre V100'er eller fire T4'er, så "system"-bjælker med rødt og blåt er resultaterne med tre V100'er eller fire T4'er.

Grunden til, at alle data for flere GPU-kort foretrækkes, er, at Pascal og senere GPU'erne ikke kan skalere ud over en enkelt accelerator for Amber-programmet. Brugere kører normalt flere simuleringer parallelt på andre GPU'er. I forhold til ydeevne med et stort datasæt som STMV (1.067.095 atomer) udgør enkelt T4 33 %, og hele systemet 44 % af V100's kapacitet. Datasæt som TRPCage (bare 304 atomer) er for små til at gøre effektiv brug af V100'er, og derfor er ydeevnen på den ikke meget hurtigere end T4, da den er til større PME-kørsler. Ifølge resultatet på Ambers officielle hjemmeside er næsten alle GPU'er tre til fire gange hurtigere end kørsler med CPU alene, så et T4-kort i en server, der arbejder med små datasæt, vil være en god løsning.


Tilbage til toppen


 

Resolution

NAnoscale Molecular Dynamics (NAMD)

 

SLN316570_en_US__4image(9278)

Figur 4: NAMD-ydeevneresultater med V100'er og T4'er på PowerEdge R740-serveren

NAMD er en kode for molekylær dynamik, der er designet til simuleringer med en høj ydelse af store biomolekylære systemer. I disse test blev den indbyggede binære fil ikke brugt. I stedet blev NAMD oprettet med den nyeste kildekode (NAMD_Git-2019-02-11) med CUDA 10.0. For at opnå den bedste ydelse blev NAMD kompileret med Intel®-compileren og -bibliotekerne (version 2018u3). Figur 4 viser ydelsesresultaterne vha. STMV-datasættet (1.066.628 atomer, periodisk, PME). NAMD kan ikke skaleres ud over ét V100-kort, og det skaleres fint med tre T4-kort. Og enkelt T4-GPU'en leverer 42 procent af V100's ydelse. Dette er et pænt tal, i betragtning af, at det kun har 28 procent af V100's TDP. T4 kan være et godt valg for datacentre med begrænset strøm- og kølekapacitet.


Tilbage til toppen


 

High Performance Linpack (HPL)

 

SLN316570_en_US__5image(9283)

Figur 5: HPL-resultater med V100'er og T4'er på PowerEdge R740-serveren

Figur 5 viser HPL-ydelsen på PowerEdge R740 med flere V100- eller T4-GPU'er. Som forventet, skaleres HPL-tal godt med flere GPUer for V100 og T4. Men T4-ydelsen er betydeligt mindre end V100 på grund af dens FP64-begrænsning. På grund af den begrænsede dobbeltpræcisionskapacitet på T4, er sammenligningen af ydeevnen med V100 ikke ideel, og Volta V100 forbliver det bedste valg for sådanne dobbeltpræcisionsprogrammer.


Tilbage til toppen


 

Konklusioner og fremtidigt arbejde

 

I denne blog sammenlignede vi HPC-programydeevnen med HOOMD-blue, Amber, NAMD og HPL mellem V100 og T4 på Dell EMC PowerEdge R740. T4 anvendes ikke kun med henblik på Deep Learning Inference, den kan også med fordel bruges til HPC-programmer med enkelt eller blandet præcision. Dens lave TDP kan bidrage til at øge hastigheden i traditionelle datacentre, hvor strøm- og kølekapaciteten er begrænset. T4's PCIe med lille formfaktor gør den velegnet til allround PowerEdge-servere. Der er planlagt tests af flere programmer i fremtiden som f.eks. LION, GROMACS og LAMMPS, samt test af programmer, der kan udnytte blandet præcision.

*Ansvarsfraskrivelse: Med henblik på benchmarking blev fire T4 GPU'er i Dell PowerEdge R740 evalueret. I øjeblikket understøtter PowerEdge R740 officielt maksimalt tre T4 i x16 PCIe-stik.


Tilbage til toppen


Affected Products

High Performance Computing Solution Resources, PowerEdge R740