Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

HPC-programprestanda för C4140 med Configuration M

Summary: Information om den nya ”Configuration M”-lösningen som har lagts till för Dell EMC PowerEdge C4140.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Artikeln skrevs av Frank Han, Rengan Xu och Quy Ta på Dell EMC HPC och AI Innovation Lab januari 2019.

Resolution

Sammanfattning

Nyligen lades en ny ”Configuration M”-lösning till för Dell EMC PowerEdge C4140. I och med att det här senaste alternativet läggs till i C4140-serien visas i den här artikeln resultatet av en studie som utvärderar prestanda för Configuration M jämfört med Configuration K för olika HPC-program, till exempel HPL, GROMACS och NMD.

Översikt

PowerEdge C4140 är en 1U-rackserver med två socklar. Den har stöd för Intel Skylake-processorer, upp till 24 DIMM-platser och fyra NVIDIA Volta-GPU-kort med dubbel bredd. I C4140-serverserien finns två konfigurationer som har stöd för NVLINK: Configuration K och Configuration M. Jämförelsen av båda topologierna visas på bild 1. De två huvudsakliga skillnaderna mellan dessa två konfigurationer beskrivs nedan:

  1. Högre PCIe-bandbredd: I Configuration K ansluts processorerna till fyra GPU:er via en enda PCIe-länk. I Configuration M ansluts däremot alla GPU:er direkt till processorn via en dedikerad PCIe-länk. Därför finns det totalt fyra PCIe-länkar mellan de två processorerna med fyra GPU:er som ger högre PCIe-bandbredd i Configuration M.
  2. Lägre latens. Configuration M har ingen PCIe-växel mellan processorn och GPU:erna. Direktanslutningarna minskar antalet hopp för dataöverföring mellan processor och GPU, vilket innebär att tur och retur-latensen är lägre i Configuration M.
    SLN315976_en_US__1image 1
I den här bloggen visas prestanda för HPC-program i de här två konfigurationerna. Vi utförde prestandatest för HPL, GROMACS och NAMD med V100-SXM2 16 G-GPU:er. Tabell 1 innehåller information om maskin- och programvara.
SLN315976_en_US__2table

p2pBandwidthLatencyTest 


SLN315976_en_US__3latency
Bild 2: Kort-till-kort-latens med P2P avaktiverat på C4140 med Configuration K och Configuration M

p2pBandwidthLatencyTest är ett mikroprestandatest som ingår i CUDA SDK. I det mäts kort till kort-latens och bandbredd med och utan GPUDirect™-peer-to-peer aktiverat. Fokus i det här testet är latensdelen eftersom programmet inte kan mäta bandbredd samtidigt. En diskussion om tillgänglig verklig bandbredd för program finns i HPL-sessionen nedan. Siffrorna på bild 2 är medelvärdet för 100 gånger enkelriktad kort till kort-latens i mikrosekunder. Varje gång koden skickar en byte från ett kort till ett annat väljs det avaktiverade P2P-numret i det här diagrammet och om P2P är aktiverat överförs data istället via NVLINK. PCIe-latens för Configuration M är 1,368 mikrosekunder lägre än Configuration K på grund av olika PCIe-topologier.

 

HPL (High Performance Linpack) 

SLN315976_en_US__41(18)
(a) Prestanda
SLN315976_en_US__52(14)
(b) Genomsnittlig PCIe-bandbredd för varje V100-GPU
SLN315976_en_US__63(12)
(c) Strömförbrukning för en HPL-körning

På bild 3 (a) visas HPL-prestanda på C4140-plattformen med 1, 2, 4 och 8 V100-SXM2-GPU:er. Resultatet för 1–4 GPU:er kommer från en C4140, och resultatet för 8 GPU:er kommer från två servrar. I det här testet tillhandahålls den HPL-version som används av NVIDIA och den är kompilerad med nyligen lanserade CUDA 10 och OpenMPI. Följande aspekter kan observeras i HPL-resultatet:

1) En nod. När alla fyra GPU:erna används i testet är Configuration M cirka 16 % snabbare än Configuration K. Innan HPL-programmet börjar beräkna mäter det den tillgängliga PCIe-bandbredden för enhet till värd (D2H) och värd till enhet (H2D) för alla GPU-kort när alla kort överför data samtidigt. Den här informationen ger användbar information om verklig PCIe-bandbredd för alla kort när HPL kopierar N*N-matrisen till alla GPU-minnen samtidigt. Såsom visas på bild 3 (b) är både D2H- och H2D-värdena i Configuration M mycket högre och når teoretiskt ett genomflöde på PCIe x16. Detta överensstämmer med maskinvarutopologin eftersom varje GPU i Configuration M har en dedikerad PCIe x16-länk till processorn. I Configuration K måste alla fyra V100-enheterna dela en enda PCIe x16-länk via PLX PCIe-switchen, så det finns bara 2,5 GB/s tillgängligt för var och en av dem. På grund av bandbreddsskillnaden tog det 1,33 sekunder i Configuration M att kopiera fyra delar 16 GB N*N-matris till det globala minnet i varje GPU medan det tog 5,33 sekunder i Configuration K. Hela HPL-programmet körs i cirka 23 till 25 sekunder. Eftersom alla V100-SXM2 är desamma är beräkningstiden densamma, så den här tidsbesparingen på fyra sekunder vid datakopiering gör Configuration M 16 % snabbare.

2) Flera noder. Resultatet för två C4140-noder med åtta GPU:er visar en HPL-förbättring på över 15 % för två noder. Det innebär att Configuration M har bättre skalbarhet för flera noder än Configuration K av samma anledning som för de enskilda noderna med fyra kort i ovanstående fall.

3) Effektivitet. Strömförbrukningen uppmättes med iDRAC. På bild 3 (c) visas wattalen i tidsserien. Båda systemen når ca 1 850 W som högst. På grund av högre GFLOPS-värde ger Configuration M högre prestanda per wattal och högre HPL-effektivitet. 

HPL är ett prestandatest på systemnivå och resultatet bestäms av komponenter som processor, GPU, minne och PCIe-bandbredd. Configuration M har en balanserad konstruktion för de två processorerna. Därför överträffar den Configuration K i detta HPL-prestandatest.

 

GROMACS 

GROMACS är ett program för molekylär dynamik med öppen källkod som är utformat för att simulera biokemiska molekyler, till exempel proteiner, lipider och nukleinsyror, som har många komplicerade bundna interaktioner. Version 2018.3 har testats på datauppsättningen 3072 för vatten som har tre miljoner atomer.

 SLN315976_en_US__71(17)

Bild 4: GROMACS-prestandaresultat med flera V100 på C4140 med Configuration K och Configuration M

Figur 4 visar prestandaförbättringen för konfiguration M jämfört med Configuration K. Prestandan med ett kort är densamma i de två konfigurationerna eftersom det inte är någon skillnad på datasökvägarna. Med två och fyra GPU:er är Configuration M ~5 % snabbare än Configuration K. Vid test med två noder har Configuration M upp till 10 % bättre prestanda. Huvudorsaken är det större antalet PCIe-anslutningar som ger mer bandbredd och gör att mer data snabbt kan matas till GPU:erna. GROMACS blir avsevärt mycket snabbare med GPU:er men i det här programmet används både processorer och GPU:er parallellt. Om GROMACS är det främsta programmet i ett kluster rekommenderas därför en kraftfull processor. I det här diagrammet visas även prestandaskalning för GROMACS med fler servrar och fler GPU:er. Även om programmets prestanda ökar med fler GPU:er och fler servrar är prestandaökningen med ytterligare grafikprocessorer inte linjär.

 

NAMD (Nanoscale Molecular Dynamics)

NAMD är en molekylär dynamikkod utformad för simulering med höga prestanda av stora biomolekylära system. I dessa tester användes inte den fördefinierade binärdatatypen. Istället definierades NAMD med den senaste källkoden (NAMD_Git-2018-10-31_Source) på CUDA 10. På bild 4 visas prestandaresultaten utifrån STMV-datauppsättningen (1 066 628 atomer, periodisk, PME). Tester på mindre datauppsättningar, till exempel f1atpas (327 506 atomer, periodisk, PME) eller apoa1 (92 224 atomer, periodisk, PME), resulterade i liknande jämförelser mellan Configuration M och Configuration K men visas inte här av utrymmesskäl. 

SLN315976_en_US__81(16)
Bild 5: NAMD-prestandaresultat med flera V100 på C4140 med Configuration K och Configuration M

Precis som med GROMACS ger fyra gånger mer PCIe-bandbredd högre prestanda för NAMD. Bild 5 visar att prestanda för Configuration M med två och fyra kort är 16 % respektive 30 % mer än Configuration K med STMV-datauppsättningen. Prestandan för ett kort förväntas vara densamma eftersom PCIe-bandbredden är identisk med endast en GPU i testet.

 

Slutsatser och framtida arbete

I den här bloggen jämfördes HPC-programprestanda med HPL, GROMACS och NMD i två olika NVLINK-konfigurationer för PowerEdge C4140. HPL, GROMACS och NMD har ~10 % bättre prestanda i Configuration M jämfört med Configuration K. I alla tester har Configuration M minst samma prestanda som Configuration K, eftersom den har alla bra funktioner som Configuration K har och dessutom fler PCIe-länkar och inga PCIe-switchar. I framtiden planeras ytterligare tester med fler program, till exempel RELION, HOOMD och AMBER, samt tester där V100 32 G-GPU används.

Affected Products

High Performance Computing Solution Resources, Poweredge C4140
Article Properties
Article Number: 000181595
Article Type: Solution
Last Modified: 21 Feb 2021
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.