L'articolo scritto da, da parte di, di, di, di, di & Ashish K Singh del HPC e dell'Innovation Lab nel giugno 2019
2° generazione di processori Intel® Xeon® scalabili (Architecture-nome in nome- Cascade Lake) è il successore di Intel da Skylake ed è pronto per la sua prima serata. Il team di ingegneri HPC di Dell EMC ha avuto accesso a alcune unità di test ingegneristiche e questo Blog presenta i risultati del nostro studio di benchmarking iniziale.
L'intento di questo blog è quello di illustrare e analizzare le prestazioni ottenute sui più recenti processori Intel® Xeon® scalabile e confrontare le prestazioni con il suo predecessore. Abbiamo scelto i benchmark STREAM, HPL e HPCG per la nostra analisi. Lo studio evidenzia l'impatto sulle prestazioni per singoli e più nodi. Questi test sono stati eseguiti su Dell EMC PowerEdge C6420 (studio a singolo nodo) e PowerEdge R740 (studio a più nodi) con impostazioni del BIOS consigliate per i workload di HPC. Il processore Cascade Lake offre numerosi miglioramenti, come Intel® Deep Learning Boost (Intel DL Boost) con VNNI, maggiore larghezza di banda di memoria e prestazioni ed efficienza dei punti di galleggiamento vettoriali aumentati.
Tabella 1. Informazioni di banco
Server |
PowerEdge C6420 & PowerEdge R740 |
|||
Processori |
Configurazione a singolo nodo |
Configurazione multi-nodo |
||
Server-PowerEdge C6420 & PowerEdge R740 |
Server-PowerEdge R740 |
|||
Skylake – Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180 [28C a 2,5 GHz] |
Cascade Lake – Intel Xeon® 8268 [24C@2.90GHz] |
|||
Cascade Lake – Intel Xeon® 6242 [16C @ 2.8 GHz] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C a 2,7 GHz] |
||||
Memoria |
Cascade Lake test-fino 192 GB-12 x 16GB 2933 MT/s DDR4 Skylake test: fino 192 GB-12 x 16GB 2933 MT/s DDR4 (Active 2666 MT/s) |
|||
Sistema operativo |
Red Hat Enterprise Linux 7.6 |
|||
Versione del kernel |
3.10.0-957.el7.x86_64 |
|||
BIOS - Opzioni |
Turbo = Enabled, Logical Processor = disabled, SubNumaCluster = Enabled, Virtualization Technology = Disabled (disabilitato). |
|||
InfiniBand |
Percorso Intel Omni con IFS 10.9.2 |
|||
Compilatore |
Intel Parallel Studio XE 2018 Update 4 |
|||
Applicazioni |
||||
Riferimento |
Dominio |
Versione |
Configurazione di test |
|
HPL |
High Performance LINPACK-calcolo |
Scheda grafica MKL Intel 2018 U4 |
Dimensioni del problema: 90% della memoria totale |
|
HPCG |
Gradiente coniugato ad elevate prestazioni: computazionale |
Scheda grafica MKL Intel 2018 U4 |
Dimensioni problema: 336 x 336 x 336 |
|
FLUSSO |
Larghezza di banda della memoria |
5.4 |
Triade |
|
Sono stati condotti test per quantificare i due casi seguenti:
Flusso
Per ottenere le prestazioni di larghezza di banda di memoria di picco su Intel Cascade Lake e Skylake, abbiamo scelto il benchmark di flusso che è il benchmark standard del settore de facto in HPC dominio per la misurazione della larghezza di banda della memoria sostenibile (in GB/s). Il valore TRIAD è stato utilizzato per confrontare la larghezza di banda della memoria.
Figure1: FLUSSO: Skylake vs Cascade Lake
La frequenza di memoria massima supportata per Skylake è 2666MT/s mentre Cascade Lake supporta 2933MT/s, che significa frequenza di memoria superiore del 10% con Cascade Lake. Secondo quanto indicato nella figura 1, i processori Cascade Lake mostrano una larghezza di banda di memoria superiore del 12% rispetto a Skylake. La larghezza di banda di memoria per core dipende dal SKU del processore specifico. Poiché alcune SKU del Lago Cascade hanno core aggiuntivi rispetto a Skylake, i confronti di larghezza di banda di memoria per core sono diversi dal confronto tra larghezza di banda totale di memoria. Come per la figura 1, 8280 e 6242 hanno una larghezza di banda di memoria superiore per core fino al 7% rispetto ai rispettivi predecessori. Tuttavia, 6230 Mostra 11% in meno di larghezza di banda di memoria per core rispetto a 6130 a causa dell'aumento del 25% dei core per 6230. La larghezza di banda della memoria per core può essere un fattore importante per le applicazioni che sono sensibili alla larghezza di banda della memoria.
Linpack
Abbiamo misurato la capacità computazionale dei processori utilizzando Intel LINPACK. Le dimensioni del problema (N) sono pari al 90% della memoria di sistema, mentre la dimensione del Block (NB) è 384. Qui stiamo coprendo le prestazioni e la scalabilità dei processori Cascade Lake.
Skylake vs Cascade Lake :
Figura 2. Prestazioni LINPACK (Skylake vs Cascade Lake)
Come da figura 2, LINPACK Mostra il miglioramento delle prestazioni fino al 15% con i processori Cascade Lake. Questo confronto si basa sul numero del modello della CPU, sul confronto tra Skylake e i rispettivi successori di Intel Xeon® scalabile. Intel Xeon® 6230 con 4 core più per socket ottiene un incremento del 15% delle prestazioni rispetto a 6130, mentre sia 8280 che 6242 con un numero di core simile come i loro predecessori contribuiscono al miglioramento delle prestazioni a causa dell'aumento della frequenza di base della CPU e della larghezza di banda di memoria superiore.
Prestazioni a più nodi- Per lo studio su più nodi, abbiamo utilizzato un cluster a 8 nodi di PowerEdge Server R740 con Intel Xeon® 8268 e risultati acquisiti per 1, 2, 4 e 8 nodi. La parte restante della configurazione del sistema è menzionata nella tabella 2.
Figura 3. Prestazioni LINPACK a più nodi con 8268 @ 2,90 GHz
Come illustrato nella figura 3, le prestazioni LINPACK per un singolo nodo 8268 sono 3059 GFLOPS e 23946 GFLOPS per 8 nodi, il che significa 7.83 X scalare da 1 nodo a 8 nodi. L'efficienza per un singolo nodo è di ~ 69%, mentre ~ 67% per 2, 4 e 8 nodi. L'efficienza scende da 1 nodo a 2 nodi; Tuttavia, la scalabilità è principalmente lineare in seguito.
Benchmark HPCG
Il benchmark HPCG si basa sul Risolutore a gradiente coniugato, in cui il pre-condizionatore è un metodo gerarchico a tre livelli multi-Grid (MG) con Gauss-Seidel.
Il benchmark HPCG costruisce un sistema lineare, logicamente globale e distribuito fisicamente, utilizzando uno stencil di 27 punti per ogni punto di griglia in un dominio 3D in modo che l'equazione al punto (i, j, k) dipenda dai suoi valori e 26 vicini circostanti. Il dominio globale calcolato da benchmark è (NRx * NX) X (NRy * NY) X (NRz * NZ), dove NX, NY e NZ sono dimensioni delle sottogriglie locali, assegnate a ogni processo MPI e il numero di ranghi MPI sono NR = (NRx X NRy X NRz).
Per la nostra analisi, abbiamo suddiviso i test in 2 categorie-
Skylake vs Cascade Lake : in questa sezione, paragoniamo Skylake con Cascade Lake utilizzando le prestazioni di HPCG. Abbiamo utilizzato le dimensioni della griglia di 336 ^ 3 , che occupa più di 1/4th di memoria di sistema totale. Il numero di processi MPI per nodo e il numero di thread si è basato sui migliori risultati e sull'utilizzo della memoria.
Figura 4. Prestazioni HPCG (Skylake vs Cascade Lake)
Come da figura 4, si osserva un significativo miglioramento delle prestazioni di HPCG con i processori Cascade Lake sui rispettivi predecessori. Poiché HPCG è più applicazione associata alla memoria, il miglioramento delle prestazioni con i processori Cascade Lake è in linea con il risultato di un benchmark di flusso in cui 6230 esegue il 10% migliore di 6130, 6242 esegue il 12% migliore rispetto a 6142 e 8280 esegue il 7% migliore del 8180.
HPCG con multi-node: per il benchmarking a più nodi, abbiamo scelto le dimensioni della griglia di dimensione locale di 336 ^ 3 e la migliore combinazione di thread di processo e OpenMP.
Figura 5. Prestazioni HPCG a più nodi con Cascade Lake
La figura 5 Mostra le prestazioni di HPCG con Cascade Lake 8268 @ 2,9 GHz e il dimensionamento di un massimo di 8 nodi. Le prestazioni di HPCG sono 43GFLOPS per un singolo nodo e 84GFLOPS per due nodi, che significa miglioramento delle prestazioni di 1.96 X con due nodi. Mentre ci muoviamo in avanti con 4 e 8 nodi, le prestazioni migliorano fino a 7.7 X.
Conclusione
Grazie alla disponibilità dei processori Cascade Lake, i sistemi PowerEdge possono ora supportare velocità di memoria fino a 2933 MT/s con il processore di nuova generazione. I nostri test con processori Cascade Lake mostrano un miglioramento delle prestazioni del 7-12% nella larghezza di banda della memoria, miglioramento del 4-15% in HPL e miglioramento del 7-12% in HPCG sui modelli di CPU confrontati. I test di Cascade Lake da 1 a 8 nodi mostrano una buona scalabilità, come abbiamo visto con Skylake in passato.
Inoltre, Cascade Lake introduce istruzioni di VNNI in grado di velocizzare i workload di inferenza per l'apprendimento profondi di 2x-3x, in questo Blog.
Per il nostro lavoro futuro, abbiamo in programma di valutare il vantaggio delle prestazioni di Cascade Lake su applicazioni HPC diverse, come WRF, NAMD, GROMACS, CP2K e LAMMPS