Artikel geschrieben von savitha parîk, Varun Bawa, & Ashish K Singh von HPC und AI Innovation Lab im Juni 2019
2 . Generation Intel® Xeon® Scalable-Produktreihe Prozessoren (Architektur Codename- Cascade Lake) ist der Nachfolger von Intel zu Skylake und ist bereit für die Primetime. Das HPC-Engineering-Team von Dell EMC hatte Zugang zu einigen technischen Testeinheiten, in diesem Blog sind die Ergebnisse unserer ersten Benchmarking-Studie dargestellt.
Der Zweck dieses Blogs ist es, die Leistung zu illustrieren und zu analysieren, die auf den neuesten Intel® Xeon® Scalable-Prozessoren der Familie erzielt wurde, und die Performance mit Ihrem Vorgänger zu vergleichen. Wir haben für unsere Analysen Stream-, HPL-und HPCG-Benchmarks ausgewählt. In der Studie werden die Auswirkungen auf die Performance für einzelne und mehrere Nodes hervorgehoben. Diese Tests wurden auf Dell EMC PowerEdge C6420 (Single-Node-Studie) und PowerEdge R740 (Multi-Node-Studie) mit empfohlenen BIOS-Einstellungen für HPC Arbeitslastendurchgeführt. Der Cascade Lake-Prozessor bietet zahlreiche Verbesserungen , wie z. b . Intel® Deep Learning Boost (Intel DL Boost) mit VNNI, höherer Speicherbandbreite und höherer Vektor-Gleitkommaleistung und Effizienz.
Tabelle 1: Testinformationen
Server |
PowerEdge C6420 & PowerEdge R740 |
|||
Prozessoren |
Konfiguration mit einem Node |
Multi-Node-Konfiguration |
||
Server PowerEdge C6420 & PowerEdge R740 |
Server PowerEdge R740 |
|||
Skylake – Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180 [28C @ 2,5 GHz] |
Cascade Lake: Intel Xeon® 8268 [24C@2.90GHz] |
|||
Cascade Lake: Intel Xeon® 6242 [16C @ 2,8 GHz] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @ 2,7 GHz] |
||||
Speicher |
Cascade Lake Test-192 GB-12 x 16GB 2933 MT/s DDR4 Skylake Test – 192 GB-12 x 16GB 2933 MT/s DDR4 (Active 2666 MT/s) |
|||
Betriebssystem |
Red Hat Enterprise Linux 7.6 |
|||
Kernel-Version |
3.10.0-957.el7.x86_64 |
|||
BIOS-Optionen |
Turbo = enabled, Logical Processor = Disabled, SubNumaCluster = enabled, Virtualization Technology = disabled. |
|||
InfiniBand |
Intel Omni Path mit IFS 10.9.2 |
|||
Compiler |
Intel parallel Studio XE 2018 Update 4 |
|||
Anwendungen |
||||
Benchmark |
Domäne |
Version |
Testkonfiguration |
|
HPL |
Leistungs Linpack – Computational |
Intel MKL Graphics 2018 U4 |
Problem Größe – 90% des Gesamtspeicherplatzes |
|
HPCG |
Hohe Performance-konjugierte Steigung – Computational |
Intel MKL Graphics 2018 U4 |
Problem Größe – 336 x 336 x 336 |
|
Stream |
Speicherbandbreite |
5.4 |
Triade |
|
Es wurden Tests durchgeführt, um die folgenden zwei Fälle zu quantifizieren:
Stream
Um die Performance des Peak Memory Bandwidth auf Intel Cascade Lake und Skylake zu erhalten, haben wir Stream -Benchmark gewählt, der als de-facto-Industriestandard-Benchmark in HPC Domain für die Messung der Sustainable memory bandwidth (in GB/s) verwendet wird. Der Dreiklang-Wert wurde zum Vergleich der Speicherbandbreite verwendet.
Abbildung 1: Stream – Skylake vs. Cascade Lake
Die unterstützte maximale Speicherfrequenz für Skylake beträgt 2666MT/s, während Cascade Lake 2933MT/s unterstützt, d. h. 10% höhere Speicherfrequenz mit Cascade Lake. Wie in Abbildung 1 gezeigt, zeigen die Cascade Lake-Prozessoren die Speicherbandbreite von 7 bis 12% gegenüber Skylake an. Die Speicherbandbreite pro Kern hängt von der spezifischen Prozessor SKU ab. Da einige Cascade Lake-SKUs über zusätzliche Kerne in Bezug auf Skylake verfügen, unterscheiden sich die Vergleiche pro Kernspeicher Bandbreite von der Gesamtauslastung der Speicherbandbreite. Gemäß Abbildung 1 verfügen 8280 und 6242 über eine höhere Speicherbandbreite pro Core bis zu 7% als ihre jeweiligen Vorgänger. 6230 zeigt jedoch 11% geringere Speicherbandbreite pro Kern in Bezug auf 6130 aufgrund der 25% igen Steigerung der Kerne für 6230. Die Speicherbandbreite pro Kern kann ein wichtiger Faktor für Anwendungen sein, für die die Speicherbandbreite sensibel ist.
Linpack
Wir haben die Rechenfähigkeit von Prozessoren mithilfe von Intel Linpack gemessen. Die Problem Größe (N) beträgt 90% des Systemspeichers, während die Blockgröße (NB) 384 ist. Hier sind wir für die Performance und Skalierung mit Cascade Lake-Prozessoren verantwortlich.
Skylake vs Cascade Lake :
Abbildung 2: LINPACK-Leistung (Skylake vs. Cascade Lake)
Wie in Abbildung 2 gezeigt, zeigt Linpack die Performanceverbesserung bis zu 15% bei Cascade Lake-Prozessoren an. Dieser Vergleich basiert auf der CPU-Modellnummer und vergleicht Skylake und ihre Nachfolger der Intel Xeon® Scalable-Produktreihe. Intel Xeon® 6230 mit 4 mehr Kernen pro Sockel erhält eine Steigerung der Performance um 15% gegenüber 6130, während 8280 und 6242 mit ähnlicher Kernzahl als ihre Vorgänger eine Steigerung der Performance verbessern, da die CPU-Basisfrequenz und höhere Speicherbandbreite erhöht werden.
Multi-Node-Performance –Für die Multi-Node-Studie haben wir ein 8-Node-Cluster mit PowerEdge R740-Servern mit Intel Xeon® 8268 und erfassten Ergebnissen für 1, 2, 4 und 8 Nodes verwendet. Der Rest der Systemkonfiguration wird in Tabelle 2 beschrieben.
Abbildung 3: Multi-Node-Linpack-Performance mit 8268 @, GHz
Wie in Abbildung 3 gezeigt, ist die Linpack-Performance für einen einzigen 8268-Node 3059 GFLOPS und 23946 GFLOPS für 8 Nodes, was bedeutet, dass die 7.83 x Skalierung von 1 node auf 8 Nodes erfolgt. Die Effizienz für einen einzigen Node beträgt ~ 69%, während ~ 67% für 2, 4 und 8 Nodes. Die Effizienz sinkt von 1 node auf 2 Nodes; Allerdings ist die Skalierbarkeit nachfolgend größtenteils linear.
HPCG-Benchmark
Der HPCG-Benchmark basiert auf konjugiertem Verlaufs Löser, wobei die Vorkonditionierung eine hierarchische Multi-Grid-Methode (mg) mit Gauß-Seidel mit drei Ebenen ist.
Der HPCG-Benchmark konstruiert ein logisch globales, physisch verteiltes spärliches lineares System mithilfe einer 27-Punkt-Schablone an jedem Rasterpunkt in einer 3D-Domäne, sodass die Gleichung am Punkt (i, j, k) von ihren Werten und 26 umgebenden Nachbarn abhängt. Die globale Domäne, die nach Benchmark berechnet wird, ist (NRx * NX) x (NRy * NY) x (NRz * NZ), wobei NX, NY und NZ die Dimensionen der lokalen untergeordneten Netze sind, die jedem MPI-Prozess zugewiesen sind und die Anzahl der MPI-Ranks Nr = (NRx X NRy x NRz) ist.
Für unsere Analyse haben wir Tests in zwei Kategorien aufgeteilt:
Skylake vs Cascade Lake : in diesem Abschnitt wird Skylake mit Cascade Lake mithilfe der HPCG-Performance verglichen. Wir haben die Rastergröße von 336 ^ 3 genutzt, die mehr als 1/4th des gesamten Systemspeichers belegt. Die Anzahl der MPI-Prozesse pro Node und die Anzahl der Threads basierten auf den besten Ergebnissen und der Speicherauslastung.
Abbildung 4: HPCG-Leistung (Skylake vs. Cascade Lake)
Gemäß Abbildung 4 sehen wir eine erhebliche HPCG-Leistungsverbesserung mit Cascade Lake-Prozessoren über ihre Vorgänger. Da HPCG mehr Speicher gebunden ist, wird die Leistungsverbesserung mit Cascade Lake-Prozessoren mit dem Ergebnis von Stream-Benchmarks in Übereinstimmung stehen, wobei 6230 10% besser als 6130 durchführt, 6242 durch eine bessere Leistung als 6142 und 8280 um 7% besser als 8180.
HPCG mit Multi-Node – für die Multi-Node-Benchmarking haben wir die Rastergröße für die lokale Dimension von 336 ^ 3 und der besten MPI-Prozess-und OpenMP-Thread-Kombination ausgewählt.
Abbildung 5: Multi-Node-HPCG-Performance mit Cascade Lake
Abbildung 5 zeigt die Performance von HPCG mit Cascade Lake 8268 @ 2,9 GHz und Skalierung von bis zu 8 Nodes. Die HPCG-Performance ist 43GFLOPS für einen einzigen Node und 84GFLOPS für zwei Nodes, was eine Leistungsverbesserung von 1.96 x mit zwei Nodes bedeutet. Wenn wir mit 4 und 8 Nodes fortfahren, verbessert sich die Performance auf bis zu 7,7 x.
Entscheidung
Mit der Verfügbarkeit von Cascade Lake-Prozessoren können PowerEdge-Systeme jetzt Speichergeschwindigkeiten von bis zu 2933 MT/s mit diesem Prozessor der neueren Generation unterstützen. Unsere Tests mit Cascade Lake-Prozessoren zeigen eine 7-12% ige Performanceverbesserung der Speicherbandbreite, 4-15% Verbesserung der HPL und 7-12% Verbesserung der HPCG auf den CPU-Modellen, die wir verglichen haben. Cascade Lake-Tests von 1 bis 8 Nodes zeigen gute Skalierbarkeit, wie wir mit Skylake in der Vergangenheit gesehen haben.
Außerdem werden in Cascade Lake VNNI-Anweisungen eingeführt, die Tiefe Lern ABLEITUNGS-Workloads um 2X-3X beschleunigen können, die in diesem Blogerörtert werden.
Für unsere künftige Arbeit wollen wir die Performance Vorteile von Cascade Lake auf verschiedenen HPC Anwendungen wie WRF, NAMD, gromacs, CP2K und LAMMPS bewerten.