문서 번호: 000133009

Synthetische HPC-Benchmark-Leistung mit skalierbaren Intel Xeon-Prozessoren der 2. Generation – STREAM, HPL und HPCG

요약: Weitere Informationen über die HPC synthetische Benchmark-Performance mithilfe der Intel® Xeon® skalierbaren Prozessoren der 2. Generation – Stream, HPL und HPCG

이 문서는 자동으로 번역되었을 수 있습니다. 번역 품질에 대한 의견이 있는 경우 페이지 하단의 양식을 사용해 알려 주시기 바랍니다.

문서 콘텐츠

증상

Artikel geschrieben von savitha parîk, Varun Bawa, & Ashish K Singh von HPC und AI Innovation Lab im Juni 2019

2 . Generation Intel® Xeon® Scalable-Produktreihe Prozessoren (Architektur Codename- Cascade Lake) ist der Nachfolger von Intel zu Skylake und ist bereit für die Primetime. Das HPC-Engineering-Team von Dell EMC hatte Zugang zu einigen technischen Testeinheiten, in diesem Blog sind die Ergebnisse unserer ersten Benchmarking-Studie dargestellt.

Der Zweck dieses Blogs ist es, die Leistung zu illustrieren und zu analysieren, die auf den neuesten Intel® Xeon® Scalable-Prozessoren der Familie erzielt wurde, und die Performance mit Ihrem Vorgänger zu vergleichen. Wir haben für unsere Analysen Stream-, HPL-und HPCG-Benchmarks ausgewählt. In der Studie werden die Auswirkungen auf die Performance für einzelne und mehrere Nodes hervorgehoben. Diese Tests wurden auf Dell EMC PowerEdge C6420 (Single-Node-Studie) und PowerEdge R740 (Multi-Node-Studie) mit empfohlenen BIOS-Einstellungen für HPC Arbeitslastendurchgeführt. Der Cascade Lake-Prozessor bietet zahlreiche Verbesserungen , wie z. b . Intel® Deep Learning Boost (Intel DL Boost) mit VNNI, höherer Speicherbandbreite und höherer Vektor-Gleitkommaleistung und Effizienz.

원인

해결

Tabelle 1: Testinformationen

Server	PowerEdge C6420 & PowerEdge R740
Prozessoren	Konfiguration mit einem Node		Multi-Node-Konfiguration
	Server PowerEdge C6420 & PowerEdge R740		Server PowerEdge R740
	Skylake – Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180 [28C @ 2,5 GHz]		Cascade Lake: Intel Xeon® 8268 [24C@2.90GHz]
	Cascade Lake: Intel Xeon® 6242 [16C @ 2,8 GHz] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @ 2,7 GHz]
Speicher	Cascade Lake Test-192 GB-12 x 16GB 2933 MT/s DDR4 Skylake Test – 192 GB-12 x 16GB 2933 MT/s DDR4 (Active 2666 MT/s)
Betriebssystem	Red Hat Enterprise Linux 7.6
Kernel-Version	3.10.0-957.el7.x86_64
BIOS-Optionen	Turbo = enabled, Logical Processor = Disabled, SubNumaCluster = enabled, Virtualization Technology = disabled.
InfiniBand	Intel Omni Path mit IFS 10.9.2
Compiler	Intel parallel Studio XE 2018 Update 4
Anwendungen
Benchmark	Domäne	Version		Testkonfiguration
HPL	Leistungs Linpack – Computational	Intel MKL Graphics 2018 U4		Problem Größe – 90% des Gesamtspeicherplatzes
HPCG	Hohe Performance-konjugierte Steigung – Computational	Intel MKL Graphics 2018 U4		Problem Größe – 336 x 336 x 336
Stream	Speicherbandbreite	5.4		Triade

Es wurden Tests durchgeführt, um die folgenden zwei Fälle zu quantifizieren:

Performance Verbesserung auf einem einzigen Node von Skylake zu Cascade Lake
Leistungsverbesserung mit einem einzigen Node vs. Multi-Node

Stream

Um die Performance des Peak Memory Bandwidth auf Intel Cascade Lake und Skylake zu erhalten, haben wir Stream -Benchmark gewählt, der als de-facto-Industriestandard-Benchmark in HPC Domain für die Messung der Sustainable memory bandwidth (in GB/s) verwendet wird. Der Dreiklang-Wert wurde zum Vergleich der Speicherbandbreite verwendet.

SLN317735_en_US__1image (10401)

Abbildung 1: Stream – Skylake vs. Cascade Lake

Die unterstützte maximale Speicherfrequenz für Skylake beträgt 2666MT/s, während Cascade Lake 2933MT/s unterstützt, d. h. 10% höhere Speicherfrequenz mit Cascade Lake. Wie in Abbildung 1 gezeigt, zeigen die Cascade Lake-Prozessoren die Speicherbandbreite von 7 bis 12% gegenüber Skylake an. Die Speicherbandbreite pro Kern hängt von der spezifischen Prozessor SKU ab. Da einige Cascade Lake-SKUs über zusätzliche Kerne in Bezug auf Skylake verfügen, unterscheiden sich die Vergleiche pro Kernspeicher Bandbreite von der Gesamtauslastung der Speicherbandbreite. Gemäß Abbildung 1 verfügen 8280 und 6242 über eine höhere Speicherbandbreite pro Core bis zu 7% als ihre jeweiligen Vorgänger. 6230 zeigt jedoch 11% geringere Speicherbandbreite pro Kern in Bezug auf 6130 aufgrund der 25% igen Steigerung der Kerne für 6230. Die Speicherbandbreite pro Kern kann ein wichtiger Faktor für Anwendungen sein, für die die Speicherbandbreite sensibel ist.

Linpack

Wir haben die Rechenfähigkeit von Prozessoren mithilfe von Intel Linpack gemessen. Die Problem Größe (N) beträgt 90% des Systemspeichers, während die Blockgröße (NB) 384 ist. Hier sind wir für die Performance und Skalierung mit Cascade Lake-Prozessoren verantwortlich.

Skylake vs Cascade Lake :

SLN317735_en_US__2image (13765)

Abbildung 2: LINPACK-Leistung (Skylake vs. Cascade Lake)

Wie in Abbildung 2 gezeigt, zeigt Linpack die Performanceverbesserung bis zu 15% bei Cascade Lake-Prozessoren an. Dieser Vergleich basiert auf der CPU-Modellnummer und vergleicht Skylake und ihre Nachfolger der Intel Xeon® Scalable-Produktreihe. Intel Xeon® 6230 mit 4 mehr Kernen pro Sockel erhält eine Steigerung der Performance um 15% gegenüber 6130, während 8280 und 6242 mit ähnlicher Kernzahl als ihre Vorgänger eine Steigerung der Performance verbessern, da die CPU-Basisfrequenz und höhere Speicherbandbreite erhöht werden.

Multi-Node-Performance –Für die Multi-Node-Studie haben wir ein 8-Node-Cluster mit PowerEdge R740-Servern mit Intel Xeon® 8268 und erfassten Ergebnissen für 1, 2, 4 und 8 Nodes verwendet. Der Rest der Systemkonfiguration wird in Tabelle 2 beschrieben.

SLN317735_en_US__3image (10402)

Abbildung 3: Multi-Node-Linpack-Performance mit 8268 @, GHz

Wie in Abbildung 3 gezeigt, ist die Linpack-Performance für einen einzigen 8268-Node 3059 GFLOPS und 23946 GFLOPS für 8 Nodes, was bedeutet, dass die 7.83 x Skalierung von 1 node auf 8 Nodes erfolgt. Die Effizienz für einen einzigen Node beträgt ~ 69%, während ~ 67% für 2, 4 und 8 Nodes. Die Effizienz sinkt von 1 node auf 2 Nodes; Allerdings ist die Skalierbarkeit nachfolgend größtenteils linear.

HPCG-Benchmark

Der HPCG-Benchmark basiert auf konjugiertem Verlaufs Löser, wobei die Vorkonditionierung eine hierarchische Multi-Grid-Methode (mg) mit Gauß-Seidel mit drei Ebenen ist.

Der HPCG-Benchmark konstruiert ein logisch globales, physisch verteiltes spärliches lineares System mithilfe einer 27-Punkt-Schablone an jedem Rasterpunkt in einer 3D-Domäne, sodass die Gleichung am Punkt (i, j, k) von ihren Werten und 26 umgebenden Nachbarn abhängt. Die globale Domäne, die nach Benchmark berechnet wird, ist (NRx * NX) x (NRy * NY) x (NRz * NZ), wobei NX, NY und NZ die Dimensionen der lokalen untergeordneten Netze sind, die jedem MPI-Prozess zugewiesen sind und die Anzahl der MPI-Ranks Nr = (NRx X NRy x NRz) ist.

Für unsere Analyse haben wir Tests in zwei Kategorien aufgeteilt:

Skylake vs Cascade Lake : in diesem Abschnitt wird Skylake mit Cascade Lake mithilfe der HPCG-Performance verglichen. Wir haben die Rastergröße von 336 ^ 3 genutzt, die mehr als 1/4^th des gesamten Systemspeichers belegt. Die Anzahl der MPI-Prozesse pro Node und die Anzahl der Threads basierten auf den besten Ergebnissen und der Speicherauslastung.

SLN317735_en_US__4image (10403)

Abbildung 4: HPCG-Leistung (Skylake vs. Cascade Lake)

Gemäß Abbildung 4 sehen wir eine erhebliche HPCG-Leistungsverbesserung mit Cascade Lake-Prozessoren über ihre Vorgänger. Da HPCG mehr Speicher gebunden ist, wird die Leistungsverbesserung mit Cascade Lake-Prozessoren mit dem Ergebnis von Stream-Benchmarks in Übereinstimmung stehen, wobei 6230 10% besser als 6130 durchführt, 6242 durch eine bessere Leistung als 6142 und 8280 um 7% besser als 8180.

HPCG mit Multi-Node – für die Multi-Node-Benchmarking haben wir die Rastergröße für die lokale Dimension von 336 ^ 3 und der besten MPI-Prozess-und OpenMP-Thread-Kombination ausgewählt.

SLN317735_en_US__5image (10404)

Abbildung 5: Multi-Node-HPCG-Performance mit Cascade Lake

Abbildung 5 zeigt die Performance von HPCG mit Cascade Lake 8268 @ 2,9 GHz und Skalierung von bis zu 8 Nodes. Die HPCG-Performance ist 43GFLOPS für einen einzigen Node und 84GFLOPS für zwei Nodes, was eine Leistungsverbesserung von 1.96 x mit zwei Nodes bedeutet. Wenn wir mit 4 und 8 Nodes fortfahren, verbessert sich die Performance auf bis zu 7,7 x.

Entscheidung

Mit der Verfügbarkeit von Cascade Lake-Prozessoren können PowerEdge-Systeme jetzt Speichergeschwindigkeiten von bis zu 2933 MT/s mit diesem Prozessor der neueren Generation unterstützen. Unsere Tests mit Cascade Lake-Prozessoren zeigen eine 7-12% ige Performanceverbesserung der Speicherbandbreite, 4-15% Verbesserung der HPL und 7-12% Verbesserung der HPCG auf den CPU-Modellen, die wir verglichen haben. Cascade Lake-Tests von 1 bis 8 Nodes zeigen gute Skalierbarkeit, wie wir mit Skylake in der Vergangenheit gesehen haben.

Außerdem werden in Cascade Lake VNNI-Anweisungen eingeführt, die Tiefe Lern ABLEITUNGS-Workloads um 2X-3X beschleunigen können, die in diesem Blogerörtert werden.

Für unsere künftige Arbeit wollen wir die Performance Vorteile von Cascade Lake auf verschiedenen HPC Anwendungen wie WRF, NAMD, gromacs, CP2K und LAMMPS bewerten.

문서 속성

영향을 받는 제품

High Performance Computing Solution Resources

마지막 게시 날짜

18 5월 2021

버전

문서 유형

Solution

맨 위로 이동

환영

환영합니다.