문서 번호: 000133009

2. Nesil Intel Xeon Ölçeklendirilebilir İşlemciler ile HPC sentetik karşılaştırma performansı – STREAM, HPL ve HPCG (İngilizce)

요약: 2. nesil Intel® Xeon® ölçeklenebilir Işlemciler-STREAM, HPL ve HPCG ile HPC yapay karşılaştırmalı kıyaslama performansı hakkındaki bilgilere bakın

이 문서는 자동으로 번역되었을 수 있습니다. 번역 품질에 대한 의견이 있는 경우 페이지 하단의 양식을 사용해 알려 주시기 바랍니다.

문서 콘텐츠

증상

Savıtha Pareek tarafından yazılan makale, Varun Bawa &, Haziran 2019

2. nesil Intel® Xeon® ölçeklenebilir ailesi işlemciler (mimari Codenamed – Cascade Lake), Intel 'in gök vasyon ve asal süresi için hazırdır. Dell EMC 'deki HPC mühendislik ekibi birkaç mühendislik sınama üniteye erişdi ve bu blog, ilk benchişaretleme ilerimizin sonuçlarını sunar.

Bu blogun amacı, en yeni Intel® Xeon® ölçeklenebilir aile işlemcileri üzerinde elde edilen performansı göstermek ve analiz etmek ve performansı öncülü ile karşılaştırmak. Analizimiz için STREAM, HPL ve HPCG kıyaslamaları seçtik. Çalışma, tek ve birden çok düğümün performans etkilerini vurgular. Bu sınamalar, HPC iş yükleri için ÖNERILEN BIOS ayarlarınasahıp Dell EMC PowerEdge C6420 (tek düğümlü çalışma) ve PowerEdge R740 (çok düğümlü çalışma) üzerinde gerçekleştirilmiştir. Cascade Lake işlemci , VNNı, daha yüksek bellek bant genişliğine sahip ıntel® derin Eğitim Boost (ıNTEL DL Boost) ve artan vektör kayan nokta performansı ve verimliliği ileçok sayıda gelişmelere sahiptir .

원인

해결

Tablo 1: Test bilgisi

Sunucu	PowerEdge C6420 & PowerEdge R740
İşlemciler	Tek düğümlü yapılandırma		Çok düğümlü yapılandırma
	Sunucu-PowerEdge C6420 & PowerEdge R740		Sunucu-PowerEdge R740
	Skylake Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1 GHz] Intel Xeon® 8180 [28C @ 2,5 GHz]		Cascade Lake – Intel Xeon® 8268 [24C@2.90GHz]
	Cascade Lake – Intel Xeon® 6242 [16C @ 2.8 GHz] Intel Xeon® 6230 [20C@2.1 GHz] Intel Xeon® 8280 [28C @ 2.7 GHz]
Bellek	Cascade Lake test-192GB-12 x 16 GB 2933 MT/s DDR4 Gök Lake test – 192GB-12 x 16 GB 2933 MT/s DDR4 (aktif 2666 MT/s)
İşletim Sistemi	Red Hat Enterprise Linux 7.6
Kernel Sürümü	3.10.0-957.el7.x86_64
BIOS Seçenekleri	Turbo = Enabled, mantıksal Işlemci = devre dışı, SubNumaCluster = etkin, sanallaştırma teknolojisi = devre dışı.
InfiniBand	IFS 10.9.2 ile Intel Omni yolu
İsinin	Intel Parallel Studio XE 2018 güncelleme 4
Uygulamalar
Kıyaslama	Domain (Etki Alanı)	Sürüm		Test yapılandırması
HPL	Yüksek performanslı LINPACK hesaplama	Intel MKL Graphics 2018 U4		Sorun boyutu-toplam belleğin %90 ' ü
HPCG	Yüksek performanslı eşlenik gradyanı – hesaplama	Intel MKL Graphics 2018 U4		Sorun boyutu-336 x 336 x 336
AKıŞıNDA	Bellek bant genişliği	5.4		Üçlü

Testler aşağıdaki iki durumu ölçbir şekilde yapılmıştır:

Tek bir düğümde, gök Lake 'den basamaklandırmayı ve basamaklı gös
Tek düğümlü ve çok düğümlü performans iyileştirmesi

Akışında

Intel art arda bellek bant genişliği performansı elde etmek için, sürdürülebilir bellek bant genişliğinin (GB/sn cinsinden) ölçülmesi için HPC etki alanında endüstri standardı karşılaştırmalı olarak kıyaslanmayı seçtik . TRIAD değeri, bellek bant genişliğini karşılaştırmak için kullanılmıştır.

SLN317735_en_US__1image (10401)

Figure1: AKıŞ – gök Gölü-Cascade Lake

2. çeyrek Lake için desteklenen maksimum bellek frekansı 2666MT/s, çünkü Cascade Lake, basamaklandırıcıyla %10 daha yüksek bellek frekansının 29 33MT/s olduğunu destekler. Her şekil 1 ' de olduğu gibi, art arda ek Lake işlemciler, 2 – %12 daha fazla bellek bant genişliğini, yani Çekirdek başına bellek bant genişliği özel işlemci SKU 'suna bağlıdır. Bazı Cascade Lake SKU 'Larının, gök teye göreli olarak ek çekirdekler olduğundan, çekirdek bellek bant genişliği karşılaştırmaları toplam bellek bant genişliği karşılaştırmasından farklıdır. Her şekil 1 ' de olduğu gibi, 8280 ve 6242 ' de, ilgili öncüllerinden en fazla %7 ' ye kadar daha yüksek bellek bant genişliği Ancak, 6230 için çekirdekler %25 artışından dolayı 6230 6130 ile ilgili çekirdek başına %11 daha az bellek bant genişliği göstermektedir. Çekirdek başına bellek bant genişliği, bellek bant genişliği hassas uygulamalar için önemli bir faktör olabilir.

LINPACK

Intel LINPACK kullanan işlemcilerin hesaplama özelliği ölçülmüştür. Sorun boyutu (N), blok boyutu (NB) 384 olduğunda sistem belleğinin %90 ' ü oranında%. Burada, art arda Gölü işlemciler ile performans ve ölçeklendirmeyi ele aldık.

Gökyüzü Gölü-Cascade Lake –

SLN317735_en_US__2image (13765)

Şekil 2: LINPACK performansı (so Gölü-Cascade Lake)

Şekil 2 ' ye göre, LINPACK, art arda Gölü işlemcilerle performans geliştirmesini %15 ' e kadar göstermektedir. Bu karşılaştırma, Intel Xeon® ölçeklenebilir ailesinin aksamlarını ve bunların ardıllarını karşılaştıran CPU model numarasını temel alır. Soket başına 4 ' e kadar çekirdeklik Intel Xeon® 6230, 6130 üzerinden performans açısından %15 ' i alır. aynı zamanda, öncüllerinin hem temel frekansının hem de daha yüksek bellek bant genişliğinin artması nedeniyle performans iyileştirmesine bağlı olarak benzer çekirdek sayımına sahip olan 8280 ve 6242.

Çok düğümlü performans- Çok düğümlü bir çalışma için, Intel Xeon® 8268 Ile PowerEdge R740 sunucuların 8 düğümlü bir kümesini kullanmış ve 1, 2, 4 ve 8 düğüm için yakalanmış sonuçlar elde ediyoruz. Sistem yapılandırmasının geri kalanı tablo 2 ' de bahsedildi.

SLN317735_en_US__3image (10402)

Şekil 3: 8268 @ 2,90 GHz ile çok düğümlü LINPACK performansı

Şekil 3 ' te gösterildiği üzere, tek bir 8268 düğümü için LINPACK performansı, 8 düğümlü, 7.83 X ölçeklemesi için 1 düğümden 8 düğüme kadar 3059 DFLOPS ve 23946 ykatlardır. Tek bir düğüm için verimlilik ~ %69, 2, 4 ve 8 düğüm için %67 ' dir. Verimlilik 1 düğümden 2 düğüme kadar düşer; Ancak ölçeklenebilirlik daha sonra çok daha doğrusaldır.

HPCG karşılaştırmalı

HPCG kıyaslayıcısı, önceden conditioner 'ın Gauss-Seidel ile üç düzeyli hiyerarşik çok kılavuz (MG) yöntemi olduğu eşlenik gradyan çözücü 'ye dayanır.

HPCG karşılaştırmalı kıyaslama, bir 3B etki alanındaki her bir kılavuz noktasında 27-Point kalıbı kullanarak (i, j, k), değerlerine ve 26 ' ya kadar olan Neighbours bağlı olarak mantıksal bir Global, fiziksel olarak dağıtılmış bir doğrusal sistem oluşturur. Kıyaslanarak hesaplanan küresel etki alanı (NRx * NX) X (NRy *, ve NZ) X (NRz * NZ), burada NX, NY ve NZ, yerel alt ızgaraların boyutlarıdır, her bir MPI işleme ve her bir MPI süreci için atanır, NR = (NRx X NRy X NRz).

Analizimiz için testleri 2 kategoriye bölündük.

Gökyüzü Gölü Gölü Gölü - Bu bölümde, hpcg performansını kullanarak, dişli Lake 'ı art arda karşılaştırıyoruz. Toplam sistem^{belleğinin 1/4 '} inden fazlasını kaplayan 336 ^ 3 ' ün kılavuz boyutunu belirledik. Düğüm başına MPı işlem sayısı ve iş parçacığı sayısı, belleğin en iyi sonuçlarına ve kullanımına dayanmaktadır.

SLN317735_en_US__4image (10403)

Şekil 4: HPCG performansı (The gök Lake-Cascade Lake)

Her şekil 4 ' te olduğu gibi, öncüllerinin üzerinde Basamaklandırmasını içeren önemli HPCG performans gelişmesini gözlemleriz. HPCG daha fazla bellek bağlı uygulama olduğundan, art arda ek ürün ile performans iyileştirmesi 6230 ' 6130 den %10 ' u daha iyi bir şekilde gerçekleşmektedir; 6242 6142 ' den %12 daha iyi hale geldi ve 8280 8180% 7 daha iyi hale getirir.

Hpcg birden çok düğümlü - çok düğümlü bir sınama için, 336 ^ 3 ve en iyi MPİ işleminin ve OpenMP iş parçası birleşiminin yerel boyut Kılavuzu boyutunu seçtik.

SLN317735_en_US__5image (10404)

Şekil 5: Cascade Lake ile çok düğümlü HPCG performansı

Şekil 5, Basamaklandırdığı 8268 @ 2,9 GHz ile HPCG 'nin performansını ve 8 düğüme kadar ölçeklendirmeyi göstermektedir. HPCG performansı, iki düğümlü, yani iki düğümle 1.96 X performans iyileştirmesi olmak üzere tek düğüm ve 84GFLOLER için 3GÇIÇPS ' dir. 4 ve 8 düğümle ilerliliğimiz gibi, performans 7,7 X 'e kadar artar.

Sonuç

Cascade Lake iþlemcilerinin kullanılabilirliğiyle PowerEdge sistemleri artık bu yeni nesil işlemciye sahip 2933 MT/sn 'ye kadar bellek hızlarını destekleyebilir. Cascade Lake işlemcileriyle olan testleriniz, karşılaştırılan CPU modellerinde HPCG 'de% 4-15 oranında performans iyileştirmesi, HPL ve% 7-12 oranında gelişmenin% performans geliştirmesini 7-12 göstermektedir. 1 ' den 8 ' e kadar düğüm basamaklandırmaları, geçmişteki gömüyle görülmüşü kadar iyi ölçeklenebilirliği gösterir.

Ayrıca, Cascade Lake, Bu blogdadaha fazla tartışılan 2x-3 kat ile derin öğrenme çıkarımı iş yüklerini hızlandıramamış VNNı talimatlarını tanıtır.

Geleceğe yönelik çalışmalarımız için, WRF, NAMD, GROMAC, CP2K ve LAMMPS gibi farklı HPC uygulamaları üzerinde Basamaklandırdığınız performans avantajlarını değerlendirmeyi planlıyoruz

문서 속성

영향을 받는 제품

High Performance Computing Solution Resources

마지막 게시 날짜

18 5월 2021

버전

문서 유형

Solution

맨 위로 이동

환영

환영합니다.