Přeskočit na hlavní obsah

2. Nesil Intel Xeon Ölçeklendirilebilir İşlemciler ile HPC sentetik karşılaştırma performansı – STREAM, HPL ve HPCG (İngilizce)

Shrnutí: 2. nesil Intel® Xeon® ölçeklenebilir Işlemciler-STREAM, HPL ve HPCG ile HPC yapay karşılaştırmalı kıyaslama performansı hakkındaki bilgilere bakın

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

Savıtha Pareek tarafından yazılan makale, Varun Bawa &, Haziran 2019

2. nesil Intel® Xeon® ölçeklenebilir ailesi işlemciler (mimari CodenamedCascade Lake), Intel 'in gök vasyon ve asal süresi için hazırdır. Dell EMC 'deki HPC mühendislik ekibi birkaç mühendislik sınama üniteye erişdi ve bu blog, ilk benchişaretleme ilerimizin sonuçlarını sunar.

Bu blogun amacı, en yeni Intel® Xeon® ölçeklenebilir aile işlemcileri üzerinde elde edilen performansı göstermek ve analiz etmek ve performansı öncülü ile karşılaştırmak. Analizimiz için STREAM, HPL ve HPCG kıyaslamaları seçtik. Çalışma, tek ve birden çok düğümün performans etkilerini vurgular. Bu sınamalar, HPC iş yükleri için ÖNERILEN BIOS ayarlarınasahıp Dell EMC PowerEdge C6420 (tek düğümlü çalışma) ve PowerEdge R740 (çok düğümlü çalışma) üzerinde gerçekleştirilmiştir. Cascade Lake işlemci , VNNı, daha yüksek bellek bant genişliğine sahip ıntel® derin Eğitim Boost (ıNTEL DL Boost) ve artan vektör kayan nokta performansı ve verimliliği ileçok sayıda gelişmelere sahiptir .

Příčina

 

Řešení

Tablo 1: Test bilgisi

Sunucu

 PowerEdge C6420 & PowerEdge R740

İşlemciler

Tek düğümlü yapılandırma

Çok düğümlü yapılandırma

Sunucu-PowerEdge C6420 & PowerEdge R740

Sunucu-PowerEdge R740

Skylake

Intel Xeon® 6142 [16C@2.6GHz]

Intel Xeon® 6130 [16C@2.1 GHz]

Intel Xeon® 8180 [28C @ 2,5 GHz]

Cascade Lake –

Intel Xeon® 8268 [24C@2.90GHz]

Cascade Lake –

Intel Xeon® 6242 [16C @ 2.8 GHz]

Intel Xeon® 6230 [20C@2.1 GHz]

Intel Xeon® 8280 [28C @ 2.7 GHz]

Bellek

Cascade Lake test-192GB-12 x 16 GB 2933 MT/s DDR4

Gök Lake test – 192GB-12 x 16 GB 2933 MT/s DDR4 (aktif 2666 MT/s)

İşletim Sistemi

Red Hat Enterprise Linux 7.6

Kernel Sürümü

3.10.0-957.el7.x86_64

BIOS Seçenekleri

Turbo = Enabled, mantıksal Işlemci = devre dışı, SubNumaCluster = etkin, sanallaştırma teknolojisi = devre dışı.

InfiniBand

IFS 10.9.2 ile Intel Omni yolu

İsinin

Intel Parallel Studio XE 2018 güncelleme 4

Uygulamalar

Kıyaslama

Domain (Etki Alanı)

Sürüm

Test yapılandırması

HPL

Yüksek performanslı LINPACK hesaplama

Intel MKL Graphics 2018 U4

Sorun boyutu-toplam belleğin %90 ' ü

HPCG

Yüksek performanslı eşlenik gradyanı – hesaplama 

Intel MKL Graphics 2018 U4

Sorun boyutu-336 x 336 x 336

AKıŞıNDA

Bellek bant genişliği

5.4

Üçlü

         

Testler aşağıdaki iki durumu ölçbir şekilde yapılmıştır:

  • Tek bir düğümde, gök Lake 'den basamaklandırmayı ve basamaklı gös
  • Tek düğümlü ve çok düğümlü performans iyileştirmesi

Akışında

Intel art arda bellek bant genişliği performansı elde etmek için, sürdürülebilir bellek bant genişliğinin (GB/sn cinsinden) ölçülmesi için HPC etki alanında endüstri standardı karşılaştırmalı olarak kıyaslanmayı seçtik . TRIAD değeri, bellek bant genişliğini karşılaştırmak için kullanılmıştır.

SLN317735_en_US__1image (10401)

Figure1: AKıŞ – gök Gölü-Cascade Lake

2. çeyrek Lake için desteklenen maksimum bellek frekansı 2666MT/s, çünkü Cascade Lake, basamaklandırıcıyla %10 daha yüksek bellek frekansının 29 33MT/s olduğunu destekler. Her şekil 1 ' de olduğu gibi, art arda ek Lake işlemciler, 2 – %12 daha fazla bellek bant genişliğini, yani Çekirdek başına bellek bant genişliği özel işlemci SKU 'suna bağlıdır. Bazı Cascade Lake SKU 'Larının, gök teye göreli olarak ek çekirdekler olduğundan, çekirdek bellek bant genişliği karşılaştırmaları toplam bellek bant genişliği karşılaştırmasından farklıdır. Her şekil 1 ' de olduğu gibi, 8280 ve 6242 ' de, ilgili öncüllerinden en fazla %7 ' ye kadar daha yüksek bellek bant genişliği Ancak, 6230 için çekirdekler %25 artışından dolayı 6230 6130 ile ilgili çekirdek başına %11 daha az bellek bant genişliği göstermektedir. Çekirdek başına bellek bant genişliği, bellek bant genişliği hassas uygulamalar için önemli bir faktör olabilir.

LINPACK

Intel LINPACK kullanan işlemcilerin hesaplama özelliği ölçülmüştür. Sorun boyutu (N), blok boyutu (NB) 384 olduğunda sistem belleğinin %90 ' ü oranında%. Burada, art arda Gölü işlemciler ile performans ve ölçeklendirmeyi ele aldık.

Gökyüzü Gölü-Cascade Lake 

SLN317735_en_US__2image (13765)

Şekil 2: LINPACK performansı (so Gölü-Cascade Lake)

Şekil 2 ' ye göre, LINPACK, art arda Gölü işlemcilerle performans geliştirmesini %15 ' e kadar göstermektedir. Bu karşılaştırma, Intel Xeon® ölçeklenebilir ailesinin aksamlarını ve bunların ardıllarını karşılaştıran CPU model numarasını temel alır. Soket başına 4 ' e kadar çekirdeklik Intel Xeon® 6230, 6130 üzerinden performans açısından %15 ' i alır. aynı zamanda, öncüllerinin hem temel frekansının hem de daha yüksek bellek bant genişliğinin artması nedeniyle performans iyileştirmesine bağlı olarak benzer çekirdek sayımına sahip olan 8280 ve 6242.

Çok düğümlü performans- Çok düğümlü bir çalışma için, Intel Xeon® 8268 Ile PowerEdge R740 sunucuların 8 düğümlü bir kümesini kullanmış ve 1, 2, 4 ve 8 düğüm için yakalanmış sonuçlar elde ediyoruz. Sistem yapılandırmasının geri kalanı tablo 2 ' de bahsedildi.

SLN317735_en_US__3image (10402)

                                                Şekil 3: 8268 @ 2,90 GHz ile çok düğümlü LINPACK performansı

Şekil 3 ' te gösterildiği üzere, tek bir 8268 düğümü için LINPACK performansı, 8 düğümlü, 7.83 X ölçeklemesi için 1 düğümden 8 düğüme kadar 3059 DFLOPS ve 23946 ykatlardır. Tek bir düğüm için verimlilik ~ %69, 2, 4 ve 8 düğüm için %67 ' dir. Verimlilik 1 düğümden 2 düğüme kadar düşer; Ancak ölçeklenebilirlik daha sonra çok daha doğrusaldır.               

HPCG karşılaştırmalı

HPCG kıyaslayıcısı, önceden conditioner 'ın Gauss-Seidel ile üç düzeyli hiyerarşik çok kılavuz (MG) yöntemi olduğu eşlenik gradyan çözücü 'ye dayanır.

HPCG karşılaştırmalı kıyaslama, bir 3B etki alanındaki her bir kılavuz noktasında 27-Point kalıbı kullanarak (i, j, k), değerlerine ve 26 ' ya kadar olan Neighbours bağlı olarak mantıksal bir Global, fiziksel olarak dağıtılmış bir doğrusal sistem oluşturur. Kıyaslanarak hesaplanan küresel etki alanı (NRx * NX) X (NRy *, ve NZ) X (NRz * NZ), burada NX, NY ve NZ, yerel alt ızgaraların boyutlarıdır, her bir MPI işleme ve her bir MPI süreci için atanır, NR = (NRx X NRy X NRz).

Analizimiz için testleri 2 kategoriye bölündük.

Gökyüzü Gölü Gölü Gölü - Bu bölümde, hpcg performansını kullanarak, dişli Lake 'ı art arda karşılaştırıyoruz. Toplam sistembelleğinin 1/4 ' inden fazlasını kaplayan 336 ^ 3 ' ün kılavuz boyutunu belirledik. Düğüm başına MPı işlem sayısı ve iş parçacığı sayısı, belleğin en iyi sonuçlarına ve kullanımına dayanmaktadır.

SLN317735_en_US__4image (10403)  

Şekil 4: HPCG performansı (The gök Lake-Cascade Lake)

Her şekil 4 ' te olduğu gibi, öncüllerinin üzerinde Basamaklandırmasını içeren önemli HPCG performans gelişmesini gözlemleriz. HPCG daha fazla bellek bağlı uygulama olduğundan, art arda ek ürün ile performans iyileştirmesi 6230 ' 6130 den %10 ' u daha iyi bir şekilde gerçekleşmektedir; 6242 6142 ' den %12 daha iyi hale geldi ve 8280 8180% 7 daha iyi hale getirir.   

Hpcg birden çok düğümlü - çok düğümlü bir sınama için, 336 ^ 3 ve en iyi MPİ işleminin ve OpenMP iş parçası birleşiminin yerel boyut Kılavuzu boyutunu seçtik.

SLN317735_en_US__5image (10404)

Şekil 5: Cascade Lake ile çok düğümlü HPCG performansı

Şekil 5, Basamaklandırdığı 8268 @ 2,9 GHz ile HPCG 'nin performansını ve 8 düğüme kadar ölçeklendirmeyi göstermektedir. HPCG performansı, iki düğümlü, yani iki düğümle 1.96 X performans iyileştirmesi olmak üzere tek düğüm ve 84GFLOLER için 3GÇIÇPS ' dir. 4 ve 8 düğümle ilerliliğimiz gibi, performans 7,7 X 'e kadar artar.          

Sonuç

Cascade Lake iþlemcilerinin kullanılabilirliğiyle PowerEdge sistemleri artık bu yeni nesil işlemciye sahip 2933 MT/sn 'ye kadar bellek hızlarını destekleyebilir. Cascade Lake işlemcileriyle olan testleriniz, karşılaştırılan CPU modellerinde HPCG 'de% 4-15 oranında performans iyileştirmesi, HPL ve% 7-12 oranında gelişmenin% performans geliştirmesini 7-12 göstermektedir. 1 ' den 8 ' e kadar düğüm basamaklandırmaları, geçmişteki gömüyle görülmüşü kadar iyi ölçeklenebilirliği gösterir.

Ayrıca, Cascade Lake, Bu blogdadaha fazla tartışılan 2x-3 kat ile derin öğrenme çıkarımı iş yüklerini hızlandıramamış VNNı talimatlarını tanıtır.

Geleceğe yönelik çalışmalarımız için, WRF, NAMD, GROMAC, CP2K ve LAMMPS gibi farklı HPC uygulamaları üzerinde Basamaklandırdığınız performans avantajlarını değerlendirmeyi planlıyoruz

Dotčené produkty

High Performance Computing Solution Resources
Vlastnosti článku
Číslo článku: 000133009
Typ článku: Solution
Poslední úprava: 18 kvě 2021
Verze:  4
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.