Savıtha Pareek tarafından yazılan makale, Varun Bawa &, Haziran 2019
2. nesil Intel® Xeon® ölçeklenebilir ailesi işlemciler (mimari Codenamed – Cascade Lake), Intel 'in gök vasyon ve asal süresi için hazırdır. Dell EMC 'deki HPC mühendislik ekibi birkaç mühendislik sınama üniteye erişdi ve bu blog, ilk benchişaretleme ilerimizin sonuçlarını sunar.
Bu blogun amacı, en yeni Intel® Xeon® ölçeklenebilir aile işlemcileri üzerinde elde edilen performansı göstermek ve analiz etmek ve performansı öncülü ile karşılaştırmak. Analizimiz için STREAM, HPL ve HPCG kıyaslamaları seçtik. Çalışma, tek ve birden çok düğümün performans etkilerini vurgular. Bu sınamalar, HPC iş yükleri için ÖNERILEN BIOS ayarlarınasahıp Dell EMC PowerEdge C6420 (tek düğümlü çalışma) ve PowerEdge R740 (çok düğümlü çalışma) üzerinde gerçekleştirilmiştir. Cascade Lake işlemci , VNNı, daha yüksek bellek bant genişliğine sahip ıntel® derin Eğitim Boost (ıNTEL DL Boost) ve artan vektör kayan nokta performansı ve verimliliği ileçok sayıda gelişmelere sahiptir .
Tablo 1: Test bilgisi
Sunucu |
PowerEdge C6420 & PowerEdge R740 |
|||
İşlemciler |
Tek düğümlü yapılandırma |
Çok düğümlü yapılandırma |
||
Sunucu-PowerEdge C6420 & PowerEdge R740 |
Sunucu-PowerEdge R740 |
|||
Skylake Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1 GHz] Intel Xeon® 8180 [28C @ 2,5 GHz] |
Cascade Lake – Intel Xeon® 8268 [24C@2.90GHz] |
|||
Cascade Lake – Intel Xeon® 6242 [16C @ 2.8 GHz] Intel Xeon® 6230 [20C@2.1 GHz] Intel Xeon® 8280 [28C @ 2.7 GHz] |
||||
Bellek |
Cascade Lake test-192GB-12 x 16 GB 2933 MT/s DDR4 Gök Lake test – 192GB-12 x 16 GB 2933 MT/s DDR4 (aktif 2666 MT/s) |
|||
İşletim Sistemi |
Red Hat Enterprise Linux 7.6 |
|||
Kernel Sürümü |
3.10.0-957.el7.x86_64 |
|||
BIOS Seçenekleri |
Turbo = Enabled, mantıksal Işlemci = devre dışı, SubNumaCluster = etkin, sanallaştırma teknolojisi = devre dışı. |
|||
InfiniBand |
IFS 10.9.2 ile Intel Omni yolu |
|||
İsinin |
Intel Parallel Studio XE 2018 güncelleme 4 |
|||
Uygulamalar |
||||
Kıyaslama |
Domain (Etki Alanı) |
Sürüm |
Test yapılandırması |
|
HPL |
Yüksek performanslı LINPACK hesaplama |
Intel MKL Graphics 2018 U4 |
Sorun boyutu-toplam belleğin %90 ' ü |
|
HPCG |
Yüksek performanslı eşlenik gradyanı – hesaplama |
Intel MKL Graphics 2018 U4 |
Sorun boyutu-336 x 336 x 336 |
|
AKıŞıNDA |
Bellek bant genişliği |
5.4 |
Üçlü |
|
Testler aşağıdaki iki durumu ölçbir şekilde yapılmıştır:
Akışında
Intel art arda bellek bant genişliği performansı elde etmek için, sürdürülebilir bellek bant genişliğinin (GB/sn cinsinden) ölçülmesi için HPC etki alanında endüstri standardı karşılaştırmalı olarak kıyaslanmayı seçtik . TRIAD değeri, bellek bant genişliğini karşılaştırmak için kullanılmıştır.
Figure1: AKıŞ – gök Gölü-Cascade Lake
2. çeyrek Lake için desteklenen maksimum bellek frekansı 2666MT/s, çünkü Cascade Lake, basamaklandırıcıyla %10 daha yüksek bellek frekansının 29 33MT/s olduğunu destekler. Her şekil 1 ' de olduğu gibi, art arda ek Lake işlemciler, 2 – %12 daha fazla bellek bant genişliğini, yani Çekirdek başına bellek bant genişliği özel işlemci SKU 'suna bağlıdır. Bazı Cascade Lake SKU 'Larının, gök teye göreli olarak ek çekirdekler olduğundan, çekirdek bellek bant genişliği karşılaştırmaları toplam bellek bant genişliği karşılaştırmasından farklıdır. Her şekil 1 ' de olduğu gibi, 8280 ve 6242 ' de, ilgili öncüllerinden en fazla %7 ' ye kadar daha yüksek bellek bant genişliği Ancak, 6230 için çekirdekler %25 artışından dolayı 6230 6130 ile ilgili çekirdek başına %11 daha az bellek bant genişliği göstermektedir. Çekirdek başına bellek bant genişliği, bellek bant genişliği hassas uygulamalar için önemli bir faktör olabilir.
LINPACK
Intel LINPACK kullanan işlemcilerin hesaplama özelliği ölçülmüştür. Sorun boyutu (N), blok boyutu (NB) 384 olduğunda sistem belleğinin %90 ' ü oranında%. Burada, art arda Gölü işlemciler ile performans ve ölçeklendirmeyi ele aldık.
Gökyüzü Gölü-Cascade Lake –
Şekil 2: LINPACK performansı (so Gölü-Cascade Lake)
Şekil 2 ' ye göre, LINPACK, art arda Gölü işlemcilerle performans geliştirmesini %15 ' e kadar göstermektedir. Bu karşılaştırma, Intel Xeon® ölçeklenebilir ailesinin aksamlarını ve bunların ardıllarını karşılaştıran CPU model numarasını temel alır. Soket başına 4 ' e kadar çekirdeklik Intel Xeon® 6230, 6130 üzerinden performans açısından %15 ' i alır. aynı zamanda, öncüllerinin hem temel frekansının hem de daha yüksek bellek bant genişliğinin artması nedeniyle performans iyileştirmesine bağlı olarak benzer çekirdek sayımına sahip olan 8280 ve 6242.
Çok düğümlü performans- Çok düğümlü bir çalışma için, Intel Xeon® 8268 Ile PowerEdge R740 sunucuların 8 düğümlü bir kümesini kullanmış ve 1, 2, 4 ve 8 düğüm için yakalanmış sonuçlar elde ediyoruz. Sistem yapılandırmasının geri kalanı tablo 2 ' de bahsedildi.
Şekil 3: 8268 @ 2,90 GHz ile çok düğümlü LINPACK performansı
Şekil 3 ' te gösterildiği üzere, tek bir 8268 düğümü için LINPACK performansı, 8 düğümlü, 7.83 X ölçeklemesi için 1 düğümden 8 düğüme kadar 3059 DFLOPS ve 23946 ykatlardır. Tek bir düğüm için verimlilik ~ %69, 2, 4 ve 8 düğüm için %67 ' dir. Verimlilik 1 düğümden 2 düğüme kadar düşer; Ancak ölçeklenebilirlik daha sonra çok daha doğrusaldır.
HPCG karşılaştırmalı
HPCG kıyaslayıcısı, önceden conditioner 'ın Gauss-Seidel ile üç düzeyli hiyerarşik çok kılavuz (MG) yöntemi olduğu eşlenik gradyan çözücü 'ye dayanır.
HPCG karşılaştırmalı kıyaslama, bir 3B etki alanındaki her bir kılavuz noktasında 27-Point kalıbı kullanarak (i, j, k), değerlerine ve 26 ' ya kadar olan Neighbours bağlı olarak mantıksal bir Global, fiziksel olarak dağıtılmış bir doğrusal sistem oluşturur. Kıyaslanarak hesaplanan küresel etki alanı (NRx * NX) X (NRy *, ve NZ) X (NRz * NZ), burada NX, NY ve NZ, yerel alt ızgaraların boyutlarıdır, her bir MPI işleme ve her bir MPI süreci için atanır, NR = (NRx X NRy X NRz).
Analizimiz için testleri 2 kategoriye bölündük.
Gökyüzü Gölü Gölü Gölü - Bu bölümde, hpcg performansını kullanarak, dişli Lake 'ı art arda karşılaştırıyoruz. Toplam sistembelleğinin 1/4 ' inden fazlasını kaplayan 336 ^ 3 ' ün kılavuz boyutunu belirledik. Düğüm başına MPı işlem sayısı ve iş parçacığı sayısı, belleğin en iyi sonuçlarına ve kullanımına dayanmaktadır.
Şekil 4: HPCG performansı (The gök Lake-Cascade Lake)
Her şekil 4 ' te olduğu gibi, öncüllerinin üzerinde Basamaklandırmasını içeren önemli HPCG performans gelişmesini gözlemleriz. HPCG daha fazla bellek bağlı uygulama olduğundan, art arda ek ürün ile performans iyileştirmesi 6230 ' 6130 den %10 ' u daha iyi bir şekilde gerçekleşmektedir; 6242 6142 ' den %12 daha iyi hale geldi ve 8280 8180% 7 daha iyi hale getirir.
Hpcg birden çok düğümlü - çok düğümlü bir sınama için, 336 ^ 3 ve en iyi MPİ işleminin ve OpenMP iş parçası birleşiminin yerel boyut Kılavuzu boyutunu seçtik.
Şekil 5: Cascade Lake ile çok düğümlü HPCG performansı
Şekil 5, Basamaklandırdığı 8268 @ 2,9 GHz ile HPCG 'nin performansını ve 8 düğüme kadar ölçeklendirmeyi göstermektedir. HPCG performansı, iki düğümlü, yani iki düğümle 1.96 X performans iyileştirmesi olmak üzere tek düğüm ve 84GFLOLER için 3GÇIÇPS ' dir. 4 ve 8 düğümle ilerliliğimiz gibi, performans 7,7 X 'e kadar artar.
Sonuç
Cascade Lake iþlemcilerinin kullanılabilirliğiyle PowerEdge sistemleri artık bu yeni nesil işlemciye sahip 2933 MT/sn 'ye kadar bellek hızlarını destekleyebilir. Cascade Lake işlemcileriyle olan testleriniz, karşılaştırılan CPU modellerinde HPCG 'de% 4-15 oranında performans iyileştirmesi, HPL ve% 7-12 oranında gelişmenin% performans geliştirmesini 7-12 göstermektedir. 1 ' den 8 ' e kadar düğüm basamaklandırmaları, geçmişteki gömüyle görülmüşü kadar iyi ölçeklenebilirliği gösterir.
Ayrıca, Cascade Lake, Bu blogdadaha fazla tartışılan 2x-3 kat ile derin öğrenme çıkarımı iş yüklerini hızlandıramamış VNNı talimatlarını tanıtır.
Geleceğe yönelik çalışmalarımız için, WRF, NAMD, GROMAC, CP2K ve LAMMPS gibi farklı HPC uygulamaları üzerinde Basamaklandırdığınız performans avantajlarını değerlendirmeyi planlıyoruz