Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Wydajność syntetycznego testu porównawczego HPC przy użyciu drugiej generacji skalowalnych procesorów Intel Xeon — STREAM, HPL i HPCG

Summary: Więcej informacji na temat HPC syntetycznej wydajności testowej przy użyciu 2. generacji technologii Intel® Xeon® skalowalności — STREAM, HPL i HPCG

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Artykuł napisany przez Savitha Pareek, Varun Bawa, & Ashish K Singh HPC i AI laboratorium innowacji w czerwcu 2019

2 generacja , Intel® Xeon® skalowalne procesory rodzinne (architektura o nazwie kodowej- Cascade Lake) to następnik firmy Intel, który będzie Skylake i jest gotowy do jego czasu. Zespół inżynierów HPC na Dell EMC miał dostęp do kilku jednostek testowych, a w tym blogu przedstawiono wyniki wstępnego badania porównawczego.

W tym blogu można zilustrować i analizować wyniki uzyskane na najnowszych przetwórców rodziny Intel® Xeon® skalowalnych i porównać ich działanie z poprzednikiem. Wybrano testy strumienia, HPL i HPCG dla analizy. To badanie przedstawia wpływ na wydajność zarówno jednego, jak i wielu węzłów. Testy te zostały przeprowadzone na Dell EMC PowerEdge C6420 (badania Jednowęzłowe) i PowerEdge R740 (badania wielowęzłowe) z zalecanymi ustawieniami systemu BIOS w celu HPC obciążeń. W procesorze Cascade Lake są dostępne liczne udoskonalenia , takie jak Intel® głębokie UCZENIe się (Intel DL-wzbogacenia) dzięki VNNI, większej przepustowości pamięci oraz zwiększonej wydajności i wydajności zmiennoprzecinkowej wektora.

Cause

 

Resolution

Tabela 1: Informacje testbed

Serwer

 PowerEdge C6420 & PowerEdge R740

Procesory

Konfiguracja pojedynczego węzła

Konfiguracja z wieloma węzłami

Server-PowerEdge C6420 & PowerEdge R740

Serwer-PowerEdge R740

Skylake —

Intel Xeon® 6142 [16C@2.6GHz]

Intel Xeon® 6130 [16C@2.1GHz]

Intel Xeon® 8180 [28C @ 2,5 GHz]

Kaskada Lake —

Intel Xeon® 8268 [24C@2.90GHz]

Kaskada Lake —

Intel Xeon® 6242 [16C @ 2,8 GHz]

Intel Xeon® 6230 [20C@2.1GHz]

Intel Xeon® 8280 [28C @ 2,7 GHz]

Pamięć

Kaskada Lake test-192GB-12 x 16GB 2933 MT/s DDR4

Test Skylake-192GB-12 x 16GB 2933 MT/s DDR4 (Active 2666 MT/s)

System operacyjny

Red Hat Enterprise Linux 7.6

Wersja jądra

3.10.0-957.el7.x86_64

Opcje narzędzia BIOS

Turbo = Enabled, Logical procesor = disabled, SubNumaCluster = Enabled, Virtualization Technology = Disabled.

InfiniBand

Ścieżka Intel rozproszonej z IFS 10.9.2

Kompilatora

Intel Parallel Studio XE 2018 aktualizacja 4

Aplikacje

Zawarty

Domena

Wersja

Konfiguracja testowa

HPL

Wysoka wydajność LINPACK-Obliczanie

Intel MKL Graphics 2018 U4

Rozmiar problemu – 90% całkowitej pamięci

HPCG

Gradient Koniugatowy wysokiej wydajności — Obliczanie 

Intel MKL Graphics 2018 U4

Rozmiar problemu — 336 x 336 x 336

NADRZĘDNY

Przepustowość pamięci

5.4

Triad

         

Testy przeprowadzono w celu określenia ilości następujących dwóch przypadków:

  • Poprawa wydajności na jednym węźle, z Skylake na kaskadowo Lake
  • Zwiększanie wydajności z jednym węzłem a z wieloma węzłami

Nadrzędny

Aby uzyskać najwyższą przepustowość pamięci w przypadku procesorów Intel kaskad Lake i Skylake, wybrano testową wartość wzorca strumieniowego , która stanowi de facto standardowy wzorzec wydajności w HPC domenie w celu mierzenia przepustowości trwałej pamięci (w GB/s). Wartość TRIAD została użyta do porównania przepustowości pamięci.

SLN317735_en_US__1image (10401)

Figure1: STREAM – Skylake vs Cascade Lake

Maksymalna częstotliwość modułów pamięci obsługiwanych przez Skylake to 2666MT/s, podczas gdy kaskadowo Lake obsługuje 2933MT/s, co oznacza 10% wyższej częstotliwości pamięci z kaskadą przez Kaskada Lake. Zgodnie z rysunkiem 1, kaskady Lake Processors wykazują 7 – 12% więcej informacji o przepustowości pamięci w odniesieniu do Skylake. Przepustowość pamięci na rdzeń zależy od konkretnego SKU procesora. Ponieważ niektóre kaskadowe jeziora SKU mają dodatkowe rdzenie w stosunku do Skylake, porównanie przepustowości na rdzeniu pamięci jest inne niż całkowite porównanie przepustowości modułów pamięci. Zgodnie z rysunkiem 1 oba 8280 i 6242 mają wyższą przepustowość pamięci na rdzeń do 7% niż ich odpowiednie poprzedniki. Jednakże 6230 przedstawia 11% mniej przepustowości pamięci według rdzenia w stosunku do 6130 ze względu na 25% wzrostu rdzeni w przypadku 6230. Przepustowość pamięci na rdzeń może być istotnym czynnikiem dla aplikacji, które są wrażliwe na przepustowość.

LINPACK -

Funkcja obliczeniowa procesorów jest mierzona za pomocą technologii Intel LINPACK. Rozmiar problemu (N) wynosi 90% pamięci systemowej, przy czym rozmiar bloku (NB) wynosi 384. W tym miejscu oferujemy zarówno wydajność, jak i skalowanie w przypadku procesorów kaskadowych Lake.

Skylake vs Cascade Lake 

SLN317735_en_US__2image (13765)

Rysunek 2: LINPACK Performance (Skylake vs Cascade Lake)

Zgodnie z rysunkiem 2, LINPACK przedstawia zwiększenie wydajności do 15% w przypadku procesorów kaskadowych Lake. Porównanie to jest oparte na numerze modelu procesora, porównaniu Skylake z ich następnikami® skalowalnej rodziny Intel Xeon. Intel Xeon® 6230 z czterema rdzeniami na gniazdo uzyskuje się o 15% wzmocnienie wydajności ponad 6130, natomiast obie 8280 i 6242 z podobną liczbą rdzeni jako ich poprzedniki zwiększają wydajność z powodu zwiększonej częstotliwości procesora i większej przepustowości pamięci.

Wydajność z wieloma węzłami W przypadku studiów z wieloma węzłami korzystamy z 8-węzłowych klastrów PowerEdge serwerów R740 z procesorem Intel Xeon® 8268 i przechwycono wyniki dla węzłów 1, 2, 4 i 8. Pozostała część konfiguracji systemu jest wymieniona w tabeli 2.

SLN317735_en_US__3image (10402)

                                                Rysunek 3. Wielowęzłowa wydajność LINPACKa przy 8268iu 2,90 GHz

Rysunek 3 przedstawia wydajność LINPACK dla jednego węzła 8268 to 3059 GFLOPS i 23946 GFLOPS for 8 węzłów, co oznacza 7.83 X skalowanie od 1 do 8 węzłów. Wydajność jednego węzła wynosi ~ 69%, podczas gdy ~ 67% dla węzłów 2, 4 i 8. Spada wydajność od 1 węzła do 2 węzłów; jednak skalowalność jest w większości liniowa.               

Test wydajności HPCG

Funkcja testu porównawczego HPCG jest oparta na zmiennej z gradientem sprzężonym, w której warunkiem wstępnym jest trzy wielopoziomowa wieloosiowa Metoda Multi-Grid (MG) z gausów-Seidel.

Test wydajności HPCG konstruuje logicznie globalny, rozproszony, rozproszony system liniowy z w każdym punkcie siatki w domenie 3D, tak aby równanie w punkcie (i, j, k) zależało od jego wartości oraz 26 sąsiednich sąsiadów. Globalna domena obliczana przez test wydajności (NRx * NX) X (NRy * NY) X (NRz * NZ), gdzie NX, NY i NZ to wymiary lokalnych podsiatkaów, przydzielone do każdego procesu MPI oraz liczba MPI rankingów: NR = (NRx X NRy X NRz).

W przypadku analizy firma Dell przedzieli testy na 2 Kategorie-

Skylake vs-Cascade Lakew tej sekcji porównuje Skylake z kaskadą jeziorami za pomocą HPCG Performance. Używamy rozmiaru siatki 336 ^ 3 , który zajmuje więcejniż 1/4 całkowitej pamięci systemowej. Liczba procesów MPI na węzeł oraz liczba wątków była oparta na najlepszych wynikach i korzystaniu z pamięci.

SLN317735_en_US__4image (10403)  

Rysunek 4. HPCG Performance (Skylake vs Cascade Lake)

Zgodnie z rysunkiem 4, podczas jego poprzedników wystąpią znaczące udoskonalenia dotyczące wydajności HPCGa w przypadku procesorów kaskadowych Lake. Ponieważ HPCG jest większym zastosowaniem pamięci, zwiększenie wydajności dzięki procesorom kaskadowym jeziora jest zgodne z wynikami testu porównawczego, w którym 6230 jest większe niż 6130, a 6242 to przekroczenie 12% wyższej niż 6142 i 8280 do 7% lepszej niż 8180.   

HPCG z wieloma węzłami — w przypadku testów wielowęzłowych wybierany jest rozmiar siatki wymiaru lokalnego : 336 ^ 3 i najlepszy proces MPI oraz kombinacja wątku OpenMP.

SLN317735_en_US__5image (10404)

Rysunek 5. Wielowęzłowa wydajność HPCG z kaskadą jeziorami

Rysunek 5 przedstawia działanie HPCG z kaskadą Lake 8268 przy częstotliwości 3-5 GHz i skalowanie do 8 węzłów. Wydajność HPCG jest 43GFLOPS dla jednego węzła i 84GFLOPS na dwa węzły, co oznacza zwiększenie wydajności 1.96 X z dwoma węzłami. W przypadku przejścia do przodu z 4 i 8 węzłami wydajność wzrasta do 7,7 X.          

Wnioski

W przypadku dostępności procesorów kaskadowych Lake, PowerEdge systemy mogą teraz obsługiwać szybkość pamięci do 2933 MT/s przy użyciu tego procesora nowszej generacji. Nasze testy z procesorami Cascade Lake są zgodne z wydajnością w zakresie 7-12% w zakresie przepustowości modułów, 4-15% ulepszeń w HPL i 7-12 (HPCG w modelach procesorów, które zostały porównane). Przeprowadzenie testów kaskadowych Lake z 1 do 8 węzłów wykazuje dobrą skalowalność, ponieważ w przeszłości była wyświetlana Skylake.

Ponadto Kaskada Lake wprowadza VNNI instrukcji, które mogą przyśpieszyć szczegółowe obciążenie związane z wnioskami związanymi z wnioskami o 2 – 3.

W przyszłości firma Dell planuje ocenę zalet wydajności kaskad Lake w różnych aplikacjach HPC, takich jak WRF, NAMD, GROMACS, CP2K i LAMMPS

Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000133009
Article Type: Solution
Last Modified: 18 May 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.