Přeskočit na hlavní obsah

Wydajność syntetycznego testu porównawczego HPC przy użyciu drugiej generacji skalowalnych procesorów Intel Xeon — STREAM, HPL i HPCG

Shrnutí: Więcej informacji na temat HPC syntetycznej wydajności testowej przy użyciu 2. generacji technologii Intel® Xeon® skalowalności — STREAM, HPL i HPCG

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

Artykuł napisany przez Savitha Pareek, Varun Bawa, & Ashish K Singh HPC i AI laboratorium innowacji w czerwcu 2019

2 generacja , Intel® Xeon® skalowalne procesory rodzinne (architektura o nazwie kodowej- Cascade Lake) to następnik firmy Intel, który będzie Skylake i jest gotowy do jego czasu. Zespół inżynierów HPC na Dell EMC miał dostęp do kilku jednostek testowych, a w tym blogu przedstawiono wyniki wstępnego badania porównawczego.

W tym blogu można zilustrować i analizować wyniki uzyskane na najnowszych przetwórców rodziny Intel® Xeon® skalowalnych i porównać ich działanie z poprzednikiem. Wybrano testy strumienia, HPL i HPCG dla analizy. To badanie przedstawia wpływ na wydajność zarówno jednego, jak i wielu węzłów. Testy te zostały przeprowadzone na Dell EMC PowerEdge C6420 (badania Jednowęzłowe) i PowerEdge R740 (badania wielowęzłowe) z zalecanymi ustawieniami systemu BIOS w celu HPC obciążeń. W procesorze Cascade Lake są dostępne liczne udoskonalenia , takie jak Intel® głębokie UCZENIe się (Intel DL-wzbogacenia) dzięki VNNI, większej przepustowości pamięci oraz zwiększonej wydajności i wydajności zmiennoprzecinkowej wektora.

Příčina

 

Řešení

Tabela 1: Informacje testbed

Serwer

 PowerEdge C6420 & PowerEdge R740

Procesory

Konfiguracja pojedynczego węzła

Konfiguracja z wieloma węzłami

Server-PowerEdge C6420 & PowerEdge R740

Serwer-PowerEdge R740

Skylake —

Intel Xeon® 6142 [16C@2.6GHz]

Intel Xeon® 6130 [16C@2.1GHz]

Intel Xeon® 8180 [28C @ 2,5 GHz]

Kaskada Lake —

Intel Xeon® 8268 [24C@2.90GHz]

Kaskada Lake —

Intel Xeon® 6242 [16C @ 2,8 GHz]

Intel Xeon® 6230 [20C@2.1GHz]

Intel Xeon® 8280 [28C @ 2,7 GHz]

Pamięć

Kaskada Lake test-192GB-12 x 16GB 2933 MT/s DDR4

Test Skylake-192GB-12 x 16GB 2933 MT/s DDR4 (Active 2666 MT/s)

System operacyjny

Red Hat Enterprise Linux 7.6

Wersja jądra

3.10.0-957.el7.x86_64

Opcje narzędzia BIOS

Turbo = Enabled, Logical procesor = disabled, SubNumaCluster = Enabled, Virtualization Technology = Disabled.

InfiniBand

Ścieżka Intel rozproszonej z IFS 10.9.2

Kompilatora

Intel Parallel Studio XE 2018 aktualizacja 4

Aplikacje

Zawarty

Domena

Wersja

Konfiguracja testowa

HPL

Wysoka wydajność LINPACK-Obliczanie

Intel MKL Graphics 2018 U4

Rozmiar problemu – 90% całkowitej pamięci

HPCG

Gradient Koniugatowy wysokiej wydajności — Obliczanie 

Intel MKL Graphics 2018 U4

Rozmiar problemu — 336 x 336 x 336

NADRZĘDNY

Przepustowość pamięci

5.4

Triad

         

Testy przeprowadzono w celu określenia ilości następujących dwóch przypadków:

  • Poprawa wydajności na jednym węźle, z Skylake na kaskadowo Lake
  • Zwiększanie wydajności z jednym węzłem a z wieloma węzłami

Nadrzędny

Aby uzyskać najwyższą przepustowość pamięci w przypadku procesorów Intel kaskad Lake i Skylake, wybrano testową wartość wzorca strumieniowego , która stanowi de facto standardowy wzorzec wydajności w HPC domenie w celu mierzenia przepustowości trwałej pamięci (w GB/s). Wartość TRIAD została użyta do porównania przepustowości pamięci.

SLN317735_en_US__1image (10401)

Figure1: STREAM – Skylake vs Cascade Lake

Maksymalna częstotliwość modułów pamięci obsługiwanych przez Skylake to 2666MT/s, podczas gdy kaskadowo Lake obsługuje 2933MT/s, co oznacza 10% wyższej częstotliwości pamięci z kaskadą przez Kaskada Lake. Zgodnie z rysunkiem 1, kaskady Lake Processors wykazują 7 – 12% więcej informacji o przepustowości pamięci w odniesieniu do Skylake. Przepustowość pamięci na rdzeń zależy od konkretnego SKU procesora. Ponieważ niektóre kaskadowe jeziora SKU mają dodatkowe rdzenie w stosunku do Skylake, porównanie przepustowości na rdzeniu pamięci jest inne niż całkowite porównanie przepustowości modułów pamięci. Zgodnie z rysunkiem 1 oba 8280 i 6242 mają wyższą przepustowość pamięci na rdzeń do 7% niż ich odpowiednie poprzedniki. Jednakże 6230 przedstawia 11% mniej przepustowości pamięci według rdzenia w stosunku do 6130 ze względu na 25% wzrostu rdzeni w przypadku 6230. Przepustowość pamięci na rdzeń może być istotnym czynnikiem dla aplikacji, które są wrażliwe na przepustowość.

LINPACK -

Funkcja obliczeniowa procesorów jest mierzona za pomocą technologii Intel LINPACK. Rozmiar problemu (N) wynosi 90% pamięci systemowej, przy czym rozmiar bloku (NB) wynosi 384. W tym miejscu oferujemy zarówno wydajność, jak i skalowanie w przypadku procesorów kaskadowych Lake.

Skylake vs Cascade Lake 

SLN317735_en_US__2image (13765)

Rysunek 2: LINPACK Performance (Skylake vs Cascade Lake)

Zgodnie z rysunkiem 2, LINPACK przedstawia zwiększenie wydajności do 15% w przypadku procesorów kaskadowych Lake. Porównanie to jest oparte na numerze modelu procesora, porównaniu Skylake z ich następnikami® skalowalnej rodziny Intel Xeon. Intel Xeon® 6230 z czterema rdzeniami na gniazdo uzyskuje się o 15% wzmocnienie wydajności ponad 6130, natomiast obie 8280 i 6242 z podobną liczbą rdzeni jako ich poprzedniki zwiększają wydajność z powodu zwiększonej częstotliwości procesora i większej przepustowości pamięci.

Wydajność z wieloma węzłami W przypadku studiów z wieloma węzłami korzystamy z 8-węzłowych klastrów PowerEdge serwerów R740 z procesorem Intel Xeon® 8268 i przechwycono wyniki dla węzłów 1, 2, 4 i 8. Pozostała część konfiguracji systemu jest wymieniona w tabeli 2.

SLN317735_en_US__3image (10402)

                                                Rysunek 3. Wielowęzłowa wydajność LINPACKa przy 8268iu 2,90 GHz

Rysunek 3 przedstawia wydajność LINPACK dla jednego węzła 8268 to 3059 GFLOPS i 23946 GFLOPS for 8 węzłów, co oznacza 7.83 X skalowanie od 1 do 8 węzłów. Wydajność jednego węzła wynosi ~ 69%, podczas gdy ~ 67% dla węzłów 2, 4 i 8. Spada wydajność od 1 węzła do 2 węzłów; jednak skalowalność jest w większości liniowa.               

Test wydajności HPCG

Funkcja testu porównawczego HPCG jest oparta na zmiennej z gradientem sprzężonym, w której warunkiem wstępnym jest trzy wielopoziomowa wieloosiowa Metoda Multi-Grid (MG) z gausów-Seidel.

Test wydajności HPCG konstruuje logicznie globalny, rozproszony, rozproszony system liniowy z w każdym punkcie siatki w domenie 3D, tak aby równanie w punkcie (i, j, k) zależało od jego wartości oraz 26 sąsiednich sąsiadów. Globalna domena obliczana przez test wydajności (NRx * NX) X (NRy * NY) X (NRz * NZ), gdzie NX, NY i NZ to wymiary lokalnych podsiatkaów, przydzielone do każdego procesu MPI oraz liczba MPI rankingów: NR = (NRx X NRy X NRz).

W przypadku analizy firma Dell przedzieli testy na 2 Kategorie-

Skylake vs-Cascade Lakew tej sekcji porównuje Skylake z kaskadą jeziorami za pomocą HPCG Performance. Używamy rozmiaru siatki 336 ^ 3 , który zajmuje więcejniż 1/4 całkowitej pamięci systemowej. Liczba procesów MPI na węzeł oraz liczba wątków była oparta na najlepszych wynikach i korzystaniu z pamięci.

SLN317735_en_US__4image (10403)  

Rysunek 4. HPCG Performance (Skylake vs Cascade Lake)

Zgodnie z rysunkiem 4, podczas jego poprzedników wystąpią znaczące udoskonalenia dotyczące wydajności HPCGa w przypadku procesorów kaskadowych Lake. Ponieważ HPCG jest większym zastosowaniem pamięci, zwiększenie wydajności dzięki procesorom kaskadowym jeziora jest zgodne z wynikami testu porównawczego, w którym 6230 jest większe niż 6130, a 6242 to przekroczenie 12% wyższej niż 6142 i 8280 do 7% lepszej niż 8180.   

HPCG z wieloma węzłami — w przypadku testów wielowęzłowych wybierany jest rozmiar siatki wymiaru lokalnego : 336 ^ 3 i najlepszy proces MPI oraz kombinacja wątku OpenMP.

SLN317735_en_US__5image (10404)

Rysunek 5. Wielowęzłowa wydajność HPCG z kaskadą jeziorami

Rysunek 5 przedstawia działanie HPCG z kaskadą Lake 8268 przy częstotliwości 3-5 GHz i skalowanie do 8 węzłów. Wydajność HPCG jest 43GFLOPS dla jednego węzła i 84GFLOPS na dwa węzły, co oznacza zwiększenie wydajności 1.96 X z dwoma węzłami. W przypadku przejścia do przodu z 4 i 8 węzłami wydajność wzrasta do 7,7 X.          

Wnioski

W przypadku dostępności procesorów kaskadowych Lake, PowerEdge systemy mogą teraz obsługiwać szybkość pamięci do 2933 MT/s przy użyciu tego procesora nowszej generacji. Nasze testy z procesorami Cascade Lake są zgodne z wydajnością w zakresie 7-12% w zakresie przepustowości modułów, 4-15% ulepszeń w HPL i 7-12 (HPCG w modelach procesorów, które zostały porównane). Przeprowadzenie testów kaskadowych Lake z 1 do 8 węzłów wykazuje dobrą skalowalność, ponieważ w przeszłości była wyświetlana Skylake.

Ponadto Kaskada Lake wprowadza VNNI instrukcji, które mogą przyśpieszyć szczegółowe obciążenie związane z wnioskami związanymi z wnioskami o 2 – 3.

W przyszłości firma Dell planuje ocenę zalet wydajności kaskad Lake w różnych aplikacjach HPC, takich jak WRF, NAMD, GROMACS, CP2K i LAMMPS

Dotčené produkty

High Performance Computing Solution Resources
Vlastnosti článku
Číslo článku: 000133009
Typ článku: Solution
Poslední úprava: 18 kvě 2021
Verze:  4
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.