Article Number: 000133009

Wydajność syntetycznego testu porównawczego HPC przy użyciu drugiej generacji skalowalnych procesorów Intel Xeon — STREAM, HPL i HPCG

Summary: Więcej informacji na temat HPC syntetycznej wydajności testowej przy użyciu 2. generacji technologii Intel® Xeon® skalowalności — STREAM, HPL i HPCG

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Symptoms

Artykuł napisany przez Savitha Pareek, Varun Bawa, & Ashish K Singh HPC i AI laboratorium innowacji w czerwcu 2019

2 generacja , Intel® Xeon® skalowalne procesory rodzinne (architektura o nazwie kodowej- Cascade Lake) to następnik firmy Intel, który będzie Skylake i jest gotowy do jego czasu. Zespół inżynierów HPC na Dell EMC miał dostęp do kilku jednostek testowych, a w tym blogu przedstawiono wyniki wstępnego badania porównawczego.

W tym blogu można zilustrować i analizować wyniki uzyskane na najnowszych przetwórców rodziny Intel® Xeon® skalowalnych i porównać ich działanie z poprzednikiem. Wybrano testy strumienia, HPL i HPCG dla analizy. To badanie przedstawia wpływ na wydajność zarówno jednego, jak i wielu węzłów. Testy te zostały przeprowadzone na Dell EMC PowerEdge C6420 (badania Jednowęzłowe) i PowerEdge R740 (badania wielowęzłowe) z zalecanymi ustawieniami systemu BIOS w celu HPC obciążeń. W procesorze Cascade Lake są dostępne liczne udoskonalenia , takie jak Intel® głębokie UCZENIe się (Intel DL-wzbogacenia) dzięki VNNI, większej przepustowości pamięci oraz zwiększonej wydajności i wydajności zmiennoprzecinkowej wektora.

Cause

Resolution

Tabela 1: Informacje testbed

Serwer	PowerEdge C6420 & PowerEdge R740
Procesory	Konfiguracja pojedynczego węzła		Konfiguracja z wieloma węzłami
	Server-PowerEdge C6420 & PowerEdge R740		Serwer-PowerEdge R740
	Skylake — Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180 [28C @ 2,5 GHz]		Kaskada Lake — Intel Xeon® 8268 [24C@2.90GHz]
	Kaskada Lake — Intel Xeon® 6242 [16C @ 2,8 GHz] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @ 2,7 GHz]
Pamięć	Kaskada Lake test-192GB-12 x 16GB 2933 MT/s DDR4 Test Skylake-192GB-12 x 16GB 2933 MT/s DDR4 (Active 2666 MT/s)
System operacyjny	Red Hat Enterprise Linux 7.6
Wersja jądra	3.10.0-957.el7.x86_64
Opcje narzędzia BIOS	Turbo = Enabled, Logical procesor = disabled, SubNumaCluster = Enabled, Virtualization Technology = Disabled.
InfiniBand	Ścieżka Intel rozproszonej z IFS 10.9.2
Kompilatora	Intel Parallel Studio XE 2018 aktualizacja 4
Aplikacje
Zawarty	Domena	Wersja		Konfiguracja testowa
HPL	Wysoka wydajność LINPACK-Obliczanie	Intel MKL Graphics 2018 U4		Rozmiar problemu – 90% całkowitej pamięci
HPCG	Gradient Koniugatowy wysokiej wydajności — Obliczanie	Intel MKL Graphics 2018 U4		Rozmiar problemu — 336 x 336 x 336
NADRZĘDNY	Przepustowość pamięci	5.4		Triad

Testy przeprowadzono w celu określenia ilości następujących dwóch przypadków:

Poprawa wydajności na jednym węźle, z Skylake na kaskadowo Lake
Zwiększanie wydajności z jednym węzłem a z wieloma węzłami

Nadrzędny

Aby uzyskać najwyższą przepustowość pamięci w przypadku procesorów Intel kaskad Lake i Skylake, wybrano testową wartość wzorca strumieniowego , która stanowi de facto standardowy wzorzec wydajności w HPC domenie w celu mierzenia przepustowości trwałej pamięci (w GB/s). Wartość TRIAD została użyta do porównania przepustowości pamięci.

SLN317735_en_US__1image (10401)

Figure1: STREAM – Skylake vs Cascade Lake

Maksymalna częstotliwość modułów pamięci obsługiwanych przez Skylake to 2666MT/s, podczas gdy kaskadowo Lake obsługuje 2933MT/s, co oznacza 10% wyższej częstotliwości pamięci z kaskadą przez Kaskada Lake. Zgodnie z rysunkiem 1, kaskady Lake Processors wykazują 7 – 12% więcej informacji o przepustowości pamięci w odniesieniu do Skylake. Przepustowość pamięci na rdzeń zależy od konkretnego SKU procesora. Ponieważ niektóre kaskadowe jeziora SKU mają dodatkowe rdzenie w stosunku do Skylake, porównanie przepustowości na rdzeniu pamięci jest inne niż całkowite porównanie przepustowości modułów pamięci. Zgodnie z rysunkiem 1 oba 8280 i 6242 mają wyższą przepustowość pamięci na rdzeń do 7% niż ich odpowiednie poprzedniki. Jednakże 6230 przedstawia 11% mniej przepustowości pamięci według rdzenia w stosunku do 6130 ze względu na 25% wzrostu rdzeni w przypadku 6230. Przepustowość pamięci na rdzeń może być istotnym czynnikiem dla aplikacji, które są wrażliwe na przepustowość.

LINPACK -

Funkcja obliczeniowa procesorów jest mierzona za pomocą technologii Intel LINPACK. Rozmiar problemu (N) wynosi 90% pamięci systemowej, przy czym rozmiar bloku (NB) wynosi 384. W tym miejscu oferujemy zarówno wydajność, jak i skalowanie w przypadku procesorów kaskadowych Lake.

Skylake vs Cascade Lake —

SLN317735_en_US__2image (13765)

Rysunek 2: LINPACK Performance (Skylake vs Cascade Lake)

Zgodnie z rysunkiem 2, LINPACK przedstawia zwiększenie wydajności do 15% w przypadku procesorów kaskadowych Lake. Porównanie to jest oparte na numerze modelu procesora, porównaniu Skylake z ich następnikami® skalowalnej rodziny Intel Xeon. Intel Xeon® 6230 z czterema rdzeniami na gniazdo uzyskuje się o 15% wzmocnienie wydajności ponad 6130, natomiast obie 8280 i 6242 z podobną liczbą rdzeni jako ich poprzedniki zwiększają wydajność z powodu zwiększonej częstotliwości procesora i większej przepustowości pamięci.

Wydajność z wieloma węzłami — W przypadku studiów z wieloma węzłami korzystamy z 8-węzłowych klastrów PowerEdge serwerów R740 z procesorem Intel Xeon® 8268 i przechwycono wyniki dla węzłów 1, 2, 4 i 8. Pozostała część konfiguracji systemu jest wymieniona w tabeli 2.

SLN317735_en_US__3image (10402)

Rysunek 3. Wielowęzłowa wydajność LINPACKa przy 8268iu 2,90 GHz

Rysunek 3 przedstawia wydajność LINPACK dla jednego węzła 8268 to 3059 GFLOPS i 23946 GFLOPS for 8 węzłów, co oznacza 7.83 X skalowanie od 1 do 8 węzłów. Wydajność jednego węzła wynosi ~ 69%, podczas gdy ~ 67% dla węzłów 2, 4 i 8. Spada wydajność od 1 węzła do 2 węzłów; jednak skalowalność jest w większości liniowa.

Test wydajności HPCG

Funkcja testu porównawczego HPCG jest oparta na zmiennej z gradientem sprzężonym, w której warunkiem wstępnym jest trzy wielopoziomowa wieloosiowa Metoda Multi-Grid (MG) z gausów-Seidel.

Test wydajności HPCG konstruuje logicznie globalny, rozproszony, rozproszony system liniowy z w każdym punkcie siatki w domenie 3D, tak aby równanie w punkcie (i, j, k) zależało od jego wartości oraz 26 sąsiednich sąsiadów. Globalna domena obliczana przez test wydajności (NRx * NX) X (NRy * NY) X (NRz * NZ), gdzie NX, NY i NZ to wymiary lokalnych podsiatkaów, przydzielone do każdego procesu MPI oraz liczba MPI rankingów: NR = (NRx X NRy X NRz).

W przypadku analizy firma Dell przedzieli testy na 2 Kategorie-

Skylake vs-Cascade Lake — w tej sekcji porównuje Skylake z kaskadą jeziorami za pomocą HPCG Performance. Używamy rozmiaru siatki 336 ^ 3 , który zajmuje więcej^{niż 1/4 całkowitej} pamięci systemowej. Liczba procesów MPI na węzeł oraz liczba wątków była oparta na najlepszych wynikach i korzystaniu z pamięci.

SLN317735_en_US__4image (10403)

Rysunek 4. HPCG Performance (Skylake vs Cascade Lake)

Zgodnie z rysunkiem 4, podczas jego poprzedników wystąpią znaczące udoskonalenia dotyczące wydajności HPCGa w przypadku procesorów kaskadowych Lake. Ponieważ HPCG jest większym zastosowaniem pamięci, zwiększenie wydajności dzięki procesorom kaskadowym jeziora jest zgodne z wynikami testu porównawczego, w którym 6230 jest większe niż 6130, a 6242 to przekroczenie 12% wyższej niż 6142 i 8280 do 7% lepszej niż 8180.

HPCG z wieloma węzłami — w przypadku testów wielowęzłowych wybierany jest rozmiar siatki wymiaru lokalnego : 336 ^ 3 i najlepszy proces MPI oraz kombinacja wątku OpenMP.

SLN317735_en_US__5image (10404)

Rysunek 5. Wielowęzłowa wydajność HPCG z kaskadą jeziorami

Rysunek 5 przedstawia działanie HPCG z kaskadą Lake 8268 przy częstotliwości 3-5 GHz i skalowanie do 8 węzłów. Wydajność HPCG jest 43GFLOPS dla jednego węzła i 84GFLOPS na dwa węzły, co oznacza zwiększenie wydajności 1.96 X z dwoma węzłami. W przypadku przejścia do przodu z 4 i 8 węzłami wydajność wzrasta do 7,7 X.

Wnioski

W przypadku dostępności procesorów kaskadowych Lake, PowerEdge systemy mogą teraz obsługiwać szybkość pamięci do 2933 MT/s przy użyciu tego procesora nowszej generacji. Nasze testy z procesorami Cascade Lake są zgodne z wydajnością w zakresie 7-12% w zakresie przepustowości modułów, 4-15% ulepszeń w HPL i 7-12 (HPCG w modelach procesorów, które zostały porównane). Przeprowadzenie testów kaskadowych Lake z 1 do 8 węzłów wykazuje dobrą skalowalność, ponieważ w przeszłości była wyświetlana Skylake.

Ponadto Kaskada Lake wprowadza VNNI instrukcji, które mogą przyśpieszyć szczegółowe obciążenie związane z wnioskami związanymi z wnioskami o 2 – 3.

W przyszłości firma Dell planuje ocenę zalet wydajności kaskad Lake w różnych aplikacjach HPC, takich jak WRF, NAMD, GROMACS, CP2K i LAMMPS

Wydajność syntetycznego testu porównawczego HPC przy użyciu drugiej generacji skalowalnych procesorów Intel Xeon — STREAM, HPL i HPCG

Summary: Więcej informacji na temat HPC syntetycznej wydajności testowej przy użyciu 2. generacji technologii Intel® Xeon® skalowalności — STREAM, HPL i HPCG

Article Content

Symptoms

Cause

Resolution

Article Properties

Affected Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

Wydajność syntetycznego testu porównawczego HPC przy użyciu drugiej generacji skalowalnych procesorów Intel Xeon — STREAM, HPL i HPCG

Summary: Więcej informacji na temat HPC syntetycznej wydajności testowej przy użyciu 2. generacji technologii Intel® Xeon® skalowalności — STREAM, HPL i HPCG

Article Content

Symptoms

Cause

Resolution

Article Properties

Affected Product

Last Published Date

Version

Article Type