문서 번호: 000133009

Wydajność syntetycznego testu porównawczego HPC przy użyciu drugiej generacji skalowalnych procesorów Intel Xeon — STREAM, HPL i HPCG

요약: Więcej informacji na temat HPC syntetycznej wydajności testowej przy użyciu 2. generacji technologii Intel® Xeon® skalowalności — STREAM, HPL i HPCG

이 문서는 자동으로 번역되었을 수 있습니다. 번역 품질에 대한 의견이 있는 경우 페이지 하단의 양식을 사용해 알려 주시기 바랍니다.

문서 콘텐츠

증상

Artykuł napisany przez Savitha Pareek, Varun Bawa, & Ashish K Singh HPC i AI laboratorium innowacji w czerwcu 2019

2 generacja , Intel® Xeon® skalowalne procesory rodzinne (architektura o nazwie kodowej- Cascade Lake) to następnik firmy Intel, który będzie Skylake i jest gotowy do jego czasu. Zespół inżynierów HPC na Dell EMC miał dostęp do kilku jednostek testowych, a w tym blogu przedstawiono wyniki wstępnego badania porównawczego.

W tym blogu można zilustrować i analizować wyniki uzyskane na najnowszych przetwórców rodziny Intel® Xeon® skalowalnych i porównać ich działanie z poprzednikiem. Wybrano testy strumienia, HPL i HPCG dla analizy. To badanie przedstawia wpływ na wydajność zarówno jednego, jak i wielu węzłów. Testy te zostały przeprowadzone na Dell EMC PowerEdge C6420 (badania Jednowęzłowe) i PowerEdge R740 (badania wielowęzłowe) z zalecanymi ustawieniami systemu BIOS w celu HPC obciążeń. W procesorze Cascade Lake są dostępne liczne udoskonalenia , takie jak Intel® głębokie UCZENIe się (Intel DL-wzbogacenia) dzięki VNNI, większej przepustowości pamięci oraz zwiększonej wydajności i wydajności zmiennoprzecinkowej wektora.

원인

해결

Tabela 1: Informacje testbed

Serwer	PowerEdge C6420 & PowerEdge R740
Procesory	Konfiguracja pojedynczego węzła		Konfiguracja z wieloma węzłami
	Server-PowerEdge C6420 & PowerEdge R740		Serwer-PowerEdge R740
	Skylake — Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180 [28C @ 2,5 GHz]		Kaskada Lake — Intel Xeon® 8268 [24C@2.90GHz]
	Kaskada Lake — Intel Xeon® 6242 [16C @ 2,8 GHz] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @ 2,7 GHz]
Pamięć	Kaskada Lake test-192GB-12 x 16GB 2933 MT/s DDR4 Test Skylake-192GB-12 x 16GB 2933 MT/s DDR4 (Active 2666 MT/s)
System operacyjny	Red Hat Enterprise Linux 7.6
Wersja jądra	3.10.0-957.el7.x86_64
Opcje narzędzia BIOS	Turbo = Enabled, Logical procesor = disabled, SubNumaCluster = Enabled, Virtualization Technology = Disabled.
InfiniBand	Ścieżka Intel rozproszonej z IFS 10.9.2
Kompilatora	Intel Parallel Studio XE 2018 aktualizacja 4
Aplikacje
Zawarty	Domena	Wersja		Konfiguracja testowa
HPL	Wysoka wydajność LINPACK-Obliczanie	Intel MKL Graphics 2018 U4		Rozmiar problemu – 90% całkowitej pamięci
HPCG	Gradient Koniugatowy wysokiej wydajności — Obliczanie	Intel MKL Graphics 2018 U4		Rozmiar problemu — 336 x 336 x 336
NADRZĘDNY	Przepustowość pamięci	5.4		Triad

Testy przeprowadzono w celu określenia ilości następujących dwóch przypadków:

Poprawa wydajności na jednym węźle, z Skylake na kaskadowo Lake
Zwiększanie wydajności z jednym węzłem a z wieloma węzłami

Nadrzędny

Aby uzyskać najwyższą przepustowość pamięci w przypadku procesorów Intel kaskad Lake i Skylake, wybrano testową wartość wzorca strumieniowego , która stanowi de facto standardowy wzorzec wydajności w HPC domenie w celu mierzenia przepustowości trwałej pamięci (w GB/s). Wartość TRIAD została użyta do porównania przepustowości pamięci.

SLN317735_en_US__1image (10401)

Figure1: STREAM – Skylake vs Cascade Lake

Maksymalna częstotliwość modułów pamięci obsługiwanych przez Skylake to 2666MT/s, podczas gdy kaskadowo Lake obsługuje 2933MT/s, co oznacza 10% wyższej częstotliwości pamięci z kaskadą przez Kaskada Lake. Zgodnie z rysunkiem 1, kaskady Lake Processors wykazują 7 – 12% więcej informacji o przepustowości pamięci w odniesieniu do Skylake. Przepustowość pamięci na rdzeń zależy od konkretnego SKU procesora. Ponieważ niektóre kaskadowe jeziora SKU mają dodatkowe rdzenie w stosunku do Skylake, porównanie przepustowości na rdzeniu pamięci jest inne niż całkowite porównanie przepustowości modułów pamięci. Zgodnie z rysunkiem 1 oba 8280 i 6242 mają wyższą przepustowość pamięci na rdzeń do 7% niż ich odpowiednie poprzedniki. Jednakże 6230 przedstawia 11% mniej przepustowości pamięci według rdzenia w stosunku do 6130 ze względu na 25% wzrostu rdzeni w przypadku 6230. Przepustowość pamięci na rdzeń może być istotnym czynnikiem dla aplikacji, które są wrażliwe na przepustowość.

LINPACK -

Funkcja obliczeniowa procesorów jest mierzona za pomocą technologii Intel LINPACK. Rozmiar problemu (N) wynosi 90% pamięci systemowej, przy czym rozmiar bloku (NB) wynosi 384. W tym miejscu oferujemy zarówno wydajność, jak i skalowanie w przypadku procesorów kaskadowych Lake.

Skylake vs Cascade Lake —

SLN317735_en_US__2image (13765)

Rysunek 2: LINPACK Performance (Skylake vs Cascade Lake)

Zgodnie z rysunkiem 2, LINPACK przedstawia zwiększenie wydajności do 15% w przypadku procesorów kaskadowych Lake. Porównanie to jest oparte na numerze modelu procesora, porównaniu Skylake z ich następnikami® skalowalnej rodziny Intel Xeon. Intel Xeon® 6230 z czterema rdzeniami na gniazdo uzyskuje się o 15% wzmocnienie wydajności ponad 6130, natomiast obie 8280 i 6242 z podobną liczbą rdzeni jako ich poprzedniki zwiększają wydajność z powodu zwiększonej częstotliwości procesora i większej przepustowości pamięci.

Wydajność z wieloma węzłami — W przypadku studiów z wieloma węzłami korzystamy z 8-węzłowych klastrów PowerEdge serwerów R740 z procesorem Intel Xeon® 8268 i przechwycono wyniki dla węzłów 1, 2, 4 i 8. Pozostała część konfiguracji systemu jest wymieniona w tabeli 2.

SLN317735_en_US__3image (10402)

Rysunek 3. Wielowęzłowa wydajność LINPACKa przy 8268iu 2,90 GHz

Rysunek 3 przedstawia wydajność LINPACK dla jednego węzła 8268 to 3059 GFLOPS i 23946 GFLOPS for 8 węzłów, co oznacza 7.83 X skalowanie od 1 do 8 węzłów. Wydajność jednego węzła wynosi ~ 69%, podczas gdy ~ 67% dla węzłów 2, 4 i 8. Spada wydajność od 1 węzła do 2 węzłów; jednak skalowalność jest w większości liniowa.

Test wydajności HPCG

Funkcja testu porównawczego HPCG jest oparta na zmiennej z gradientem sprzężonym, w której warunkiem wstępnym jest trzy wielopoziomowa wieloosiowa Metoda Multi-Grid (MG) z gausów-Seidel.

Test wydajności HPCG konstruuje logicznie globalny, rozproszony, rozproszony system liniowy z w każdym punkcie siatki w domenie 3D, tak aby równanie w punkcie (i, j, k) zależało od jego wartości oraz 26 sąsiednich sąsiadów. Globalna domena obliczana przez test wydajności (NRx * NX) X (NRy * NY) X (NRz * NZ), gdzie NX, NY i NZ to wymiary lokalnych podsiatkaów, przydzielone do każdego procesu MPI oraz liczba MPI rankingów: NR = (NRx X NRy X NRz).

W przypadku analizy firma Dell przedzieli testy na 2 Kategorie-

Skylake vs-Cascade Lake — w tej sekcji porównuje Skylake z kaskadą jeziorami za pomocą HPCG Performance. Używamy rozmiaru siatki 336 ^ 3 , który zajmuje więcej^{niż 1/4 całkowitej} pamięci systemowej. Liczba procesów MPI na węzeł oraz liczba wątków była oparta na najlepszych wynikach i korzystaniu z pamięci.

SLN317735_en_US__4image (10403)

Rysunek 4. HPCG Performance (Skylake vs Cascade Lake)

Zgodnie z rysunkiem 4, podczas jego poprzedników wystąpią znaczące udoskonalenia dotyczące wydajności HPCGa w przypadku procesorów kaskadowych Lake. Ponieważ HPCG jest większym zastosowaniem pamięci, zwiększenie wydajności dzięki procesorom kaskadowym jeziora jest zgodne z wynikami testu porównawczego, w którym 6230 jest większe niż 6130, a 6242 to przekroczenie 12% wyższej niż 6142 i 8280 do 7% lepszej niż 8180.

HPCG z wieloma węzłami — w przypadku testów wielowęzłowych wybierany jest rozmiar siatki wymiaru lokalnego : 336 ^ 3 i najlepszy proces MPI oraz kombinacja wątku OpenMP.

SLN317735_en_US__5image (10404)

Rysunek 5. Wielowęzłowa wydajność HPCG z kaskadą jeziorami

Rysunek 5 przedstawia działanie HPCG z kaskadą Lake 8268 przy częstotliwości 3-5 GHz i skalowanie do 8 węzłów. Wydajność HPCG jest 43GFLOPS dla jednego węzła i 84GFLOPS na dwa węzły, co oznacza zwiększenie wydajności 1.96 X z dwoma węzłami. W przypadku przejścia do przodu z 4 i 8 węzłami wydajność wzrasta do 7,7 X.

Wnioski

W przypadku dostępności procesorów kaskadowych Lake, PowerEdge systemy mogą teraz obsługiwać szybkość pamięci do 2933 MT/s przy użyciu tego procesora nowszej generacji. Nasze testy z procesorami Cascade Lake są zgodne z wydajnością w zakresie 7-12% w zakresie przepustowości modułów, 4-15% ulepszeń w HPL i 7-12 (HPCG w modelach procesorów, które zostały porównane). Przeprowadzenie testów kaskadowych Lake z 1 do 8 węzłów wykazuje dobrą skalowalność, ponieważ w przeszłości była wyświetlana Skylake.

Ponadto Kaskada Lake wprowadza VNNI instrukcji, które mogą przyśpieszyć szczegółowe obciążenie związane z wnioskami związanymi z wnioskami o 2 – 3.

W przyszłości firma Dell planuje ocenę zalet wydajności kaskad Lake w różnych aplikacjach HPC, takich jak WRF, NAMD, GROMACS, CP2K i LAMMPS

문서 속성

영향을 받는 제품

High Performance Computing Solution Resources

마지막 게시 날짜

18 5월 2021

버전

문서 유형

Solution

맨 위로 이동

환영

환영합니다.