Artykuł napisany przez Savitha Pareek, Varun Bawa, & Ashish K Singh HPC i AI laboratorium innowacji w czerwcu 2019
2 generacja , Intel® Xeon® skalowalne procesory rodzinne (architektura o nazwie kodowej- Cascade Lake) to następnik firmy Intel, który będzie Skylake i jest gotowy do jego czasu. Zespół inżynierów HPC na Dell EMC miał dostęp do kilku jednostek testowych, a w tym blogu przedstawiono wyniki wstępnego badania porównawczego.
W tym blogu można zilustrować i analizować wyniki uzyskane na najnowszych przetwórców rodziny Intel® Xeon® skalowalnych i porównać ich działanie z poprzednikiem. Wybrano testy strumienia, HPL i HPCG dla analizy. To badanie przedstawia wpływ na wydajność zarówno jednego, jak i wielu węzłów. Testy te zostały przeprowadzone na Dell EMC PowerEdge C6420 (badania Jednowęzłowe) i PowerEdge R740 (badania wielowęzłowe) z zalecanymi ustawieniami systemu BIOS w celu HPC obciążeń. W procesorze Cascade Lake są dostępne liczne udoskonalenia , takie jak Intel® głębokie UCZENIe się (Intel DL-wzbogacenia) dzięki VNNI, większej przepustowości pamięci oraz zwiększonej wydajności i wydajności zmiennoprzecinkowej wektora.
Tabela 1: Informacje testbed
Serwer |
PowerEdge C6420 & PowerEdge R740 |
|||
Procesory |
Konfiguracja pojedynczego węzła |
Konfiguracja z wieloma węzłami |
||
Server-PowerEdge C6420 & PowerEdge R740 |
Serwer-PowerEdge R740 |
|||
Skylake — Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180 [28C @ 2,5 GHz] |
Kaskada Lake — Intel Xeon® 8268 [24C@2.90GHz] |
|||
Kaskada Lake — Intel Xeon® 6242 [16C @ 2,8 GHz] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @ 2,7 GHz] |
||||
Pamięć |
Kaskada Lake test-192GB-12 x 16GB 2933 MT/s DDR4 Test Skylake-192GB-12 x 16GB 2933 MT/s DDR4 (Active 2666 MT/s) |
|||
System operacyjny |
Red Hat Enterprise Linux 7.6 |
|||
Wersja jądra |
3.10.0-957.el7.x86_64 |
|||
Opcje narzędzia BIOS |
Turbo = Enabled, Logical procesor = disabled, SubNumaCluster = Enabled, Virtualization Technology = Disabled. |
|||
InfiniBand |
Ścieżka Intel rozproszonej z IFS 10.9.2 |
|||
Kompilatora |
Intel Parallel Studio XE 2018 aktualizacja 4 |
|||
Aplikacje |
||||
Zawarty |
Domena |
Wersja |
Konfiguracja testowa |
|
HPL |
Wysoka wydajność LINPACK-Obliczanie |
Intel MKL Graphics 2018 U4 |
Rozmiar problemu – 90% całkowitej pamięci |
|
HPCG |
Gradient Koniugatowy wysokiej wydajności — Obliczanie |
Intel MKL Graphics 2018 U4 |
Rozmiar problemu — 336 x 336 x 336 |
|
NADRZĘDNY |
Przepustowość pamięci |
5.4 |
Triad |
|
Testy przeprowadzono w celu określenia ilości następujących dwóch przypadków:
Nadrzędny
Aby uzyskać najwyższą przepustowość pamięci w przypadku procesorów Intel kaskad Lake i Skylake, wybrano testową wartość wzorca strumieniowego , która stanowi de facto standardowy wzorzec wydajności w HPC domenie w celu mierzenia przepustowości trwałej pamięci (w GB/s). Wartość TRIAD została użyta do porównania przepustowości pamięci.
Figure1: STREAM – Skylake vs Cascade Lake
Maksymalna częstotliwość modułów pamięci obsługiwanych przez Skylake to 2666MT/s, podczas gdy kaskadowo Lake obsługuje 2933MT/s, co oznacza 10% wyższej częstotliwości pamięci z kaskadą przez Kaskada Lake. Zgodnie z rysunkiem 1, kaskady Lake Processors wykazują 7 – 12% więcej informacji o przepustowości pamięci w odniesieniu do Skylake. Przepustowość pamięci na rdzeń zależy od konkretnego SKU procesora. Ponieważ niektóre kaskadowe jeziora SKU mają dodatkowe rdzenie w stosunku do Skylake, porównanie przepustowości na rdzeniu pamięci jest inne niż całkowite porównanie przepustowości modułów pamięci. Zgodnie z rysunkiem 1 oba 8280 i 6242 mają wyższą przepustowość pamięci na rdzeń do 7% niż ich odpowiednie poprzedniki. Jednakże 6230 przedstawia 11% mniej przepustowości pamięci według rdzenia w stosunku do 6130 ze względu na 25% wzrostu rdzeni w przypadku 6230. Przepustowość pamięci na rdzeń może być istotnym czynnikiem dla aplikacji, które są wrażliwe na przepustowość.
LINPACK -
Funkcja obliczeniowa procesorów jest mierzona za pomocą technologii Intel LINPACK. Rozmiar problemu (N) wynosi 90% pamięci systemowej, przy czym rozmiar bloku (NB) wynosi 384. W tym miejscu oferujemy zarówno wydajność, jak i skalowanie w przypadku procesorów kaskadowych Lake.
Skylake vs Cascade Lake —
Rysunek 2: LINPACK Performance (Skylake vs Cascade Lake)
Zgodnie z rysunkiem 2, LINPACK przedstawia zwiększenie wydajności do 15% w przypadku procesorów kaskadowych Lake. Porównanie to jest oparte na numerze modelu procesora, porównaniu Skylake z ich następnikami® skalowalnej rodziny Intel Xeon. Intel Xeon® 6230 z czterema rdzeniami na gniazdo uzyskuje się o 15% wzmocnienie wydajności ponad 6130, natomiast obie 8280 i 6242 z podobną liczbą rdzeni jako ich poprzedniki zwiększają wydajność z powodu zwiększonej częstotliwości procesora i większej przepustowości pamięci.
Wydajność z wieloma węzłami — W przypadku studiów z wieloma węzłami korzystamy z 8-węzłowych klastrów PowerEdge serwerów R740 z procesorem Intel Xeon® 8268 i przechwycono wyniki dla węzłów 1, 2, 4 i 8. Pozostała część konfiguracji systemu jest wymieniona w tabeli 2.
Rysunek 3. Wielowęzłowa wydajność LINPACKa przy 8268iu 2,90 GHz
Rysunek 3 przedstawia wydajność LINPACK dla jednego węzła 8268 to 3059 GFLOPS i 23946 GFLOPS for 8 węzłów, co oznacza 7.83 X skalowanie od 1 do 8 węzłów. Wydajność jednego węzła wynosi ~ 69%, podczas gdy ~ 67% dla węzłów 2, 4 i 8. Spada wydajność od 1 węzła do 2 węzłów; jednak skalowalność jest w większości liniowa.
Test wydajności HPCG
Funkcja testu porównawczego HPCG jest oparta na zmiennej z gradientem sprzężonym, w której warunkiem wstępnym jest trzy wielopoziomowa wieloosiowa Metoda Multi-Grid (MG) z gausów-Seidel.
Test wydajności HPCG konstruuje logicznie globalny, rozproszony, rozproszony system liniowy z w każdym punkcie siatki w domenie 3D, tak aby równanie w punkcie (i, j, k) zależało od jego wartości oraz 26 sąsiednich sąsiadów. Globalna domena obliczana przez test wydajności (NRx * NX) X (NRy * NY) X (NRz * NZ), gdzie NX, NY i NZ to wymiary lokalnych podsiatkaów, przydzielone do każdego procesu MPI oraz liczba MPI rankingów: NR = (NRx X NRy X NRz).
W przypadku analizy firma Dell przedzieli testy na 2 Kategorie-
Skylake vs-Cascade Lake — w tej sekcji porównuje Skylake z kaskadą jeziorami za pomocą HPCG Performance. Używamy rozmiaru siatki 336 ^ 3 , który zajmuje więcejniż 1/4 całkowitej pamięci systemowej. Liczba procesów MPI na węzeł oraz liczba wątków była oparta na najlepszych wynikach i korzystaniu z pamięci.
Rysunek 4. HPCG Performance (Skylake vs Cascade Lake)
Zgodnie z rysunkiem 4, podczas jego poprzedników wystąpią znaczące udoskonalenia dotyczące wydajności HPCGa w przypadku procesorów kaskadowych Lake. Ponieważ HPCG jest większym zastosowaniem pamięci, zwiększenie wydajności dzięki procesorom kaskadowym jeziora jest zgodne z wynikami testu porównawczego, w którym 6230 jest większe niż 6130, a 6242 to przekroczenie 12% wyższej niż 6142 i 8280 do 7% lepszej niż 8180.
HPCG z wieloma węzłami — w przypadku testów wielowęzłowych wybierany jest rozmiar siatki wymiaru lokalnego : 336 ^ 3 i najlepszy proces MPI oraz kombinacja wątku OpenMP.
Rysunek 5. Wielowęzłowa wydajność HPCG z kaskadą jeziorami
Rysunek 5 przedstawia działanie HPCG z kaskadą Lake 8268 przy częstotliwości 3-5 GHz i skalowanie do 8 węzłów. Wydajność HPCG jest 43GFLOPS dla jednego węzła i 84GFLOPS na dwa węzły, co oznacza zwiększenie wydajności 1.96 X z dwoma węzłami. W przypadku przejścia do przodu z 4 i 8 węzłami wydajność wzrasta do 7,7 X.
Wnioski
W przypadku dostępności procesorów kaskadowych Lake, PowerEdge systemy mogą teraz obsługiwać szybkość pamięci do 2933 MT/s przy użyciu tego procesora nowszej generacji. Nasze testy z procesorami Cascade Lake są zgodne z wydajnością w zakresie 7-12% w zakresie przepustowości modułów, 4-15% ulepszeń w HPL i 7-12 (HPCG w modelach procesorów, które zostały porównane). Przeprowadzenie testów kaskadowych Lake z 1 do 8 węzłów wykazuje dobrą skalowalność, ponieważ w przeszłości była wyświetlana Skylake.
Ponadto Kaskada Lake wprowadza VNNI instrukcji, które mogą przyśpieszyć szczegółowe obciążenie związane z wnioskami związanymi z wnioskami o 2 – 3.
W przyszłości firma Dell planuje ocenę zalet wydajności kaskad Lake w różnych aplikacjach HPC, takich jak WRF, NAMD, GROMACS, CP2K i LAMMPS