메인 콘텐츠로 이동
  • 빠르고 간편하게 주문
  • 주문 보기 및 배송 상태 추적
  • 제품 목록을 생성 및 액세스

Результаты эталонного теста производительности НРС с использованием масштабируемых процессоров Intel Xeon 2-го поколения: тесты STREAM, HPL и HPCG

요약: Ознакомьтесь с информацией о производительности HPC синтетических тестовых тестов с помощью Intel® Xeon® масштабируемых процессоров с 2-го поколениями. STREAM, ХПЛ и ХПКГ

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

증상

Статья, написанная с помощью сависа парик, Варун Бава, & Ашиш K Сингх HPC и лабораторных инноваций по AI в июне 2019 2-го

поколения Intel® Xeon® масштабируемые процессоры семейства (с архитектурой коденамед –Каскад Lake) — это преемник Intel в Skylake и готов к его первоначальному времени. Группа инженеров по HPC на Dell EMC имела доступ к нескольким инженерам тестирования, и этот блог представляет результаты первоначального исследования по тестированию.

Цель данного блога — продемонстрировать и проанализировать производительность, полученную на новейших процессорах Intel® Xeon® масштабируемую семейство, и сравните производительность со своим предшественником. Мы выбрали для нашего анализа выбранные вами тесты для потоков, ХПЛ и ХПКГ. В ходе исследования выделяются влияние на производительность одного и нескольких узлов. Эти тесты были выполнены для Dell EMC PowerEdge C6420 (исследование с одним узлом) и PowerEdge R740 (исследование с несколькими узлами) с рекомендованными настройками BIOS для рабочих нагрузок HPC. Каскадный процессор Lake поставляется с множеством усовершенствований , таких как Intel® глубокая система улучшения (Intel DL Boost) с внни, более высокая полоса пропускания памяти и повышенная производительность и эффективность векторной плавающей точки.

원인

 

해결

Таблица 1. Информация о тестбед

Сервер

 PowerEdge C6420 & PowerEdge R740

Процессоры

Конфигурация с одним узлом

Конфигурация с несколькими узлами

Сервер — PowerEdge C6420 & PowerEdge R740

R740 сервера-PowerEdge

Skylake —

Intel Xeon® 6142 [16C@2.6GHz]

Intel Xeon® 6130 [16C@2.1GHz]

Процессор Intel Xeon® 8180 [28C @ 2,5 ГГц]

Каскад Lake —

Intel Xeon® 8268 [24C@2.90GHz]

Каскад Lake —

Процессор Intel Xeon® 6242 [16C @ 2,8 ГГц]

Intel Xeon® 6230 [20C@2.1GHz]

Intel Xeon® 8280 [28C @ 2.7 ГГц]

Модули

Каскад Lake Test-192 Гбайт-12 x 16 Гбит/с, 2933 MT/s DDR4

Skylake Test — 192 Гбайт-12 x 16 16 2933 MT/s DDR4 (Active 2666 MT/s)

Операционная система

Red Hat Enterprise Linux 7.6

Версия ядра

3.10.0-957.el7.x86_64

Опции BIOS

Turbo = Enabled, логический процессор = Disabled, Субнумаклустер = Enabled, технология виртуализации = отключено.

InfiniBand

Путь к Intel лампочки с IFS 10.9.2

Компилятор

Intel Parallel Studio XE 2018, обновление 4

Приложения

Измерения

Домен

Версия

Тестовая конфигурация

HPL

Высокая производительность ЛИНПАКК — вычислительные

Intel MKL Graphics 2018 U4

Размер проблемы — 90% от общей памяти

хпкг

Высокопроизводительный, сопряженный градиент — вычислительный 

Intel MKL Graphics 2018 U4

Размер проблемы — 336 x 336 x 336

ПОТОКОВ

Полоса пропускания памяти

5.4

триад

         

Тесты были проведены в количественном виде в следующих двух случаях:

  • Повышение производительности на одном узле с Skylake до каскадных Lake
  • Улучшение производительности с помощью одного узла и нескольких узлов

Потоков

Чтобы получить пиковую пропускную способность памяти для Intel Cascade Lake и Skylake, мы выбрали модульный тестовый опыт, который является де-факто Standard Performance standard в HPC Domain для измерения устойчивой полосы пропускания памяти (в Гбайт/с). Значение ТРИАД использовалось для сравнения полосы пропускания памяти.

SLN317735_en_US__1image (10401)

Figure1: ПОТОК — Skylake VS Cascade Lake

Максимальная поддерживаемая частота памяти для Skylake: 2666MT/s, в то время как каскадным путем Lake поддерживает 2933MT/s, то есть 10% более высокая частота памяти при использовании каскадных Lake. Как показано на рис. 1, в каскадных процессорах с большим объемом памяти отображаются 7 – 12% больше полосы пропускания памяти относительно Skylake. Полоса пропускания памяти на каждое ядро зависит от конкретного SKU процессора. Так как некоторые коммутаторы серии Lake имеют дополнительные ядра, связанные с Skylakeми, сравнение полосы пропускания для отдельных ядер памяти отличается от общего сравнения полосы пропускания памяти. На рис. 1, как 8280, так и 6242, имеют более высокую полосу пропускания памяти для каждого ядра до 7% по сравнению с соответствующими предшественниками. Тем не менее, 6230 отображает 11% полосы памяти на один модуль относительно 6130 из-за 25% увеличенного количества ядер для 6230. Полоса пропускания памяти на ядро может быть важным фактором для приложений, которые зависят от полосы пропускания памяти.

ЛИНПАКК-

Мы измеряем вычислительную возможность процессоров с помощью Intel ЛИНПАКК. Неисправность (N) составляет 90% от системной памяти, в то время как размер блока (NetBIOS) составляет 384. В данном случае мы планируем производительность и масштабирование с помощью каскадных процессоров Lake.

Skylake VS Cascade Lake -  

SLN317735_en_US__2image (13765)

Рис. 2. Производительность ЛИНПАКК (Skylake VS Lake Lake)

Как показано на рис. 2, ЛИНПАКК демонстрирует улучшение производительности до 15% с помощью каскадных процессоров Lake. Это сравнение базируется на номере модели ЦП, о сравнении Skylake и их последователях для масштабируемого семейства Intel Xeon®. Процессор Intel Xeon® 6230 с 4 дополнительными ядрами на каждый сокет дает 15% повышения производительности по сравнению с 6130. в то же время и 8280, и 6242 с аналогичным количеством ядер, как и в случае с повышением производительности, благодаря увеличению базовой частоты ЦП и увеличению полосы пропускания памяти.

Производительность с несколькими узлами — Для исследования с несколькими узлами использовался кластер с 8 узлами PowerEdge серверов R740 с® Intel Xeon 8268 и собранные результаты для 1, 2, 4 и 8 узлов. Оставшаяся часть конфигурации системы будет привышена в табл. 2.

SLN317735_en_US__3image (10402)

                                                Рис. 3. Производительность многоузловых ЛИНПАКК при использовании 8268 @ 2,90 ГГц

Как показано на рис. 3, производительность ЛИНПАКК для одного узла 8268 составляет 3059 ГФЛОПС и 23946 ГФЛОПС для 8 узлов, благодаря чему 7.83 X масштабируется с 1 узла до 8 узлов. Эффективность для одного узла составляет ~ 69%, а ~ 67% для узлов 2, 4 и 8. Эффективность снижается с 1 узла до 2 узлов; Однако масштабируемость в основном отличается линейной.               

ХПКГный тест производительности

Тестовый эталон ХПКГ основан на сопряженном градиентном поиске решения, где предварительное условие — это 3-уровневые иерархические методы с несколькими сетками (MG) с гаусс-Сеидел.

Эталонный тест ХПКГ создает логическую, физически распределенную многораспределенную линейную систему с использованием трафаретов 27-Point в каждой точке сетки в трехмерном домене таким образом, что уравнение в точке (i, j, k) зависит от значений и 26 соседних соседей. В качестве глобального домена, рассчитанного по производительности (Нркс * NX) X (нри * Россия) X (НРЗ * NZ), где NX, Россия и NZ — это размеры локальных вложенных сеток, назначенных каждому процессу MPI, и количество рангов MPI — НР = (Нркс X нри X НРЗ).

Для нашего анализа мы распределены тесты по 2 категориям —

Skylake VS Cascade Lakeв этом разделе мы сравниваем Skylake с помощью функции Cascade Lake с помощью производительности хпкг. Мы использовали размер сетки 336 ^ 3 , который занимает более 1/4м общей системной памяти. Количество процессов MPI на узел и количество потоков было основано на наилучших результатах и использовании памяти.

SLN317735_en_US__4image (10403)  

Рис. 4. Производительность ХПКГ (Skylake VS Lake Lake)

На рис. 4 мы наблюдаем важное повышение производительности ХПКГ с помощью каскадных процессоров Lake. Так как ХПКГ — больший объем приложения, связанного с памятью, повышение производительности с помощью каскадных процессоров Lake приводит к получению результатов тестирования потока, где 6230 выполняет 10% более чем 6130, 6242 выполняет 12% выше, чем 6142, и 8280 выполняет 7% выше, чем 8180.   

Хпкг с несколькими узлами — для тестирования с использованием нескольких узлов мы выбрали размер сетки локальных измерений 336 ^ 3 и лучший процесс MPI и сочетание потоков OpenMP.

SLN317735_en_US__5image (10404)

Рис. 5. Производительность многоузловых ХПКГ с помощью каскадных задач Lake

На рис. 5 показана производительность ХПКГ с помощью каскадной функции Lake 8268 @ 2.9 ГГц и масштабирование до восьми узлов. Производительность ХПКГ — 43GFLOPS для одного узла и 84GFLOPS для двух узлов. Это означает, что 1.96 производительность по сравнению с двумя узлами отличается от улучшения производительности X. При перемещении вперед с 4 и 8 узлами производительность повышается до 7,7 X.          

Заключение

Благодаря наличию каскадных процессоров Lake, PowerEdge система может поддерживать скорость памяти до 2933 MT/s с этим новым процессором поколения. Наши тесты с каскадными процессорами Lake демонстрируют повышение производительности 7-12% при полосе пропускания памяти, 4-15% улучшения ХПЛ и 7-12% улучшения в ХПКГ на моделях ЦП, которые мы сравнивали. В каскадной работе функции Lake Test от 1 до 8 узлов отображается хорошая масштабируемость, как показано в Skylake в прошлом.

Кроме того, в каскадной программе Lake представлены инструкции ВННИ, которые могут ускорить изучение рабочих нагрузок вывода с помощью 3 раза, что еще описано в этом блоге.

Для нашей будущей работы мы планируем оценить преимущества производительности каскадных Lake в различных HPC приложениях, таких как ВРФ, НАМД, ГРОМАКС, CP2K и ЛАММПС.

해당 제품

High Performance Computing Solution Resources
문서 속성
문서 번호: 000133009
문서 유형: Solution
마지막 수정 시간: 18 5월 2021
버전:  4
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.