Результаты эталонного теста производительности НРС с использованием масштабируемых процессоров Intel Xeon 2-го поколения: тесты STREAM, HPL и HPCG

요약: Ознакомьтесь с информацией о производительности HPC синтетических тестовых тестов с помощью Intel® Xeon® масштабируемых процессоров с 2-го поколениями. STREAM, ХПЛ и ХПКГ

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

증상

Статья, написанная с помощью сависа парик, Варун Бава, & Ашиш K Сингх HPC и лабораторных инноваций по AI в июне 2019 2-го

поколения Intel® Xeon® масштабируемые процессоры семейства (с архитектурой коденамед –Каскад Lake) — это преемник Intel в Skylake и готов к его первоначальному времени. Группа инженеров по HPC на Dell EMC имела доступ к нескольким инженерам тестирования, и этот блог представляет результаты первоначального исследования по тестированию.

Цель данного блога — продемонстрировать и проанализировать производительность, полученную на новейших процессорах Intel® Xeon® масштабируемую семейство, и сравните производительность со своим предшественником. Мы выбрали для нашего анализа выбранные вами тесты для потоков, ХПЛ и ХПКГ. В ходе исследования выделяются влияние на производительность одного и нескольких узлов. Эти тесты были выполнены для Dell EMC PowerEdge C6420 (исследование с одним узлом) и PowerEdge R740 (исследование с несколькими узлами) с рекомендованными настройками BIOS для рабочих нагрузок HPC. Каскадный процессор Lake поставляется с множеством усовершенствований , таких как Intel® глубокая система улучшения (Intel DL Boost) с внни, более высокая полоса пропускания памяти и повышенная производительность и эффективность векторной плавающей точки.

원인

해결

Таблица 1. Информация о тестбед

Сервер	PowerEdge C6420 & PowerEdge R740
Процессоры	Конфигурация с одним узлом		Конфигурация с несколькими узлами
	Сервер — PowerEdge C6420 & PowerEdge R740		R740 сервера-PowerEdge
	Skylake — Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1GHz] Процессор Intel Xeon® 8180 [28C @ 2,5 ГГц]		Каскад Lake — Intel Xeon® 8268 [24C@2.90GHz]
	Каскад Lake — Процессор Intel Xeon® 6242 [16C @ 2,8 ГГц] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @ 2.7 ГГц]
Модули	Каскад Lake Test-192 Гбайт-12 x 16 Гбит/с, 2933 MT/s DDR4 Skylake Test — 192 Гбайт-12 x 16 16 2933 MT/s DDR4 (Active 2666 MT/s)
Операционная система	Red Hat Enterprise Linux 7.6
Версия ядра	3.10.0-957.el7.x86_64
Опции BIOS	Turbo = Enabled, логический процессор = Disabled, Субнумаклустер = Enabled, технология виртуализации = отключено.
InfiniBand	Путь к Intel лампочки с IFS 10.9.2
Компилятор	Intel Parallel Studio XE 2018, обновление 4
Приложения
Измерения	Домен	Версия		Тестовая конфигурация
HPL	Высокая производительность ЛИНПАКК — вычислительные	Intel MKL Graphics 2018 U4		Размер проблемы — 90% от общей памяти
хпкг	Высокопроизводительный, сопряженный градиент — вычислительный	Intel MKL Graphics 2018 U4		Размер проблемы — 336 x 336 x 336
ПОТОКОВ	Полоса пропускания памяти	5.4		триад

Тесты были проведены в количественном виде в следующих двух случаях:

Повышение производительности на одном узле с Skylake до каскадных Lake
Улучшение производительности с помощью одного узла и нескольких узлов

Потоков

Чтобы получить пиковую пропускную способность памяти для Intel Cascade Lake и Skylake, мы выбрали модульный тестовый опыт, который является де-факто Standard Performance standard в HPC Domain для измерения устойчивой полосы пропускания памяти (в Гбайт/с). Значение ТРИАД использовалось для сравнения полосы пропускания памяти.

SLN317735_en_US__1image (10401)

Figure1: ПОТОК — Skylake VS Cascade Lake

Максимальная поддерживаемая частота памяти для Skylake: 2666MT/s, в то время как каскадным путем Lake поддерживает 2933MT/s, то есть 10% более высокая частота памяти при использовании каскадных Lake. Как показано на рис. 1, в каскадных процессорах с большим объемом памяти отображаются 7 – 12% больше полосы пропускания памяти относительно Skylake. Полоса пропускания памяти на каждое ядро зависит от конкретного SKU процессора. Так как некоторые коммутаторы серии Lake имеют дополнительные ядра, связанные с Skylakeми, сравнение полосы пропускания для отдельных ядер памяти отличается от общего сравнения полосы пропускания памяти. На рис. 1, как 8280, так и 6242, имеют более высокую полосу пропускания памяти для каждого ядра до 7% по сравнению с соответствующими предшественниками. Тем не менее, 6230 отображает 11% полосы памяти на один модуль относительно 6130 из-за 25% увеличенного количества ядер для 6230. Полоса пропускания памяти на ядро может быть важным фактором для приложений, которые зависят от полосы пропускания памяти.

ЛИНПАКК-

Мы измеряем вычислительную возможность процессоров с помощью Intel ЛИНПАКК. Неисправность (N) составляет 90% от системной памяти, в то время как размер блока (NetBIOS) составляет 384. В данном случае мы планируем производительность и масштабирование с помощью каскадных процессоров Lake.

Skylake VS Cascade Lake -

SLN317735_en_US__2image (13765)

Рис. 2. Производительность ЛИНПАКК (Skylake VS Lake Lake)

Как показано на рис. 2, ЛИНПАКК демонстрирует улучшение производительности до 15% с помощью каскадных процессоров Lake. Это сравнение базируется на номере модели ЦП, о сравнении Skylake и их последователях для масштабируемого семейства Intel Xeon®. Процессор Intel Xeon® 6230 с 4 дополнительными ядрами на каждый сокет дает 15% повышения производительности по сравнению с 6130. в то же время и 8280, и 6242 с аналогичным количеством ядер, как и в случае с повышением производительности, благодаря увеличению базовой частоты ЦП и увеличению полосы пропускания памяти.

Производительность с несколькими узлами — Для исследования с несколькими узлами использовался кластер с 8 узлами PowerEdge серверов R740 с® Intel Xeon 8268 и собранные результаты для 1, 2, 4 и 8 узлов. Оставшаяся часть конфигурации системы будет привышена в табл. 2.

SLN317735_en_US__3image (10402)

Рис. 3. Производительность многоузловых ЛИНПАКК при использовании 8268 @ 2,90 ГГц

Как показано на рис. 3, производительность ЛИНПАКК для одного узла 8268 составляет 3059 ГФЛОПС и 23946 ГФЛОПС для 8 узлов, благодаря чему 7.83 X масштабируется с 1 узла до 8 узлов. Эффективность для одного узла составляет ~ 69%, а ~ 67% для узлов 2, 4 и 8. Эффективность снижается с 1 узла до 2 узлов; Однако масштабируемость в основном отличается линейной.

ХПКГный тест производительности

Тестовый эталон ХПКГ основан на сопряженном градиентном поиске решения, где предварительное условие — это 3-уровневые иерархические методы с несколькими сетками (MG) с гаусс-Сеидел.

Эталонный тест ХПКГ создает логическую, физически распределенную многораспределенную линейную систему с использованием трафаретов 27-Point в каждой точке сетки в трехмерном домене таким образом, что уравнение в точке (i, j, k) зависит от значений и 26 соседних соседей. В качестве глобального домена, рассчитанного по производительности (Нркс * NX) X (нри * Россия) X (НРЗ * NZ), где NX, Россия и NZ — это размеры локальных вложенных сеток, назначенных каждому процессу MPI, и количество рангов MPI — НР = (Нркс X нри X НРЗ).

Для нашего анализа мы распределены тесты по 2 категориям —

Skylake VS Cascade Lakeв этом разделе мы сравниваем Skylake с помощью функции Cascade Lake с помощью производительности хпкг. Мы использовали размер сетки 336 ^ 3 , который занимает более 1/4^м общей системной памяти. Количество процессов MPI на узел и количество потоков было основано на наилучших результатах и использовании памяти.

SLN317735_en_US__4image (10403)

Рис. 4. Производительность ХПКГ (Skylake VS Lake Lake)

На рис. 4 мы наблюдаем важное повышение производительности ХПКГ с помощью каскадных процессоров Lake. Так как ХПКГ — больший объем приложения, связанного с памятью, повышение производительности с помощью каскадных процессоров Lake приводит к получению результатов тестирования потока, где 6230 выполняет 10% более чем 6130, 6242 выполняет 12% выше, чем 6142, и 8280 выполняет 7% выше, чем 8180.

Хпкг с несколькими узлами — для тестирования с использованием нескольких узлов мы выбрали размер сетки локальных измерений 336 ^ 3 и лучший процесс MPI и сочетание потоков OpenMP.

SLN317735_en_US__5image (10404)

Рис. 5. Производительность многоузловых ХПКГ с помощью каскадных задач Lake

На рис. 5 показана производительность ХПКГ с помощью каскадной функции Lake 8268 @ 2.9 ГГц и масштабирование до восьми узлов. Производительность ХПКГ — 43GFLOPS для одного узла и 84GFLOPS для двух узлов. Это означает, что 1.96 производительность по сравнению с двумя узлами отличается от улучшения производительности X. При перемещении вперед с 4 и 8 узлами производительность повышается до 7,7 X.

Заключение

Благодаря наличию каскадных процессоров Lake, PowerEdge система может поддерживать скорость памяти до 2933 MT/s с этим новым процессором поколения. Наши тесты с каскадными процессорами Lake демонстрируют повышение производительности 7-12% при полосе пропускания памяти, 4-15% улучшения ХПЛ и 7-12% улучшения в ХПКГ на моделях ЦП, которые мы сравнивали. В каскадной работе функции Lake Test от 1 до 8 узлов отображается хорошая масштабируемость, как показано в Skylake в прошлом.

Кроме того, в каскадной программе Lake представлены инструкции ВННИ, которые могут ускорить изучение рабочих нагрузок вывода с помощью 3 раза, что еще описано в этом блоге.

Для нашей будущей работы мы планируем оценить преимущества производительности каскадных Lake в различных HPC приложениях, таких как ВРФ, НАМД, ГРОМАКС, CP2K и ЛАММПС.

해당 제품

High Performance Computing Solution Resources

문서 번호: 000133009

문서 유형: Solution

마지막 수정 시간: 18 5월 2021

버전: 4

디바이스에 지원 서비스가 적용되는지 확인하십시오.

Результаты эталонного теста производительности НРС с использованием масштабируемых процессоров Intel Xeon 2-го поколения: тесты STREAM, HPL и HPCG

증상

원인

해결

해당 제품

문서 속성

다른 Dell 사용자에게 질문에 대한 답변 찾기

지원 서비스

문서 속성

다른 Dell 사용자에게 질문에 대한 답변 찾기

지원 서비스

환영

환영합니다.

Результаты эталонного теста производительности НРС с использованием масштабируемых процессоров Intel Xeon 2-го поколения: тесты STREAM, HPL и HPCG

상세한 문서

증상

원인

해결

해당 제품

증상

원인

해결

해당 제품

문서 속성

다른 Dell 사용자에게 질문에 대한 답변 찾기

지원 서비스

문서 속성

다른 Dell 사용자에게 질문에 대한 답변 찾기

지원 서비스