Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Сервер Dell EMC DSS 8440 на базе графических процессоров NVIDIA RTX для рабочих нагрузок HPC и ИИ

Summary: Dell EMC DSS8440 Server — это 2-Сокетовый сервер 4U, предназначенный для высокопроизводительных вычислительных систем, машинного обучения (ML) и для глубокого обучения. В этой статье приведено сравнение производительности различных графических процессоров, таких как NVIDIA Волта V100S и NVIDIA Tesla T4 Тенсор Core, а также NVIDIA Quadro RTX GPU в этой системе. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

 

Дипси Черлопалле и Федор

 

Dell EMC HPC и AI инновационные лаборатории, 2020 июня

 

Dell EMC DSS8440 Server — это 2-сокетовый сервер 4U, предназначенный для высокопроизводительных вычислительных систем, машинного обучения (ml) и для глубокого обучения. Он поддерживает различные графические процессоры, такие как NVIDIA Волта V100SSLN321776_en_US__1iC_External_Link_BD_v1 и NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 тенсор Core, а также NVIDIA Quadro RTX GPUSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Рис. 1 Dell EMC DSS840 Server)

В этом блоге мы оценены производительность экономичного NVIDIA Quadro RTX 6000, а графические процессоры NVIDIA Quadro RTX 8000 по сравнению с верхним уровнем ускорителя V100S GPU с помощью различных отраслевых инструментов по тестированию промышленных стандартов. Сюда входит тестирование в отношении единой рабочей нагрузки VS Precision. Хотя серия Quadro существовала в течение длительного времени, RTX графические процессоры с архитектурой NVIDIA Туринг, которые были запущены в конце 2018. Технические характеристики в табл. 1 показывают, что графический процессор RTX 8000 является главным для RTX 6000 с точки зрения более высоких конфигураций памяти. Однако графические процессоры RTX 8000 и RTX 6000 имеют более высокие требования к питанию в сравнении с графическим процессором V100S. Для рабочих нагрузок, которым требуется более высокая емкость памяти, RTX 8000 является лучшим вариантом.

Технические характеристики RTX 6000 RTX 8000 V100S-32 ГБАЙТ
Архитектура Turing Volta
Модули 24 ГБАЙТ GDDR6 48 ГБАЙТ GDDR6 32 ГБАЙТ HBM2
Тактовая частота по умолчанию (МГц) 1395 1245
Максимальная тактовая частота графического процессора (МГц) 1770 1597
Ядра CUDA 4608 5120
FP32 (максимум ТФЛОПС) 16,3 16,4
Полоса пропускания памяти (ГБИТ/с) 672 1134
Питание 295 Вт 250 Вт

Таблица. 1 технические характеристики графического процессора

Сервер DellEMC, PowerEdge, DSS8440
Процессор 2 x Intel Xeon 6248, 20 C, 2,5 ГГц
Модули 24 x 32 Гбайт @ 2933 MT/s (всего 768 Гбайт)
ПРОЦЕССОРА  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Волта V100S-PCIe 
Хранилища 1 x Dell Express Flash NVMe, 1 ТБАЙТ 2,5 "U. 2 (P4500)
Источники питания 4 x 2400 Вт

Таблица. 2. сведения о конфигурации сервера

BIOS 2.5.4
ОС RHEL 7,6
Ядро 3.10.0-957.el7.x86_64
Профиль системы Оптимизация производительности
Куда Toolkit
Драйвер куда
10,1
440.33.01

Таблица. 3 сведения о встроенном по системы

Приложение Версия
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel мкл 2018 Update 4
ламмпс Март 3 2020
опенмпи — 4.0.3
млперф v. обучениеSLN321776_en_US__1iC_External_Link_BD_v1
док. 19,03

Таблица. 4 сведения о приложении

Cause

ламмпс

ЛаммпсSLN321776_en_US__6iC_External_Link_BD_v1 — Это приложение Молекулар Dynamics, которое поддерживается для исследователей в Сандиа National лабораториях и Темпле университета. ЛАММПС был скомпилирован с пакетом коккосSLN321776_en_US__6iC_External_Link_BD_v1 для эффективной работы на процессорах NVIDIA. Набор данных Леннард Jones использовался для сравнения производительности, а Тиместепс/s — метрикой, как показано на рис. 2.

SLN321776_en_US__8image (18427)

(Рис. 2 Леннард Джонс)

 Как показано в табл. 1, графические процессоры RTX 6000 и RTX 8000 имеют такое же количество ядер, производительность одной точности и полоса пропускания графического процессора, но разные модули памяти графического процессора. Так как оба RTX GPU имеют одинаковую конфигурацию, производительность также также находится в одном и том же диапазоне. Для данного приложения хорошо масштабируется RTX GPU, и производительность для графических процессоров идентична.

Производительность Волта V100S GPU составляет примерно три раза быстрее, чем Quadro RTX GPU. Ключевым фактором для этой более высокой производительности является увеличенная полоса пропускания памяти графического процессора V100S.


High Performance Linpack (HPL)

ХПЛ — это стандартный тест производительности HPC, который измеряет производительность вычислительных систем. Он используется в качестве эталонного эталонного теста в списке TOP500, чтобы ранжировать компьютеры по всему миру.

На приведенном ниже рисунке показана производительность RTX 6000, RTX 8000 и V100S GPU с помощью сервера DSS 8440. Как видите, производительность RTX GPU значительно ниже, чем графический процессор V100S. Это должно быть ожидаемым, так как ХПЛ выполняет оптимизацию матрицы LU, которая в первую очередь выполняет операции с плавающей запятой в первую очередь.

SLN321776_en_US__9image (18428)

(Рис. 3 ХПЛ производительность с разными GPU-процессорами)

При сравнении теоретической производительности с плавающей точкой, то есть Рпеак обоих графических процессоров, мы видим, что производительность графического процессора V100S гораздо выше. Теоретическое значение Рпеак для одного RTX графического процессора составляет примерно 500GFlops. Это значение обеспечивает меньшую производительность (Рмакс) на каждый графический процессор. Значение Рпеак для графического процессора Волта V100S — 8.2 Тфлопс, что приводит к значительному увеличению производительности каждой платы.


млперф

Потребность в стандартных отраслевых испытаниях производительности для инструктора в разработке Млперф Suite. Этот пакет включает в себя тестовые показатели для оценки производительности и получения данных о производительности и программном обеспечении для МАШИНного обеспечения. Этот раздел предназначен только для учебных показателей производительности графических процессоров. В следующей таблице перечислены рабочие нагрузки глубокого обучения, наборы данных и целевые критерии, используемые для оценки графических процессоров.

Измерения Набора данных Мишень Quality Эталонная модель внедрения
Классификация образа Имаженет (224x224) 75,9% Top-1 точность Реснет-50 в 1,5 в
Обнаружение объектов
(плотная масса)
КОКО 2017 23% карты SSD-ResNet34
Обнаружение объектов
(большой вес)
КОКО 2017 0,377 Box минимальный AP
0,339 маска минимум ap
Маска R-КНН
Перевод
(в текущем виде)
ВМТ Английский (немецкий) 24,0 БЛЕУ гнмт
Перевод
(без повторного текущего)
 ВМТ Английский (немецкий)  25,0 БЛЕУ 2.0
Подкреплением Learning - Предварительно обученная контрольная точка Мини-переход

Табл. 5 наборов данных млперф и критериев целевого объекта (Источник:https://mlperf.org/Training-overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

на следующем рисунке показано время, которое должно соответствовать целевым критериям для RTX и V100S GPU:

SLN321776_en_US__11image (18441)
(Рис. 4 Млперф. производительность)

Результаты рассматриваются после выполнения нескольких запусков, удаления самого высокого и наименьшего значений, а также усреднения других запусков в соответствии с приведенными выше рекомендациями. Производительность для обоих процессоров RTX аналогична. Процентное значение дисперсии между обоими процессорами RTX минимально и в пределах допустимого диапазона в соответствии с инструкциями по Млперф. Хотя высокопроизводительный графический процессор Волта V100 обеспечивает наилучшую производительность, Кроме того, все графические процессоры RTX хорошо работают, за исключением производительности обнаружения объектов.

На момент публикации тестовый контроль классификации образа в Млперф завершился сбоем с RTX GPU из-за ошибки свертки. Эта проблема будет устранена в будущем выпуске Куднн.

Resolution

Резюме

В этом блоге мы обсуждали производительность сервера Dell EMC DSS 8440 GPU и видеоадаптеров NVIDIA RTX для рабочих нагрузок HPC и AI. Производительность для обоих RTX GPU аналогична, однако графический модуль RTX 8000 будет лучшим выбором для приложений, которым требуется больший объем памяти. Для рабочих нагрузок с двойной точностью или рабочих нагрузок, которым требуется высокая полоса пропускания Волта V100S, и новый графический адаптер NVIDIA A100 является лучшим вариантом.

В будущем мы планируем обеспечить анализ производительности RTX графических процессоров с другими приложениями с одной точностью и исследованием вывода на RTX и A100 графические процессоры.


Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000132886
Article Type: Solution
Last Modified: 25 Feb 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.