Dell EMC DSS8440 Server — это 2-сокетовый сервер 4U, предназначенный для высокопроизводительных вычислительных систем, машинного обучения (ml) и для глубокого обучения. Он поддерживает различные графические процессоры, такие как NVIDIA Волта V100S и NVIDIA Tesla T4 тенсор Core, а также NVIDIA Quadro RTX GPU .
(Рис. 1 Dell EMC DSS840 Server)
В этом блоге мы оценены производительность экономичного NVIDIA Quadro RTX 6000, а графические процессоры NVIDIA Quadro RTX 8000 по сравнению с верхним уровнем ускорителя V100S GPU с помощью различных отраслевых инструментов по тестированию промышленных стандартов. Сюда входит тестирование в отношении единой рабочей нагрузки VS Precision. Хотя серия Quadro существовала в течение длительного времени, RTX графические процессоры с архитектурой NVIDIA Туринг, которые были запущены в конце 2018. Технические характеристики в табл. 1 показывают, что графический процессор RTX 8000 является главным для RTX 6000 с точки зрения более высоких конфигураций памяти. Однако графические процессоры RTX 8000 и RTX 6000 имеют более высокие требования к питанию в сравнении с графическим процессором V100S. Для рабочих нагрузок, которым требуется более высокая емкость памяти, RTX 8000 является лучшим вариантом.
Технические характеристики | RTX 6000 | RTX 8000 | V100S-32 ГБАЙТ |
---|---|---|---|
Архитектура | Turing | Volta | |
Модули | 24 ГБАЙТ GDDR6 | 48 ГБАЙТ GDDR6 | 32 ГБАЙТ HBM2 |
Тактовая частота по умолчанию (МГц) | 1395 | 1245 | |
Максимальная тактовая частота графического процессора (МГц) | 1770 | 1597 | |
Ядра CUDA | 4608 | 5120 | |
FP32 (максимум ТФЛОПС) | 16,3 | 16,4 | |
Полоса пропускания памяти (ГБИТ/с) | 672 | 1134 | |
Питание | 295 Вт | 250 Вт |
Таблица. 1 технические характеристики графического процессора
Сервер | DellEMC, PowerEdge, DSS8440 | ||
---|---|---|---|
Процессор | 2 x Intel Xeon 6248, 20 C, 2,5 ГГц | ||
Модули | 24 x 32 Гбайт @ 2933 MT/s (всего 768 Гбайт) | ||
ПРОЦЕССОРА | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Волта V100S-PCIe |
Хранилища | 1 x Dell Express Flash NVMe, 1 ТБАЙТ 2,5 "U. 2 (P4500) | ||
Источники питания | 4 x 2400 Вт |
Таблица. 2. сведения о конфигурации сервера
BIOS | 2.5.4 |
---|---|
ОС | RHEL 7,6 |
Ядро | 3.10.0-957.el7.x86_64 |
Профиль системы | Оптимизация производительности |
Куда Toolkit Драйвер куда |
10,1 440.33.01 |
Таблица. 3 сведения о встроенном по системы
Приложение | Версия |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel мкл 2018 Update 4 |
ламмпс | Март 3 2020 опенмпи — 4.0.3 |
млперф | v. обучение док. 19,03 |
Таблица. 4 сведения о приложении
Ламмпс — Это приложение Молекулар Dynamics, которое поддерживается для исследователей в Сандиа National лабораториях и Темпле университета. ЛАММПС был скомпилирован с пакетом коккос для эффективной работы на процессорах NVIDIA. Набор данных Леннард Jones использовался для сравнения производительности, а Тиместепс/s — метрикой, как показано на рис. 2.
(Рис. 2 Леннард Джонс)
Как показано в табл. 1, графические процессоры RTX 6000 и RTX 8000 имеют такое же количество ядер, производительность одной точности и полоса пропускания графического процессора, но разные модули памяти графического процессора. Так как оба RTX GPU имеют одинаковую конфигурацию, производительность также также находится в одном и том же диапазоне. Для данного приложения хорошо масштабируется RTX GPU, и производительность для графических процессоров идентична.
Производительность Волта V100S GPU составляет примерно три раза быстрее, чем Quadro RTX GPU. Ключевым фактором для этой более высокой производительности является увеличенная полоса пропускания памяти графического процессора V100S.
ХПЛ — это стандартный тест производительности HPC, который измеряет производительность вычислительных систем. Он используется в качестве эталонного эталонного теста в списке TOP500, чтобы ранжировать компьютеры по всему миру.
На приведенном ниже рисунке показана производительность RTX 6000, RTX 8000 и V100S GPU с помощью сервера DSS 8440. Как видите, производительность RTX GPU значительно ниже, чем графический процессор V100S. Это должно быть ожидаемым, так как ХПЛ выполняет оптимизацию матрицы LU, которая в первую очередь выполняет операции с плавающей запятой в первую очередь.
(Рис. 3 ХПЛ производительность с разными GPU-процессорами)
При сравнении теоретической производительности с плавающей точкой, то есть Рпеак обоих графических процессоров, мы видим, что производительность графического процессора V100S гораздо выше. Теоретическое значение Рпеак для одного RTX графического процессора составляет примерно 500GFlops. Это значение обеспечивает меньшую производительность (Рмакс) на каждый графический процессор. Значение Рпеак для графического процессора Волта V100S — 8.2 Тфлопс, что приводит к значительному увеличению производительности каждой платы.
Потребность в стандартных отраслевых испытаниях производительности для инструктора в разработке Млперф Suite. Этот пакет включает в себя тестовые показатели для оценки производительности и получения данных о производительности и программном обеспечении для МАШИНного обеспечения. Этот раздел предназначен только для учебных показателей производительности графических процессоров. В следующей таблице перечислены рабочие нагрузки глубокого обучения, наборы данных и целевые критерии, используемые для оценки графических процессоров.
Измерения | Набора данных | Мишень Quality | Эталонная модель внедрения |
---|---|---|---|
Классификация образа | Имаженет (224x224) | 75,9% Top-1 точность | Реснет-50 в 1,5 в |
Обнаружение объектов (плотная масса) |
КОКО 2017 | 23% карты | SSD-ResNet34 |
Обнаружение объектов (большой вес) |
КОКО 2017 | 0,377 Box минимальный AP 0,339 маска минимум ap |
Маска R-КНН |
Перевод (в текущем виде) |
ВМТ Английский (немецкий) | 24,0 БЛЕУ | гнмт |
Перевод (без повторного текущего) |
ВМТ Английский (немецкий) | 25,0 БЛЕУ | 2.0 |
Подкреплением Learning | - | Предварительно обученная контрольная точка | Мини-переход |
Табл. 5 наборов данных млперф и критериев целевого объекта (Источник:https://mlperf.org/Training-overview/#overview )
на следующем рисунке показано время, которое должно соответствовать целевым критериям для RTX и V100S GPU:
(Рис. 4 Млперф. производительность)
Результаты рассматриваются после выполнения нескольких запусков, удаления самого высокого и наименьшего значений, а также усреднения других запусков в соответствии с приведенными выше рекомендациями. Производительность для обоих процессоров RTX аналогична. Процентное значение дисперсии между обоими процессорами RTX минимально и в пределах допустимого диапазона в соответствии с инструкциями по Млперф. Хотя высокопроизводительный графический процессор Волта V100 обеспечивает наилучшую производительность, Кроме того, все графические процессоры RTX хорошо работают, за исключением производительности обнаружения объектов.
На момент публикации тестовый контроль классификации образа в Млперф завершился сбоем с RTX GPU из-за ошибки свертки. Эта проблема будет устранена в будущем выпуске Куднн.
В этом блоге мы обсуждали производительность сервера Dell EMC DSS 8440 GPU и видеоадаптеров NVIDIA RTX для рабочих нагрузок HPC и AI. Производительность для обоих RTX GPU аналогична, однако графический модуль RTX 8000 будет лучшим выбором для приложений, которым требуется больший объем памяти. Для рабочих нагрузок с двойной точностью или рабочих нагрузок, которым требуется высокая полоса пропускания Волта V100S, и новый графический адаптер NVIDIA A100 является лучшим вариантом.
В будущем мы планируем обеспечить анализ производительности RTX графических процессоров с другими приложениями с одной точностью и исследованием вывода на RTX и A100 графические процессоры.