Производительность HPC-приложений с архитектурой Turing

Summary: Статья сотрудников лаборатории Dell EMC HPC & AI Innovation Lab Фрэнка Хэна (Frank Han), Жэньгань Сюй (Rengan Xu), Дипти Черлопалле (Deepthi Cherlopalle) и Цю Та (Quy Ta), март 2019 г. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Архитектура NVIDIA® Turing™ — преемник архитектуры Volta — это новейшее семейство графических процессоров NVIDIA. Графический процессор Turing™ доступен в GeForce®, где он используется для рендеринга в высокореалистичных играх, и в Quadro®, где он служит для ускорения рабочих процессов создания контента. Серия NVIDIA® Tesla® предназначена для рабочих нагрузок систем искусственного интеллекта и высокопроизводительных вычислений в центрах обработки данных. NVIDIA® Tesla® T4 — это единственный графический процессор серверного класса с микроархитектурой Turing™, доступный на рынке в настоящее время. Он поддерживается серверами Dell EMC PowerEdge R640, R740, R740xd и R7425. В этой статье блога обсуждается производительность нового Tesla T4 по сравнению с последней версией Volta V100-PCIe на сервере PowerEdge R740 для различных приложений, связанных с высокопроизводительными вычислениями, включая HOOMD-blue, Amber, NAMD и HPL.

В начало

Обзор

Сервер PowerEdge R740 — это стоечный сервер в форм-факторе 2U на базе Intel® Skylake, в котором идеально сочетается поддержка систем хранения, ввода-вывода и ускорителя. Он поддерживает до четырех* однослотовых графических процессоров T4 или трех двухслотовых графических процессоров V100-PCIe в разъемах x16 PCIe 3.0. В таблице 1 указаны различия между однослотовым T4 и V100. Volta™ V100 поставляется в конфигурациях с 16 Гбайт или 32 Гбайт памяти. Поскольку T4 доступен только в версии 16 Гбайт, для получения сравнительных результатов использовалась карта V100 с 16 Гбайт памяти. В таблице 2 приведены сведения об аппаратном и программном обеспечении тестового стенда.

Таблица 1. Сравнение T4 и V100

	Tesla V100-PCIe	Tesla T4
Архитектура	Volta	Turing
Ядра CUDA	5120	2560
Тензорные ядра	640	320
Вычислительные возможности	7,0	7.5
Тактовая частота графического процессора	1245 МГц	585 МГц
Увеличенная тактовая частота	1380 МГц	1590 МГц
Тип памяти	HBM2	GDDR6
Шина памяти	4096 бит	256 бит
Пропускная способность	900 Гбайт/с	320 Гбайт/с
Число занимаемых слотов	Два слота	Один слот
FP32 с одинарной точностью	14 Тфлопс	8,1 Тфлопс
Смешанная точность (FP16/FP32)	112 Тфлопс	65 Тфлопс
Двойная точность FP64	7 Тфлопс	254,4 Гфлопс
Расчетная тепловая мощность	250 Вт	70 Вт

Таблица 2. Сведения о конфигурации R740 и версии программного обеспечения

Процессор	2 процессора Intel® Xeon® Gold 6136, 3,0 ГГц, 12 ядер
Модули	384 Гбайт (12*32 Гбайт, 2666 МГц)
Локальный диск	480 Гбайт SSD
Операционная система	Red Hat Enterprise Linux Server версии 7.5
Графический процессор	3 x V100-PCIe 16 Гбайт или 4 x T4 16 Гбайт
Драйвер CUDA	410,66
Набор инструментов CUDA	10,0
Настройки процессора >логические процессоры	Отключено
Профили системы	Производительность
HPL	Скомпилировано с помощью CUDA 10.0
NAMD	NAMD_Git-2019-02-11
Желтый	18.12
HOOMD-blue	Версия 2.5.0
OpenMPI	4.0.0

В начало

Cause

HOOMD-blue

SLN316570_en_US__1image(9290)

Рис. 1. Результаты измерения производительности в режиме HOOMD-blue с одинарной и двойной точностью при использовании V100 и T4 на сервере PowerEdge R740

HOOMD-blue (сокращение от Highly Optimized Object-oriented Many-particle Dynamics - blue) — это ПО для моделирования молекулярной динамики общего назначения. По умолчанию, HOOMD-blue компилируется с двойной точностью (FP64), а в версии 2.5 вводится параметр SINGLE_PRECISION=ON, чтобы принудительно выполнять компиляцию с одинарной точностью (FP32). На рис. 1 показаны результаты набора данных микросферы для одинарной и двойной точности. По оси x — количество графических процессоров, а показатель производительности — количество часов для выполнения 10e6 шагов.

Одно из наблюдений заключается в том, что производительность T4 FP64 относительно низкая. Это связано с ограничением оборудования. Теоретически T4 может обеспечивать максимальную производительность 254 Гфлопс (см. таблицу 1) с двойной точностью, в то время как V100 — примерно в 27 раз выше. Однако производительность таких приложений, как HOOMD-blue, которые могут быть скомпилированы и запущены с одинарной точностью, может быть выше при использовании опции компиляции FP32. Сообщество HOOMD-blue рассмотрело наше предложение о поддержке смешанной точности для всех модулей HOOMD-blue. После завершения работы HOOMD-blue сможет показать лучшие результаты на оборудовании, для которого поддерживается смешанная точность.
Сравнивая производительность T4 с одинарной точностью и V100, мы заметили, что V100 в 3 раза лучше T4. Такая производительность T4 ожидаема из-за количества ядер CUDA и номинальной мощности ускорителя.
Графические процессоры сервера PowerEdge R740 подключены через интерфейс PCIe. Для трех графических процессоров V100 шина PCIe насыщена из-за передачи данных между равноправными устройствами Это влияет на общую производительность: она становится такой же, как при использовании одного графического процессора.

В начало

Желтый

Amber — это общее название пакета программ, которые позволяют пользователям выполнять моделирование молекулярной динамики, в частности для биомолекул. Термин Amber также используется для обозначения эмпирических силовых полей, которые реализованы в этом пакете. ПО Amber версии 18.12 с AmberTools 18.13 протестировано с пакетом эталонных тестов Amber 18 Benchmark Suite, который включает в себя набор данных JAC, Cellulose, FactorIX, STMV, TRPCage, миоглобина и нуклеосом.

SLN316570_en_US__2image(9276)

Рис. 2. Результаты Amber для явно заданного растворителя с V100 и T4 на сервере PowerEdge R740

SLN316570_en_US__3image(9277)

Рис. 3. Результаты Amber для неявно заданного растворителя с V100 и T4 на сервере PowerEdge R740

На рисунках 2 и 3 показаны результаты производительности одной платы и всей системы на явном растворителе и неявном растворителе соответственно. Отметка «System» на вышеприведенном графике представляет полную совокупную пропускную способность системы всех графических процессоров. Сервер PowerEdge R740 поддерживает три V100 или четыре T4, поэтому красные и синие строки «System» — это результаты при использовании трех V100 или четырех T4.

Причина предпочтения агрегированных данных нескольких графических плат заключается в том, что Pascal и более поздние графические процессоры не масштабируются выше одного ускорителя для приложения Amber. Пользователи обычно параллельно запускают несколько симуляций на других графических процессорах. С точки зрения производительности с большим набором данных, таким как STMV (1067095 атомов), одиночный T4 составляет 33%, а вся система — 44% от возможностей V100. Такие наборы данных, как TRPCage (только 304 атома), слишком малы, чтобы эффективно использовать V100, поэтому производительность на них не намного выше T4, так как он предназначен для выполнения больших PME. В соответствии с результатами на официальном сайте Amber почти все показатели при использовании графических процессоров в три-четыре раза выше, чем при работе только с ЦП, поэтому использование платы T4 на сервере, где используются небольшие наборы данных, будет хорошим вариантом.

В начало

Resolution

NAnoscale Molecular Dynamics (NAMD)

SLN316570_en_US__4image(9278)

Рис. 4. Результаты производительности NAMD при использовании V100 и T4 на сервере PowerEdge R740

NAMD — это код молекулярной динамики, предназначенный для высокопроизводительного моделирования больших биомолекулярных систем. В этих тестах предварительно созданный двоичный файл не использовался. Вместо этого NAMD был построен с использованием последнего исходного кода (NAMD_Git-2019-02-11) с CUDA 10.0. Для обеспечения наилучшей производительности NAMD был скомпилирован с помощью компилятора и библиотек Intel® (версия 2018u3). На рисунке 4 показаны результаты производительности с использованием набора данных STMV (1066628 атомов, периодический, PME). NAMD не масштабируется более чем на одну плату V100, и он хорошо масштабируется на три платы T4. Один графический процессор T4 обеспечивает 42% производительности V100. Это достойный показатель, учитывая, что он имеет только 28% от расчетной тепловой мощности V100. T4 может быть отличным выбором для центров обработки данных с ограниченными возможностями питания и охлаждения.

В начало

High Performance Linpack (HPL)

SLN316570_en_US__5image(9283)

Рис. 5. Результаты HPL при использовании V100 и T4 на сервере PowerEdge R740

На рис. 5 показана производительность HPL на сервере PowerEdge R740 с несколькими графическими процессорами V100 или T4. Как и ожидалось, показатели HPL хорошо масштабируются на несколько графических процессоров для V100 и T4. Однако производительность T4 значительно ниже V100 из-за ограничений FP64. Благодаря ограниченной двойной точности на T4 сравнение производительности с V100 не является идеальным, и Volta V100 остается лучшим выбором для таких приложений с двойной точностью.

В начало

Выводы и планы на будущее

В этой статье блога сравнивалась производительность HPC-приложений с HOOMD-blue, Amber, NAMD и HPL при использовании V100 и T4 на Dell EMC PowerEdge R740. T4 используется не только для глубинного обучения, но и для приложений, связанных с высокопроизводительными вычислениями с поддержкой одинарной или смешанной точности. Его низкая расчетная тепловая мощность может помочь ускорить работу традиционных центров обработки данных, где возможности питания и охлаждения ограничены. Благодаря компактному форм-фактору PCIe T4 подходит для серверов PowerEdge общего назначения. В будущем планируется проведение дополнительных тестов с большим количеством приложений, таких как RELION, GROMACS и LAMMPS, а также тестов для приложений, которые могут использовать смешанную точность.

*Отказ от ответственности: для сравнительной оценки были протестированы четыре графических процессора T4 в сервере Dell PowerEdge R740. В настоящее время PowerEdge R740 официально поддерживает до трех T4 в слотах x16 PCIe.

В начало

Affected Products

High Performance Computing Solution Resources, PowerEdge R740

Article Number: 000130819

Article Type: Solution

Last Modified: 28 Sep 2021

Version: 4

Check if your device is covered by Support Services.

Производительность HPC-приложений с архитектурой Turing

Summary: Статья сотрудников лаборатории Dell EMC HPC & AI Innovation Lab Фрэнка Хэна (Frank Han), Жэньгань Сюй (Rengan Xu), Дипти Черлопалле (Deepthi Cherlopalle) и Цю Та (Quy Ta), март 2019 г. ...

Symptoms

Содержание:

Аннотация

Обзор

Cause

HOOMD-blue

Желтый

Resolution

NAnoscale Molecular Dynamics (NAMD)

High Performance Linpack (HPL)

Выводы и планы на будущее

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Производительность HPC-приложений с архитектурой Turing

Summary: Статья сотрудников лаборатории Dell EMC HPC & AI Innovation Lab Фрэнка Хэна (Frank Han), Жэньгань Сюй (Rengan Xu), Дипти Черлопалле (Deepthi Cherlopalle) и Цю Та (Quy Ta), март 2019 г. ... View More View Less

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Summary: Статья сотрудников лаборатории Dell EMC HPC & AI Innovation Lab Фрэнка Хэна (Frank Han), Жэньгань Сюй (Rengan Xu), Дипти Черлопалле (Deepthi Cherlopalle) и Цю Та (Quy Ta), март 2019 г. ...