Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Производительность HPC-приложений с архитектурой Turing

Summary: Статья сотрудников лаборатории Dell EMC HPC & AI Innovation Lab Фрэнка Хэна (Frank Han), Жэньгань Сюй (Rengan Xu), Дипти Черлопалле (Deepthi Cherlopalle) и Цю Та (Quy Ta), март 2019 г. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms


Содержание:

  1. Аннотация
  2. Обзор
  3. HOOMD-blue
  4. Желтый
  5. NAnoscale Molecular Dynamics (NAMD)
  6. High Performance Linpack (HPL)
  7. Выводы и планы на будущее

 

Аннотация

 

Архитектура NVIDIA® Turing™ — преемник архитектуры Volta — это новейшее семейство графических процессоров NVIDIA. Графический процессор Turing™ доступен в GeForce®, где он используется для рендеринга в высокореалистичных играх, и в Quadro®, где он служит для ускорения рабочих процессов создания контента. Серия NVIDIA® Tesla® предназначена для рабочих нагрузок систем искусственного интеллекта и высокопроизводительных вычислений в центрах обработки данных. NVIDIA® Tesla® T4 — это единственный графический процессор серверного класса с микроархитектурой Turing™, доступный на рынке в настоящее время. Он поддерживается серверами Dell EMC PowerEdge R640, R740, R740xd и R7425. В этой статье блога обсуждается производительность нового Tesla T4 по сравнению с последней версией Volta V100-PCIe на сервере PowerEdge R740 для различных приложений, связанных с высокопроизводительными вычислениями, включая HOOMD-blue, Amber, NAMD и HPL.


В начало


 

Обзор

 

Сервер PowerEdge R740 — это стоечный сервер в форм-факторе 2U на базе Intel® Skylake, в котором идеально сочетается поддержка систем хранения, ввода-вывода и ускорителя. Он поддерживает до четырех* однослотовых графических процессоров T4 или трех двухслотовых графических процессоров V100-PCIe в разъемах x16 PCIe 3.0.  В таблице 1 указаны различия между однослотовым T4 и V100. Volta™ V100 поставляется в конфигурациях с 16 Гбайт или 32 Гбайт памяти.  Поскольку T4 доступен только в версии 16 Гбайт, для получения сравнительных результатов использовалась карта V100 с 16 Гбайт памяти. В таблице 2 приведены сведения об аппаратном и программном обеспечении тестового стенда.

Таблица 1. Сравнение T4 и V100

 

Tesla V100-PCIe

Tesla T4

Архитектура

Volta

Turing

Ядра CUDA

5120

2560

Тензорные ядра

640

320

Вычислительные возможности

7,0

7.5

Тактовая частота графического процессора

1245 МГц

585 МГц

Увеличенная тактовая частота

1380 МГц

1590 МГц

Тип памяти

HBM2

GDDR6

Шина памяти

4096 бит

256 бит

Пропускная способность

900 Гбайт/с

320 Гбайт/с

Число занимаемых слотов

Два слота

Один слот

FP32 с одинарной точностью

14 Тфлопс

8,1 Тфлопс

Смешанная точность (FP16/FP32)

112 Тфлопс

65 Тфлопс

Двойная точность FP64

7 Тфлопс

254,4 Гфлопс

Расчетная тепловая мощность

250 Вт

70 Вт

 

Таблица 2. Сведения о конфигурации R740 и версии программного обеспечения

Процессор

2 процессора Intel® Xeon® Gold 6136, 3,0 ГГц, 12 ядер

Модули

384 Гбайт (12*32 Гбайт, 2666 МГц)

Локальный диск

480 Гбайт SSD

Операционная система

Red Hat Enterprise Linux Server версии 7.5

Графический процессор

3 x V100-PCIe 16 Гбайт или 4 x T4 16 Гбайт

Драйвер CUDA

410,66

Набор инструментов CUDA

10,0

Настройки процессора >логические процессоры

Отключено

Профили системы

Производительность

HPL

Скомпилировано с помощью CUDA 10.0

NAMD

NAMD_Git-2019-02-11

Желтый

18.12

HOOMD-blue

Версия 2.5.0

OpenMPI

4.0.0

 


В начало


 

Cause

HOOMD-blue

 

SLN316570_en_US__1image(9290)

Рис. 1. Результаты измерения производительности в режиме HOOMD-blue с одинарной и двойной точностью при использовании V100 и T4 на сервере PowerEdge R740

HOOMD-blue (сокращение от Highly Optimized Object-oriented Many-particle Dynamics - blue) — это ПО для моделирования молекулярной динамики общего назначения. По умолчанию, HOOMD-blue компилируется с двойной точностью (FP64), а в версии 2.5 вводится параметр SINGLE_PRECISION=ON, чтобы принудительно выполнять компиляцию с одинарной точностью (FP32). На рис. 1 показаны результаты набора данных микросферы для одинарной и двойной точности. По оси x — количество графических процессоров, а показатель производительности — количество часов для выполнения 10e6 шагов.

  1. Одно из наблюдений заключается в том, что производительность T4 FP64 относительно низкая. Это связано с ограничением оборудования. Теоретически T4 может обеспечивать максимальную производительность 254 Гфлопс (см. таблицу 1) с двойной точностью, в то время как V100 — примерно в 27 раз выше. Однако производительность таких приложений, как HOOMD-blue, которые могут быть скомпилированы и запущены с одинарной точностью, может быть выше при использовании опции компиляции FP32. Сообщество HOOMD-blue рассмотрело наше предложение о поддержке смешанной точности для всех модулей HOOMD-blue. После завершения работы HOOMD-blue сможет показать лучшие результаты на оборудовании, для которого поддерживается смешанная точность.

  2. Сравнивая производительность T4 с одинарной точностью и V100, мы заметили, что V100 в 3 раза лучше T4. Такая производительность T4 ожидаема из-за количества ядер CUDA и номинальной мощности ускорителя.

  3. Графические процессоры сервера PowerEdge R740 подключены через интерфейс PCIe. Для трех графических процессоров V100 шина PCIe насыщена из-за передачи данных между равноправными устройствами Это влияет на общую производительность: она становится такой же, как при использовании одного графического процессора.

 


В начало


 

Желтый

 


Amber — это общее название пакета программ, которые позволяют пользователям выполнять моделирование молекулярной динамики, в частности для биомолекул. Термин Amber также используется для обозначения эмпирических силовых полей, которые реализованы в этом пакете. ПО Amber версии 18.12 с AmberTools 18.13 протестировано с пакетом эталонных тестов Amber 18 Benchmark Suite, который включает в себя набор данных JAC, Cellulose, FactorIX, STMV, TRPCage, миоглобина и нуклеосом.

SLN316570_en_US__2image(9276)

Рис. 2. Результаты Amber для явно заданного растворителя с V100 и T4 на сервере PowerEdge R740

SLN316570_en_US__3image(9277)

Рис. 3. Результаты Amber для неявно заданного растворителя с V100 и T4 на сервере PowerEdge R740 

На рисунках 2 и 3 показаны результаты производительности одной платы и всей системы на явном растворителе и неявном растворителе соответственно.  Отметка «System» на вышеприведенном графике представляет полную совокупную пропускную способность системы всех графических процессоров. Сервер PowerEdge R740 поддерживает три V100 или четыре T4, поэтому красные и синие строки «System» — это результаты при использовании трех V100 или четырех T4.

Причина предпочтения агрегированных данных нескольких графических плат заключается в том, что Pascal и более поздние графические процессоры не масштабируются выше одного ускорителя для приложения Amber. Пользователи обычно параллельно запускают несколько симуляций на других графических процессорах. С точки зрения производительности с большим набором данных, таким как STMV (1067095 атомов), одиночный T4 составляет 33%, а вся система — 44% от возможностей V100. Такие наборы данных, как TRPCage (только 304 атома), слишком малы, чтобы эффективно использовать V100, поэтому производительность на них не намного выше T4, так как он предназначен для выполнения больших PME. В соответствии с результатами на официальном сайте Amber почти все показатели при использовании графических процессоров в три-четыре раза выше, чем при работе только с ЦП, поэтому использование платы T4 на сервере, где используются небольшие наборы данных, будет хорошим вариантом.


В начало


 

Resolution

NAnoscale Molecular Dynamics (NAMD)

 

SLN316570_en_US__4image(9278)

Рис. 4. Результаты производительности NAMD при использовании V100 и T4 на сервере PowerEdge R740

NAMD — это код молекулярной динамики, предназначенный для высокопроизводительного моделирования больших биомолекулярных систем. В этих тестах предварительно созданный двоичный файл не использовался. Вместо этого NAMD был построен с использованием последнего исходного кода (NAMD_Git-2019-02-11) с CUDA 10.0. Для обеспечения наилучшей производительности NAMD был скомпилирован с помощью компилятора и библиотек Intel® (версия 2018u3). На рисунке 4 показаны результаты производительности с использованием набора данных STMV (1066628 атомов, периодический, PME). NAMD не масштабируется более чем на одну плату V100, и он хорошо масштабируется на три платы T4. Один графический процессор T4 обеспечивает 42% производительности V100. Это достойный показатель, учитывая, что он имеет только 28% от расчетной тепловой мощности V100. T4 может быть отличным выбором для центров обработки данных с ограниченными возможностями питания и охлаждения.


В начало


 

High Performance Linpack (HPL)

 

SLN316570_en_US__5image(9283)

Рис. 5. Результаты HPL при использовании V100 и T4 на сервере PowerEdge R740

На рис. 5 показана производительность HPL на сервере PowerEdge R740 с несколькими графическими процессорами V100 или T4. Как и ожидалось, показатели HPL хорошо масштабируются на несколько графических процессоров для V100 и T4. Однако производительность T4 значительно ниже V100 из-за ограничений FP64. Благодаря ограниченной двойной точности на T4 сравнение производительности с V100 не является идеальным, и Volta V100 остается лучшим выбором для таких приложений с двойной точностью.


В начало


 

Выводы и планы на будущее

 

В этой статье блога сравнивалась производительность HPC-приложений с HOOMD-blue, Amber, NAMD и HPL при использовании V100 и T4 на Dell EMC PowerEdge R740. T4 используется не только для глубинного обучения, но и для приложений, связанных с высокопроизводительными вычислениями с поддержкой одинарной или смешанной точности. Его низкая расчетная тепловая мощность может помочь ускорить работу традиционных центров обработки данных, где возможности питания и охлаждения ограничены. Благодаря компактному форм-фактору PCIe T4 подходит для серверов PowerEdge общего назначения. В будущем планируется проведение дополнительных тестов с большим количеством приложений, таких как RELION, GROMACS и LAMMPS, а также тестов для приложений, которые могут использовать смешанную точность.

*Отказ от ответственности: для сравнительной оценки были протестированы четыре графических процессора T4 в сервере Dell PowerEdge R740. В настоящее время PowerEdge R740 официально поддерживает до трех T4 в слотах x16 PCIe.


В начало


Affected Products

High Performance Computing Solution Resources, PowerEdge R740
Article Properties
Article Number: 000130819
Article Type: Solution
Last Modified: 28 Sep 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.