Архитектура NVIDIA® Turing™ — преемник архитектуры Volta — это новейшее семейство графических процессоров NVIDIA. Графический процессор Turing™ доступен в GeForce®, где он используется для рендеринга в высокореалистичных играх, и в Quadro®, где он служит для ускорения рабочих процессов создания контента. Серия NVIDIA® Tesla® предназначена для рабочих нагрузок систем искусственного интеллекта и высокопроизводительных вычислений в центрах обработки данных. NVIDIA® Tesla® T4 — это единственный графический процессор серверного класса с микроархитектурой Turing™, доступный на рынке в настоящее время. Он поддерживается серверами Dell EMC PowerEdge R640, R740, R740xd и R7425. В этой статье блога обсуждается производительность нового Tesla T4 по сравнению с последней версией Volta V100-PCIe на сервере PowerEdge R740 для различных приложений, связанных с высокопроизводительными вычислениями, включая HOOMD-blue, Amber, NAMD и HPL.
Сервер PowerEdge R740 — это стоечный сервер в форм-факторе 2U на базе Intel® Skylake, в котором идеально сочетается поддержка систем хранения, ввода-вывода и ускорителя. Он поддерживает до четырех* однослотовых графических процессоров T4 или трех двухслотовых графических процессоров V100-PCIe в разъемах x16 PCIe 3.0. В таблице 1 указаны различия между однослотовым T4 и V100. Volta™ V100 поставляется в конфигурациях с 16 Гбайт или 32 Гбайт памяти. Поскольку T4 доступен только в версии 16 Гбайт, для получения сравнительных результатов использовалась карта V100 с 16 Гбайт памяти. В таблице 2 приведены сведения об аппаратном и программном обеспечении тестового стенда.
Таблица 1. Сравнение T4 и V100
Tesla V100-PCIe |
Tesla T4 |
|
---|---|---|
Архитектура |
Volta |
Turing |
Ядра CUDA |
5120 |
2560 |
Тензорные ядра |
640 |
320 |
Вычислительные возможности |
7,0 |
7.5 |
Тактовая частота графического процессора |
1245 МГц |
585 МГц |
Увеличенная тактовая частота |
1380 МГц |
1590 МГц |
Тип памяти |
HBM2 |
GDDR6 |
Шина памяти |
4096 бит |
256 бит |
Пропускная способность |
900 Гбайт/с |
320 Гбайт/с |
Число занимаемых слотов |
Два слота |
Один слот |
FP32 с одинарной точностью |
14 Тфлопс |
8,1 Тфлопс |
Смешанная точность (FP16/FP32) |
112 Тфлопс |
65 Тфлопс |
Двойная точность FP64 |
7 Тфлопс |
254,4 Гфлопс |
Расчетная тепловая мощность |
250 Вт |
70 Вт |
Таблица 2. Сведения о конфигурации R740 и версии программного обеспечения
Процессор |
2 процессора Intel® Xeon® Gold 6136, 3,0 ГГц, 12 ядер |
---|---|
Модули |
384 Гбайт (12*32 Гбайт, 2666 МГц) |
Локальный диск |
480 Гбайт SSD |
Операционная система |
Red Hat Enterprise Linux Server версии 7.5 |
Графический процессор |
3 x V100-PCIe 16 Гбайт или 4 x T4 16 Гбайт |
Драйвер CUDA |
410,66 |
Набор инструментов CUDA |
10,0 |
Настройки процессора >логические процессоры |
Отключено |
Профили системы |
Производительность |
HPL |
Скомпилировано с помощью CUDA 10.0 |
NAMD |
NAMD_Git-2019-02-11 |
Желтый |
18.12 |
HOOMD-blue |
Версия 2.5.0 |
OpenMPI |
4.0.0 |
Рис. 1. Результаты измерения производительности в режиме HOOMD-blue с одинарной и двойной точностью при использовании V100 и T4 на сервере PowerEdge R740
HOOMD-blue (сокращение от Highly Optimized Object-oriented Many-particle Dynamics - blue) — это ПО для моделирования молекулярной динамики общего назначения. По умолчанию, HOOMD-blue компилируется с двойной точностью (FP64), а в версии 2.5 вводится параметр SINGLE_PRECISION=ON, чтобы принудительно выполнять компиляцию с одинарной точностью (FP32). На рис. 1 показаны результаты набора данных микросферы для одинарной и двойной точности. По оси x — количество графических процессоров, а показатель производительности — количество часов для выполнения 10e6 шагов.
Одно из наблюдений заключается в том, что производительность T4 FP64 относительно низкая. Это связано с ограничением оборудования. Теоретически T4 может обеспечивать максимальную производительность 254 Гфлопс (см. таблицу 1) с двойной точностью, в то время как V100 — примерно в 27 раз выше. Однако производительность таких приложений, как HOOMD-blue, которые могут быть скомпилированы и запущены с одинарной точностью, может быть выше при использовании опции компиляции FP32. Сообщество HOOMD-blue рассмотрело наше предложение о поддержке смешанной точности для всех модулей HOOMD-blue. После завершения работы HOOMD-blue сможет показать лучшие результаты на оборудовании, для которого поддерживается смешанная точность.
Сравнивая производительность T4 с одинарной точностью и V100, мы заметили, что V100 в 3 раза лучше T4. Такая производительность T4 ожидаема из-за количества ядер CUDA и номинальной мощности ускорителя.
Графические процессоры сервера PowerEdge R740 подключены через интерфейс PCIe. Для трех графических процессоров V100 шина PCIe насыщена из-за передачи данных между равноправными устройствами Это влияет на общую производительность: она становится такой же, как при использовании одного графического процессора.
Amber — это общее название пакета программ, которые позволяют пользователям выполнять моделирование молекулярной динамики, в частности для биомолекул. Термин Amber также используется для обозначения эмпирических силовых полей, которые реализованы в этом пакете. ПО Amber версии 18.12 с AmberTools 18.13 протестировано с пакетом эталонных тестов Amber 18 Benchmark Suite, который включает в себя набор данных JAC, Cellulose, FactorIX, STMV, TRPCage, миоглобина и нуклеосом.
Рис. 2. Результаты Amber для явно заданного растворителя с V100 и T4 на сервере PowerEdge R740
Рис. 3. Результаты Amber для неявно заданного растворителя с V100 и T4 на сервере PowerEdge R740
На рисунках 2 и 3 показаны результаты производительности одной платы и всей системы на явном растворителе и неявном растворителе соответственно. Отметка «System» на вышеприведенном графике представляет полную совокупную пропускную способность системы всех графических процессоров. Сервер PowerEdge R740 поддерживает три V100 или четыре T4, поэтому красные и синие строки «System» — это результаты при использовании трех V100 или четырех T4.
Причина предпочтения агрегированных данных нескольких графических плат заключается в том, что Pascal и более поздние графические процессоры не масштабируются выше одного ускорителя для приложения Amber. Пользователи обычно параллельно запускают несколько симуляций на других графических процессорах. С точки зрения производительности с большим набором данных, таким как STMV (1067095 атомов), одиночный T4 составляет 33%, а вся система — 44% от возможностей V100. Такие наборы данных, как TRPCage (только 304 атома), слишком малы, чтобы эффективно использовать V100, поэтому производительность на них не намного выше T4, так как он предназначен для выполнения больших PME. В соответствии с результатами на официальном сайте Amber почти все показатели при использовании графических процессоров в три-четыре раза выше, чем при работе только с ЦП, поэтому использование платы T4 на сервере, где используются небольшие наборы данных, будет хорошим вариантом.
Рис. 4. Результаты производительности NAMD при использовании V100 и T4 на сервере PowerEdge R740
NAMD — это код молекулярной динамики, предназначенный для высокопроизводительного моделирования больших биомолекулярных систем. В этих тестах предварительно созданный двоичный файл не использовался. Вместо этого NAMD был построен с использованием последнего исходного кода (NAMD_Git-2019-02-11) с CUDA 10.0. Для обеспечения наилучшей производительности NAMD был скомпилирован с помощью компилятора и библиотек Intel® (версия 2018u3). На рисунке 4 показаны результаты производительности с использованием набора данных STMV (1066628 атомов, периодический, PME). NAMD не масштабируется более чем на одну плату V100, и он хорошо масштабируется на три платы T4. Один графический процессор T4 обеспечивает 42% производительности V100. Это достойный показатель, учитывая, что он имеет только 28% от расчетной тепловой мощности V100. T4 может быть отличным выбором для центров обработки данных с ограниченными возможностями питания и охлаждения.
Рис. 5. Результаты HPL при использовании V100 и T4 на сервере PowerEdge R740
На рис. 5 показана производительность HPL на сервере PowerEdge R740 с несколькими графическими процессорами V100 или T4. Как и ожидалось, показатели HPL хорошо масштабируются на несколько графических процессоров для V100 и T4. Однако производительность T4 значительно ниже V100 из-за ограничений FP64. Благодаря ограниченной двойной точности на T4 сравнение производительности с V100 не является идеальным, и Volta V100 остается лучшим выбором для таких приложений с двойной точностью.
В этой статье блога сравнивалась производительность HPC-приложений с HOOMD-blue, Amber, NAMD и HPL при использовании V100 и T4 на Dell EMC PowerEdge R740. T4 используется не только для глубинного обучения, но и для приложений, связанных с высокопроизводительными вычислениями с поддержкой одинарной или смешанной точности. Его низкая расчетная тепловая мощность может помочь ускорить работу традиционных центров обработки данных, где возможности питания и охлаждения ограничены. Благодаря компактному форм-фактору PCIe T4 подходит для серверов PowerEdge общего назначения. В будущем планируется проведение дополнительных тестов с большим количеством приложений, таких как RELION, GROMACS и LAMMPS, а также тестов для приложений, которые могут использовать смешанную точность.
*Отказ от ответственности: для сравнительной оценки были протестированы четыре графических процессора T4 в сервере Dell PowerEdge R740. В настоящее время PowerEdge R740 официально поддерживает до трех T4 в слотах x16 PCIe.