Omitir para ir al contenido principal
  • Hacer pedidos rápida y fácilmente
  • Ver pedidos y realizar seguimiento al estado del envío
  • Cree y acceda a una lista de sus productos

Производительность приложений HPC на C4140 в конфигурации M.

Resumen: Подробные сведения о добавленной в Dell EMC PowerEdge C4140 нового решения «Конфигурация M».

Este artículo se aplica a   Este artículo no se aplica a 

Síntomas

Статья сотрудников лаборатории Dell EMC HPC & AI Innovation Lab Фрэнка Хэна (Frank Han), Жэньгань Сюй (Rengan Xu), и Цю Та (Quy Ta), январь 2019 г.

Resolución

Аннотация

Недавно в Dell EMC PowerEdge C4140 было добавлено новое решение «Конфигурация M». Эта новейшая опция входит в семейство C4140, в этой статье представлены результаты исследования, посвященного оценке производительности конфигурации M по сравнению с конфигурацией K для различных HPC-приложений, включая HPL, GROMACS и NAMD.

Обзор

PowerEdge C4140 — это 2-процессорный стоечный сервер в корпусе 1U. Он включает поддержку процессоров Intel Skylake, до 24 разъемов DIMM и четырех графических плат NVIDIA Volta двойной ширины. В семействе серверов C4140 две конфигурации, поддерживающие NVLINK: конфигурация K и конфигурация M. Сравнение обеих топологий показано на Рис. 1. Ниже описаны два основных различия между этими конфигурациями.

  1. Более высокая пропускная способность PCIe. В конфигурации K процессоры подключаются к четырем графическим процессорам только по одному каналу PCIe. Однако в конфигурации M каждый графический процессор подключается к ЦП напрямую с помощью выделенного канала PCIe. Таким образом, между двумя ЦП и четырьмя графическими процессорами имеется четыре канала PCIe, которые обеспечивают более высокую пропускную способность PCIe в конфигурации M.
  2. Более низкая задержка. Конфигурация M не имеет коммутатора PCIe между ЦП и графическими процессорами. Прямые подключения сокращают количество переходов для передачи данных между ЦП и графическим процессором, таким образом, задержка кругового пути в конфигурации M ниже.
    SLN315976_en_US__1image 1
В этой статье блога представлена производительность HPC-приложений в этих двух конфигурациях. Мы провели эталонные тесты HPL, GROMACS и NAMD с графическими процессорами V100-SXM2 16G. В таблице 1 приведены сведения об оборудовании и программном обеспечении тестового стенда.
SLN315976_en_US__2table

p2pBandwidthLatencyTest 


SLN315976_en_US__3latency
Рис. 2: Задержка между платами с отключенной P2P в конфигурациях C4140 K и М

P2pBandwidthLatencyTest — это эталонный микротест, включенный в комплект CUDA SDK. Он измеряет задержку и пропускную способность между платами с включенной и отключенной функцией одноранговой сети GPUDirect™. В данном тесте основное внимание уделяется задержке, поскольку эта программа не измеряет пропускную способность одновременно. Обсуждение доступной реальной пропускной способности для приложений находится в сеансе HPL ниже. Цифры, приведенные на Рис. 2, представляют собой среднее значение 100-кратной однонаправленной задержки между платами в микросекундах. Каждый раз, когда код отправляет один байт с одной платы на другую, в этой таблице отбирается номер с отключенной P2P, а если P2P включена, данные передаются через NVLINK. Задержка PCIe в конфигурации M на 1,368 мкс меньше, чем в конфигурации K из-за различных топологий PCIe.

 

High Performance Linpack (HPL) 

SLN315976_en_US__41(18)
(а) Производительность
SLN315976_en_US__52(14)
(б) Средняя пропускная способность PCIe для каждого графического процессора V100
SLN315976_en_US__63(12)
(в) Потребляемая мощность одного запуска HPL

На рисунке 3 (а) показана производительность HPL на платформе C4140 с графическими процессорами 1, 2, 4 и 8 графическими процессорами V100-SXM2. Результаты для 1–4 графических процессоров получены с помощью одного C4140, производительность 8 графических процессоров измерена на двух серверах. В этом тесте используемая версия HPL предоставляется NVIDIA, и соотносится с недавно выпущенными CUDA 10 и OpenMPI. В результатах HPL можно наблюдать следующие характеристики:

1)         Один узел. При тестировании всех 4 графических процессоров конфигурация M на ~16% быстрее, чем конфигурация K. Перед началом вычислений приложение HPL измеряет доступную пропускную способность PCIe на путях устройство-хост (D2H) и хост-устройство (H2D) для каждой платы графического процессора, когда все платы передают данные одновременно. Эта информация предоставляет полезные данные о реальной пропускной способности PCIe для каждой платы, когда HPL копирует таблицу N*N в память всех графических процессоров одновременно. Как показано на Рис. 3 (б), значения для D2H и H2D в конфигурации M намного выше и теоретически достигают пропускной способности PCIe x16. Это соответствует топологии оборудования, так как каждый графический процессор в конфигурации M имеет выделенные каналы PCIe x16 для ЦП. В конфигурации K все четыре V100 должны использовать один канал PCIe x16 через коммутатор PLX PCIe, чтобы для каждого из них был доступен только канал 2,5 Гбайт/с. Из-за разницы в пропускной способности, в конфигурации M потребовалось 1,33 секунды, чтобы скопировать 4 элемента таблицы N*N в глобальную память каждого графического процессора, а в конфигурации K — 5,33 секунды. Полный цикл приложения HPL занимает от 23 до 25 секунд. Поскольку все модели V100-SXM2 одинаковы, время вычислений остается одинаковым, поэтому экономия 4 секунд при копировании данных делает конфигурацию M на 16% быстрее.

2)         Несколько узлов. Результаты для 2 узлов C4140 с 8 графическими процессорами показывают улучшение HPL более чем на 15% на двух узлах. Это означает, что конфигурация M имеет лучшую масштабируемость на нескольких узлах, чем конфигурация K, по той же причине, что и на отдельном узле с 4 графическими платами в приведенном выше примере.

3)         Эффективность. Потребляемая мощность измерена с помощью iDRAC, на Рис. 3 (в) показана потребляемая мощность в Вт⋅ч. В обеих системах достигается пиковая мощность около 1850 Вт, из-за увеличения числа GFLOPS, конфигурация M обеспечивает более высокую эффективность HPL и производительность на ватт. 

HPL — это эталонный тест системного уровня, результаты которого определяются такими компонентами, как ЦП, графический процессор, память и пропускная способность PCIe. Конфигурация M имеет сбалансированную конструкцию для двух ЦП, поэтому она превосходит конфигурацию K в данном эталонном тесте HPL.

 

GROMACS 

GROMACS представляет собой приложение с открытым исходным кодом для молекулярной динамики, предназначенное для моделирования биохимических молекул, таких как белки, липиды и нуклеиновые кислоты, которые имеют много сложных связанных взаимодействий. Версия 2018.3 протестирована на наборе данных «water 3072», который содержит 3 миллиона атомов.

 SLN315976_en_US__71(17)

Рис. 4. Производительность GROMACS при использовании нескольких V100 в конфигурации C4140 K и M

На Рис. 4 показано повышение производительности конфигурации M по сравнению с K. Производительность одной платы одинакова в обеих конфигурациях, так как нет различий в пути данных. При использовании 2 или 4 графических процессоров конфигурация M на 5% быстрее K. При тестировании на 2 узлах конфигурация M имеет на 10% более высокую производительность; основной причиной является увеличение количества подключений PCIe, которые обеспечивают большую пропускную способность и позволяют быстро передавать больше данных на графические процессоры. GROMACS значительно ускоряется с помощью графических процессоров, но это приложение использует ЦП и графические процессоры для параллельного расчета; поэтому, если GROMACS является главным приложением в кластере, рекомендуется мощный ЦП. На этом графике также показано масштабирование производительности GROMACS с большим количеством серверов и большим количеством графических процессоров. Хотя производительность приложения увеличивается с увеличением количества графических процессоров и серверов, увеличение производительности при использовании дополнительных графических процессоров не является линейным.

 

NAnoscale Molecular Dynamics (NAMD)

NAMD — это код молекулярной динамики, предназначенный для высокопроизводительного моделирования больших биомолекулярных систем. В этих тестах не использовался предварительно построенный двоичный файл. Вместо этого NAMD был построен с использованием последнего исходного кода (NAMD_Git-2018-10-31_Source) с CUDA 10. На рисунке 4 показаны результаты производительности с использованием набора данных STMV (1066628 атомов, периодический, PME). Тесты для небольших наборов данных, таких как f1atpase (327 506 атомов, периодические, PME) и apoa1 (92 224 атомов, периодические, PME), привели к аналогичным результатам сравнения между конфигурацией M и конфигурацией K, но не представлены здесь для краткости. 

SLN315976_en_US__81(16)
Рис. 5. Результаты производительности NAMD с несколькими V100 в конфигурации C4140 K и M

Как и в GROMACS, в 4 раза большая пропускная способность PCIe улучшает производительность в NAMD. На Рис. 5 показано, что производительность конфигурации M с 2 и 4 платами на 16% и на 30% выше, чем у конфигурации K, соответственно, в наборе данных STMV. Производительность одной платы должна быть одинаковой, поскольку при тестировании только одного графического процессора пропускная способность PCIe одинакова.

 

Выводы и планы на будущее

В этой статье блога сравнивалась производительность приложений HPC с HPL, GROMACS и NAMD в двух различных конфигурациях NVLINK PowerEdge C4140. HPL, GROMACS и NAMD работают в конфигурации M на ~10% лучше, чем в конфигурации K. Во всех тестах, как минимум, конфигурация M обеспечивает одинаковую производительность с конфигурацией K, так как она обладает всеми отличными характеристиками конфигурации K, а также большим количеством каналов PCIe и не использует коммутаторы PCIe. В будущем планируется проведение дополнительных тестов с большим количеством приложений, таких как RELION, HOOMD и AMBER, а также тестов с использованием графического процессора V100 32G.

Productos afectados

High Performance Computing Solution Resources, Poweredge C4140