Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Ускорение анализа геномных данных с помощью NVIDIA Clara Parabricks на сервере Dell EMC DSS 8440 с графическими процессорами NVIDIA T4

Summary: В этой статье представлена информация об ускорении анализа геномных данных с помощью NVIDIA Parabricks на Dell EMC DSS 8440 с графическими процессорами NVIDIA T4.

This article applies to   This article does not apply to 

Instructions

Обзор

Первый этап обработки данных последовательности следующего поколения (NGS) называется первичным анализом. Это действие для конкретного инструмента создания последовательности, и оно создает несколько файлов FASTQ, содержащих последовательность операций чтения. На следующем этапе, известном как вторичный анализ, операции чтения последовательности FASTQ сопоставляются с контрольным геномом или контрольным транскриптом. Дополнительная обработка позволяет определить варианты или различия между интересующей выборкой и контрольной пробой. Варианты аннотируются и интерпретируются на последующих нисходящих этапах. Время вторичного анализа для одного образца варьируется от нескольких часов до нескольких дней в зависимости от размера данных, доступных вычислительных ресурсов, программного обеспечения и рабочего процесса аналитики. 

Вторичный анализ — это процесс с интенсивным использованием вычислительных ресурсов и ресурсов хранения данных, особенно при обработке сотен и тысяч геномов. Существует множество стратегий, которые позволяют избежать узких мест при вторичном анализе. До недавнего времени аппаратное ускорение с использованием графических процессоров или FPGA не было сильно распространено из-за настраиваемого программного обеспечения, необходимого аппаратным ускорителям. Программное обеспечение для геномики Parabricks, приобретенное NVIDIA в 2019 году, было первым программным стеком, выполняющим различные рабочие процессы геномного анализа с помощью графических процессоров. Мы протестировали Parabricks на Dell EMC PowerEdge C4140 с 4 графическими процессорами NVIDIA® Tesla® V100 около двух лет назад. Корпорация Dell представила множество технологических достижений в области серверов и систем хранения данных, а NVIDIA Clara Parabricks выпустила надежные версии с усовершенствованным ускорением и добавлением новых определителей вариантов. Например, конструкция сервера с несколькими графическими процессорами на базе сервера Dell EMC DSS 8440 с графическими процессорами NVIDIA® Tesla® T4 была перспективной для ускорения вторичного анализа, обеспечивая при этом привлекательный баланс цены и производительности.  В этой статье блога сообщается о новой эталонной архитектуре и результатах эталонных тестов для вторичного анализа NVIDIA Clara Parabricks на графическом процессоре Multi-Tesla® T4, сервере DSS 8440 с системой хранения Dell EMC Isilon F800.

Эталонная архитектура

На Рис. 1 показана протестированная эталонная архитектура. Архитектура является модульной и простой в масштабировании. Программное обеспечение NVIDIA Clara Parabricks использует один или несколько графических процессоров, что максимально упрощает горизонтальное масштабирование. Было использовано следующее оборудование: сервер Dell EMC PowerEdge R640 в качестве узла управления, сервер DSS 8440 для вычислений на базе графических процессоров и система хранения Dell EMC Isilon F800.


Рис. 1. Протестированная эталонная архитектура


Сервер DSS 8440 с 2 процессорами в корпусе 4U может вмещать до 10 ведущих в отрасли графических процессоров NVIDIA® Tesla® V100S Tensor Core, до 10 графических процессоров NVIDIA® Quadro RTX™ или до 16 графических процессоров NVIDIA Tesla T4, обеспечивающих огромную мощность. Подробная конфигурация DSS 8440 приведена в таблице 1.

 
Dell EMC DSS 8440
ЦП 2 процессора Xeon® Gold 6248R, 24 ядра, 3,0 ГГц
ОЗУ 24 модуля по 64 Гбайт при 2933 MTps
Операционная система Red Hat Enterprise Linux Server выпуск 7.4 (Maipo)
Системный профиль BIOS Оптимизация производительности
Логический процессор Disabled
Технология виртуализации Disabled
Ускорители 16 графических процессоров NVIDIA® Tesla® T4
Parabricks v3.0.0.05

Два коммутатора Z9100-ON обеспечивают связь между вычислительным узлом и кластером хранения Isilon F800. Для управления используется дополнительный коммутатор N2248X-ON.

Данные NGS

Данные для эталонного тестирования времени выполнения вторичного анализа состояли из трех наборов данных последовательности полного генома человека (WGS): ERR091571, SRR3124837и ERR194161, что соответствует 10-кратному, 30-кратному и 50-кратному охвату выборки соответственно. Эти наборы данных доступны в Европейском архиве нуклеотидов (ENA).

Оценка производительности

Усовершенствования программного обеспечения уменьшают время выполнения
NVIDIA продолжает внедрять программные улучшения в NVIDIA Clara Parabricks. На Рис. 2 показано сокращение времени выполнения между двумя версиями Parabricks, выполняющими пайплайн генеративной линии с использованием тестовой среды, состоящей из сервера Dell PowerEdge C4140 с 4 графическим процессорами V100. Переход с версии 2.1.0 на версию 3.0.0 сократил время выполнения на 42%.


Рис. 2. Время выполнения определения вариантов пайплайна генеративной линии в последней версии Parabricks.

Производительность DSS 8440 с 16 процессорами T4S

Время выполнения вторичного анализа NVIDIA Clara Parabricks с использованием одного графического процессора T4 примерно на 30% ниже, чем при использовании одного графического процессора V100. Однако 2 (два) графических процессора T4 обеспечивают примерно на 10% больше TFLOPS, чем 1 (один) графический процессор V100 при примерно вдвое меньшей стоимости. DSS 8440 предоставляет до 16 разъемов PCIe, что позволяет проектировать сервер на базе графических процессоров T4, которые обеспечивают аналогичную производительность выполнения, как в системе C4140 с четырьмя графическими процессорами V100, но при более низкой стоимости.
Анализ генеративной линии Parabricks был выполнен с помощью сервера PowerEdge DSS 8440 с 16 графическими процессорами T4. Для каждого образца набора данных WGS, описанного ранее, время выполнения было записано с использованием 1, 2, 4, 8 и 16 графических процессоров T4 для каждого вторичного анализа. Результаты представлены на рисунках с 3 по 5. В целом, время выполнения не масштабируется линейно по мере увеличения количества графических процессоров на анализ. Шаблон масштабирования аналогичен покрытию объема данных на образец, которое увеличивается с 10x до 50x. 
Хотя это не представлено здесь, более раннее исследование Dell EMC показало, что выполнение Parabricks с использованием восьми или более графических процессоров V100 на анализ не масштабируется так эффективно, как при использовании графических процессоров T4. Дополнительное тестирование показало, что результаты выполнения с 6 графическими процессорами T4 практически идентичны результатам с 4 графическими процессорами V100.


Рис. 3. Сравнение производительности с 10x WGS


Рис. 4. Сравнение производительности с 30x WGS


Рис. 5. Сравнение производительности с 50x WGS


Заключение

DSS 8440 с шестнадцатью графическими процессорами T4 способен обрабатывать 30 образцов генома человека с охватом 50x в день. Для выполнения аналогичного ежедневного анализа пропускной способности при использовании традиционной архитектуры ЦП x86 потребуется десять вычислительных узлов PowerEdge C6420. Полная архитектура рассматривается в предыдущей публикации Dell.
Однако выделение всех 16 графических процессоров T4 на обработку одного образца дает мало преимуществ, поскольку использование 16 графических процессоров на анализ в лучшем случае на 10% быстрее, чем использование 8 графических процессоров. Конструкция DSS 8440 допускает параллельное выполнение нескольких вторичных анализов. За счет назначения восьми графических процессоров T4 на образец производительность ежедневного анализа увеличивается примерно до 50 геномов в день. Использование четырех графических процессоров на образец увеличивает пропускную способность анализа до ~70 геномов в день. Более важно то, что этот ежедневный вывод с использованием графических процессоров T4 дешевле, чем использование графического процессора V100.
Помимо ускорения, для обеспечения сопоставимости результатов необходимо обеспечить совместимость с другими инструментами анализа. Результаты анализа генеративной линии Parabricks почти идентичны хорошо известному анализу определителей BWA-GATK Haplotype из предыдущего тестирования.  Мы также хотели сравнить результаты определителей вариантов Parabricks с другими наборами инструментов, такими как samtools/mpileup.  Эти два совершенно разных инструмента совпадают примерно на 90% по выявленным вариантам, а вариации во многих известных геномных областях, содержащих важные гены, совпадают более чем на 99%.

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640