Обзор
Первый этап обработки данных последовательности следующего поколения (NGS) называется первичным анализом. Это действие для конкретного инструмента создания последовательности, и оно создает несколько файлов FASTQ, содержащих последовательность операций чтения. На следующем этапе, известном как вторичный анализ, операции чтения последовательности FASTQ сопоставляются с контрольным геномом или контрольным транскриптом. Дополнительная обработка позволяет определить варианты или различия между интересующей выборкой и контрольной пробой. Варианты аннотируются и интерпретируются на последующих нисходящих этапах. Время вторичного анализа для одного образца варьируется от нескольких часов до нескольких дней в зависимости от размера данных, доступных вычислительных ресурсов, программного обеспечения и рабочего процесса аналитики.
Вторичный анализ — это процесс с интенсивным использованием вычислительных ресурсов и ресурсов хранения данных, особенно при обработке сотен и тысяч геномов. Существует множество стратегий, которые позволяют избежать узких мест при вторичном анализе. До недавнего времени аппаратное ускорение с использованием графических процессоров или FPGA не было сильно распространено из-за настраиваемого программного обеспечения, необходимого аппаратным ускорителям. Программное обеспечение для геномики Parabricks, приобретенное NVIDIA в 2019 году, было первым программным стеком, выполняющим различные рабочие процессы геномного анализа с помощью графических процессоров. Мы протестировали Parabricks на
Dell EMC PowerEdge C4140 с 4 графическими процессорами NVIDIA® Tesla® V100 около двух лет назад. Корпорация Dell представила множество технологических достижений в области серверов и систем хранения данных, а
NVIDIA Clara Parabricks выпустила надежные версии с усовершенствованным ускорением и добавлением новых определителей вариантов. Например, конструкция сервера с несколькими графическими процессорами на базе
сервера Dell EMC DSS 8440 с графическими процессорами NVIDIA® Tesla® T4 была перспективной для ускорения вторичного анализа, обеспечивая при этом привлекательный баланс цены и производительности. В этой статье блога сообщается о новой эталонной архитектуре и результатах эталонных тестов для вторичного анализа NVIDIA Clara Parabricks на графическом процессоре Multi-Tesla® T4, сервере DSS 8440 с системой хранения
Dell EMC Isilon F800.
Эталонная архитектура
На Рис. 1 показана протестированная эталонная архитектура. Архитектура является модульной и простой в масштабировании. Программное обеспечение NVIDIA Clara Parabricks использует один или несколько графических процессоров, что максимально упрощает горизонтальное масштабирование. Было использовано следующее оборудование:
сервер Dell EMC PowerEdge R640 в качестве узла управления, сервер DSS 8440 для вычислений на базе графических процессоров и система хранения Dell EMC Isilon F800.
Рис. 1. Протестированная эталонная архитектура
Сервер DSS 8440 с 2 процессорами в корпусе 4U может вмещать до 10 ведущих в отрасли графических процессоров NVIDIA® Tesla® V100S Tensor Core, до 10 графических процессоров NVIDIA® Quadro RTX™ или до 16 графических процессоров NVIDIA Tesla T4, обеспечивающих огромную мощность. Подробная конфигурация DSS 8440 приведена в таблице 1.
Dell EMC DSS 8440 |
ЦП |
2 процессора Xeon® Gold 6248R, 24 ядра, 3,0 ГГц |
ОЗУ |
24 модуля по 64 Гбайт при 2933 MTps |
Операционная система |
Red Hat Enterprise Linux Server выпуск 7.4 (Maipo) |
Системный профиль BIOS |
Оптимизация производительности |
Логический процессор |
Disabled |
Технология виртуализации |
Disabled |
Ускорители |
16 графических процессоров NVIDIA® Tesla® T4 |
Parabricks |
v3.0.0.05 |
Два коммутатора Z9100-ON обеспечивают связь между вычислительным узлом и кластером хранения Isilon F800. Для управления используется дополнительный коммутатор N2248X-ON.
Данные NGS
Данные для эталонного тестирования времени выполнения вторичного анализа состояли из трех наборов данных последовательности полного генома человека (WGS):
ERR091571,
SRR3124837и
ERR194161, что соответствует 10-кратному, 30-кратному и 50-кратному охвату выборки соответственно. Эти наборы данных доступны в
Европейском архиве нуклеотидов (ENA).
Оценка производительности
Усовершенствования программного обеспечения уменьшают время выполнения
NVIDIA продолжает внедрять программные улучшения в NVIDIA Clara Parabricks. На Рис. 2 показано сокращение времени выполнения между двумя версиями Parabricks, выполняющими пайплайн генеративной линии с использованием тестовой среды, состоящей из сервера Dell PowerEdge C4140 с 4 графическим процессорами V100. Переход с версии 2.1.0 на версию 3.0.0 сократил время выполнения на 42%.
Рис. 2. Время выполнения определения вариантов пайплайна генеративной линии в последней версии Parabricks.
Производительность DSS 8440 с 16 процессорами T4S
Время выполнения вторичного анализа
NVIDIA Clara Parabricks с использованием одного графического процессора T4 примерно на 30% ниже, чем при использовании одного графического процессора V100. Однако 2 (два) графических процессора T4 обеспечивают примерно на 10% больше TFLOPS, чем 1 (один) графический процессор V100 при примерно вдвое меньшей стоимости. DSS 8440 предоставляет до 16 разъемов PCIe, что позволяет проектировать сервер на базе графических процессоров T4, которые обеспечивают аналогичную производительность выполнения, как в системе C4140 с четырьмя графическими процессорами V100, но при более низкой стоимости.
Анализ генеративной линии Parabricks был выполнен с помощью сервера PowerEdge DSS 8440 с 16 графическими процессорами T4. Для каждого образца набора данных WGS, описанного ранее, время выполнения было записано с использованием 1, 2, 4, 8 и 16 графических процессоров T4 для каждого вторичного анализа. Результаты представлены на рисунках с 3 по 5. В целом, время выполнения не масштабируется линейно по мере увеличения количества графических процессоров на анализ. Шаблон масштабирования аналогичен покрытию объема данных на образец, которое увеличивается с 10x до 50x.
Хотя это не представлено здесь,
более раннее исследование Dell EMC показало, что выполнение Parabricks с использованием восьми или более графических процессоров V100 на анализ не масштабируется так эффективно, как при использовании графических процессоров T4. Дополнительное тестирование показало, что результаты выполнения с 6 графическими процессорами T4 практически идентичны результатам с 4 графическими процессорами V100.
Рис. 3. Сравнение производительности с 10x WGS
Рис. 4. Сравнение производительности с 30x WGS
Рис. 5. Сравнение производительности с 50x WGS
Заключение
DSS 8440 с шестнадцатью графическими процессорами T4 способен обрабатывать 30 образцов генома человека с охватом 50x в день. Для выполнения аналогичного ежедневного анализа пропускной способности при использовании традиционной архитектуры ЦП x86 потребуется десять вычислительных узлов PowerEdge C6420. Полная архитектура рассматривается в
предыдущей публикации Dell.
Однако выделение всех 16 графических процессоров T4 на обработку одного образца дает мало преимуществ, поскольку использование 16 графических процессоров на анализ в лучшем случае на 10% быстрее, чем использование 8 графических процессоров. Конструкция DSS 8440 допускает параллельное выполнение нескольких вторичных анализов. За счет назначения восьми графических процессоров T4 на образец производительность ежедневного анализа увеличивается примерно до 50 геномов в день. Использование четырех графических процессоров на образец увеличивает пропускную способность анализа до ~70 геномов в день. Более важно то, что этот ежедневный вывод с использованием графических процессоров T4 дешевле, чем использование графического процессора V100.
Помимо ускорения, для обеспечения сопоставимости результатов необходимо обеспечить совместимость с другими инструментами анализа. Результаты анализа генеративной линии Parabricks почти идентичны хорошо известному анализу определителей BWA-GATK Haplotype из предыдущего тестирования. Мы также хотели сравнить результаты определителей вариантов Parabricks с другими наборами инструментов, такими как samtools/mpileup. Эти два совершенно разных инструмента совпадают примерно на 90% по выявленным вариантам, а вариации во многих известных геномных областях, содержащих важные гены, совпадают более чем на 99%.