Примечание.: Статья написана Кихун Юном из HPC and AI Innovation Lab в декабре 2019
г.Новое оборудование и обновленный канал продаж вместе увеличивают пропускную способность в 3 раза по сравнению с предыдущим готовым решением.
Обзор
Анализ экспрессии генов так же важен, как и выявление однонуклеотидного полиморфизма (SNP), вставки/делеции (indel) или хромосомной реструктуризации. В конечном счете, все физиологические и биохимические события зависят от конечных продуктов экспрессии генов, белков. Хотя большинство млекопитающих имеют дополнительный контролирующий слой перед экспрессией белка, знание того, сколько транскриптов существует в системе, помогает охарактеризовать биохимический статус клетки. В идеале, технология позволяет нам количественно определить целые белки в клетке, которые могли бы значительно преуспеть в прогрессе наук о жизни; Однако мы далеки от этого.
Здесь, в этом блоге, мы тестируем один популярный конвейер анализа данных RNA-Seq, известный как конвейер Смокинга (1). Конвейерная сюита Tuxedo предлагает набор инструментов для анализа различных данных RNA-Seq, включая картирование короткого считывания, идентификацию сплайс-соединений, обнаружение транскриптов и изоформ, дифференциальную экспрессию, визуализацию и метрики контроля качества. Подробные шаги конвейера показаны на рис. 1. Эта обновленная версия конвейера Tuxedo включает в себя ступень Cuffquant по сравнению со старой версией, протестированной в предыдущем блоге (2).
Рисунок 1 Обновленный конвейер Tuxedo со ступенью Cuffquant Конфигурация
тестового кластера приведена в Таблице 1.
Таблица 1. Протестированная конфигурация вычислительного узла |
|
Dell EMC PowerEdge C6420 |
|
ЦП |
2 процессора Xeon® Gold 6248 20 ядер, 2,5 ГГц (Cascade Lake) |
ОЗУ |
12x 16 ГБ @2933 МТ/с |
ОС |
RHEL 7.6 |
Соединение |
® Технология Intel Omni-Path |
Системный профиль BIOS |
Оптимизация производительности |
Логический процессор |
Disabled |
Технология виртуализации |
Disabled |
Цилиндр |
2.1.1 |
галстук-бабочка2 |
2.2.5 |
R |
3.6 |
Bioconductor-Камербанд |
2.26.0 |
Протестированные вычислительные узлы были подключены к готовому решению Dell EMC для хранилища Lustre с помощью технологии Intel® Omni-Path (3). Сводная конфигурация хранилища приведена в Таблице 2.
Таблица 2. Технические характеристики аппаратного и программного обеспечения Lustre Storage Solution |
|
Готовое решение Dell EMC для систем хранения данных Lustre |
|
Количество узлов |
1 сервер Dell EMC PowerEdge R640 в качестве интегрированного диспетчера для Lustre (IML) |
Процессоры |
IML-сервер: Два процессора Intel Xeon Gold 5118 @ 2.3 ГГц |
Модули |
IML-сервер: 12 модулей DDR4 RDIMM по 8 Гбайт, 2666 млн транзакций в секунду |
Внешнее запоминающее устройство |
2 адаптера главной шины Dell SAS 12 Гбит/с (на каждом MDS) |
Объектная система хранения |
4 накопителя ME4084, 336 жестких дисков 8 Тбайт, NL, 7200 об/мин, SAS |
Система хранения |
1 модуль ME4024 с 24 твердотельными накопителями SAS 960 Гбайт. Поддержка до 4.688 млрд файлов/индексных дескрипторов |
RAID-контроллеры |
Дуплексный RAID в полках ME4084 и ME4024 |
Операционная система |
CentOS 7.5 x86_64 |
Версия ядра |
3.10.0-862.el7.x86_64 |
Версия BIOS |
1.4.5 |
Технология Intel Omni-Path |
10.8.0.0 |
Файловая система |
2.10.4 |
Версия IML |
4.0.7.0 |
Исследование производительности конвейера RNA-Seq не является тривиальным, потому что для естественного рабочего процесса требуются неидентичные входные файлы. 185 считываемых данных RNA-Seq с парным концом собираются из общедоступного репозитория данных. Все считываемые файлы данных содержат около 25 миллионов фрагментов (MF) и имеют одинаковую длину чтения. Выборки для теста выбираются случайным образом из пула из 185 считываемых файлов с сопряженным концом. Хотя эти случайно выбранные данные не будут иметь никакого биологического смысла, эти данные с высоким уровнем шума, безусловно, поставят тесты на наихудший сценарий.
Оценка
производительностиТест с двумя образцами
На рисунке 2 показано время выполнения каждого шага. Тест проводился в двух вычислительных узлах с двумя образцами, содержащими около 25 миллионов считанных данных РНК-секвенирования. Этап Tophat запускается для каждого образца на вычислительном узле параллельно. Впоследствии, Запонки начинаются по завершении Tophat. Шаг «Запонка» объединяет результаты двух прогонов запонок. Для количественной оценки экспрессии генов в каждом образце добавляется этап Cuffquant, а результаты дополнительно изучаются на этапах Cuffdiff и Cuffnorm. Последний шаг, CummeRbund, является этапом статистического анализа из R-пакета CummeRbund и генерирует визуализированный отчет, как показано на рисунке 2.
Рисунок 2 Общее время работы конвейера Tuxedo с двумя примерами: SRR1608490 и SRR934809.
На рисунке 3 красным цветом показаны дифференциально экспрессируемые гены из 8 образцов (каждая выборка состоит из 4 дубликатов) со значительно более низкими p-значениями (ось Y) по сравнению с другими экспрессиями генов, проиллюстрированными черным цветом1. См. Ось X представляет собой изменения свертки логарифмической базы 2, и эти изменения складок каждого гена соотносятся с p-значениями. Большее количество образцов позволит лучше оценить экспрессию генов. Правый верхний график представляет экспрессию генов в выборке 2 в сравнении с выборкой 1, а левый нижний график представляет экспрессию генов в выборке 1 по сравнению с выборкой 2. Экспрессия генов в черных точках существенно не отличается в обоих образцах.
Рисунок 3 Вулканический график результатов
КаффдиффаИспытание пропускной способности — один трубопровод с более чем двумя образцами, биологическими и техническими дубликатами
Типичные исследования РНК-секвенирования состоят из нескольких образцов, иногда 100 различных образцов, нормальных по сравнению с больными или необработанных по сравнению с обработанными образцами. Эти образцы, как правило, имеют высокий уровень шума из-за их биологических причин; Следовательно, анализ требует тщательной предварительной обработки данных.
Мы протестировали разное количество образцов (все различные данные RNA-Seq были отобраны из 185 наборов данных для считывания спаренных концов), чтобы узнать, какой объем данных могут обрабатывать 8 узлов в кластере PowerEdge C6420. Как показано на рисунке 4, среды выполнения с 2, 4, 8, 16, 32 и 64 выборками растут экспоненциально с увеличением количества выборок. Количество миллиардов фрагментов в день увеличилось почти в три раза благодаря системе хранения Cascade Lake 6248/LustreME4 и обновленному конвейеру.
Рисунок 4 Сравнение пропускной способности с 8x C6420s между Cascade Lake 6248/LustreME4 и Skylake 6148/H600
Шаг Cuffmerge не замедляется по мере роста количества образцов, в то время как ступени Cuffdiff и Cuffnorm значительно замедляются. В частности, шаг Cuffdiff становится узким местом для конвейера, так как время выполнения растет экспоненциально (рис. 5). Несмотря на то, что время выполнения Cuffnorm увеличивается экспоненциально, как и время выполнения Cuffdiff, его можно игнорировать, поскольку время выполнения Cuffnorm ограничено временем выполнения Cuffdiff. Добавление шага Cuffquant значительно улучшило время выполнения Cuffdiff. Сокращение времени работы на 30 часов на ступени Cuffdiff, а на шаге Cuffnorm — на 20 часов быстрее. Хотя прирост производительности от Cuffnorm не виден, так как Cuffdiff и Cuffnorm запускаются одновременно.
Figure 5 Увеличение времени выполнения Cuffdiff и Cuffnorm
Заключение
Результаты тестирования пропускной способности показывают, что 8 узлов PowerEdge C6420 с хранилищем Lustre могут обрабатывать примерно 2,7 миллиарда фрагментов из 64 образцов с ~50 миллионами парных операций чтения каждый (25 MF) через конвейер Tuxedo, как показано на рисунке 1. Поскольку конвейер Tuxedo работает относительно быстрее, чем другие популярные конвейеры, трудно обобщить или использовать эти результаты для точного определения размера системы высокопроизводительных вычислений. Тем не менее, полученные результаты могут помочь сделать приблизительную оценку размера системы HPC.
Ресурсы
1. См. Дифференциальная экспрессия генов RNA-Seq: Базовое руководство. [Электронный ресурс] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. См. Эталонный тест конвейера RNA-Seq с помощью пакета Dell EMC Ready Bundle для HPC медико-биологических наук. [Электронный ресурс] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. См. Готовое решение Dell EMC для хранилища данных HPC Lustre. [Ссылка не работает по состоянию на 07/2024]
Примечание: они выбираются случайным образом из пула образцов без каких-либо значимых ассоциаций между ними.