Примечание. Статья, написана Кихуном Юном (Kihoon Yoon) из лаборатории HPC and AI Innovation Lab в декабре 2019 г.
Новое оборудование и обновленная методика вместе увеличивают пропускную способность в 3 раза по сравнению с предыдущим готовым решением.
Обзор
Анализ экспрессии генов так же важен, как выявление одиночного нуклеотидного полиморфизма (SNP), вставки/удаления (indel) или перестройки хромосом. В конечном счете все физиологические и биохимические события зависят от конечных продуктов экспрессии генов — белков. Хотя большинство млекопитающих имеют дополнительный контролирующий слой перед экспрессией белка, знание количества транскриптов в системе помогает охарактеризовать биохимическое состояние клетки. В идеале технология позволяет количественно оценить все белки в клетке, что способно обеспечить значительный прогресс в развитии медико-биологических наук, однако мы далеки от его достижения.
В этом блоге мы тестируем одну популярную методику анализа данных секвенирования РНК, известную как методика Tuxedo (1). Методический пакет Tuxedo предлагает набор инструментов для анализа различных типов данных секвенирования ДНК, в том числе картирование с коротким прочтением, идентификация границ сплайсинга, обнаружение транскриптов и изоформ, дифференциальная экспрессия, визуализации и метрики контроля качества. Подробные шаги в рамках методики см. на рис. 1. Эта обновленная версия методики Tuxedo включает шаг Cuffquant по сравнению со старой версией, протестированной в предыдущем блоге (2).
Рисунок 1. Обновленная методика Tuxedo с шагом Cuffquant
. В таблице 1 представлен обзор конфигураций тестового кластера.
Таблица 1. Протестированная конфигурация вычислительного узла |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2 процессора Xeon® Gold 6248 20c 2,5 ГГц (Cascade Lake) |
RAM |
12 x 16 Гбайт при 2933 млн транзакций в секунду |
ОС |
RHEL 7.6 |
Соединение |
Intel® Omni-Path |
Системный профиль BIOS |
Оптимизация производительности |
Логический процессор |
Disabled |
Технология виртуализации |
Disabled |
tophat |
2.1.1 |
bowtie2 |
2.2.5 |
R |
3.6 |
bioconductor-cummerbund |
2.26.0 |
Протестированные вычислительные узлы были подключены к готовому решению Dell EMC для хранилища Lustre через Intel® Omni-Path (3). Сводная конфигурация хранилища приведена в таблице 2.
Таблица 2. Технические характеристики аппаратного и программного обеспечения решения Lustre для хранения данных |
|
Готовое решение Dell EMC для хранилища Lustre |
|
Количество узлов |
1x сервер Dell EMC PowerEdge R640 в качестве Integrated Manager для Lustre (IML) |
Процессоры |
Сервер IML. Два сервера Intel Xeon Gold 5118 с частотой 2,3 ГГц, |
Память |
Сервер IML. 12 x 8 Гбайт, 2 666 млн транзакций в секунду, DDR4 RDIMM |
Контроллеры внешних |
2 HBA-адаптера Dell SAS 12 Гбит/с (на каждом MDS) |
Шкафы |
4 накопителя ME4084 с 336 жесткими дисками SAS NL емкостью 8 Тбайт, 7200 об/мин |
Шкаф |
1 накопитель ME4024 с 24 твердотельными накопителями SAS емкостью 960 Гбайт. Поддержка до 4688 байт файлов/индексных дескрипторов |
RAID-контроллеры |
Дуплексный RAID в шкафах ME4084 и ME4024 |
Операционная система |
CentOS 7.5 x86_64 |
Версия ядра |
3.10.0-862.el7.x86_64 |
Версия BIOS |
1.4.5 |
Версия IFS |
10.8.0.0 |
Версия файловой системы |
2.10.4 |
Версия IML |
4.0.7.0 |
Исследование производительности методики секвенирования РНК нетривиальна, поскольку для естественного рабочего процесса требуются неидентичные файлы входных данных. Данные 185 считываний о спаренных концах секвенирования ДНК собираются из общедоступного репозитория данных. Все файлы считываний данных содержат около 25 миллионов фрагментов (MF) и имеют одинаковую длину чтения. Образцы теста выбраны случайным образом из пула 185 файлов считываний о спаренных концах. Хотя эти случайно выбранные данные не будут иметь никакого биологического значения, безусловно, эти данные с высоким уровнем помех позволят проверить наихудший сценарий.
Оценка производительности
Тест на двух образцах
На рис. 2. на графике показано время выполнения каждого шага. Тест был запущен на двух вычислительных узлах с двумя образцами, содержащими приблизительно 25 млн данных прочтений по секвенированию РНК. Для каждого образца на вычислительном узле параллельно запускается шаг Tophat. После завершения Tophat запускается шаг Cufflinks. Шаг Cuffmerge объединяет результаты двух выполненных запусков шага Cufflinks. Кроме того, для количественного определения экспрессии генов в каждом образце выполняется шаг Cuffquant, а полученные результаты изучаются далее на шагах Cuffdiff и Cuffnorm. Последний шаг: CummeRbund — это этап статистического анализа из пакета CummeRbund R, который создает визуализированный отчет, как показано на рис. 2.Рис. 2. Общее время выполнения по методике Tuxedo с двумя образцами: SRR1608490 и SRR934809.
На рис. 3 показаны дифференциально экспрессируемые гены из запуска с 8 образцами (каждый образец состоит из 4 дубликатов) — красным — со значительно более низкими значениями p (по оси Y) по сравнению с другими экспрессиями генов, показанными черным цветом1. Ось X — это кратные изменения в базе журнала 2, и эти кратные изменения каждого из генов сопоставляются со значениями p. Больше образцов обеспечит более точную оценку экспрессии генов. Правый верхний график — это экспрессия генов в образце 2 в сопоставлении с образцом 1, а левый нижний график — это экспрессия генов в образце 1 в сопоставлении с образцом 2. Экспрессия генов, показанная черными точками, незначительно отличается в обоих образцах. Рисунок 3. Вулканная диаграмма результатов шага Cuffdiff
Тест пропускной способности — одиночный портфель с более чем двумя образцами. Биологические и технические дубликаты
Типичные изучения секвенирования РНК включают множество образцов, иногда сотни: нормальные и с заболеваниями, а также необработанные и обработанные образцы. Эти образцы, как правило, имеют высокий уровень помех по биологическим причинам, поэтому анализ требует тщательной предварительной обработки данных.
Мы протестировали различные количества образцов (все разные данные секвенирования РНК, выбранные из набора данных 185 считываний о спаренных концах), чтобы узнать, сколько данных может обрабатываться 8 узлами в кластере PowerEdge C6420. Как видно по рис. 4, время выполнения программы растет экспоненциально с увеличением числа образцов (2, 4, 8, 16, 32 и 64). Количество миллиардов фрагментов в день увеличилось почти в три раза благодаря хранилищу Cascade Lake 6248/LustreME4 и обновленной методике.Рисунок 4. Сравнение пропускной способности с использованием 8 хранилищ C6420 между Cascade Lake 6248/Lustre ME4 и Skylake 6148/H600
Шаг Cuffmerge не показывает замедления при увеличении количества образцов, в то время как шаги Cuffdiff и Cuffnorm существенно замедляются. Особенно шаг Cuffdiff становится узким местом для методики, поскольку время выполнения программы растет экспоненциально (рис. 5). Хотя время выполнения шага Cuffnorm растет экспоненциально, как и Cuffdiff, это игнорируется, поскольку время выполнения Cuffnorm ограничено временем выполнения Cuffdiff. Введение шага Cuffquant привело к значительному улучшению по времени выполнения шага Cuffdiff. Время выполнения сократилось на 30 часов на шаге Cuffdiff, а шаг Cuffnorm был выполнен на 20 часов быстрее. Хотя прирост производительности на шаге Cuffnorm не отображается, так как одновременно запускаются Cuffdiff и Cuffnorm.
Рисунок 5. Увеличение времени выполнения на шагах Cuffdiff и Cuffnorm
Заключение
Результаты тестирования пропускной способности показывают, что 8 узлов PowerEdge C6420 с хранилищем Lustre могут обрабатывать примерно 2,7 млрд фрагментов из 64 образцов с ~50 млн считываний по спаренным концам каждый (25 MF) по методике Tuxedo, приведенной на рис. 1. Поскольку методика Tuxedo относительно быстрее, чем другие популярные методики, трудно обобщить или использовать эти результаты для точного определения конфигурации системы HPC. Однако результаты могут быть полезными в приблизительной оценке размера системы HPC.
Ресурсы
1. Дифференциальная экспрессия генов при секвенировании РНК. Базовый курс. [Онлайн] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Эталонная методика секвенирования РНК с помощью готового пакета Dell EMC для НРС в области медико-биологических наук. [Онлайн] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Готовое решение Dell EMC для хранилищ НРС Lustre. [Ссылка нерабочая по состоянию на 07.2024]
Примечание. Они случайным образом выбираются из пула образцов без каких-либо значимых связей между собой.