Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Готовое решение Dell EMC для HPC медико-биологических наук: Tuxedo Pipeline с процессором Cascade Lake и обновлением Lustre/ME4

Summary: В этой статье рассматривается технический документ «Готовое решение Dell EMC для HPC медико-биологических наук: Tuxedo Pipeline с процессором Cascade Lake и обновлением Lustre/ME4».

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Примечание.: Статья написана Кихун Юном из HPC and AI Innovation Lab в декабре 2019
г.Новое оборудование и обновленный канал продаж вместе увеличивают пропускную способность в 3 раза по сравнению с предыдущим готовым решением.

Обзор
Анализ экспрессии генов так же важен, как и выявление однонуклеотидного полиморфизма (SNP), вставки/делеции (indel) или хромосомной реструктуризации. В конечном счете, все физиологические и биохимические события зависят от конечных продуктов экспрессии генов, белков. Хотя большинство млекопитающих имеют дополнительный контролирующий слой перед экспрессией белка, знание того, сколько транскриптов существует в системе, помогает охарактеризовать биохимический статус клетки. В идеале, технология позволяет нам количественно определить целые белки в клетке, которые могли бы значительно преуспеть в прогрессе наук о жизни; Однако мы далеки от этого. 
Здесь, в этом блоге, мы тестируем один популярный конвейер анализа данных RNA-Seq, известный как конвейер Смокинга (1). Конвейерная сюитаЭта гиперссылка позволяет перейти на сайт за пределами Dell Technologies. Tuxedo предлагает набор инструментов для анализа различных данных RNA-Seq, включая картирование короткого считывания, идентификацию сплайс-соединений, обнаружение транскриптов и изоформ, дифференциальную экспрессию, визуализацию и метрики контроля качества. Подробные шаги конвейера показаны на рис. 1. Эта обновленная версия конвейера Tuxedo включает в себя ступень Cuffquant по сравнению со старой версией, протестированной в предыдущем блоге (2).

Рисунок 1 Обновленный трубопровод Tuxedo со ступенькой Cuffquant StepРисунок 1 Обновленный конвейер Tuxedo со ступенью Cuffquant Конфигурация

тестового кластера приведена в Таблице 1.

Таблица 1. Протестированная конфигурация вычислительного узла

Dell EMC PowerEdge C6420

ЦП

2 процессора Xeon® Gold 6248 20 ядер, 2,5 ГГц (Cascade Lake)

ОЗУ

12x 16 ГБ @2933 МТ/с

ОС

RHEL 7.6

Соединение

® Технология Intel Omni-Path

Системный профиль BIOS

Оптимизация производительности

Логический процессор

Disabled

Технология виртуализации

Disabled

Цилиндр

2.1.1

галстук-бабочка2

2.2.5

R

3.6

Bioconductor-Камербанд

2.26.0


Протестированные вычислительные узлы были подключены к готовому решению Dell EMC для хранилища Lustre с помощью технологии Intel® Omni-Path (3). Сводная конфигурация хранилища приведена в Таблице 2.

Таблица 2. Технические характеристики аппаратного и программного обеспечения Lustre Storage Solution

Готовое решение Dell EMC для систем хранения данных Lustre

Количество узлов

1 сервер Dell EMC PowerEdge R640 в качестве интегрированного диспетчера для Lustre (IML)
2 сервера Dell EMC PowerEdge R740 в качестве сервера метаданных (MDS)
2 сервера Dell EMC PowerEdge R740 в качестве сервера объектного хранилища (OSS)

Процессоры

IML-сервер: Два процессора Intel Xeon Gold 5118 @ 2.3 ГГц
Серверы MDS и OSS: Два процессора Intel Xeon Gold 6136 @ 3,00 ГГц

Модули

IML-сервер: 12 модулей DDR4 RDIMM по 8 Гбайт, 2666 млн транзакций в секунду
Серверы MDS и OSS: 24 модуля DDR4 RDIMM по 16 ГиБ, 2666 млн транзакций в секунду

Внешнее запоминающее устройство
Контроллеры

2 адаптера главной шины Dell SAS 12 Гбит/с (на каждом MDS)
4 адаптера главной шины Dell SAS 12 Гбит/с (в каждом OSS)

Объектная система хранения
Корпуса

4 накопителя ME4084, 336 жестких дисков 8 Тбайт, NL, 7200 об/мин, SAS

Система хранения
метаданныхограждение

1 модуль ME4024 с 24 твердотельными накопителями SAS 960 Гбайт. Поддержка до 4.688 млрд файлов/индексных дескрипторов

RAID-контроллеры

Дуплексный RAID в полках ME4084 и ME4024

Операционная система

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7,5 x86_64

Версия ядра

3.10.0-862.el7.x86_64

Версия BIOS

1.4.5

Технология Intel Omni-Path
Версия IFS

10.8.0.0

Файловая система
LustreВерсия

2.10.4

Версия IML

4.0.7.0


Исследование производительности конвейера RNA-Seq не является тривиальным, потому что для естественного рабочего процесса требуются неидентичные входные файлы. 185 считываемых данных RNA-Seq с парным концом собираются из общедоступного репозитория данныхЭта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.. Все считываемые файлы данных содержат около 25 миллионов фрагментов (MF) и имеют одинаковую длину чтения. Выборки для теста выбираются случайным образом из пула из 185 считываемых файлов с сопряженным концом. Хотя эти случайно выбранные данные не будут иметь никакого биологического смысла, эти данные с высоким уровнем шума, безусловно, поставят тесты на наихудший сценарий.
Оценка
производительностиТест с двумя образцами
На рисунке 2 показано время выполнения каждого шага. Тест проводился в двух вычислительных узлах с двумя образцами, содержащими около 25 миллионов считанных данных РНК-секвенирования. Этап Tophat запускается для каждого образца на вычислительном узле параллельно. Впоследствии, Запонки начинаются по завершении Tophat. Шаг «Запонка» объединяет результаты двух прогонов запонок. Для количественной оценки экспрессии генов в каждом образце добавляется этап Cuffquant, а результаты дополнительно изучаются на этапах Cuffdiff и Cuffnorm. Последний шаг, CummeRbund, является этапом статистического анализа из R-пакета CummeRbund и генерирует визуализированный отчет, как показано на рисунке 2.

Рисунок 2 Общее время работы конвейера Tuxedo с двумя примерами: SRR1608490 и SRR934809.Рисунок 2 Общее время работы конвейера Tuxedo с двумя примерами: SRR1608490 и SRR934809.

На рисунке 3 красным цветом показаны дифференциально экспрессируемые гены из 8 образцов (каждая выборка состоит из 4 дубликатов) со значительно более низкими p-значениями (ось Y) по сравнению с другими экспрессиями генов, проиллюстрированными черным цветом1. См. Ось X представляет собой изменения свертки логарифмической базы 2, и эти изменения складок каждого гена соотносятся с p-значениями. Большее количество образцов позволит лучше оценить экспрессию генов. Правый верхний график представляет экспрессию генов в выборке 2 в сравнении с выборкой 1, а левый нижний график представляет экспрессию генов в выборке 1 по сравнению с выборкой 2. Экспрессия генов в черных точках существенно не отличается в обоих образцах.


Рисунок 3 Вулканический график результатов КаффдиффаРисунок 3 Вулканический график результатов
КаффдиффаИспытание пропускной способности — один трубопровод с более чем двумя образцами, биологическими и техническими дубликатами
Типичные исследования РНК-секвенирования состоят из нескольких образцов, иногда 100 различных образцов, нормальных по сравнению с больными или необработанных по сравнению с обработанными образцами. Эти образцы, как правило, имеют высокий уровень шума из-за их биологических причин; Следовательно, анализ требует тщательной предварительной обработки данных.
 
Мы протестировали разное количество образцов (все различные данные RNA-Seq были отобраны из 185 наборов данных для считывания спаренных концов), чтобы узнать, какой объем данных могут обрабатывать 8 узлов в кластере PowerEdge C6420. Как показано на рисунке 4, среды выполнения с 2, 4, 8, 16, 32 и 64 выборками растут экспоненциально с увеличением количества выборок. Количество миллиардов фрагментов в день увеличилось почти в три раза благодаря системе хранения Cascade Lake 6248/LustreME4 и обновленному конвейеру.

Рис. 4 Сравнение пропускной способности 8x C6420s между Cascade Lake 6248/LustreME4 и Skylake 6148/H600Рисунок 4 Сравнение пропускной способности с 8x C6420s между Cascade Lake 6248/LustreME4 и Skylake 6148/H600

Шаг Cuffmerge не замедляется по мере роста количества образцов, в то время как ступени Cuffdiff и Cuffnorm значительно замедляются. В частности, шаг Cuffdiff становится узким местом для конвейера, так как время выполнения растет экспоненциально (рис. 5). Несмотря на то, что время выполнения Cuffnorm увеличивается экспоненциально, как и время выполнения Cuffdiff, его можно игнорировать, поскольку время выполнения Cuffnorm ограничено временем выполнения Cuffdiff.  Добавление шага Cuffquant значительно улучшило время выполнения Cuffdiff. Сокращение времени работы на 30 часов на ступени Cuffdiff, а на шаге Cuffnorm — на 20 часов быстрее. Хотя прирост производительности от Cuffnorm не виден, так как Cuffdiff и Cuffnorm запускаются одновременно.


Figure 5 Приращение времени выполнения для Cuffdiff и Cuffnorm
Figure 5 Увеличение времени выполнения Cuffdiff и Cuffnorm
Заключение
Результаты тестирования пропускной способности показывают, что 8 узлов PowerEdge C6420 с хранилищем Lustre могут обрабатывать примерно 2,7 миллиарда фрагментов из 64 образцов с ~50 миллионами парных операций чтения каждый (25 MF) через конвейер Tuxedo, как показано на рисунке 1. Поскольку конвейер Tuxedo работает относительно быстрее, чем другие популярные конвейеры, трудно обобщить или использовать эти результаты для точного определения размера системы высокопроизводительных вычислений. Тем не менее, полученные результаты могут помочь сделать приблизительную оценку размера системы HPC.
 
Ресурсы
1. См. Дифференциальная экспрессия генов RNA-Seq: Базовое руководство. [Электронный ресурс] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.Эта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.
2. См. Эталонный тест конвейера RNA-Seq с помощью пакета Dell EMC Ready Bundle для HPC медико-биологических наук. [Электронный ресурс] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.Эта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.
3. См. Готовое решение Dell EMC для хранилища данных HPC Lustre. [Ссылка не работает по состоянию на 07/2024]

Примечание: они выбираются случайным образом из пула образцов без каких-либо значимых ассоциаций между ними.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
Article Properties
Article Number: 000124142
Article Type: How To
Last Modified: 25 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.