Готовое решение Dell EMC для НРС в области медико-биологических наук. Методика Tuxedo с ЦП Cascade Lake и обновлением Lustre/ME4.

概要: В этой статье представлен технический документ «Готовое решение Dell EMC для НРС в области медико-биологических наук. Методика Tuxedo с ЦП Cascade Lake и обновлением Lustre/ME4».

この記事は次に適用されます：この記事は次には適用されません：この記事は、特定の製品に関連付けられていません。すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Примечание. Статья, написана Кихуном Юном (Kihoon Yoon) из лаборатории HPC and AI Innovation Lab в декабре 2019 г.
Новое оборудование и обновленная методика вместе увеличивают пропускную способность в 3 раза по сравнению с предыдущим готовым решением.

Обзор
Анализ экспрессии генов так же важен, как выявление одиночного нуклеотидного полиморфизма (SNP), вставки/удаления (indel) или перестройки хромосом. В конечном счете все физиологические и биохимические события зависят от конечных продуктов экспрессии генов — белков. Хотя большинство млекопитающих имеют дополнительный контролирующий слой перед экспрессией белка, знание количества транскриптов в системе помогает охарактеризовать биохимическое состояние клетки. В идеале технология позволяет количественно оценить все белки в клетке, что способно обеспечить значительный прогресс в развитии медико-биологических наук, однако мы далеки от его достижения.
В этом блоге мы тестируем одну популярную методику анализа данных секвенирования РНК, известную как методика Tuxedo (1). Методический пакет Tuxedo предлагает набор инструментов для анализа различных типов данных секвенирования ДНК, в том числе картирование с коротким прочтением, идентификация границ сплайсинга, обнаружение транскриптов и изоформ, дифференциальная экспрессия, визуализации и метрики контроля качества. Подробные шаги в рамках методики см. на рис. 1. Эта обновленная версия методики Tuxedo включает шаг Cuffquant по сравнению со старой версией, протестированной в предыдущем блоге (2).

Рис. 1. Обновленная методика Tuxedo с шагом Cuffquant Рисунок 1. Обновленная методика Tuxedo с шагом Cuffquant

. В таблице 1 представлен обзор конфигураций тестового кластера.

Таблица 1. Протестированная конфигурация вычислительного узла
Dell EMC PowerEdge C6420
CPU	2 процессора Xeon® Gold 6248 20c 2,5 ГГц (Cascade Lake)
RAM	12 x 16 Гбайт при 2933 млн транзакций в секунду
ОС	RHEL 7.6
Соединение	Intel® Omni-Path
Системный профиль BIOS	Оптимизация производительности
Логический процессор	Disabled
Технология виртуализации	Disabled
tophat	2.1.1
bowtie2	2.2.5
R	3.6
bioconductor-cummerbund	2.26.0

Протестированные вычислительные узлы были подключены к готовому решению Dell EMC для хранилища Lustre через Intel^® Omni-Path (3). Сводная конфигурация хранилища приведена в таблице 2.

Таблица 2. Технические характеристики аппаратного и программного обеспечения решения Lustre для хранения данных
Готовое решение Dell EMC для хранилища Lustre
Количество узлов	1x сервер Dell EMC PowerEdge R640 в качестве Integrated Manager для Lustre (IML) 2x сервера Dell EMC PowerEdge R740 в качестве сервера метаданных (MDS) 2x сервера Dell EMC PowerEdge R740 будут использоваться как серверы хранения объектов (OSS)
Процессоры	Сервер IML. Два сервера Intel Xeon Gold 5118 с частотой 2,3 ГГц, MDS и OSS: Два процессора Intel Xeon Gold 6136 на 3,00 ГГц
Память	Сервер IML. 12 x 8 Гбайт, 2 666 млн транзакций в секунду, DDR4 RDIMM серверы MDS и OSS: 24 модуля DDR4 RDIMM 16 Гбайт, 2 666 млн транзакций в секунду
Контроллеры внешних хранилищ	2 HBA-адаптера Dell SAS 12 Гбит/с (на каждом MDS) 4 HBA-адаптера Dell SAS 12 Гбит/с (на каждом OSS)
Шкафы объектных хранилищ	4 накопителя ME4084 с 336 жесткими дисками SAS NL емкостью 8 Тбайт, 7200 об/мин
Шкаф хранилища метаданных	1 накопитель ME4024 с 24 твердотельными накопителями SAS емкостью 960 Гбайт. Поддержка до 4688 байт файлов/индексных дескрипторов
RAID-контроллеры	Дуплексный RAID в шкафах ME4084 и ME4024
Операционная система	CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Версия ядра	3.10.0-862.el7.x86_64
Версия BIOS	1.4.5
Версия IFS для платформы Intel Omni-Path	10.8.0.0
Версия файловой системы Lustre	2.10.4
Версия IML	4.0.7.0

Исследование производительности методики секвенирования РНК нетривиальна, поскольку для естественного рабочего процесса требуются неидентичные файлы входных данных. Данные 185 считываний о спаренных концах секвенирования ДНК собираются из общедоступного репозитория данных. Все файлы считываний данных содержат около 25 миллионов фрагментов (MF) и имеют одинаковую длину чтения. Образцы теста выбраны случайным образом из пула 185 файлов считываний о спаренных концах. Хотя эти случайно выбранные данные не будут иметь никакого биологического значения, безусловно, эти данные с высоким уровнем помех позволят проверить наихудший сценарий.
Оценка производительности
Тест на двух образцах
На рис. 2. на графике показано время выполнения каждого шага. Тест был запущен на двух вычислительных узлах с двумя образцами, содержащими приблизительно 25 млн данных прочтений по секвенированию РНК. Для каждого образца на вычислительном узле параллельно запускается шаг Tophat. После завершения Tophat запускается шаг Cufflinks. Шаг Cuffmerge объединяет результаты двух выполненных запусков шага Cufflinks. Кроме того, для количественного определения экспрессии генов в каждом образце выполняется шаг Cuffquant, а полученные результаты изучаются далее на шагах Cuffdiff и Cuffnorm. Последний шаг: CummeRbund — это этап статистического анализа из пакета CummeRbund R, который создает визуализированный отчет, как показано на рис. 2.

Рис. 2. Общее время выполнения для методики Tuxedo с двумя образцами: SRR1608490 и SRR934809. Рис. 2. Общее время выполнения по методике Tuxedo с двумя образцами: SRR1608490 и SRR934809.

На рис. 3 показаны дифференциально экспрессируемые гены из запуска с 8 образцами (каждый образец состоит из 4 дубликатов) — красным — со значительно более низкими значениями p (по оси Y) по сравнению с другими экспрессиями генов, показанными черным цветом 1. Ось X — это кратные изменения в базе журнала 2, и эти кратные изменения каждого из генов сопоставляются со значениями p. Больше образцов обеспечит более точную оценку экспрессии генов. Правый верхний график — это экспрессия генов в образце 2 в сопоставлении с образцом 1, а левый нижний график — это экспрессия генов в образце 1 в сопоставлении с образцом 2. Экспрессия генов, показанная черными точками, незначительно отличается в обоих образцах.

Рисунок 3. Вулкановая диаграмма результатов анализа на шаге Cuffdiff. Рисунок 3. Вулканная диаграмма результатов шага Cuffdiff
Тест пропускной способности — одиночный портфель с более чем двумя образцами. Биологические и технические дубликаты
Типичные изучения секвенирования РНК включают множество образцов, иногда сотни: нормальные и с заболеваниями, а также необработанные и обработанные образцы. Эти образцы, как правило, имеют высокий уровень помех по биологическим причинам, поэтому анализ требует тщательной предварительной обработки данных.

Мы протестировали различные количества образцов (все разные данные секвенирования РНК, выбранные из набора данных 185 считываний о спаренных концах), чтобы узнать, сколько данных может обрабатываться 8 узлами в кластере PowerEdge C6420. Как видно по рис. 4, время выполнения программы растет экспоненциально с увеличением числа образцов (2, 4, 8, 16, 32 и 64). Количество миллиардов фрагментов в день увеличилось почти в три раза благодаря хранилищу Cascade Lake 6248/LustreME4 и обновленной методике.

Рис. 4. Сравнение пропускной способности с 8 накопителями C6420 между Cascade Lake 6248/LustreME4 и Skylake 6148/H600 Рисунок 4. Сравнение пропускной способности с использованием 8 хранилищ C6420 между Cascade Lake 6248/Lustre ME4 и Skylake 6148/H600

Шаг Cuffmerge не показывает замедления при увеличении количества образцов, в то время как шаги Cuffdiff и Cuffnorm существенно замедляются. Особенно шаг Cuffdiff становится узким местом для методики, поскольку время выполнения программы растет экспоненциально (рис. 5). Хотя время выполнения шага Cuffnorm растет экспоненциально, как и Cuffdiff, это игнорируется, поскольку время выполнения Cuffnorm ограничено временем выполнения Cuffdiff. Введение шага Cuffquant привело к значительному улучшению по времени выполнения шага Cuffdiff. Время выполнения сократилось на 30 часов на шаге Cuffdiff, а шаг Cuffnorm был выполнен на 20 часов быстрее. Хотя прирост производительности на шаге Cuffnorm не отображается, так как одновременно запускаются Cuffdiff и Cuffnorm.

Рис. 5. Увеличение времени выполнения на шаге Cuffdiff и CuffNorm
Рисунок 5. Увеличение времени выполнения на шагах Cuffdiff и Cuffnorm
Заключение
Результаты тестирования пропускной способности показывают, что 8 узлов PowerEdge C6420 с хранилищем Lustre могут обрабатывать примерно 2,7 млрд фрагментов из 64 образцов с ~50 млн считываний по спаренным концам каждый (25 MF) по методике Tuxedo, приведенной на рис. 1. Поскольку методика Tuxedo относительно быстрее, чем другие популярные методики, трудно обобщить или использовать эти результаты для точного определения конфигурации системы HPC. Однако результаты могут быть полезными в приблизительной оценке размера системы HPC.

Ресурсы
1. Дифференциальная экспрессия генов при секвенировании РНК. Базовый курс. [Онлайн] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Эталонная методика секвенирования РНК с помощью готового пакета Dell EMC для НРС в области медико-биологических наук. [Онлайн] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Готовое решение Dell EMC для хранилищ НРС Lustre. [Ссылка нерабочая по состоянию на 07.2024]

Примечание. Они случайным образом выбираются из пула образцов без каких-либо значимых связей между собой.

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

文書番号: 000124142

文書の種類: How To

最終更新: 25 7月 2024

バージョン: 3

お使いのデバイスがサポートサービスの対象かどうかを確認してください。

Готовое решение Dell EMC для НРС в области медико-биологических наук. Методика Tuxedo с ЦП Cascade Lake и обновлением Lustre/ME4.

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

ようこそ

Dellへようこそ

Готовое решение Dell EMC для НРС в области медико-биологических наук. Методика Tuxedo с ЦП Cascade Lake и обновлением Lustre/ME4.

詳細記事

手順

対象製品

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

サポートサービス

サポートサービス