Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Готове рішення Dell EMC для HPC Life Sciences: Tuxedo Pipeline з процесором Cascade Lake і Lustre/ME4 Refresh

Summary: Ця стаття охоплює офіційний документ під назвою «Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline з процесором Cascade Lake і Lustre/ME4 Refresh".

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Примітка: Стаття написана Кіхуном Юном з HPC та AI Innovation Lab у грудні 2019
рокуНове обладнання та оновлений пайплайн разом збільшують пропускну здатність у 3 рази більше порівняно з попереднім Ready Solution.

Огляд
Аналіз експресії генів так само важливий, як виявлення однонуклеотидного поліморфізму (SNP), вставки/делеції (індел) або хромосомної реструктуризації. Зрештою, всі фізіологічні та біохімічні події залежать від кінцевих продуктів експресії генів — білків. Хоча більшість ссавців мають додатковий контрольний шар перед експресією білка, знання того, скільки транскриптів існує в системі, допомагає охарактеризувати біохімічний статус клітини. В ідеалі, технологія дозволяє нам кількісно визначити цілі білки в клітині, які могли б значно досягти успіху в галузі науки про життя; Однак ми далекі від цього. 
Тут, у цьому блозі, ми тестуємо один популярний конвеєр аналізу даних RNA-Seq, відомий як трубопровід Tuxedo (1). Пакет За цим гіперпосиланням ви переходите на веб-сайт за межами Dell Technologies. трубопроводів Tuxedo пропонує набір інструментів для аналізу різноманітних даних RNA-Seq, включаючи короткочитане картування, ідентифікацію з'єднань, виявлення транскриптів та ізоформ, диференціальну експресію, візуалізацію та метрики контролю якості. Детальні етапи пайплайну показані на малюнку 1. Ця оновлена версія конвеєра Tuxedo включає крок Cuffquant у порівнянні зі старою версією, протестованою в попередньому блозі (2).

Рисунок 1 Оновлений трубопровід смокінга з кроком манжетиРисунок 1 Оновлений конвеєр Tuxedo з кроком Cuffquant Конфігурації

тестового кластера узагальнені в таблиці 1.

Таблиця 1 Перевірена конфігурація обчислювального вузла

Dell EMC PowerEdge C6420

ЦП

2x Xeon® Gold 6248 20c 2.5 ГГц (Каскадне озеро)

БАРАН

12x 16 ГБ @ 2933 МТ/с

ОС

ХЕЛ 7.6

З'єднання

® Intel Omni-Path

Профіль системи BIOS

Оптимізована продуктивність

Логічний процесор

Вимкнуто

Технологія віртуалізації

Вимкнуто

Циліндр

2.1.1

краватка-метелик2

2.2.5

R

3.6

Біопровідник-камербанд

2.26.0


Тестовані обчислювальні вузли були підключені до Dell EMC Ready Solution for Lustre Storage через Intel® Omni-Path (3). Зведена конфігурація сховища наведена в таблиці 2.

Таблиця 2: Технічні характеристики апаратного та програмного забезпечення Lustre Storage Solution

Готове рішення Dell EMC для зберігання блиску

Кількість вузлів

1x Dell EMC PowerEdge R640 як інтегрований менеджер для Lustre (IML)
2x Dell EMC PowerEdge R740 як сервер метаданих (MDS)
2x Dell EMC PowerEdge R740 як сервер об'єктного зберігання (OSS)

Процесори

Сервер IML: Два процесори Intel Xeon Gold 5118 @ 2.3 ГГц
Сервери MDS та OSS: Два процесори Intel Xeon Gold 6136 @ 3.00 ГГц

Пам'ять

Сервер IML: 12 x 8 ГБ 2 666 МТ/с DDR4 RDIMM
Сервери MDS та OSS: 24 x 16 ГіБ, 2 666 МТ/с DDR4 RDIMM

Зовнішнє сховище
Контролери

2 x Dell 12 Гбіт/с SAS HBA (на кожному MDS)
4 порти Dell 12 Гбіт/с SAS HBA (на кожному OSS)

Зберігання
об'єктівКорпусів

4x ME4084 із загальною кількістю жорстких дисків SAS 336 x 8 ТБ NL 7.2K rpm

Зберігання
метаданихКорпус

1x ME4024 з 24 твердотільними накопичувачами SAS на 960 ГБ. Підтримує до 4,688 B файлів/індексних дескрипторів

Контролери RAID

Дуплексний RAID в корпусах ME4084 і ME4024

Операційна система

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Версія ядра

3.10.0-862.el7.x86_64

Версія BIOS

1.4.5

Intel Omni-Path
Версія IFS

10.8.0.0

Файлова система
Lustreверсія

2.10.4

Версія IML

4.0.7.0


Дослідження продуктивності трубопроводу RNA-Seq не є тривіальним, оскільки робочий процес природи вимагає неідентичних вхідних файлів. 185 даних для зчитування парних кінців RNA-Seq збираються з публічного сховища данихЗа цим гіперпосиланням ви переходите на веб-сайт за межами Dell Technologies.. Усі файли зчитаних даних містять близько 25 мільйонів фрагментів (MF) і мають однакову довжину зчитування. Зразки для тесту вибрані випадковим чином із пулу з 185 парних файлів для читання. Хоча ці випадково вибрані дані не матимуть жодного біологічного значення, безумовно, ці дані з високим рівнем шуму поставлять випробування на найгірший сценарій.
Оцінка
ефективностіТест
з двох вибірокНа рисунку 2 побудовано час виконання кожного кроку. Тест проводився на двох обчислювальних вузлах з двома зразками, що містили приблизно 25 мільйонів зчитаних даних RNA-Seq. Крок Tophat починається для кожного зразка на обчислювальному вузлі паралельно. Згодом, Запонки починаються після завершення Тофата. Крок Cuff поєднує в собі результати двох забігів Cufflinks. Для кількісної оцінки експресії генів у кожному зразку додається етап куфкванта, а результати досліджуються далі на етапах Каффдіффа та Каффнорма. Останній крок, CummeRbund є кроком статистичного аналізу з R-пакета CummeRbund, і він генерує візуалізований звіт, як показано на рисунку 2.

Рисунок 2 Загальний час роботи для трубопроводу Tuxedo з двома зразками: SRR1608490 і SRR934809.Рисунок 2 Загальний час роботи для трубопроводу Tuxedo з двома зразками: SRR1608490 і SRR934809.

На малюнку 3 показані диференційно експресовані гени з 8 проб (кожен зразок складається з 4 дублікатів) червоного кольору зі значно нижчими значеннями p (вісь Y) в порівнянні з іншими експресіями генів, ілюстрованими чорним кольором1. Вісь X — це зміни згортання в логарифмічній основі 2, і ці зміни згортання кожного гена відображаються проти p-значень. Більша кількість зразків принесе кращу оцінку експресії генів. Права верхня діаграма – це експресія генів у зразку 2 у порівнянні зі зразком 1, тоді як лівий нижній графік – експресія генів у зразку 1 порівняно зі зразком 2. Експресія генів у чорних крапках суттєво не відрізняється в обох зразках.


Рисунок 3 Вулканічна діаграма результатів КафдіффаРисунок 3 Вулканічна діаграма результатів
КафдіффаТест на пропускну здатність – один трубопровід з більш ніж двома зразками, біологічними та технічними дублікатами
Типові дослідження RNA-Seq складаються з декількох зразків, іноді 100 різних зразків, нормальних проти хвороб або необроблених проти оброблених зразків. Ці зразки, як правило, мають високий рівень шуму через свої біологічні причини; Отже, аналіз вимагає енергійної процедури попередньої обробки даних.
 
Ми протестували різну кількість зразків (усі різні дані RNA-Seq, вибрані з 185 наборів даних парного зчитування), щоб побачити, скільки даних може бути оброблено 8 вузлами в кластері PowerEdge C6420. Як показано на рисунку 4, час виконання з 2, 4, 8, 16, 32 та 64 зразками зростає експоненціально при збільшенні кількості зразків. Кількість мільярдів фрагментів на день зросла майже втричі завдяки сховищу Cascade Lake 6248/LustreME4 та оновленому трубопроводу.

Рисунок 4: Порівняння пропускної здатності з 8x C6420 між Cascade Lake 6248/LustreME4 та Skylake 6148/H600Рисунок 4: Порівняння пропускної здатності з 8x C6420 між кроками Cuff 6248/LustreME4 і Skylake 6148/H600

не сповільнюється зі зростанням кількості зразків, тоді як кроки Cuffdiff і Cuffnorm значно сповільнюються. Зокрема, крок Cuffdiff стає вузьким місцем для трубопроводу, оскільки час роботи зростає в геометричній прогресії (рисунок 5). Хоча час виконання Cuffnorm збільшується експоненціально, як і Cuffdiff, його можна ігнорувати, оскільки час виконання Cuffnorm обмежений часом виконання Cuffdiff.  Додавання кроку Cuffquant значно покращило час роботи Cuffdiff. 30 годин скорочення часу виконання на кроці Cuffdiff, а Cuffnorm завершив на 20 годин швидше з кроком Cuffquant. Хоча приріст продуктивності від Cuffnorm не видно, оскільки Cuffdiff і Cuffnorm стартують одночасно.


Рисунок 5 Приріст часу виконання на Cuffdiff і Cuffnorm
Рисунок 5 Інкремент під час виконання на Cuffdiff і Cuffnorm
Висновок
Результати тестів на пропускну здатність показують, що 8 вузлів PowerEdge C6420 з накопичувачем Lustre можуть обробляти приблизно 2,7 мільярда фрагментів з 64 зразків з ~50 мільйонами парних зчитувань кожен (25 MF) через конвеєр Tuxedo, проілюстрований на малюнку 1. Оскільки конвеєр Tuxedo є відносно швидшим, ніж інші популярні трубопроводи, важко узагальнити або використати ці результати для точного визначення розміру системи HPC. Однак отримані результати можуть допомогти зробити приблизну оцінку розміру системи HPC.
 
Ресурси
1. Диференціальна експресія генів РНК-Seq: Базовий підручник. [Електронний ресурс] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.За цим гіперпосиланням ви переходите на веб-сайт за межами Dell Technologies.
2. Тест трубопроводу RNA-Seq з Dell EMC Ready Bundle для HPC Life Sciences. [Електронний ресурс] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.За цим гіперпосиланням ви переходите на веб-сайт за межами Dell Technologies.
3. Готове рішення Dell EMC для зберігання HPC Lustre. [Посилання мертво станом на 07/2024]

Примітка: вони вибираються випадковим чином з пулу вибірок без будь-яких значущих асоціацій серед них.

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
Article Properties
Article Number: 000124142
Article Type: How To
Last Modified: 25 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.