Готове рішення Dell EMC для HPC Life Sciences: Tuxedo Pipeline з процесором Cascade Lake і Lustre/ME4 Refresh

概要: Ця стаття охоплює офіційний документ під назвою «Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline з процесором Cascade Lake і Lustre/ME4 Refresh".

この記事は次に適用されます：この記事は次には適用されません：この記事は、特定の製品に関連付けられていません。すべての製品パージョンがこの記事に記載されているわけではありません。

手順

Примітка: Стаття написана Кіхуном Юном з HPC та AI Innovation Lab у грудні 2019
рокуНове обладнання та оновлений пайплайн разом збільшують пропускну здатність у 3 рази більше порівняно з попереднім Ready Solution.

Огляд
Аналіз експресії генів так само важливий, як виявлення однонуклеотидного поліморфізму (SNP), вставки/делеції (індел) або хромосомної реструктуризації. Зрештою, всі фізіологічні та біохімічні події залежать від кінцевих продуктів експресії генів — білків. Хоча більшість ссавців мають додатковий контрольний шар перед експресією білка, знання того, скільки транскриптів існує в системі, допомагає охарактеризувати біохімічний статус клітини. В ідеалі, технологія дозволяє нам кількісно визначити цілі білки в клітині, які могли б значно досягти успіху в галузі науки про життя; Однак ми далекі від цього.
Тут, у цьому блозі, ми тестуємо один популярний конвеєр аналізу даних RNA-Seq, відомий як трубопровід Tuxedo (1). Пакет трубопроводів Tuxedo пропонує набір інструментів для аналізу різноманітних даних RNA-Seq, включаючи короткочитане картування, ідентифікацію з'єднань, виявлення транскриптів та ізоформ, диференціальну експресію, візуалізацію та метрики контролю якості. Детальні етапи пайплайну показані на малюнку 1. Ця оновлена версія конвеєра Tuxedo включає крок Cuffquant у порівнянні зі старою версією, протестованою в попередньому блозі (2).

Рисунок 1 Оновлений трубопровід смокінга з кроком манжети Рисунок 1 Оновлений конвеєр Tuxedo з кроком Cuffquant Конфігурації

тестового кластера узагальнені в таблиці 1.

Таблиця 1 Перевірена конфігурація обчислювального вузла
Dell EMC PowerEdge C6420
ЦП	2x Xeon® Gold 6248 20c 2.5 ГГц (Каскадне озеро)
БАРАН	12x 16 ГБ @ 2933 МТ/с
ОС	ХЕЛ 7.6
З'єднання	® Intel Omni-Path
Профіль системи BIOS	Оптимізована продуктивність
Логічний процесор	Вимкнуто
Технологія віртуалізації	Вимкнуто
Циліндр	2.1.1
краватка-метелик2	2.2.5
R	3.6
Біопровідник-камербанд	2.26.0

Тестовані обчислювальні вузли були підключені до Dell EMC Ready Solution for Lustre Storage через Intel^® Omni-Path (3). Зведена конфігурація сховища наведена в таблиці 2.

Таблиця 2: Технічні характеристики апаратного та програмного забезпечення Lustre Storage Solution
Готове рішення Dell EMC для зберігання блиску
Кількість вузлів	1x Dell EMC PowerEdge R640 як інтегрований менеджер для Lustre (IML) 2x Dell EMC PowerEdge R740 як сервер метаданих (MDS) 2x Dell EMC PowerEdge R740 як сервер об'єктного зберігання (OSS)
Процесори	Сервер IML: Два процесори Intel Xeon Gold 5118 @ 2.3 ГГц Сервери MDS та OSS: Два процесори Intel Xeon Gold 6136 @ 3.00 ГГц
Пам'ять	Сервер IML: 12 x 8 ГБ 2 666 МТ/с DDR4 RDIMM Сервери MDS та OSS: 24 x 16 ГіБ, 2 666 МТ/с DDR4 RDIMM
Зовнішнє сховище Контролери	2 x Dell 12 Гбіт/с SAS HBA (на кожному MDS) 4 порти Dell 12 Гбіт/с SAS HBA (на кожному OSS)
Зберігання об'єктівКорпусів	4x ME4084 із загальною кількістю жорстких дисків SAS 336 x 8 ТБ NL 7.2K rpm
Зберігання метаданихКорпус	1x ME4024 з 24 твердотільними накопичувачами SAS на 960 ГБ. Підтримує до 4,688 B файлів/індексних дескрипторів
Контролери RAID	Дуплексний RAID в корпусах ME4084 і ME4024
Операційна система	CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Версія ядра	3.10.0-862.el7.x86_64
Версія BIOS	1.4.5
Intel Omni-Path Версія IFS	10.8.0.0
Файлова система Lustreверсія	2.10.4
Версія IML	4.0.7.0

Дослідження продуктивності трубопроводу RNA-Seq не є тривіальним, оскільки робочий процес природи вимагає неідентичних вхідних файлів. 185 даних для зчитування парних кінців RNA-Seq збираються з публічного сховища даних. Усі файли зчитаних даних містять близько 25 мільйонів фрагментів (MF) і мають однакову довжину зчитування. Зразки для тесту вибрані випадковим чином із пулу з 185 парних файлів для читання. Хоча ці випадково вибрані дані не матимуть жодного біологічного значення, безумовно, ці дані з високим рівнем шуму поставлять випробування на найгірший сценарій.
Оцінка
ефективностіТест
з двох вибірокНа рисунку 2 побудовано час виконання кожного кроку. Тест проводився на двох обчислювальних вузлах з двома зразками, що містили приблизно 25 мільйонів зчитаних даних RNA-Seq. Крок Tophat починається для кожного зразка на обчислювальному вузлі паралельно. Згодом, Запонки починаються після завершення Тофата. Крок Cuff поєднує в собі результати двох забігів Cufflinks. Для кількісної оцінки експресії генів у кожному зразку додається етап куфкванта, а результати досліджуються далі на етапах Каффдіффа та Каффнорма. Останній крок, CummeRbund є кроком статистичного аналізу з R-пакета CummeRbund, і він генерує візуалізований звіт, як показано на рисунку 2.

Рисунок 2 Загальний час роботи для трубопроводу Tuxedo з двома зразками: SRR1608490 і SRR934809. Рисунок 2 Загальний час роботи для трубопроводу Tuxedo з двома зразками: SRR1608490 і SRR934809.

На малюнку 3 показані диференційно експресовані гени з 8 проб (кожен зразок складається з 4 дублікатів) червоного кольору зі значно нижчими значеннями p (вісь Y) в порівнянні з іншими експресіями генів, ілюстрованими чорним кольором1. Вісь X — це зміни згортання в логарифмічній основі 2, і ці зміни згортання кожного гена відображаються проти p-значень. Більша кількість зразків принесе кращу оцінку експресії генів. Права верхня діаграма – це експресія генів у зразку 2 у порівнянні зі зразком 1, тоді як лівий нижній графік – експресія генів у зразку 1 порівняно зі зразком 2. Експресія генів у чорних крапках суттєво не відрізняється в обох зразках.

Рисунок 3 Вулканічна діаграма результатів
КафдіффаТест на пропускну здатність – один трубопровід з більш ніж двома зразками, біологічними та технічними дублікатами
Типові дослідження RNA-Seq складаються з декількох зразків, іноді 100 різних зразків, нормальних проти хвороб або необроблених проти оброблених зразків. Ці зразки, як правило, мають високий рівень шуму через свої біологічні причини; Отже, аналіз вимагає енергійної процедури попередньої обробки даних.

Ми протестували різну кількість зразків (усі різні дані RNA-Seq, вибрані з 185 наборів даних парного зчитування), щоб побачити, скільки даних може бути оброблено 8 вузлами в кластері PowerEdge C6420. Як показано на рисунку 4, час виконання з 2, 4, 8, 16, 32 та 64 зразками зростає експоненціально при збільшенні кількості зразків. Кількість мільярдів фрагментів на день зросла майже втричі завдяки сховищу Cascade Lake 6248/LustreME4 та оновленому трубопроводу.

Рисунок 4: Порівняння пропускної здатності з 8x C6420 між кроками Cuff 6248/LustreME4 і Skylake 6148/H600

не сповільнюється зі зростанням кількості зразків, тоді як кроки Cuffdiff і Cuffnorm значно сповільнюються. Зокрема, крок Cuffdiff стає вузьким місцем для трубопроводу, оскільки час роботи зростає в геометричній прогресії (рисунок 5). Хоча час виконання Cuffnorm збільшується експоненціально, як і Cuffdiff, його можна ігнорувати, оскільки час виконання Cuffnorm обмежений часом виконання Cuffdiff. Додавання кроку Cuffquant значно покращило час роботи Cuffdiff. 30 годин скорочення часу виконання на кроці Cuffdiff, а Cuffnorm завершив на 20 годин швидше з кроком Cuffquant. Хоча приріст продуктивності від Cuffnorm не видно, оскільки Cuffdiff і Cuffnorm стартують одночасно.

Рисунок 5 Приріст часу виконання на Cuffdiff і Cuffnorm
Рисунок 5 Інкремент під час виконання на Cuffdiff і Cuffnorm
Висновок
Результати тестів на пропускну здатність показують, що 8 вузлів PowerEdge C6420 з накопичувачем Lustre можуть обробляти приблизно 2,7 мільярда фрагментів з 64 зразків з ~50 мільйонами парних зчитувань кожен (25 MF) через конвеєр Tuxedo, проілюстрований на малюнку 1. Оскільки конвеєр Tuxedo є відносно швидшим, ніж інші популярні трубопроводи, важко узагальнити або використати ці результати для точного визначення розміру системи HPC. Однак отримані результати можуть допомогти зробити приблизну оцінку розміру системи HPC.

Ресурси
1. Диференціальна експресія генів РНК-Seq: Базовий підручник. [Електронний ресурс] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Тест трубопроводу RNA-Seq з Dell EMC Ready Bundle для HPC Life Sciences. [Електронний ресурс] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Готове рішення Dell EMC для зберігання HPC Lustre. [Посилання мертво станом на 07/2024]

Примітка: вони вибираються випадковим чином з пулу вибірок без будь-яких значущих асоціацій серед них.

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

文書番号: 000124142

文書の種類: How To

最終更新: 25 7月 2024

バージョン: 3

お使いのデバイスがサポートサービスの対象かどうかを確認してください。

Готове рішення Dell EMC для HPC Life Sciences: Tuxedo Pipeline з процесором Cascade Lake і Lustre/ME4 Refresh

概要: Ця стаття охоплює офіційний документ під назвою «Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline з процесором Cascade Lake і Lustre/ME4 Refresh".

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

ようこそ

Dellへようこそ

Готове рішення Dell EMC для HPC Life Sciences: Tuxedo Pipeline з процесором Cascade Lake і Lustre/ME4 Refresh

概要: Ця стаття охоплює офіційний документ під назвою «Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline з процесором Cascade Lake і Lustre/ME4 Refresh".

詳細記事

手順

対象製品

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

サポートサービス

サポートサービス