Примітка: Стаття написана Кіхуном Юном з HPC та AI Innovation Lab у грудні 2019
рокуНове обладнання та оновлений пайплайн разом збільшують пропускну здатність у 3 рази більше порівняно з попереднім Ready Solution.
Огляд
Аналіз експресії генів так само важливий, як виявлення однонуклеотидного поліморфізму (SNP), вставки/делеції (індел) або хромосомної реструктуризації. Зрештою, всі фізіологічні та біохімічні події залежать від кінцевих продуктів експресії генів — білків. Хоча більшість ссавців мають додатковий контрольний шар перед експресією білка, знання того, скільки транскриптів існує в системі, допомагає охарактеризувати біохімічний статус клітини. В ідеалі, технологія дозволяє нам кількісно визначити цілі білки в клітині, які могли б значно досягти успіху в галузі науки про життя; Однак ми далекі від цього.
Тут, у цьому блозі, ми тестуємо один популярний конвеєр аналізу даних RNA-Seq, відомий як трубопровід Tuxedo (1). Пакет трубопроводів Tuxedo пропонує набір інструментів для аналізу різноманітних даних RNA-Seq, включаючи короткочитане картування, ідентифікацію з'єднань, виявлення транскриптів та ізоформ, диференціальну експресію, візуалізацію та метрики контролю якості. Детальні етапи пайплайну показані на малюнку 1. Ця оновлена версія конвеєра Tuxedo включає крок Cuffquant у порівнянні зі старою версією, протестованою в попередньому блозі (2).
Рисунок 1 Оновлений конвеєр Tuxedo з кроком Cuffquant Конфігурації
тестового кластера узагальнені в таблиці 1.
Таблиця 1 Перевірена конфігурація обчислювального вузла |
|
Dell EMC PowerEdge C6420 |
|
ЦП |
2x Xeon® Gold 6248 20c 2.5 ГГц (Каскадне озеро) |
БАРАН |
12x 16 ГБ @ 2933 МТ/с |
ОС |
ХЕЛ 7.6 |
З'єднання |
® Intel Omni-Path |
Профіль системи BIOS |
Оптимізована продуктивність |
Логічний процесор |
Вимкнуто |
Технологія віртуалізації |
Вимкнуто |
Циліндр |
2.1.1 |
краватка-метелик2 |
2.2.5 |
R |
3.6 |
Біопровідник-камербанд |
2.26.0 |
Тестовані обчислювальні вузли були підключені до Dell EMC Ready Solution for Lustre Storage через Intel® Omni-Path (3). Зведена конфігурація сховища наведена в таблиці 2.
Таблиця 2: Технічні характеристики апаратного та програмного забезпечення Lustre Storage Solution |
|
Готове рішення Dell EMC для зберігання блиску |
|
Кількість вузлів |
1x Dell EMC PowerEdge R640 як інтегрований менеджер для Lustre (IML) |
Процесори |
Сервер IML: Два процесори Intel Xeon Gold 5118 @ 2.3 ГГц |
Пам'ять |
Сервер IML: 12 x 8 ГБ 2 666 МТ/с DDR4 RDIMM |
Зовнішнє сховище |
2 x Dell 12 Гбіт/с SAS HBA (на кожному MDS) |
Зберігання |
4x ME4084 із загальною кількістю жорстких дисків SAS 336 x 8 ТБ NL 7.2K rpm |
Зберігання |
1x ME4024 з 24 твердотільними накопичувачами SAS на 960 ГБ. Підтримує до 4,688 B файлів/індексних дескрипторів |
Контролери RAID |
Дуплексний RAID в корпусах ME4084 і ME4024 |
Операційна система |
CentOS 7.5 x86_64 |
Версія ядра |
3.10.0-862.el7.x86_64 |
Версія BIOS |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Файлова система |
2.10.4 |
Версія IML |
4.0.7.0 |
Дослідження продуктивності трубопроводу RNA-Seq не є тривіальним, оскільки робочий процес природи вимагає неідентичних вхідних файлів. 185 даних для зчитування парних кінців RNA-Seq збираються з публічного сховища даних. Усі файли зчитаних даних містять близько 25 мільйонів фрагментів (MF) і мають однакову довжину зчитування. Зразки для тесту вибрані випадковим чином із пулу з 185 парних файлів для читання. Хоча ці випадково вибрані дані не матимуть жодного біологічного значення, безумовно, ці дані з високим рівнем шуму поставлять випробування на найгірший сценарій.
Оцінка
ефективностіТест
з двох вибірокНа рисунку 2 побудовано час виконання кожного кроку. Тест проводився на двох обчислювальних вузлах з двома зразками, що містили приблизно 25 мільйонів зчитаних даних RNA-Seq. Крок Tophat починається для кожного зразка на обчислювальному вузлі паралельно. Згодом, Запонки починаються після завершення Тофата. Крок Cuff поєднує в собі результати двох забігів Cufflinks. Для кількісної оцінки експресії генів у кожному зразку додається етап куфкванта, а результати досліджуються далі на етапах Каффдіффа та Каффнорма. Останній крок, CummeRbund є кроком статистичного аналізу з R-пакета CummeRbund, і він генерує візуалізований звіт, як показано на рисунку 2.
Рисунок 2 Загальний час роботи для трубопроводу Tuxedo з двома зразками: SRR1608490 і SRR934809.
На малюнку 3 показані диференційно експресовані гени з 8 проб (кожен зразок складається з 4 дублікатів) червоного кольору зі значно нижчими значеннями p (вісь Y) в порівнянні з іншими експресіями генів, ілюстрованими чорним кольором1. Вісь X — це зміни згортання в логарифмічній основі 2, і ці зміни згортання кожного гена відображаються проти p-значень. Більша кількість зразків принесе кращу оцінку експресії генів. Права верхня діаграма – це експресія генів у зразку 2 у порівнянні зі зразком 1, тоді як лівий нижній графік – експресія генів у зразку 1 порівняно зі зразком 2. Експресія генів у чорних крапках суттєво не відрізняється в обох зразках.
Рисунок 3 Вулканічна діаграма результатів
КафдіффаТест на пропускну здатність – один трубопровід з більш ніж двома зразками, біологічними та технічними дублікатами
Типові дослідження RNA-Seq складаються з декількох зразків, іноді 100 різних зразків, нормальних проти хвороб або необроблених проти оброблених зразків. Ці зразки, як правило, мають високий рівень шуму через свої біологічні причини; Отже, аналіз вимагає енергійної процедури попередньої обробки даних.
Ми протестували різну кількість зразків (усі різні дані RNA-Seq, вибрані з 185 наборів даних парного зчитування), щоб побачити, скільки даних може бути оброблено 8 вузлами в кластері PowerEdge C6420. Як показано на рисунку 4, час виконання з 2, 4, 8, 16, 32 та 64 зразками зростає експоненціально при збільшенні кількості зразків. Кількість мільярдів фрагментів на день зросла майже втричі завдяки сховищу Cascade Lake 6248/LustreME4 та оновленому трубопроводу.
Рисунок 4: Порівняння пропускної здатності з 8x C6420 між кроками Cuff 6248/LustreME4 і Skylake 6148/H600
не сповільнюється зі зростанням кількості зразків, тоді як кроки Cuffdiff і Cuffnorm значно сповільнюються. Зокрема, крок Cuffdiff стає вузьким місцем для трубопроводу, оскільки час роботи зростає в геометричній прогресії (рисунок 5). Хоча час виконання Cuffnorm збільшується експоненціально, як і Cuffdiff, його можна ігнорувати, оскільки час виконання Cuffnorm обмежений часом виконання Cuffdiff. Додавання кроку Cuffquant значно покращило час роботи Cuffdiff. 30 годин скорочення часу виконання на кроці Cuffdiff, а Cuffnorm завершив на 20 годин швидше з кроком Cuffquant. Хоча приріст продуктивності від Cuffnorm не видно, оскільки Cuffdiff і Cuffnorm стартують одночасно.
Рисунок 5 Інкремент під час виконання на Cuffdiff і Cuffnorm
Висновок
Результати тестів на пропускну здатність показують, що 8 вузлів PowerEdge C6420 з накопичувачем Lustre можуть обробляти приблизно 2,7 мільярда фрагментів з 64 зразків з ~50 мільйонами парних зчитувань кожен (25 MF) через конвеєр Tuxedo, проілюстрований на малюнку 1. Оскільки конвеєр Tuxedo є відносно швидшим, ніж інші популярні трубопроводи, важко узагальнити або використати ці результати для точного визначення розміру системи HPC. Однак отримані результати можуть допомогти зробити приблизну оцінку розміру системи HPC.
Ресурси
1. Диференціальна експресія генів РНК-Seq: Базовий підручник. [Електронний ресурс] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2. Тест трубопроводу RNA-Seq з Dell EMC Ready Bundle для HPC Life Sciences. [Електронний ресурс] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3. Готове рішення Dell EMC для зберігання HPC Lustre. [Посилання мертво станом на 07/2024]
Примітка: вони вибираються випадковим чином з пулу вибірок без будь-яких значущих асоціацій серед них.