Falcon Accelerated Genomics Pipeline з однією програмованою картою прискорення Intel FPGA може обробляти 50 геномів людини менш ніж за 3 години через конвеєр виклику альтернативних варіантів.
Огляд, Market Challenge (потреба), рішення Falcon відповідає потребам
Прецизійна медицина, геноміка та епігенетика використовують геномне секвенування для проведення досліджень, покращення діагностики, розробки фармацевтичних препаратів, підвищення якості медичної допомоги для медичних працівників та оптимізації рослинництва. Для медико-біологічних наук аналіз геному зараз є ключовим застосуванням, частково завдяки значному зниженню витрат на збір даних завдяки досягненням у секвенуванні наступного покоління (NGS). На додаток до збільшення збору даних, також спостерігається значне зростання діапазону геномних застосувань, що використовуються в університетах, геномних дослідницьких центрах, фармацевтичних компаніях та організаціях охорони здоров'я.
Кожні сім місяців обсяг даних про геном подвоюється (1). Отже, ефективна та економічно вигідна обробка даних стала критично важливою. Обчислювальна потужність рішень, що працюють лише з процесорами, масштабується недостатньо швидко, щоб йти в ногу зі зростанням геномних даних. Це призвело до необхідності апаратного прискорення. Прискорювачі, такі як FPGA, стають ключовими у відповідності обчислювальним вимогам цього вибуху геномних даних. У порівнянні з іншими рішеннями з апаратним прискоренням, Falcon Accelerated Genomics Pipeline (FAGP) пропонує гнучкість, високу пропускну здатність і нижчу вартість зразка.
Що таке FPGA, Intel PAC пропозиція та перевага
FPGA — це кремнієві пристрої, які можна динамічно перепрограмувати за допомогою шляху даних, який точно відповідає вашим робочим навантаженням, наприклад, геномне секвенування, аналіз даних або стиснення, як показано на малюнку 1. Ця універсальність дозволяє забезпечувати швидшу обробку, енергоефективніші обчислення та послуги з меншою затримкою, знижуючи загальну вартість володіння та максимізуючи обчислювальні потужності в межах обмежень потужності, простору та охолодження ваших центрів обробки даних.
Традиційно FPGA вимагають глибоких знань у предметній області для програмування. Щоб спростити процес розробки та забезпечити швидке розгортання в центрі обробки даних, Intel пропонує платформу прискорення, яка включає програмовані плати прискорення Intel FPGA (Intel FPGA PAC) на базі PCI Express* (PCIe*) та® Intel Acceleration Stack для процесорів Intel Xeon® із FPGA. Ці платформи Intel кваліфікуються, перевіряються та розгортаються через Dell EMC. Разом із партнерами екосистеми, такими як Falcon Computing, Intel Acceleration Platform пропонує надійне та готове рішення з прозорим апаратним забезпеченням під капотом.
Рисунок 1 Покращена точність і швидкість на стандартному трубопроводі ГАТК
Деталі рішення Falcon:
Інструментарій аналізу генома (GATK) є золотим стандартом обробки геномних даних, прийнятим геномним співтовариством (2). Його найкращий робочий процес (BPW) добре відомий своєю повільністю в обчисленнях для отримання результатів для великих зразків, таких як цільний геном (WGS). Щоб вирішити цю проблему, компанія Falcon Computing Solutions розробила гнучкий програмний пакет інструментів, який відповідає вимогам BPW і може бути легко реалізований на різних платформах і архітектурах. Він швидкий на кілька порядків, якщо порівнювати з конвеєрами GATK на базі процесора.
FAGP надає комплексне рішення для економічно ефективного аналізу геномних даних за допомогою конвеєра GATK з високою продуктивністю, точністю та відтворюваністю. Рішення забезпечує до 15-кратного прискорення з тією ж точністю, що і GATK (3). Це означає, що аналіз, який зазвичай займає від 50 до 60 годин, може бути проведений менш ніж за 4 години (3). FAGP забезпечує винятковий рівень прискорення і точності в поєднанні з високопродуктивними, надійними процесорами Intel Arria 10 FPGA і Intel® Xeon®.
FAGP слідує за GATK BPW. Він реалізує прискорення в багатьох компонентах конвеєрів від вирівнювання (BWA) до виклику варіантів (HaplotypeCaller) (4). На додаток до прискореного BWA, він також включає прискорену версію вирівнювача Minimap2, який є частиною альтернативного геномного конвеєра від Falcon (5). Альтернативний трубопровід забезпечує ще швидше рішення. Він може завершити 50-кратне секвенування всього геному протягом 3 годин. Обидва вирівнювачі мають функцію генерації позначених дублікатів і відсортованих зчитувань без необхідності використання додаткових інструментів.
FAGP досягає високої продуктивності/пропускної здатності за рахунок прискорення інтенсивних обчислень у конвеєрі GATK за допомогою платформ Intel FPGA PAC. Це відрізняється від масштабованих рішень, які досягають високої пропускної здатності за рахунок додавання більшої кількості ресурсів процесора. Такі масштабовані рішення мають обмежену здатність зменшувати витрати або затримку на вибірку.
Ще однією перевагою рішення Falcon є те, що це відкритий трубопровід, як ГАТК. Користувачі можуть контролювати окремі кроки в пайплайнах. Проміжні дані зберігаються, і до них можна отримати доступ.
Таблиця 1 Переваги конвеєра прискореної геноміки Falcon
Переваги конвеєра прискореної геноміки Falcon (FAGP) |
Справжня ГАТК |
Підтримка декількох версій GATK, включаючи 4.0 |
Масштаб галузі |
Запустіть п'ять цілих геномів або 24 цілих екзома за один день |
Альтернативний варіант |
< 3-годинний локальний час виконання для WGS (50X) |
Швидкість |
Виконуйте конвеєр найкращих практик GATK до >15 разів швидше |
Кредитне плече існуюче |
Не потрібно переписувати робочі алгоритми |
Конфігурація обладнання Dell
Таблиця 2 Dell EMC PowerEdge R740xd як випробувальний стенд
Dell EMC PowerEdge R740xd |
Процесор |
2x процесор Intel(R) Xeon(R) Gold 6148 @ 2.40 ГГц |
Пам'ять |
384 ГБ @ 32x 16 ГБ RDIMM, 2666 МТ/с, подвійний ранг |
Зберігання |
4x 1,2 ТБ 10 КБ SAS 12 Гбіт/с 512n 2,5-дюймовий жорсткий диск з гарячим підключенням у RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T у програмному RAID 0 |
ПЛІС |
Програмована карта прискорення Intel з Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
Профіль системи |
Продуктивність |
Версія BIOS |
2.1.3 |
Гіперпоточність |
Включений |
ОС |
Red Hat Enterprise Linux Server реліз 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Оцінка ефективності
У нашому порівняльному тестуванні ми використовували дані секвенування всього геному людини з 10-кратною, 30-кратною та 50-кратною глибиною охоплення.
Таблиця 3 Перевірені дані секвенування всього геному
Результати:
У таблиці 4 підсумовано час, необхідний для завершення конвеєра найкращих практик GATK 4.0 протягом трьох циклів тестування з використанням FAGP та Intel FPGA PAC, розміщених на сервері DELL EMC PowerEdge R740xd.
Таблиця 4 Загальний час виконання Best Practice Pipeline версії 2.1.1
Зразка |
Глибина охоплення |
Тест 1 |
Час виконання (хвилини) Тест 2 |
Тест 3 |
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
У таблиці 5 підсумовано час (у хвилинах), необхідний для завершення альтернативного трубопроводу: Falcon Germline протягом трьох циклів тестування з використанням FAGP і Intel FPGA PAC, розміщених на сервері DELL EMC PowerEdge R740xd.
Таблиця 5 Загальний час виконання конвеєра виклику альтернативного варіанту
Зразка |
Глибина охоплення |
Тест 1 |
Час виконання (хвилини) Тест 2 |
Тест 3 |
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Резюме геномного рішення Falcon
Конвеєр прискореної геноміки Falcon пропонує високу пропускну здатність, низьку вартість/вигоду зразка/день. Разом із платою Intel FPGA Programmable Acceleration Card та сертифікованим сервером DELL, FAGP надає комплексне рішення, яке можна легко застосувати для ваших програм геномного секвенування».
У TCGB ми надаємо послуги секвенування геному нашим клієнтам по всій країні. Конвеєр прискореної геноміки Falcon* дозволив нам скоротити наш оборот з кількох днів до кількох годин, зберігаючи при цьому точність стандартних трубопроводів GATK».
— Д-р Сіньмін Лі, директор Технологічного центру геноміки та біоінформатики (TCGB) Каліфорнійського університету в Лос-Анджелесі
Ресурси
1. Секвенування геному створює так багато даних, що ми не знаємо, що з ними робити. [Електронний ресурс] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. ГАТК. [Електронний ресурс]
https://software.broadinstitute.org/gatk/3. Прискорена геноміка. [Електронний ресурс]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Електронний ресурс]
http://bio-bwa.sourceforge.net/bwa.shtml5. Міні-карта2. [Електронний ресурс]
https://github.com/lh3/minimap2
Прискорте геномне секвенування за допомогою Falcon Accelerated Genomics Pipeline (FAGP) на Intel FPGA PAC
Falcon Accelerated Genomics Pipeline з однією програмованою картою прискорення Intel FPGA може обробляти 50 геномів людини менш ніж за 3 години через конвеєр виклику альтернативних варіантів.