Конвейер геномики Falcon Accelerated с одной программируемой ускоривной картой Intel FPGA может обрабатывать геном всего в 50 раз менее чем за 3 часа через альтернативный канал вызова вариантов.
Обзор, проблема рынка (потребность), решение Falcon отвечает на потребности
Прецизионная медицина, геномика и геномика используют секвенирование генома для проведения исследований, улучшения диагностики, разработки фармацевтических средств, повышения качества медицинского обслуживания поставщиков медицинских услуг и оптимизации производства урожайности. В сфере медико-биологических наук анализ генома в настоящее время является ключевым приложением, от части в связи с большим сокращением расходов на сбор данных из передовых технологий секвенации нового поколения (NGS). Помимо более активного сбора данных, также значительно увеличился спектр приложений генома, используемых в университетах, центрах исследований генома, фармацевтике и медицинских организациях.
Каждые семь месяцев объем данных генома 2000 г. (1). Следовательно, эффективная и экономичная обработка данных стала критически важной. Вычислительная мощность решений только с процессорами не масштабируема достаточно быстро, чтобы не отстать от роста объемов данных генома. Это выявит необходимость аппаратного ускорения. Ускорители, такие как FPGA, становятся основными факторами, которые соответствуют вычислительным требованиям этого геномного взрывного роста объемов данных. По сравнению с другими решениями для аппаратного ускорения конвейер Falcon Accelerated Genomics Pipeline (FAGP) обеспечивает гибкость, высокую пропускную способность и более низкую стоимость на выборку.
Что такое FPGA, intel PAC и преимущества
FPGA — это микросхемные устройства, которые можно динамически перепрограммировать с помощью пути передачи данных, который точно соответствует рабочим нагрузкам, таким как секвенирование генома, анализ данных или сжатие, как показано на рис. 1. Эта универсальность позволяет ускорить обработку данных, повысить энергоэффективность и снизить задержку. Это позволит снизить совокупную стоимость владения и максимально увеличить вычислительную мощность в рамках ограничений по мощности, занимаемой площади и охлаждению центров обработки данных.
Традиционно для программы FPGA требуются глубокие экспертные знания в сфере домена. Чтобы упростить процесс разработки и обеспечить быстрое развертывание в центре обработки данных, Корпорация Intel предлагает платформу ускорения, которая включает в себя PCI Express* (PCIe*) на базе программируемых ускорителей Intel FPGA (Intel FPGA PAC) и Intel® Acceleration Stack для ЦП Intel Xeon® с модулями FPGA. Эти платформы Intel сертифицированы, проверены и развернуты с помощью Dell EMC. Вместе с партнерами по экосистеме, например Falcon Computing, платформа ускорения Intel предлагает надежное и готовое к работе решение с прозрачным использованием оборудования.
Рис. 1. Повышение точности и скорости работы стандартного конвейера GATK
Сведения о решении Falcon:
Genome Analysis Toolkit (GATK) — это золотой стандарт обработки геномных данных, принятый сообществом по геномике (2). Его рабочий процесс с передовыми практиками (BPW) хорошо известен за замедление вычислений, что позволяет получать результаты для крупных выборок, например для генома (WGS). Для решения этой проблемы компания Falcon Computing Solutions разработала гибкий пакет программных инструментов, который следует bpW, и его можно легко внедрить на нескольких платформах и архитектурах. По сравнению с конвейерами GATK на базе ЦП эта скорость на несколько порядка выше.
FAGP — это комплексное решение для экономичного анализа данных генома с использованием конвейера GATK с высокой производительностью, точностью и воспроизводимостью. Решение обеспечивает в 15 раз более высокую скорость с той же точностью, что и GATK (3). Это означает, что анализ, который обычно занимает от 50 до 60 часов, может быть проведен менее чем за 4 часа (3). FAGP обеспечивает исключительный уровень ускорения и точности в сочетании с высокопроизводительными и надежными модулями FPGA Intel Arria 10 и процессорами Intel® Xeon®.
FAGP следует за GATK BPW. Оно обеспечивает ускорение во многих компонентах конвейеров: от выравнивания (BWA) до вызовов вариантов (HaplotypeCaller) (4). В дополнение к ускоривной BWA она также включает в себя ускоривную версию выровня minimap2, которая является частью альтернативного геномного канала от Falcon (5). Альтернативный конвейер обеспечивает еще более быстрое решение. Он может завершить секвенирование всего генома в 50 раз в течение 3 часов. Оба выравнивания имеют функцию создания отмеченных дубликатов и отсортированные операции чтения без использования дополнительных инструментов.
FAGP обеспечивает высокую производительность и пропускную способность за счет ускорения интенсивных вычислений в конвейере GATK с помощью платформ Intel FPGA PAC. Это отличается от горизонтально масштабируемых решений, которые обеспечивают высокую пропускную способность за счет добавления дополнительных ресурсов ЦП. Такие горизонтально масштабируемые решения имеют ограниченную возможность сокращения расходов или задержки по выборке.
Еще одно преимущество решения Falcon — это открытый канал продаж, как GATK. Пользователи могут управлять отдельными этапами в конвейерах. Промежуточные данные сохраняются и могут быть доступны.
Таблица 1. Преимущества магистрали геномики Falcon Accelerated
Преимущества falcon Accelerated Genomics Pipeline (FAGP) |
True GATK |
Поддержка нескольких версий GATK, включая 4.0 |
Отраслевой масштаб |
Выполнение пяти целых геномов или 24 целых экзомов за один день |
Альтернативный вариант |
< 3-часовое время обработки в локальной среде для WGS (в 50 раз) |
Скорость |
Внедрение передовых практик >GATK в 15 раз быстрее |
Использование существующих |
Нет необходимости перезаписывать алгоритмы работы |
Конфигурация оборудования Dell
Таблица 2. Серверы Dell EMC PowerEdge R740xd в качестве тестовой среды
Dell EMC PowerEdge R740xd |
Процессор |
2 процессора Intel(R) Xeon(R) Gold 6148, 2,4 ГГц |
Модули |
384 Гбайт, 32 модуля RDIMM по 16 Гбайт, 2666 МТ/с, двухранговые |
Хранилище |
4 2,5-дюймовых жестких диска SAS 1,2 Тбайт, 10 000 об/мин, 12 Гбит/с, 512n, 2,5 дюйма, с поддержкой «горячего» подключения в RAID 0 2 процессора INTEL SSDPEDMD020T4 DC P3700 1,8 Тбайт в программном RAID 0 |
FPGA |
Программируемая плата ускорения Intel с intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
Профиль системы |
Производительность |
Версия BIOS |
2.1.3 |
Гиперпоточитаемая |
Enabled |
ОС |
Red Hat Enterprise Linux Server версии 7.4 (Hatpo) (3.10.0-693.el7.x86_64) |
Оценка производительности
В ходе нашего эталонного тестирования мы использовали данные секвенирования генома целиком в 10, 30 и 50 раз.
Табл. 3. Протестированные данные по секвенированию всего генома
Результаты:
В табл. 4 приводится краткое описание времени, необходимого для завершения конвейера передовых практик GATK 4.0 в течение трех циклов тестирования с использованием FAGP и intel FPGA PAC, размещенного на сервере Dell EMC PowerEdge R740xd.
Таблица 4. Общее время выполнения с использованием передовых практик для канала продаж версии 2.1.1
Образец |
Глубина охвата |
Тест 1 |
Время выполнения (минуты) Тест 2 |
Тест 3 |
ERR091571 |
В 10 раз |
75.63 |
76.67 |
76.38 |
SRR3124837 |
В 30 раз |
160.00 |
162.77 |
161.38 |
ERR194161 |
В 50 раз |
242.97 |
250.65 |
247.18 |
В табл. 5 приводится краткое описание времени (в минутах), затраченного на разработку альтернативного канала продаж. Falcon FalconВ течение трех циклов тестирования с использованием FAGP и intel FPGA PAC, размещенного на сервере Dell EMC PowerEdge R740xd.
Таблица 5. Общее время выполнения при вызове альтернативного варианта
Образец |
Глубина охвата |
Тест 1 |
Время выполнения (минуты) Тест 2 |
Тест 3 |
ERR091571 |
В 10 раз |
62.70 |
58.21 |
59.80 |
SRR3124837 |
В 30 раз |
130.38 |
129.90 |
129.95 |
ERR194161 |
В 50 раз |
171.52 |
171.87 |
171.37 |
Сводка по решению Falcon для генома
Магистральный канал Falcon Accelerated для геномики обеспечивает высокую пропускную способность, низкую стоимость, выборку в день. Вместе с программируемой ускоривной картой Intel FPGA и сертифицированным сервером DELL FAGP предоставляет комплексное решение, которое можно легко внедрить для приложений секвенирования генома
». В TCGB мы предоставляем услуги по секвенации генома нашим клиентам по всей стране. Falcon Accelerated Genomics Pipeline* позволило нам сократить время с нескольких дней до нескольких часов, сохраняя при этом точность магистрали GATK отраслевого стандарта».
— Доктор Ксимин Ли (Xinmin Li), директор технологического центра по геномике и биоинформатике (TCGB) UCLA
Ресурсы
1. Секвенирование генома создает так много данных, которые мы не знаем, что с ней делать. [Онлайн] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don-know-what-to-do-with-it.
2. GATK. [Онлайн]
https://software.broadinstitute.org/gatk/3. Ускоренная геномика. [Онлайн]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Онлайн]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Онлайн]
https://github.com/lh3/minimap2
Ускорение процесса геномного секвенирования с помощью пайплайна Falcon Accelerated Genomics Pipeline (FAGP) на базе Intel FPGA PAC
Конвейер геномики Falcon Accelerated с одной программируемой ускоривной картой Intel FPGA может обрабатывать геном всего в 50 раз менее чем за 3 часа через альтернативный канал вызова вариантов.