采用单个英特尔 FPGA 可编程加速卡的 Falcon Accelerated Genomics Pipeline 可在不到 3 小时的时间内通过备用变体呼叫管道处理 50 倍的全人类基因组。
概述、市场挑战(需求)、Falcon 解决方案满足需求
精准医学、基因组学和臅学使用基因组测序来进行研究、改善诊断、开发药物、提高医疗保健提供商的护理质量并优化产量。对于生命科学而言,基因组分析现在是一个关键应用程序,部分原因在于通过新一代测序 (NGS) 的进步大幅降低了数据收集的成本。除了数据收集的增加之外,大学、基因组研究中心、制药公司和医疗保健组织使用的基因组应用程序范围也显著增加。
每七个月,基因组数据量就会翻倍 (1)。因此,以高效且经济高效的方式处理数据变得至关重要。仅处理器解决方案的计算能力扩展速度不够快,无法跟上基因组数据增长的步伐。这导致了对硬件加速的需求。FPGA 等加速器正在成为满足此基因组数据爆炸的计算需求的关键。与其他硬件加速解决方案相比,Falcon Accelerated Genomics Pipeline (FAGP) 提供了灵活性、高吞吐量和更低的每样本成本。
什么是 FPGA、英特尔 PAC 产品和优势
FPGA 是硅片设备,可以使用与您的工作负载完全匹配的数据路径(如基因组测序、数据分析或压缩)动态重新编程,如 图 1 所示。这种多功能性支持调配更快的处理、更节能的计算和更低的延迟服务 — 降低您的总拥有成本,并在数据中心的功率、空间和冷却限制范围内更大限度地提高计算容量。
传统上,FPGA 需要深厚的领域专业知识来进行编程。为了简化开发流程并实现跨数据中心的快速部署,英特尔提供了一个加速平台,其中包括基于 PCI Express* (PCIe*) 的英特尔 FPGA 可编程加速卡 (Intel FPGA PAC) 和英特尔®加速堆栈(带® FPGA)。这些英特尔平台通过 Dell EMC 进行合格、验证和部署。Intel Acceleration Platform 与 Falcon Computing 等生态系统合作伙伴一起提供可靠且现成的解决方案,并提供虚拟化的透明硬件。
图 1 提高了标准 GATK 管道的准确性和速度
Falcon 解决方案详细信息:
基因组分析工具包 (GATK) 是基因组学社区接受的基因组数据处理的黄金标准 (2)。其最佳实践工作流 (BPW) 因其计算速度缓慢而众所周知,可为大型样本(如全基因组 (WGS) 生成结果。为了解决此问题,Falcon Computing Solutions 开发了一套灵活的软件包,该软件包遵循 BPW,可在多个平台和体系结构中轻松实施。 与基于 CPU 的 GATK 管道相比,速度要快几个数量级。
FAGP 提供了一种端到端解决方案,可使用 GATK 管道经济高效地分析基因组数据,并具有高性能、准确性和可重现性。该解决方案提供高达 15 倍的速度,准确度与 GATK (3) 相同。这意味着通常需要 50 到 60 小时的分析可以在 4 小时 (3) 内进行。FAGP 与高性能、可靠的 Intel Arria 10 FPGA 和英特尔®至强®处理器一起提供卓越的加速和准确性。
FAGP 遵循 GATK BPW。它在管道的许多组件中实施加速,从定位 (BWA) 到变体调用 (HaplotypeCaller) (4)。除了加速 BWA 之外,它还包含一个加速版本的对齐器 Minimap2,该版本是 Falcon 的备用基因组管道的一部分 (5)。 备用管道提供了更快的解决方案。它可以在 3 小时内完成 50 倍全基因组测序。两个对齐器都具有生成标记的重复和排序读取的功能,而无需使用其他工具。
FAGP 通过使用英特尔 FPGA PAC 平台加速 GATK 管道中的密集计算,实现高性能/吞吐量。这与通过添加更多 CPU 资源实现高吞吐量的横向扩展解决方案不同。此类横向扩展解决方案在降低成本或按样本延迟方面的能力有限。
Falcon 解决方案的另一个优势是它是一个开放的 GATK 管道。用户可以控制管道中的各个步骤。中间数据将被保存,并且可以访问。
表 1 Falcon Accelerated 基因组学管道的优势
Falcon Accelerated 基因组学管道 (FAGP) 优势 |
真正的 GATK |
支持多个 GATK 版本,包括 4.0 |
行业规模 |
在一天内运行五个完整基因组或 24 个完整外型 |
备选变体 |
< 对于 WGS,本地的 3 小时周转时间 (50 倍) |
速度 |
执行 GATK 最佳做法管道的速度提高多达 >15 倍 |
利用现有 |
无需重写工作算法 |
戴尔硬件配置
表 2 Dell EMC PowerEdge R740xd 作为测试平台
Dell EMC PowerEdge R740xd |
处理器 |
2 个英特尔(R) 至强 (R) 黄金级 6148 CPU,2.40 GHz |
内存 |
384 GB @ 32x 16 GB RDIMM,2666 MT/s,双列 |
存储 |
RAID 0 中 4 个 1.2 TB 10K RPM SAS 12Gbps 512n 2.5 英寸热插拔硬盘 2 个 INTEL SSDPEDMD020T4 DC P3700 1.8T 软件 RAID 0 |
Fpga |
英特尔可编程加速卡,采用英特尔 Arria® 10 GX FPGA(英特尔加速堆栈 1.1) |
系统配置文件 |
性能 |
BIOS版本 |
2.1.3 |
超线程 |
Enabled |
OS |
Red Hat Enterprise Linux Server 版本 7.4 (Ma 693.el7.x86_64) (3.10.0-693.el7.x86_64) |
性能评估
在我们的基准测试中,我们使用了覆盖深度为 10 倍、30 倍和 50 倍的全人类基因组测序数据。
表 3 测试的全基因组测序数据
结果:
表 4 总结了使用 FAGP 和位于 DELL EMC PowerEdge R740xd 服务器中的 Intel FPGA PAC 在三个测试周期内完成 GATK 4.0 最佳做法管道所需的时间。
表 4 最佳做法管道版本 2.1.1 的总运行时间
样品 |
覆盖深度 |
测试 1 |
运行时间(分钟) 测试 2 |
测试 3 |
ERR091571 |
10 倍 |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30 倍 |
160.00 |
162.77 |
161.38 |
ERR194161 |
50 倍 |
242.97 |
250.65 |
247.18 |
表 5 总结了完成备用管道所需的时间(以分钟为单位):Falcon Germline 使用 FAGP 和 Intel FPGA PAC 在 DELL EMC PowerEdge R740xd 服务器中进行了三个测试周期。
表 5 来自备用变体调用管道的总运行时数
样品 |
覆盖深度 |
测试 1 |
运行时间(分钟) 测试 2 |
测试 3 |
ERR091571 |
10 倍 |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30 倍 |
130.38 |
129.90 |
129.95 |
ERR194161 |
50 倍 |
171.52 |
171.87 |
171.37 |
Falcon 基因组解决方案摘要
Falcon Accelerated 基因组学管道可提供高吞吐量、低成本/采样/日益。FAGP 与英特尔 FPGA 可编程加速卡和经认证的 DELL 服务器一起,提供了一个完整的解决方案,可以轻松地为您的基因组测序应用程序采用。
”在 TCGB,我们为全国客户提供基因组测序服务。Falcon Accelerated Genomics 管道* 使我们能够将周转时间从几天缩短到几个小时,同时保持行业标准 GATK 管道的准确性。”
- 基因组学与生物信息学 (TCGB) 技术中心总监 Li Xinmin Li 博士
资源
1.基因组测序会产生大量数据,而我们不知道该如何处理它。[在线] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don-know-what-to-do-with-it。
2.GATK。[在线]
https://software.broadinstitute.org/gatk/3.加速基因组学。[在线]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4.BWA。[在线]
http://bio-bwa.sourceforge.net/bwa.shtml5.Minimap2。[在线]
https://github.com/lh3/minimap2
采用单个英特尔 FPGA 可编程加速卡的 Falcon Accelerated Genomics Pipeline 可在不到 3 小时的时间内通过备用变体呼叫管道处理 50 倍的全人类基因组。