使用單一 Intel FPGA 可程式化加速卡的 Falcon 加速基因組管道,可透過替代變異呼叫管道,在不到 3 小時內處理 50 個全人類基因組。
概觀、市場挑戰 (需求)、Falcon 解決方案解答需求
精密醫學、基因組學和表觀基因學是使用基因組順序來進行研究、改善診斷、開發製藥、提高醫療照護供應商的照護品質,以及優化作物生產。就生命科學而言,基因組分析現已成為重要應用,部分原因在於新一代排序 (NGS) 的進步大幅降低了數據收集的成本。除了增加數據收集量之外,大學、基因組研究中心、製藥公司和醫療照護組織使用的基因組應用程式範圍也顯著增加。
每七個月,基因組數據量就會增加一倍 (1)。因此,以高效率且符合成本效益的方式處理數據變得十分重要。僅限處理器解決方案的運算能力擴充速度不足以跟上基因組數據成長的速度。這已導致需要硬體加速。FPGA 等加速器正逐漸成為符合此基因組數據爆炸的運算需求的關鍵。相較於其他硬體加速解決方案,Falcon Accelerated Genomics 管道 (FAGP) 可提供彈性、高輸送量,以及每個範例的較低成本。
什麼是 FPGA、Intel PAC 產品與優勢
FPGA 是矽裝置,可透過與您的工作負載完全相符的數據路徑動態重新設定,例如基因組排序、數據分析或壓縮(如圖 1 所示)。此靈活功能可讓您隨需分配更快速的處理速度、更省電的運算效率,以及更低的延遲服務,進而降低您的總體擁有成本,並最大化數據中心電力、空間和散熱限制內的運算容量。
傳統上,FPGA 需要深入的網域專業知識才能完成計劃。為簡化開發流程,並實現跨數據中心的快速部署,Intel 提供包含PCI Express* (PCIe*) 型 Intel FPGA 可程式化加速卡 (Intel FPGA PAC) 和 Intel Acceleration Stack for Intel® Xeon® CPU (含 FPGA) 的加速平臺。這些 Intel 平臺均通過 Dell EMC 認證、驗證和部署。Intel Acceleration Platform 與 Falcon Computing 等生態系統合作夥伴一同提供可靠且隨時可用的解決方案,在機架底下提供透明的硬體。
圖 1 改善標準 GATK 管道的準確度和速度
Falcon 解決方案詳細資料:
基因組分析工具組 (GATK) 是基因組學社群 (2) 接受之基因組數據處理的黃金標準。其最佳實務工作流程 (BPW) 以運算緩慢,為全基因組 (WGS) 等大型樣本產生結果而出名。為了解決此問題,Falcon Computing Solutions 已開發出遵循 BPW 的彈性軟體套件,並可在多個平臺和架構中輕鬆實作。 與 CPU 型 GATK 管道相比,速度快了幾個數量級。
FAGP 提供端對端解決方案,可透過 GATK 管道以高效能、準確性和重現性,以符合成本效益分析基因組數據。解決方案提供高達 15 倍的速度,準確度與 GATK (3) 相同。這表示通常需要 50 到 60 小時的分析可以在不到 4 小時 (3) 的時間內進行。FAGP 搭配高效能、可靠 Intel Arria 10 FPGA 和 Intel® Xeon® 處理器,提供卓越的加速和準確度。
FAGP 遵循 GATK BPW。它會在管道的多個元件中實作加速,從對齊 (BWA) 到變異呼叫 (HaplotypeCaller) (4)。除了加速的 BWA 之外,還包括從 Falcon (5) 替代基因組管道中加速的對齊器 Minimap2 版本。 替代管道提供更快速的解決方案。它可以在 3 小時內完成 50 個全基因組排序。兩個對齊器的功能皆可產生標示的重複數據和排序讀取,無需使用其他工具。
FAGP 使用 Intel FPGA PAC 平臺,在 GATK 管道中加速密集運算,達到高效能/輸送量。這不同於透過新增更多 CPU 資源來達到高輸送量的水準擴充解決方案。這類水平擴充解決方案能夠降低成本或依範例延遲時間而有所限制。
Falcon 解決方案的另一個優點是它是以 GATK 為開放式管道。用戶可以控制管道中的個別步驟。中繼數據隨即儲存,且可存取。
第 1 表:Falcon 加速基因組管道的優勢
Falcon 加速基因組管道 (FAGP) 優勢 |
True GATK |
支援多個 GATK 版本,包括 4.0 |
產業規模 |
一天執行五個全基因組或24個全exome |
替代款式 |
< WGS 的內部部署時間為 3 小時 (50 倍) |
速度 |
執行 GATK 最佳實務管道的速度最多提高 >15 倍 |
利用現有的 |
不需要重寫工作演算法 |
Dell 硬體組態
表 2 Dell EMC PowerEdge R740xd 作為測試台
Dell EMC PowerEdge R740xd |
處理器 |
2 個 Intel(R) Xeon(R) 黃金級 6148 CPU (2.40 GHz) |
記憶體 |
384 GB (32 條 16 GB RDIMM),2666 MT/秒,雙排 |
儲存裝置 |
4 個 1.2 TB 10K RPM SAS 12Gbps 512n 2.5 吋熱插入硬碟 (在 RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T 軟體 RAID 0 中) |
Fpga |
Intel 可程式化加速卡搭配 Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
系統設定檔 |
效能 |
BIOS 版本 |
2.1.3 |
超讀取 |
已啟用 |
操作系統 |
Red Hat Enterprise Linux Server 版本 7.4 (Ma 693.el7.x86_64) (3.10.0-693.el7.x86_64) |
效能評估
在效能指標測試中,我們以10倍、30倍和50倍的涵蓋深度使用整個人類基因組排序數據。
表 3 測試的全基因組排序數據
結果:
表 4 概述使用 FAGP 和 DELL EMC PowerEdge R740xd 伺服器內的 Intel FPGA PAC,在三個測試週期中完成 GATK 4.0 最佳實務管道所花的時間。
表 4 最佳實務管道版本 2.1.1 的總運行時間
樣品 |
涵蓋深度 |
測試 1 |
運行時間 (分鐘) 測試 2 |
測試 3 |
ERR091571 |
10 倍 |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30 倍 |
160.00 |
162.77 |
161.38 |
ERR194161 |
50 倍 |
242.97 |
250.65 |
247.18 |
表 5 概述完成替代管道所需的時間 (以分鐘為單位):使用FAGP和存放在 DELL EMC PowerEdge R740xd 伺服器中的Intel FPGA PAC,進行三個測試週期的 FalconGermline。
表 5 替代變異呼叫管道的總運行時間
樣品 |
涵蓋深度 |
測試 1 |
運行時間 (分鐘) 測試 2 |
測試 3 |
ERR091571 |
10 倍 |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30 倍 |
130.38 |
129.90 |
129.95 |
ERR194161 |
50 倍 |
171.52 |
171.87 |
171.37 |
Falcon 基因組解決方案摘要
Falcon 加速基因組行銷管道提供高輸送量、低成本/範例/日常福利。FAGP 連同 Intel FPGA 可程式化加速卡和認證的 DELL 伺服器,提供完整的解決方案,讓您輕鬆運用基因組定序應用程式。
在 TCGB,我們為全國的用戶端提供基因組排序服務。Falcon Acceleration Genomics Pipeline* 讓我們得以將轉機時間從幾天縮短到數小時,同時保持業界標準 GATK 管道的準確度。」
— Genomics 與 Bioinformatics (TCGB) 的 Technology Center 總監 Li 方明博士
資源
1.對基因組進行排序會產生許多我們不知道該如何處理的數據。[Online] https://www.washingtonpost.com/news/of-of-science/wp/2015/07/07/sequencing-the-基因組-create-so-much-data-we-do-t-know-what-do-with-it.
2.GATK,[在線]
https://software.broadinstitute.org/gatk/3.加速基因組。[在線]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4.BWA。[在線]
http://bio-bwa.sourceforge.net/bwa.shtml5.迷你圖 2。[在線]
https://github.com/lh3/minimap2