1枚のインテルFPGAプログラマブル アクセラレーション カードを使用したFalcon Accelerated Genomics Pipelineは、代替バリアント呼び出しパイプラインを通じて、3時間未満で50倍の全人ゲノムを処理できます。
概要、市場の課題(ニーズ)、Falconソリューションがニーズに応える
プレシジョン メディシン、ゲノミクス、およびゲノム配列解析は、ゲノム シーケンシングを使用して研究を行い、診断を改善し、医薬品を開発し、医療機関の治療品質を向上させ、農業生産を最適化しています。ライフ サイエンスでは、ゲノム分析が重要なアプリケーションになりました。これは、次世代シーケンス(NGS)の進歩によるデータ コレクションの大幅なコスト削減によるものです。データ コレクションの増加に加えて、大学、ゲノム研究センター、製薬会社、医療機関で使用されるゲノム アプリケーションの範囲も大幅に増加しています。
ゲノム データの量は7か月ごとに倍増しています(1)。その結果、効率的でコスト パフォーマンスに優れた方法でデータを処理することが重要になっています。プロセッサーのみのソリューションの計算能力は、ゲノム データの増加に対応するのに十分な速度で拡張できません。これにより、ハードウェアの高速化が必要になっています。FPGAなどのアクセラレーターは、このゲノム データの急増に対応する上で極めて重要になっています。Falcon Accelerated Genomics Pipeline(FAGP)は、他のハードウェアアクセラレーション ソリューションと比較して、柔軟性、高スループット、サンプルあたりのコストの削減を実現します。
FPGA、インテルPAC製品とメリット
FPGAは、図1に示すように、ゲノム シーケンシング、データ分析、圧縮など、ワークロードと正確に一致するデータ パスを使用して動的に再プログラミングできるシリコン デバイスです。この汎用性により、より高速な処理のプロビジョニング、より電力効率の高い計算、レイテンシー サービスの削減が可能になります。これにより、総所有コストを削減し、データ センターの電力、スペース、冷却の制約内でコンピューティング容量を最大化できます。
従来、FPGAはプログラムに深い専門知識を必要とします。開発フローをシンプルにし、データ センター全体での迅速な導入を可能にするために、インテルは、PCI Express*(PCIe*)ベースのインテルFPGAプログラマブル アクセラレーション カード(インテルFPGA PAC)とインテルXeon® CPUとFPGAを搭載したインテル® アクセラレーション スタックを含むアクセラレーション プラットフォームを提供しています。これらのインテル プラットフォームは、Dell EMCを通じて認定、検証、導入されています。Falcon Computingなどのエコシステム パートナーとともに、インテル アクセラレーション プラットフォームは、透過的なハードウェアを内部に備えた信頼性の高いすぐに使用できるソリューションを提供します。
図1 標準のGATKパイプラインの精度と速度の向上
Falcon Solutionの詳細:
GENOMICK(Genome Analysis Toolkit)は、ゲノミクス コミュニティーが受け入れるゲノム データ処理のゴールド スタンダードです(2)。ベスト プラクティス ワークフロー(BPW)は、計算が遅く、WGS(全ゲノム)などの大規模なサンプルの結果を生成することがよく知られています。この問題に対処するために、Falcon Computing Solutionsは、BPWに従い、複数のプラットフォームとアーキテクチャに簡単に実装できるツールの柔軟なソフトウェア パッケージを開発しました。 CPUベースのGATKパイプラインと比較して、数桁高速です。
FAGPは、高いパフォーマンス、精度、再現性を備えたGATKパイプラインを使用して、ゲノム データをコスト パフォーマンスに優れた方法で分析するエンド ツー エンドのソリューションを提供します。このソリューションは、GATK(3)と同じ精度で最大15倍の高速化を実現します。これは、通常50~60時間かかる分析を4時間以内に実施できることを意味します(3)。FAGPは、ハイパフォーマンスで信頼性の高いインテルArria 10 FPGAおよびインテル® Xeon®プロセッサーと組み合わせて、卓越したレベルの高速化と精度を提供します。
FAGPはGATK BPWに従います。BWA(アラインメント)からバリアント呼び出し(HaplotypeCaller)(4)まで、パイプラインの多くのコンポーネントで高速化を実装します。高速化されたBWAに加えて、Falcon(5)の代替ゲノム パイプラインの一部であるアラインダーMinimap2の高速化バージョンも含まれています。 代替パイプラインは、さらに高速なソリューションを提供します。3時間以内に全ゲノムシーケンシングを50回完了できます。両方のアラインターには、追加のツールを使用することなく、マークされた重複を生成し、ソートされた読み取りを生成する機能があります。
FAGPは、インテルFPGA PACプラットフォームを使用して、GATKパイプラインの負荷の高い計算を高速化することで、ハイ パフォーマンス/スループットを実現します。これは、CPUリソースを追加することで高スループットを実現するスケールアウト ソリューションとは異なります。このようなスケールアウト ソリューションでは、コストやサンプルあたりのレイテンシーを削減する能力が限られています。
Falconソリューションのもう1つの利点は、このソリューションがGATKとしてのオープン パイプラインであることです。ユーザーは、パイプライン内の個々のステップを制御できます。中間データが保存され、アクセスできます。
表1 Falcon Accelerated Genomicsパイプラインのメリット
Falcon Accelerated Genomics Pipeline(FAGP)のメリット |
真のGATK |
4.0を含む複数のGATKバージョンのサポート |
業界規模 |
5つのゲノム全体または24個の全ゲノムを1日で実行 |
代替バリアント |
< WGSのオン プレミスでの3時間の所要時間(50倍) |
スピード |
GATKのベスト プラクティス パイプラインを最大15倍迅速に >実行 |
既存の |
作業アルゴリズムを書き換える必要がない |
Dellハードウェア構成
表2 テストベッドとしてのDell EMC PowerEdge R740xd
Dell EMC PowerEdge R740xd |
CPU |
インテル(R) Xeon(R) Gold 6148 CPU @ 2.40GHz x 2 |
メモリー |
384GB @ 32x 16GB RDIMM、2666MT/秒、デュアル ランク |
ストレージ |
4 x 1.2TB 10K RPM SAS 12Gbps 512n 2.5インチ ホットプラグ 対応ハード ドライブ(RAID 0) 2 x インテル SSDPEDMD020T4 DC P3700 1.8T(ソフトウェアRAID 0) |
Fpga |
インテルArria® 10 GX FPGA搭載インテル プログラマブル アクセラレーション カード(インテル アクセラレーション スタック1.1) |
システムプロファイル |
パフォーマンス |
BIOSのバージョン |
2.1.3 |
ハイパースレッディング |
Enabled |
OS |
Red Hat Enterprise Linux Serverリリース7.4(Release 7.4)(3.10.0-693.el7.x86_64) |
パフォーマンスの評価
ベンチマーク テストでは、人間のゲノム シーケンシング データ全体を10倍、30倍、50倍の範囲で使用しました。
表3 テスト済みの全ゲノム シーケンシング データ
結果:
表4 は、DELL EMC PowerEdge R740xdサーバーに格納されているFAGPとインテルFPGA PACを使用して、3回のテスト サイクルでGATK 4.0ベスト プラクティス パイプラインを完了するまでの時間をまとめたものです。
表4 ベスト プラクティス パイプライン バージョン2.1.1からの合計ランタイム
サンプル |
カバー範囲の深さ |
テスト1 |
ランタイム(分) テスト2 |
テスト3 |
ERR091571 |
10倍 |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30倍 |
160.00 |
162.77 |
161.38 |
ERR194161 |
50倍 |
242.97 |
250.65 |
247.18 |
表5 は、代替パイプラインの完了にかかる時間(分単位)をまとめたものです。Dell EMC PowerEdge R740xdサーバーに格納されているFAGPとインテルFPGA PACを使用したFalcon Falcon Falconlineの3つのテスト サイクル。
表5 代替バリアント呼び出しパイプラインからの合計ランタイム
サンプル |
カバー範囲の深さ |
テスト1 |
ランタイム(分) テスト2 |
テスト3 |
ERR091571 |
10倍 |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30倍 |
130.38 |
129.90 |
129.95 |
ERR194161 |
50倍 |
171.52 |
171.87 |
171.37 |
Falcon Genomic Solutionの概要
Falcon Accelerated Genomics Pipelineは、高スループット、低コスト/サンプル/日のメリットを提供します。FAGPは、インテルFPGAプログラマブル アクセラレーション カードと認定Dellサーバーとともに、ゲノム シーケンシング アプリケーション
に簡単に導入できる完全なソリューションを提供します。」TCGBでは、ゲノムシーケンシング サービスを全国規模のクライアントに提供しています。Falcon Accelerated Genomics Pipeline*により、業界標準のGATKパイプラインの精度を維持しながら、ターンアラウンドを数日から数時間に短縮できました。」
— TCGB(ゲノミクスおよびバイオインフォマティクス)UCLAテクノロジー センターディレクター、Li博士
リソース
1.ゲノムをシーケンシングすると、何をすべきか分からないほど多くのデータが作成されます。[オンライン] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it
2.GATK。[オンライン]
https://software.broadinstitute.org/gatk/3.ゲノミクスの高速化。[オンライン]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4.Bwa。[オンライン]
http://bio-bwa.sourceforge.net/bwa.shtml5.Minimap2。[オンライン]
https://github.com/lh3/minimap2
1枚のインテルFPGAプログラマブル アクセラレーション カードを使用したFalcon Accelerated Genomics Pipelineは、代替バリアント呼び出しパイプラインを通じて、3時間未満で50倍の全人ゲノムを処理できます。