概要
次世代シーケンシング(NGS)データを処理する最初のステップは、一次解析と呼ばれます。このステップは、シーケンシング デバイス固有のもので、配列の読み取りを含む複数のFASTQファイルを生成します。次のステップは、二次解析と呼ばれ、FASTQの配列読み取りが、参照ゲノムまたは参照トランスクリプトームにマップされます。その先の処理では、対象サンプルと参照サンプル間のバリアントまたは相違点を識別します。このバリアントは、後続のダウンストリーム ステップで注釈が付けられ、解釈されます。1つのサンプルに対する二次解析には、データのサイズ、使用可能なコンピューティング リソース、ソフトウェア、分析ワークフローに応じて、数時間から数日かかります。
二次解析は、特に数百から数千のゲノムを処理する場合、コンピューティングとストレージの負荷が高いプロセスです。二次解析のボトルネックを回避するために、多くの戦略が存在します。最近までは、ハードウェア アクセラレーターにカスタム ソフトウェアが必要となるため、GPUまたはFPGAを使用したハードウェア アクセラレーションの採用は少ないままでした。2019年にNVIDIAが買収したParabricksのゲノム解析ソフトウェアは、GPUを使用してさまざまなゲノム解析ワークフローを実行するソフトウェア スタックの先駆けとなっています。弊社では約2年前に、
Dell EMC PowerEdge C4140/4X NVIDIA® Tesla® V100 GPUでParabricksをテストしました。Dellでは、サーバーやストレージ ソリューションで多くの技術的進歩を導入し、また
NVIDIA Clara Parabricksでは、アクセラレーションを強化し、バリアント コーラーを追加した、堅牢なバージョンがリリースされました。たとえば、NVIDIA® Tesla® T4 GPUを搭載した
DELL EMC DSS 8440サーバーをベースにしたマルチGPUサーバーは、二次解析の高速化を実現し、価格とパフォーマンスのバランスを向上させています。 このブログでは、マルチTesla® T4 GPU、
Dell EMC Isilon F800ストレージを搭載したDSS 8440サーバーでのNVIDIA Clara Parabricks二次解析に関する新しいリファレンス アーキテクチャとベンチマーク結果を報告しています。
リファレンス アーキテクチャ
図1は、テストされたリファレンス アーキテクチャを示しています。このアーキテクチャはモジュラー型で、簡単に拡張可能です。NVIDIA Clara Parabricksアプリケーション ソフトウェアは、1つまたは複数のGPUを使用して、可能な限りシンプルなスケールアウトを実現します。ハードウェア ビルディング ブロックは、管理ノードとしての
Dell EMC PowerEdge R640、GPUコンピューティング用のDSS 8440サーバー、およびDell EMC Isilon F800ストレージで構成されています。
図1テストされたリファレンス アーキテクチャ
DSS 8440、2ソケット、4Uサーバーは、業界をリードする最大10台のNVIDIA® Tesla® V100S Tensor Core GPU、最大10台のNVIDIA® Quadro RTX™ GPU、または最大16台のNVIDIA Tesla T4 GPUを搭載して、非常に大きな処理能力を提供します。表1に、DSS 8440の詳細構成がリストされています。
Dell EMC DSS 8440 |
CPU |
2 x Xeon® Gold 6248R 24コア3.0 GHz |
RAM |
24 x 64GB(2933 MTps) |
オペレーティングシステム |
Red Hat Enterprise Linux Serverリリース7.4(Maipo) |
BIOSシステム プロファイル |
最適化されたパフォーマンス |
論理プロセッサー |
無効 |
仮想化テクノロジー |
無効 |
アクセラレーター |
16 x NVIDIA® Tesla® T4 GPU |
Parabricks |
v 3.0.0.05 |
2つのZ9100–ONスイッチで、コンピュート ノードとIsilon F800ストレージ クラスター間の相互接続が提供されました。N2248X-ONの追加スイッチは、管理に使用されます。
NGSデータ
二次解析のベンチマーキングの実行時に使用されるデータは、3つのヒト全ゲノム配列(WGS)データ セット(
ERR091571、
SRR3124837、および
ERR194161)で構成されており、それぞれ10x、30x、50xのサンプル カバレッジを持ちます。これらのデータ セットは、
European Nucleotide Archive(ENA)で入手できます。
パフォーマンスの評価
ソフトウェア機能拡張によるランタイム削減
NVIDIAでは引き続きNVIDIA Clara Parabricksのソフトウェア機能改善を導入しています。図2は、4台のV100 GPUを搭載したDell PowerEdge C4140サーバーのテスト環境を使用して、生殖細胞系列パイプラインを実行している2つのバージョンのParabricks間のランタイム削減を示しています。v2.1.0からv3.0.0に移行すると、ランタイムは42%削減します。
図2:最新バージョンのParabricksによる生殖細胞系列バリアント コール パイプラインでのランタイム
16台のT4を搭載したDSS 8440のパフォーマンス
1台のT4 GPUを使用した
NVIDIA Clara Parabricks二次解析のランタイムは、1台のV100 GPUを使用した場合よりも約30%遅くなります。ただし、2台のT4 GPUでは、1台のV100 GPUよりもおよそ半分のコストで約10%以上のTFLOPSを提供します。DSS 8440は、最大16個のPCIeスロットを提供します。これによって、4台のV100 GPUを搭載したC4140システムと同様のランタイム パフォーマンスを提供するT4 GPUベースのサーバーをより低いコストで設計できる可能性がでてきます。
Parabricksによるこの生殖細胞系列の解析は、16台のT4 GPUを搭載したPowerEdge DSS 8440を使用して実行されました。前述の各WGSサンプル データ セットでは、二次解析に1、2、4、8、16台のT4 GPUを使用したランタイムが記録されました。結果は、図3~5に示します。全体として、解析あたりのGPU数が増加するにしたがって、ランタイムは直線的に増加しません。増加パターンは、サンプルあたりのデータ量が10x~50xのカバレッジで増加するのと同じです。
ここには記載されていませんが、以前Dell EMCが解析あたり8台以上のV100 GPUを使用してParabricksのランタイムを
調査した結果によると、T4 GPUのように効率的に増加しませんでした。追加のテストでは、6台のT4 GPUによるランタイム結果が、4台のV100 GPUとほぼ同一であることを示しています。
図3:10x WGSとのパフォーマンス比較

図4:30x WGSとのパフォーマンス比較

図5:50x WGSとのパフォーマンス比較
結論
16台のT4 GPUを搭載したDSS 8440では、1日あたり30 - 50xヒトゲノムの処理が可能です。従来のx86 CPUアーキテクチャを使用した、同様の日次解析のスループットには、10個のPowerEdge C6420コンピュート ノードが必要です。完全なアーキテクチャについては、
以前のDellの記事で説明されています。
ただし、16台のT4 GPUすべてを使用して1つのサンプルを処理することにはほとんどメリットがなく、解析当たり16台のGPUを使用しても、8台のGPUを使用した場合よりも最高10%高速化されるのみです。DSS 8440の設計では、複数の二次解析を並行して実行できます。サンプルあたり8台のT4 GPUを割り当てることにより、日次解析スループットは1日あたり最大50ゲノムまで増加します。サンプルあたり4台のGPUを使用すると、1日あたり最大70ゲノムまで解析スループットが向上します。さらに、T4 GPUを使用した日次出力は、V100 GPU設計を使用した場合のコストの半分未満です。
速度に加えて、他の解析ツールとの互換性は、結果の比較可能性に不可欠です。Parabricksによる生殖細胞系列解析の結果は、以前のテストからの、既知のBWA-GATKハプロタイプ コーラー解析の結果とほぼ同一です。 また、Parabricksバリアント コール結果を、samtools/mpileupなどの他のツール セットと比較しました。 これらの2つの完全に異なるツールでは、特定されたバリアントに対して最大90%一致し、また重要な遺伝子を含んだ多くの有名なゲノム領域のバリエーションでは99%を超える一致がありました。