Article Number: 000180441

Dell EMC DSS 8440サーバーおよびNVIDIA T4 GPUを使用したNVIDIA Clara Parabricksによるゲノムデータ解析の高速化

Summary: この記事では、NVIDIA T4 GPUを搭載したDell EMC DSS 8440でのNVIDIA Parabricksを使用したゲノムデータ解析の高速化について説明します。

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Instructions

概要

次世代シーケンシング（NGS）データを処理する最初のステップは、一次解析と呼ばれます。このステップは、シーケンシングデバイス固有のもので、配列の読み取りを含む複数のFASTQファイルを生成します。次のステップは、二次解析と呼ばれ、FASTQの配列読み取りが、参照ゲノムまたは参照トランスクリプトームにマップされます。その先の処理では、対象サンプルと参照サンプル間のバリアントまたは相違点を識別します。このバリアントは、後続のダウンストリームステップで注釈が付けられ、解釈されます。1つのサンプルに対する二次解析には、データのサイズ、使用可能なコンピューティングリソース、ソフトウェア、分析ワークフローに応じて、数時間から数日かかります。

二次解析は、特に数百から数千のゲノムを処理する場合、コンピューティングとストレージの負荷が高いプロセスです。二次解析のボトルネックを回避するために、多くの戦略が存在します。最近までは、ハードウェアアクセラレーターにカスタムソフトウェアが必要となるため、GPUまたはFPGAを使用したハードウェアアクセラレーションの採用は少ないままでした。2019年にNVIDIAが買収したParabricksのゲノム解析ソフトウェアは、GPUを使用してさまざまなゲノム解析ワークフローを実行するソフトウェアスタックの先駆けとなっています。弊社では約2年前に、Dell EMC PowerEdge C4140/4X NVIDIA® Tesla® V100 GPUでParabricksをテストしました。Dellでは、サーバーやストレージソリューションで多くの技術的進歩を導入し、またNVIDIA Clara Parabricksでは、アクセラレーションを強化し、バリアントコーラーを追加した、堅牢なバージョンがリリースされました。たとえば、NVIDIA® Tesla® T4 GPUを搭載したDELL EMC DSS 8440サーバーをベースにしたマルチGPUサーバーは、二次解析の高速化を実現し、価格とパフォーマンスのバランスを向上させています。このブログでは、マルチTesla® T4 GPU、Dell EMC Isilon F800ストレージを搭載したDSS 8440サーバーでのNVIDIA Clara Parabricks二次解析に関する新しいリファレンスアーキテクチャとベンチマーク結果を報告しています。

リファレンスアーキテクチャ

図1は、テストされたリファレンスアーキテクチャを示しています。このアーキテクチャはモジュラー型で、簡単に拡張可能です。NVIDIA Clara Parabricksアプリケーションソフトウェアは、1つまたは複数のGPUを使用して、可能な限りシンプルなスケールアウトを実現します。ハードウェアビルディングブロックは、管理ノードとしてのDell EMC PowerEdge R640、GPUコンピューティング用のDSS 8440サーバー、およびDell EMC Isilon F800ストレージで構成されています。

図1テストされたリファレンスアーキテクチャ

DSS 8440、2ソケット、4Uサーバーは、業界をリードする最大10台のNVIDIA® Tesla® V100S Tensor Core GPU、最大10台のNVIDIA® Quadro RTX™ GPU、または最大16台のNVIDIA Tesla T4 GPUを搭載して、非常に大きな処理能力を提供します。表1に、DSS 8440の詳細構成がリストされています。

Dell EMC DSS 8440
CPU	2 x Xeon® Gold 6248R 24コア3.0 GHz
RAM	24 x 64GB（2933 MTps）
オペレーティングシステム	Red Hat Enterprise Linux Serverリリース7.4（Maipo）
BIOSシステムプロファイル	最適化されたパフォーマンス
論理プロセッサー	無効
仮想化テクノロジー	無効
アクセラレーター	16 x NVIDIA® Tesla® T4 GPU
Parabricks	v 3.0.0.05

2つのZ9100–ONスイッチで、コンピュートノードとIsilon F800ストレージクラスター間の相互接続が提供されました。N2248X-ONの追加スイッチは、管理に使用されます。

NGSデータ

二次解析のベンチマーキングの実行時に使用されるデータは、3つのヒト全ゲノム配列（WGS）データセット（ERR091571、SRR3124837、およびERR194161）で構成されており、それぞれ10x、30x、50xのサンプルカバレッジを持ちます。これらのデータセットは、European Nucleotide Archive（ENA）で入手できます。

パフォーマンスの評価

ソフトウェア機能拡張によるランタイム削減
NVIDIAでは引き続きNVIDIA Clara Parabricksのソフトウェア機能改善を導入しています。図2は、4台のV100 GPUを搭載したDell PowerEdge C4140サーバーのテスト環境を使用して、生殖細胞系列パイプラインを実行している2つのバージョンのParabricks間のランタイム削減を示しています。v2.1.0からv3.0.0に移行すると、ランタイムは42%削減します。

図2：最新バージョンのParabricksによる生殖細胞系列バリアントコールパイプラインでのランタイム

16台のT4を搭載したDSS 8440のパフォーマンス

1台のT4 GPUを使用したNVIDIA Clara Parabricks二次解析のランタイムは、1台のV100 GPUを使用した場合よりも約30%遅くなります。ただし、2台のT4 GPUでは、1台のV100 GPUよりもおよそ半分のコストで約10%以上のTFLOPSを提供します。DSS 8440は、最大16個のPCIeスロットを提供します。これによって、4台のV100 GPUを搭載したC4140システムと同様のランタイムパフォーマンスを提供するT4 GPUベースのサーバーをより低いコストで設計できる可能性がでてきます。
Parabricksによるこの生殖細胞系列の解析は、16台のT4 GPUを搭載したPowerEdge DSS 8440を使用して実行されました。前述の各WGSサンプルデータセットでは、二次解析に1、2、4、8、16台のT4 GPUを使用したランタイムが記録されました。結果は、図3～5に示します。全体として、解析あたりのGPU数が増加するにしたがって、ランタイムは直線的に増加しません。増加パターンは、サンプルあたりのデータ量が10x～50xのカバレッジで増加するのと同じです。
ここには記載されていませんが、以前Dell EMCが解析あたり8台以上のV100 GPUを使用してParabricksのランタイムを調査した結果によると、T4 GPUのように効率的に増加しませんでした。追加のテストでは、6台のT4 GPUによるランタイム結果が、4台のV100 GPUとほぼ同一であることを示しています。

図3：10x WGSとのパフォーマンス比較

図4：30x WGSとのパフォーマンス比較

図5：50x WGSとのパフォーマンス比較

結論

16台のT4 GPUを搭載したDSS 8440では、1日あたり30 - 50xヒトゲノムの処理が可能です。従来のx86 CPUアーキテクチャを使用した、同様の日次解析のスループットには、10個のPowerEdge C6420コンピュートノードが必要です。完全なアーキテクチャについては、以前のDellの記事で説明されています。
ただし、16台のT4 GPUすべてを使用して1つのサンプルを処理することにはほとんどメリットがなく、解析当たり16台のGPUを使用しても、8台のGPUを使用した場合よりも最高10%高速化されるのみです。DSS 8440の設計では、複数の二次解析を並行して実行できます。サンプルあたり8台のT4 GPUを割り当てることにより、日次解析スループットは1日あたり最大50ゲノムまで増加します。サンプルあたり4台のGPUを使用すると、1日あたり最大70ゲノムまで解析スループットが向上します。さらに、T4 GPUを使用した日次出力は、V100 GPU設計を使用した場合のコストの半分未満です。
速度に加えて、他の解析ツールとの互換性は、結果の比較可能性に不可欠です。Parabricksによる生殖細胞系列解析の結果は、以前のテストからの、既知のBWA-GATKハプロタイプコーラー解析の結果とほぼ同一です。また、Parabricksバリアントコール結果を、samtools/mpileupなどの他のツールセットと比較しました。これらの2つの完全に異なるツールでは、特定されたバリアントに対して最大90%一致し、また重要な遺伝子を含んだ多くの有名なゲノム領域のバリエーションでは99%を超える一致がありました。

Dell EMC DSS 8440サーバーおよびNVIDIA T4 GPUを使用したNVIDIA Clara Parabricksによるゲノムデータ解析の高速化

Summary: この記事では、NVIDIA T4 GPUを搭載したDell EMC DSS 8440でのNVIDIA Parabricksを使用したゲノムデータ解析の高速化について説明します。

Article Content

Instructions

概要

リファレンスアーキテクチャ

NGSデータ

パフォーマンスの評価

結論

Article Properties

Affected Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

Dell EMC DSS 8440サーバーおよびNVIDIA T4 GPUを使用したNVIDIA Clara Parabricksによるゲノム データ解析の高速化

Summary: この記事では、NVIDIA T4 GPUを搭載したDell EMC DSS 8440でのNVIDIA Parabricksを使用したゲノム データ解析の高速化について説明します。

Article Content

Instructions

概要

リファレンス アーキテクチャ

NGSデータ

パフォーマンスの評価

結論

Article Properties

Affected Product

Last Published Date

Version

Article Type

Dell EMC DSS 8440サーバーおよびNVIDIA T4 GPUを使用したNVIDIA Clara Parabricksによるゲノムデータ解析の高速化

Summary: この記事では、NVIDIA T4 GPUを搭載したDell EMC DSS 8440でのNVIDIA Parabricksを使用したゲノムデータ解析の高速化について説明します。

リファレンスアーキテクチャ