注:この記事は、HPC and AI Innovation LabのKihoon Yoonによって2019年12月に作成されました。
新しいハードウェアと更新されたパイプラインを組み合わせることで、スループットは以前のReady Solutionの3倍に向上します。
概要
遺伝子発現解析は、一塩基多型(SNP)、挿入/欠失(インデル)、染色体再構築の同定と同様に重要です。最終的に、すべての生理学的および生化学的なイベントは、最終的な遺伝子発現産物であるタンパク質に依存します。ほとんどの哺乳類はタンパク質発現に先だつ追加の制御層を持っていますが、システム内に存在する転写産物の数を知ることは、細胞の生化学的状態を特徴付けるのに役立ちます。理想的には、技術によって、細胞内のすべてのタンパク質を定量化することができ、これは生命科学の進展に大きな影響を与える可能性がありますが、現在それを達成するには程遠い状態です。
このブログでは、Tuxedoパイプライン(1)として知られる一般的なRNA-Seqデータ解析パイプラインをテストします。Tuxedoパイプライン スイートは、ショートリードのマッピング、スプライス ジャンクションの同定、転写産物およびアイソフォーム検出、差次的発現、可視化、品質管理メトリクスなど、さまざまなRNA-Seqデータを解析するための一連のツールを提供します。パイプラインの詳細な手順を図1に示します。Tuxedoパイプラインのこの更新バージョンには、以前のブログ(2)でテストした古いバージョンと比較してCuffquantステップが含まれています。
図1:Cuffquantステップで更新されたTuxedoパイプライン
テスト クラスターの構成を表1にまとめます。
表1:テスト済みのコンピューティング ノード構成 |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2x Xeon® Gold 6248 20c 2.5GHz (Cascade Lake) |
RAM |
12 x 16GB @2933 MT/s |
OS |
RHEL 7.6 |
内部接続 |
インテル®Omni-Path |
BIOSシステム プロファイル |
最適化されたパフォーマンス |
論理プロセッサー |
Disabled |
仮想化テクノロジー |
Disabled |
tophat |
2.1.1 |
bowtie2 |
2.2.5 |
R |
3.6 |
bioconductor-cummerbund |
2.26.0 |
テスト済みのコンピューティング ノードは、インテル® Omni-Pathを介してDell EMC Ready Solution for Lustre Storageに接続されました。(3)ストレージの構成の概要を表2に示します。
表2:Lustre Storage Solutionのハードウェアおよびソフトウェアの仕様 |
|
Dell EMC Ready Solution for Lustre Storage |
|
ノードの数 |
1 x Integrated Manager for Lustre (IML)としてのDell EMC PowerEdge R640 |
プロセッサ |
IMLサーバー:デュアル インテルXeon Gold 5118 @ 2.3 GHz |
メモリー |
IMLサーバー:12 x 8 GB 2,666 MT/s DDR4 RDIMM |
外部ストレージ |
2 x Dell 12 Gb/秒SAS HBA(各MDS上) |
オブジェクト ストレージ |
4 x ME4084、合計336 x 8TB NL 7.2K RPM SAS HDD |
メタデータ ストレージ |
1x ME4024(960GB SAS SSDを24台搭載)。最大4,688Bファイル/inodeをサポート |
RAIDコントローラ |
ME4084エンクロージャとME4024エンクロージャの二重RAID |
オペレーティングシステム |
CentOS 7.5 x86_64 |
カーネル バージョン |
3.10.0-862.el7.x86_64 |
BIOSのバージョン |
1.4.5 |
インテルOmni-Path |
10.8.0.0 |
Lustreファイル システム |
2.10.4 |
IMLバージョン |
4.0.7.0 |
RNA-Seqパイプラインの性能研究は、Natureワークフローが同一でない入力ファイルを必要とするため、簡単ではありません。185個のRNA-Seqペアエンド リード データが公開データ リポジトリーから収集されます。すべての読み取りデータ ファイルには、約2,500万個のフラグメント(MF)が含まれており、読み取り長は類似しています。テストのサンプルは、185個のペアエンド読み取りファイルのプールから無作為に選択されます。これらの無作為に選択されたデータには生物学的な意味はありませんが、これらのデータのノイズ レベルの高さによって、テストは最悪のシナリオで行われることになります。
パフォーマンス評価
2サンプル検定
図2では、各ステップの実行時間がプロットされています。このテストは、約2,500万のリードRNA-Seqデータを含む2つのサンプルを使用して、2つの計算ノードで実行されました。Tophatステップは、コンピューティング ノード上の各サンプルに対して並列に開始されます。その後、CufflinkはTophatが完了した時点で始まります。Cuffmergeステップは2つのCufflink実行の結果を結合します。各サンプルの遺伝子発現を定量するためにCuffquantステップを追加し、その結果をCuffdiffステップとCuffnormステップでさらに調べます。最後のステップであるCummeRbundは、CummeRbund R-packageの統計分析ステップであり、図2に示すような視覚化されたレポートを生成します。図2:SRR1608490とSRR934809の2つのサンプルを使用したTuxedoパイプラインの合計実行時間
図3は、8つのサンプルを用いた実行(各サンプルは4つの重複から構成)で得られた発現の異なる遺伝子を赤で示し、黒で示した他の遺伝子発現と比較して有意に低いp値(Y軸)を示しています1。X軸は2を底とする対数での変化倍数で、各遺伝子の変化倍数がp値に対してプロットされています。サンプル数が多いほど、遺伝子発現の推定精度が向上します。右上のプロットはサンプル2をサンプル1と比較した遺伝子発現を、左下のプロットはサンプル1をサンプル2と比較した遺伝子発現を示しています。黒い点で示された遺伝子発現は、両方のサンプル間で有意差がありません。図3:Cuffdiff結果のVolcano plot
スループット テスト – 2つ以上のサンプルを含む単一のパイプライン、生物学的および技術的重複
典型的なRNA-Seq研究では、複数のサンプル、時には数百の異なるサンプル(たとえば、正常vs.疾患、未処理vs.処理済みのサンプル)が含まれます。これらのサンプルは生物学的特性上、高いノイズ レベルを持つ傾向があるため、厳密なデータ前処理が必要です。
PowerEdge C6420クラスターの8ノードで処理できるデータ量を確認するために、さまざまな数のサンプル(185のペアエンド リード データ セットから選択されたすべての異なるRNA-Seqデータ)をテストしました。図4に示すように、サンプル数が2、4、8、16、32、64と増えると、ランタイムが指数関数的に増加します。1日あたり10億個のフラグメントという数は、Cascade Lake 6248/LustreME4ストレージと更新されたパイプラインにより、約3倍に増加しました。図4:Cascade Lake 6248/LustreME4とSkylake 6148/H600の間で8台のC6420を使用した場合のスループットの比較
Cuffmergeステップは、サンプル数が増えても遅くなりませんが、CuffdiffステップとCuffnormステップは大幅に遅くなります。特に、Cuffdiffステップは実行時間が指数関数的に増加するため、パイプラインのボトルネックになります(図5)。CuffnormのランタイムはCuffdiffのように指数関数的に増加しますが、CuffnormのランタイムはCuffdiffのランタイムによって制限されているため、無視できます。 Cuffquantステップを追加することで、Cuffdiffの実行時間が大幅に改善されました。Cuffdiffステップで30時間のランタイム短縮を達成し、CuffnormはCuffquantステップで20時間短縮しました。ただし、CuffdiffとCuffnormは同時に起動するため、Cuffnormによるパフォーマンスの向上は見えません。
図5:CuffdiffとCuffnormのランタイム増分
結論
スループット テストの結果は、Lustreストレージを搭載した8ノードPowerEdge C6420が、図1に示すTuxedoパイプラインを介して、それぞれ約5,000万のペアリード(25 MF)を持つ64個のサンプルから約27億個のフラグメントを処理できることを示しています。Tuxedoパイプラインは他の一般的なパイプラインよりも比較的高速であるため、これらの結果を一般化したり、HPCシステムのサイズを正確に設定したりすることは困難です。ただし、この結果は、HPCシステムのサイズを大まかに見積もるのに役立ちます。
リソース
1. RNA-Seq Differential Gene Expression: Basic Tutorial[オンライン]https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/
2. RNA-Seq pipeline benchmark with Dell EMC Ready Bundle for HPC Life Sciences[オンライン]https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf
3. Dell EMC Ready Solution for HPC Lustre Storage[2024年7月時点でリンクが無効]
メモ:これらは、サンプルのプールから無作為に選択され、それらの間に意味のある関連性はありません。