注:この記事は、HPCおよびAIイノベーション ラボのKihoon Yoonによって2019年12月に作成されました
新しいハードウェアと更新されたパイプラインを組み合わせることで、スループットは以前のReady Solutionの3倍に向上します
概要
遺伝子発現解析は、一塩基多型(SNP)、挿入/欠失(インデル)、染色体再構築の同定と同じくらい重要です。最終的に、生理学的および生化学的イベント全体は、最終的な遺伝子発現産物であるタンパク質に依存します。ほとんどの哺乳類はタンパク質発現の前に追加の制御層を持っていますが、システム内に存在する転写産物の数を知ることは、細胞の生化学的状態を特徴付けるのに役立ちます。理想的には、生命科学の進歩に大きく貢献できる細胞内のタンパク質全体を定量化できる技術です。しかし、まだ実現には程遠い状況です。
このブログでは、Tuxedoパイプライン(1)として知られる一般的なRNA-Seqデータ解析パイプラインの1つをテストします。Tuxedoパイプライン・スイート は、ショートリードマッピング、スプライス結合の同定、転写産物およびアイソフォーム検出、差次的発現、可視化、品質管理メトリクスなど、さまざまなRNA-Seqデータを解析するための一連のツールを提供します。パイプラインの詳細な手順を図 1 に示します。Tuxedoパイプラインのこの更新バージョンには、以前のブログ(2)でテストした古いバージョンと比較したCuffquantステップが含まれています
図1 Cuffquantで更新されたTuxedoパイプライン ステップ
テスト・クラスタの構成を表1にまとめます。
表1 テスト済みのコンピューティング ノード構成 |
|
Dell EMC PowerEdge C6420 |
|
CPU |
Xeon® Gold 6248 20c 2.5GHz x 2(Cascade Lake) |
RAM |
12 x 16GB @2933 MT/秒 |
OS |
RHEL 7.6 |
内部接続 |
インテルOmni-Path® |
BIOSシステム プロファイル |
最適化されたパフォーマンス |
論理プロセッサー |
Disabled |
仮想化テクノロジー |
Disabled |
トップハット |
2.1.1 |
蝶ネクタイ2 |
2.2.5 |
R |
3.6 |
生体伝導体-カマーバンド |
2.26.0 |
テスト済みのコンピューティング ノードは、Intel® Omni-Path(3)を介してDell EMC Ready Solution for Lustre Storageに接続されました。ストレージの構成の概要を表2に示します。
表2 Lustre Storage Solutionのハードウェアおよびソフトウェアの仕様 |
|
Dell EMC Ready Solution for Lustre Storage |
|
ノードの数 |
1 x Integrated Manager for Lustre(IML)としてのDell EMC PowerEdge R640 |
プロセッサ |
IMLサーバー: デュアル インテル Xeon Gold 5118 @ 2.3 GHz |
メモリー |
IMLサーバー: 12 x 8 GB 2,666 MT/s DDR4 RDIMM |
外部ストレージ |
2 x Dell 12 Gb/秒SAS HBA(各MDS上) |
オブジェクト ストレージ |
4 x ME4084、合計336 x 8TB NL 7.2K RPM SAS HDD |
メタデータ ストレージ |
1x ME4024(960GB SAS SSDを24台搭載)。最大4,688Bファイル/inodeをサポート |
RAIDコントローラ |
ME4084およびME4024エンクロージャの二重RAID |
オペレーティングシステム |
CentOS 7.5 x86_64 |
カーネル バージョン |
3.10.0-862.el7.x86_64 |
BIOSのバージョン |
1.4.5 |
インテルOmni-Path |
10.8.0.0 |
Lustreファイル システム |
2.10.4 |
IMLバージョン |
4.0.7.0 |
RNA-Seqパイプラインの性能研究は、Natureワークフローが同一でない入力ファイルを必要とするため、簡単ではありません。185 個の RNA-Seq ペアエンドリードデータが公開データリポジトリから収集されますです。すべての読み取りデータ ファイルには、約2,500万個のフラグメント(MF)が含まれており、読み取り長は類似しています。テストのサンプルは、185 個のペアエンド読み取りファイルのプールからランダムに選択されました。これらの無作為に選ばれたデータには生物学的な意味はありませんが、ノイズレベルの高いこれらのデータは、最悪のシナリオでテストを行うことは確かです
パフォーマンス評価
2サンプル検定
図 2 では、各ステップの実行時間がプロットされています。このテストは、約2,500万のリードRNA-Seqデータを含む2つのサンプルを使用して、2つの計算ノードで実行されました。Tophat ステップは、コンピューティング ノード上の各サンプルに対して並列に開始されます。その後、カフリンクスはトップハットの完成から始まります。カフマージ ステップは、2 つのカフスボタン実行の結果を結合します。各サンプルの遺伝子発現を定量するために Cuffquant ステップを追加し、その結果を Cuffdiff ステップと Cuffnorm ステップでさらに調べます。最後のステップであるCummeRbundは、CummeRbund R-packageの統計分析ステップであり、図2.
に示すような視覚化されたレポートを生成します図 2 2 つのサンプルを使用した Tuxedo パイプラインの合計実行時間: SRR1608490とSRR934809.
図3は、8つのサンプルラン(各サンプルは4つの重複からなる)から発現の異なる遺伝子を赤で示し、黒で示した他の遺伝子発現と比較して有意に低いp値(Y軸)を示しています1.X軸は2を底とする対数での折り目変化であり、これらの各遺伝子の折り目変化をp値に対してプロットします。サンプル数が多いほど、遺伝子発現の推定精度が向上します。右上のプロットはサンプル1と比較したサンプル2の遺伝子発現で、左下のプロットはサンプル2と比較したサンプル1の遺伝子発現です。黒い点の遺伝子発現は、両方のサンプルで有意差はありません。
図3 Cuffdiff結果の火山プロット
スループットテスト – 2つ以上のサンプルを含む単一のパイプライン、生物学的および技術的重複
典型的なRNA-Seq研究は、複数のサンプル、時には数百の異なるサンプル、正常サンプルと疾患サンプル、または未治療サンプルと治療済みサンプルで構成されています。これらのサンプルは、生物学的な理由により、高レベルのノイズを持つ傾向があります。したがって、分析には精力的なデータ前処理手順が必要です。
PowerEdge C6420クラスターの8ノードで処理できるデータ量を確認するために、さまざまな数のサンプル(185のペアエンド リード データ セットから選択されたすべての異なるRNA-Seqデータ)をテストしました。図4に示すように、サンプル数が増えると、2、4、8、16、32、64サンプルのランタイムが指数関数的に増加します。1日あたり10億個のフラグメントの数は、Cascade Lake 6248/LustreME4ストレージと更新されたパイプラインにより、約3倍に増加しました
図4:Cascade Lake 6248/LustreME4とSkylake 6148/H600の間で8台のC6420を使用した場合のスループットの比較
Cuffmergeステップは、サンプル数が増えても遅くなりませんが、CuffdiffステップとCuffnormステップは大幅に遅くなります。特に、Cuffdiffステップは実行時間が指数関数的に増加するため、パイプラインのボトルネックになります(図5)。Cuffnorm のランタイムは Cuffdiff のように指数関数的に増加しますが、Cuffnorm のランタイムは Cuffdiff のランタイムによって制限されているため、無視できます。 Cuffquantステップを追加することで、Cuffdiffの実行時間が大幅に改善されました。Cuffdiffステップで30時間のランタイム短縮を達成し、CuffnormはCuffquantステップで20時間短縮しました。ただし、Cuffdiff と Cuffnorm は同時に起動するため、Cuffnorm によるパフォーマンスの向上は見えません
図5 CuffdiffとCuffnormのランタイム増分
結論
スループット テストの結果は、Lustreストレージを搭載した8ノードPowerEdge C6420が、図1に示すTuxedoパイプラインを介して、それぞれ~5,000万のペアリード(25 MF)を持つ64個のサンプルから約27億個のフラグメントを処理できることを示しています。Tuxedoパイプラインは他の一般的なパイプラインよりも比較的高速であるため、これらの結果を一般化したり、HPCシステムのサイズを正確に設定したりすることは困難です。ただし、この結果は、HPCシステムのサイズを大まかに見積もるのに役立ちます。
リソース
1。 RNA-Seq Differential Gene Expression: 基本チュートリアル。[オンライン]https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2。Dell EMC Ready Bundle for HPC Life Sciencesを使用したRNA-Seqパイプライン ベンチマーク。[オンライン]https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3。Dell EMC Ready Solution for HPC Lustre Storage。[2024年7月時点でリンクが無効]
注:これらは、サンプルのプールからランダムに選択され、それらの間に意味のある関連性はありません。