Article Number: 000124142

「Dell EMC Ready Solution for HPC Life Sciences：Cascade Lake CPUおよびLustre/ME4 Refreshを使用したTuxedoパイプライン（英語）」

Summary: この記事では、『Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline with Cascade Lake CPU and Lustre/ME4 Refresh』を参照してください。

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Instructions

注：この記事は、HPCおよびAIイノベーションラボのKihoon Yoonによって2019年12月に作成されました
新しいハードウェアと更新されたパイプラインを組み合わせることで、スループットは以前のReady Solutionの3倍に向上します

概要
遺伝子発現解析は、一塩基多型(SNP)、挿入/欠失(インデル)、染色体再構築の同定と同じくらい重要です。最終的に、生理学的および生化学的イベント全体は、最終的な遺伝子発現産物であるタンパク質に依存します。ほとんどの哺乳類はタンパク質発現の前に追加の制御層を持っていますが、システム内に存在する転写産物の数を知ることは、細胞の生化学的状態を特徴付けるのに役立ちます。理想的には、生命科学の進歩に大きく貢献できる細胞内のタンパク質全体を定量化できる技術です。しかし、まだ実現には程遠い状況です。
このブログでは、Tuxedoパイプライン(1)として知られる一般的なRNA-Seqデータ解析パイプラインの1つをテストします。Tuxedoパイプライン・スイートは、ショートリードマッピング、スプライス結合の同定、転写産物およびアイソフォーム検出、差次的発現、可視化、品質管理メトリクスなど、さまざまなRNA-Seqデータを解析するための一連のツールを提供します。パイプラインの詳細な手順を図 1 に示します。Tuxedoパイプラインのこの更新バージョンには、以前のブログ(2)でテストした古いバージョンと比較したCuffquantステップが含まれています

図 1 更新された Tuxedo パイプラインと Cuffquant ステップ 図1 Cuffquantで更新されたTuxedoパイプラインステップ

テスト・クラスタの構成を表1にまとめます。

表1 テスト済みのコンピューティングノード構成
Dell EMC PowerEdge C6420
CPU	Xeon® Gold 6248 20c 2.5GHz x 2(Cascade Lake)
RAM	12 x 16GB @2933 MT/秒
OS	RHEL 7.6
内部接続	インテルOmni-Path®
BIOSシステムプロファイル	最適化されたパフォーマンス
論理プロセッサー	Disabled
仮想化テクノロジー	Disabled
トップハット	2.1.1
蝶ネクタイ2	2.2.5
R	3.6
生体伝導体-カマーバンド	2.26.0

テスト済みのコンピューティングノードは、Intel^® Omni-Path(3)を介してDell EMC Ready Solution for Lustre Storageに接続されました。ストレージの構成の概要を表2に示します。

表2 Lustre Storage Solutionのハードウェアおよびソフトウェアの仕様
Dell EMC Ready Solution for Lustre Storage
ノードの数	1 x Integrated Manager for Lustre(IML)としてのDell EMC PowerEdge R640 2 x メタデータサーバー(MDS) としてのDell EMC PowerEdge R740 オブジェクトストレージサーバー(OSS)としてのDell EMC PowerEdge R740 x 2
プロセッサ	IMLサーバー: デュアルインテル Xeon Gold 5118 @ 2.3 GHz MDSおよびOSSサーバー: デュアルインテル Xeon Gold 6136 @ 3.00 GHz
メモリー	IMLサーバー: 12 x 8 GB 2,666 MT/s DDR4 RDIMM MDSおよびOSSサーバー: 24 x 16 GiB 2,666 MT/s DDR4 RDIMM
外部ストレージコントローラー	2 x Dell 12 Gb/秒SAS HBA(各MDS上) 4 x Dell 12 Gb/秒SAS HBA(各OSS上)
オブジェクトストレージエンクロージャ	4 x ME4084、合計336 x 8TB NL 7.2K RPM SAS HDD
メタデータストレージ囲い	1x ME4024(960GB SAS SSDを24台搭載)。最大4,688Bファイル/inodeをサポート
RAIDコントローラ	ME4084およびME4024エンクロージャの二重RAID
オペレーティングシステム	CentOS 7.5 x86_64 Red Hat Enterprise Linux(RHEL)7.5 x86_64
カーネルバージョン	3.10.0-862.el7.x86_64
BIOSのバージョン	1.4.5
インテルOmni-Path IFSバージョン	10.8.0.0
Lustreファイルシステムバージョン	2.10.4
IMLバージョン	4.0.7.0

RNA-Seqパイプラインの性能研究は、Natureワークフローが同一でない入力ファイルを必要とするため、簡単ではありません。185 個の RNA-Seq ペアエンドリードデータが公開データリポジトリから収集されますです。すべての読み取りデータファイルには、約2,500万個のフラグメント(MF)が含まれており、読み取り長は類似しています。テストのサンプルは、185 個のペアエンド読み取りファイルのプールからランダムに選択されました。これらの無作為に選ばれたデータには生物学的な意味はありませんが、ノイズレベルの高いこれらのデータは、最悪のシナリオでテストを行うことは確かです
パフォーマンス評価
2サンプル検定
図 2 では、各ステップの実行時間がプロットされています。このテストは、約2,500万のリードRNA-Seqデータを含む2つのサンプルを使用して、2つの計算ノードで実行されました。Tophat ステップは、コンピューティングノード上の各サンプルに対して並列に開始されます。その後、カフリンクスはトップハットの完成から始まります。カフマージステップは、2 つのカフスボタン実行の結果を結合します。各サンプルの遺伝子発現を定量するために Cuffquant ステップを追加し、その結果を Cuffdiff ステップと Cuffnorm ステップでさらに調べます。最後のステップであるCummeRbundは、CummeRbund R-packageの統計分析ステップであり、図2.

図 2 2 つのサンプルを使用した Tuxedo パイプラインの合計実行時間: SRR1608490とSRR934809。に示すような視覚化されたレポートを生成します図 2 2 つのサンプルを使用した Tuxedo パイプラインの合計実行時間: SRR1608490とSRR934809.

図3は、8つのサンプルラン(各サンプルは4つの重複からなる)から発現の異なる遺伝子を赤で示し、黒で示した他の遺伝子発現と比較して有意に低いp値(Y軸)を示しています 1.X軸は2を底とする対数での折り目変化であり、これらの各遺伝子の折り目変化をp値に対してプロットします。サンプル数が多いほど、遺伝子発現の推定精度が向上します。右上のプロットはサンプル1と比較したサンプル2の遺伝子発現で、左下のプロットはサンプル2と比較したサンプル1の遺伝子発現です。黒い点の遺伝子発現は、両方のサンプルで有意差はありません。

図3 Cuffdiff結果のボルケーノプロット 図3 Cuffdiff結果の火山プロット
スループットテスト – 2つ以上のサンプルを含む単一のパイプライン、生物学的および技術的重複
典型的なRNA-Seq研究は、複数のサンプル、時には数百の異なるサンプル、正常サンプルと疾患サンプル、または未治療サンプルと治療済みサンプルで構成されています。これらのサンプルは、生物学的な理由により、高レベルのノイズを持つ傾向があります。したがって、分析には精力的なデータ前処理手順が必要です。

PowerEdge C6420クラスターの8ノードで処理できるデータ量を確認するために、さまざまな数のサンプル(185のペアエンドリードデータセットから選択されたすべての異なるRNA-Seqデータ)をテストしました。図4に示すように、サンプル数が増えると、2、4、8、16、32、64サンプルのランタイムが指数関数的に増加します。1日あたり10億個のフラグメントの数は、Cascade Lake 6248/LustreME4ストレージと更新されたパイプラインにより、約3倍に増加しました

図4 Cascade Lake 6248/LustreME4とSkylake 6148/H600間の8 x C6420のスループット比較 図4:Cascade Lake 6248/LustreME4とSkylake 6148/H600の間で8台のC6420を使用した場合のスループットの比較

Cuffmergeステップは、サンプル数が増えても遅くなりませんが、CuffdiffステップとCuffnormステップは大幅に遅くなります。特に、Cuffdiffステップは実行時間が指数関数的に増加するため、パイプラインのボトルネックになります(図5)。Cuffnorm のランタイムは Cuffdiff のように指数関数的に増加しますが、Cuffnorm のランタイムは Cuffdiff のランタイムによって制限されているため、無視できます。 Cuffquantステップを追加することで、Cuffdiffの実行時間が大幅に改善されました。Cuffdiffステップで30時間のランタイム短縮を達成し、CuffnormはCuffquantステップで20時間短縮しました。ただし、Cuffdiff と Cuffnorm は同時に起動するため、Cuffnorm によるパフォーマンスの向上は見えません

図 5 Cuffdiff と Cuffnorm のランタイムインクリメント
図5 CuffdiffとCuffnormのランタイム増分
結論
スループットテストの結果は、Lustreストレージを搭載した8ノードPowerEdge C6420が、図1に示すTuxedoパイプラインを介して、それぞれ~5,000万のペアリード(25 MF)を持つ64個のサンプルから約27億個のフラグメントを処理できることを示しています。Tuxedoパイプラインは他の一般的なパイプラインよりも比較的高速であるため、これらの結果を一般化したり、HPCシステムのサイズを正確に設定したりすることは困難です。ただし、この結果は、HPCシステムのサイズを大まかに見積もるのに役立ちます。

リソース
1。 RNA-Seq Differential Gene Expression: 基本チュートリアル。[オンライン]https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2。Dell EMC Ready Bundle for HPC Life Sciencesを使用したRNA-Seqパイプラインベンチマーク。[オンライン]https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3。Dell EMC Ready Solution for HPC Lustre Storage。[2024年7月時点でリンクが無効]

注:これらは、サンプルのプールからランダムに選択され、それらの間に意味のある関連性はありません。

Article Properties

Affected Product

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

「Dell EMC Ready Solution for HPC Life Sciences：Cascade Lake CPUおよびLustre/ME4 Refreshを使用したTuxedoパイプライン（英語）」

Summary: この記事では、『Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline with Cascade Lake CPU and Lustre/ME4 Refresh』を参照してください。

Article Content

Instructions

Article Properties

Affected Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

「Dell EMC Ready Solution for HPC Life Sciences：Cascade Lake CPUおよびLustre/ME4 Refreshを使用したTuxedoパイプライン（英語）」

Summary: この記事では、『Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline with Cascade Lake CPU and Lustre/ME4 Refresh』を参照してください。

Article Content

Instructions

Article Properties

Affected Product

Last Published Date

Version

Article Type