「Dell EMC Ready Solution for HPC Life Sciences：Cascade Lake CPUおよびLustre/ME4 Refreshを使用したTuxedoパイプライン（英語）」

概要: この記事では、ホワイトペーパー『Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline with Cascade Lake CPU and Lustre/ME4 Refresh』をカバーします。

この記事は次に適用されます：この記事は次には適用されません：この記事は、特定の製品に関連付けられていません。すべての製品パージョンがこの記事に記載されているわけではありません。

手順

注：この記事は、HPC and AI Innovation LabのKihoon Yoonによって2019年12月に作成されました。
新しいハードウェアと更新されたパイプラインを組み合わせることで、スループットは以前のReady Solutionの3倍に向上します。

概要
遺伝子発現解析は、一塩基多型(SNP)、挿入/欠失（インデル）、染色体再構築の同定と同様に重要です。最終的に、すべての生理学的および生化学的なイベントは、最終的な遺伝子発現産物であるタンパク質に依存します。ほとんどの哺乳類はタンパク質発現に先だつ追加の制御層を持っていますが、システム内に存在する転写産物の数を知ることは、細胞の生化学的状態を特徴付けるのに役立ちます。理想的には、技術によって、細胞内のすべてのタンパク質を定量化することができ、これは生命科学の進展に大きな影響を与える可能性がありますが、現在それを達成するには程遠い状態です。
このブログでは、Tuxedoパイプライン(1)として知られる一般的なRNA-Seqデータ解析パイプラインをテストします。Tuxedoパイプラインスイートは、ショートリードのマッピング、スプライスジャンクションの同定、転写産物およびアイソフォーム検出、差次的発現、可視化、品質管理メトリクスなど、さまざまなRNA-Seqデータを解析するための一連のツールを提供します。パイプラインの詳細な手順を図1に示します。Tuxedoパイプラインのこの更新バージョンには、以前のブログ(2)でテストした古いバージョンと比較してCuffquantステップが含まれています。

図1：Cuffquantステップで更新されたTuxedoパイプライン 図1：Cuffquantステップで更新されたTuxedoパイプライン

テストクラスターの構成を表1にまとめます。

表1：テスト済みのコンピューティングノード構成
Dell EMC PowerEdge C6420
CPU	2x Xeon® Gold 6248 20c 2.5GHz (Cascade Lake)
RAM	12 x 16GB @2933 MT/s
OS	RHEL 7.6
内部接続	インテル®Omni-Path
BIOSシステムプロファイル	最適化されたパフォーマンス
論理プロセッサー	Disabled
仮想化テクノロジー	Disabled
tophat	2.1.1
bowtie2	2.2.5
R	3.6
bioconductor-cummerbund	2.26.0

テスト済みのコンピューティングノードは、インテル^® Omni-Pathを介してDell EMC Ready Solution for Lustre Storageに接続されました。(3)ストレージの構成の概要を表2に示します。

表2：Lustre Storage Solutionのハードウェアおよびソフトウェアの仕様
Dell EMC Ready Solution for Lustre Storage
ノードの数	1 x Integrated Manager for Lustre (IML)としてのDell EMC PowerEdge R640 2 x メタデータサーバー(MDS)としてのDell EMC PowerEdge R740 2 x オブジェクトストレージサーバー(OSS)としてのDell EMC PowerEdge R740
プロセッサ	IMLサーバー：デュアルインテルXeon Gold 5118 @ 2.3 GHz MDSおよびOSS：デュアルインテルXeon Gold 6136 @ 3.00 GHz
メモリー	IMLサーバー：12 x 8 GB 2,666 MT/s DDR4 RDIMM MDSサーバーとOSSサーバー：24 x 16 GiB 2,666 MT/s DDR4 RDIMM
外部ストレージコントローラー	2 x Dell 12 Gb/秒SAS HBA（各MDS上） 4 x Dell 12 Gb/秒SAS HBA（各OSS上）
オブジェクトストレージエンクロージャ	4 x ME4084、合計336 x 8TB NL 7.2K RPM SAS HDD
メタデータストレージエンクロージャ	1x ME4024（960GB SAS SSDを24台搭載）。最大4,688Bファイル/inodeをサポート
RAIDコントローラ	ME4084エンクロージャとME4024エンクロージャの二重RAID
オペレーティングシステム	CentOS 7.5 x86_64 Red Hat Enterprise Linux(RHEL)7.5 x86_64
カーネルバージョン	3.10.0-862.el7.x86_64
BIOSのバージョン	1.4.5
インテルOmni-Path IFSバージョン	10.8.0.0
Lustreファイルシステムバージョン	2.10.4
IMLバージョン	4.0.7.0

RNA-Seqパイプラインの性能研究は、Natureワークフローが同一でない入力ファイルを必要とするため、簡単ではありません。185個のRNA-Seqペアエンドリードデータが公開データリポジトリーから収集されます。すべての読み取りデータファイルには、約2,500万個のフラグメント(MF)が含まれており、読み取り長は類似しています。テストのサンプルは、185個のペアエンド読み取りファイルのプールから無作為に選択されます。これらの無作為に選択されたデータには生物学的な意味はありませんが、これらのデータのノイズレベルの高さによって、テストは最悪のシナリオで行われることになります。
パフォーマンス評価
2サンプル検定
図2では、各ステップの実行時間がプロットされています。このテストは、約2,500万のリードRNA-Seqデータを含む2つのサンプルを使用して、2つの計算ノードで実行されました。Tophatステップは、コンピューティングノード上の各サンプルに対して並列に開始されます。その後、CufflinkはTophatが完了した時点で始まります。Cuffmergeステップは2つのCufflink実行の結果を結合します。各サンプルの遺伝子発現を定量するためにCuffquantステップを追加し、その結果をCuffdiffステップとCuffnormステップでさらに調べます。最後のステップであるCummeRbundは、CummeRbund R-packageの統計分析ステップであり、図2に示すような視覚化されたレポートを生成します。

図2：2つのサンプルを使用したTuxedoパイプラインの合計実行時間（SRR1608490とSRR934809） 図2：SRR1608490とSRR934809の2つのサンプルを使用したTuxedoパイプラインの合計実行時間

図3は、8つのサンプルを用いた実行（各サンプルは4つの重複から構成）で得られた発現の異なる遺伝子を赤で示し、黒で示した他の遺伝子発現と比較して有意に低いp値（Y軸）を示しています 1。X軸は2を底とする対数での変化倍数で、各遺伝子の変化倍数がp値に対してプロットされています。サンプル数が多いほど、遺伝子発現の推定精度が向上します。右上のプロットはサンプル2をサンプル1と比較した遺伝子発現を、左下のプロットはサンプル1をサンプル2と比較した遺伝子発現を示しています。黒い点で示された遺伝子発現は、両方のサンプル間で有意差がありません。

図3：Cuffdiff結果のVolcano plot
スループットテスト – 2つ以上のサンプルを含む単一のパイプライン、生物学的および技術的重複
典型的なRNA-Seq研究では、複数のサンプル、時には数百の異なるサンプル（たとえば、正常vs.疾患、未処理vs.処理済みのサンプル）が含まれます。これらのサンプルは生物学的特性上、高いノイズレベルを持つ傾向があるため、厳密なデータ前処理が必要です。

PowerEdge C6420クラスターの8ノードで処理できるデータ量を確認するために、さまざまな数のサンプル（185のペアエンドリードデータセットから選択されたすべての異なるRNA-Seqデータ）をテストしました。図4に示すように、サンプル数が2、4、8、16、32、64と増えると、ランタイムが指数関数的に増加します。1日あたり10億個のフラグメントという数は、Cascade Lake 6248/LustreME4ストレージと更新されたパイプラインにより、約3倍に増加しました。

図4：Cascade Lake 6248/LustreME4とSkylake 6148/H600間の8 x C6420のスループット比較 図4：Cascade Lake 6248/LustreME4とSkylake 6148/H600の間で8台のC6420を使用した場合のスループットの比較

Cuffmergeステップは、サンプル数が増えても遅くなりませんが、CuffdiffステップとCuffnormステップは大幅に遅くなります。特に、Cuffdiffステップは実行時間が指数関数的に増加するため、パイプラインのボトルネックになります（図5）。CuffnormのランタイムはCuffdiffのように指数関数的に増加しますが、CuffnormのランタイムはCuffdiffのランタイムによって制限されているため、無視できます。 Cuffquantステップを追加することで、Cuffdiffの実行時間が大幅に改善されました。Cuffdiffステップで30時間のランタイム短縮を達成し、CuffnormはCuffquantステップで20時間短縮しました。ただし、CuffdiffとCuffnormは同時に起動するため、Cuffnormによるパフォーマンスの向上は見えません。

図5：CuffdiffとCuffnormのランタイムインクリメント
図5：CuffdiffとCuffnormのランタイム増分
結論
スループットテストの結果は、Lustreストレージを搭載した8ノードPowerEdge C6420が、図1に示すTuxedoパイプラインを介して、それぞれ約5,000万のペアリード(25 MF)を持つ64個のサンプルから約27億個のフラグメントを処理できることを示しています。Tuxedoパイプラインは他の一般的なパイプラインよりも比較的高速であるため、これらの結果を一般化したり、HPCシステムのサイズを正確に設定したりすることは困難です。ただし、この結果は、HPCシステムのサイズを大まかに見積もるのに役立ちます。

リソース
1. RNA-Seq Differential Gene Expression: Basic Tutorial［オンライン］https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/
2. RNA-Seq pipeline benchmark with Dell EMC Ready Bundle for HPC Life Sciences［オンライン］https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf
3. Dell EMC Ready Solution for HPC Lustre Storage［2024年7月時点でリンクが無効］

メモ：これらは、サンプルのプールから無作為に選択され、それらの間に意味のある関連性はありません。

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484

文書番号: 000124142

文書の種類: How To

最終更新: 25 7月 2024

バージョン: 3

お使いのデバイスがサポートサービスの対象かどうかを確認してください。

「Dell EMC Ready Solution for HPC Life Sciences：Cascade Lake CPUおよびLustre/ME4 Refreshを使用したTuxedoパイプライン（英語）」

概要: この記事では、ホワイトペーパー『Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline with Cascade Lake CPU and Lustre/ME4 Refresh』をカバーします。

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

ようこそ

Dellへようこそ

「Dell EMC Ready Solution for HPC Life Sciences：Cascade Lake CPUおよびLustre/ME4 Refreshを使用したTuxedoパイプライン（英語）」

概要: この記事では、ホワイトペーパー『Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline with Cascade Lake CPU and Lustre/ME4 Refresh』をカバーします。

詳細記事

手順

対象製品

手順

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

サポートサービス

サポートサービス