メイン コンテンツに進む

「Dell EMC Ready Solution for HPC Life Sciences:Cascade Lake CPUおよびLustre/ME4 Refreshを使用したTuxedoパイプライン(英語)」

概要: この記事では、ホワイトペーパー『Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline with Cascade Lake CPU and Lustre/ME4 Refresh』をカバーします。

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

手順

注:この記事は、HPC and AI Innovation LabのKihoon Yoonによって2019年12月に作成されました。
新しいハードウェアと更新されたパイプラインを組み合わせることで、スループットは以前のReady Solutionの3倍に向上します。

概要
遺伝子発現解析は、一塩基多型(SNP)、挿入/欠失(インデル)、染色体再構築の同定と同様に重要です。最終的に、すべての生理学的および生化学的なイベントは、最終的な遺伝子発現産物であるタンパク質に依存します。ほとんどの哺乳類はタンパク質発現に先だつ追加の制御層を持っていますが、システム内に存在する転写産物の数を知ることは、細胞の生化学的状態を特徴付けるのに役立ちます。理想的には、技術によって、細胞内のすべてのタンパク質を定量化することができ、これは生命科学の進展に大きな影響を与える可能性がありますが、現在それを達成するには程遠い状態です。 
このブログでは、Tuxedoパイプライン(1)として知られる一般的なRNA-Seqデータ解析パイプラインをテストします。Tuxedoパイプライン スイートこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。は、ショートリードのマッピング、スプライス ジャンクションの同定、転写産物およびアイソフォーム検出、差次的発現、可視化、品質管理メトリクスなど、さまざまなRNA-Seqデータを解析するための一連のツールを提供します。パイプラインの詳細な手順を図1に示します。Tuxedoパイプラインのこの更新バージョンには、以前のブログ(2)でテストした古いバージョンと比較してCuffquantステップが含まれています。

図1:Cuffquantステップで更新されたTuxedoパイプライン
図1:Cuffquantステップで更新されたTuxedoパイプライン

テスト クラスターの構成を表1にまとめます。

表1:テスト済みのコンピューティング ノード構成

Dell EMC PowerEdge C6420

CPU

2x Xeon® Gold 6248 20c 2.5GHz (Cascade Lake)

RAM

12 x 16GB @2933 MT/s

OS

RHEL 7.6

内部接続

インテル®Omni-Path

BIOSシステム プロファイル

最適化されたパフォーマンス

論理プロセッサー

Disabled

仮想化テクノロジー

Disabled

tophat

2.1.1

bowtie2

2.2.5

R

3.6

bioconductor-cummerbund

2.26.0


テスト済みのコンピューティング ノードは、インテル® Omni-Pathを介してDell EMC Ready Solution for Lustre Storageに接続されました。(3)ストレージの構成の概要を表2に示します。

表2:Lustre Storage Solutionのハードウェアおよびソフトウェアの仕様

Dell EMC Ready Solution for Lustre Storage

ノードの数

1 x Integrated Manager for Lustre (IML)としてのDell EMC PowerEdge R640
2 x メタデータ サーバー(MDS)としてのDell EMC PowerEdge R740
2 x オブジェクト ストレージ サーバー(OSS)としてのDell EMC PowerEdge R740

プロセッサ

IMLサーバー:デュアル インテルXeon Gold 5118 @ 2.3 GHz
MDSおよびOSS:デュアル インテルXeon Gold 6136 @ 3.00 GHz

メモリー

IMLサーバー:12 x 8 GB 2,666 MT/s DDR4 RDIMM
MDSサーバーとOSSサーバー:24 x 16 GiB 2,666 MT/s DDR4 RDIMM

外部ストレージ
コントローラー

2 x Dell 12 Gb/秒SAS HBA(各MDS上)
4 x Dell 12 Gb/秒SAS HBA(各OSS上)

オブジェクト ストレージ
エンクロージャ

4 x ME4084、合計336 x 8TB NL 7.2K RPM SAS HDD

メタデータ ストレージ
エンクロージャ

1x ME4024(960GB SAS SSDを24台搭載)。最大4,688Bファイル/inodeをサポート

RAIDコントローラ

ME4084エンクロージャとME4024エンクロージャの二重RAID

オペレーティングシステム

CentOS 7.5 x86_64
Red Hat Enterprise Linux(RHEL)7.5 x86_64

カーネル バージョン

3.10.0-862.el7.x86_64

BIOSのバージョン

1.4.5

インテルOmni-Path
IFSバージョン

10.8.0.0

Lustreファイル システム
バージョン

2.10.4

IMLバージョン

4.0.7.0


RNA-Seqパイプラインの性能研究は、Natureワークフローが同一でない入力ファイルを必要とするため、簡単ではありません。185個のRNA-Seqペアエンド リード データが公開データ リポジトリーこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。から収集されます。すべての読み取りデータ ファイルには、約2,500万個のフラグメント(MF)が含まれており、読み取り長は類似しています。テストのサンプルは、185個のペアエンド読み取りファイルのプールから無作為に選択されます。これらの無作為に選択されたデータには生物学的な意味はありませんが、これらのデータのノイズ レベルの高さによって、テストは最悪のシナリオで行われることになります。
パフォーマンス評価
2サンプル検定
図2では、各ステップの実行時間がプロットされています。このテストは、約2,500万のリードRNA-Seqデータを含む2つのサンプルを使用して、2つの計算ノードで実行されました。Tophatステップは、コンピューティング ノード上の各サンプルに対して並列に開始されます。その後、CufflinkはTophatが完了した時点で始まります。Cuffmergeステップは2つのCufflink実行の結果を結合します。各サンプルの遺伝子発現を定量するためにCuffquantステップを追加し、その結果をCuffdiffステップとCuffnormステップでさらに調べます。最後のステップであるCummeRbundは、CummeRbund R-packageの統計分析ステップであり、図2に示すような視覚化されたレポートを生成します。

図2:2つのサンプルを使用したTuxedoパイプラインの合計実行時間(SRR1608490とSRR934809)
図2:SRR1608490SRR934809の2つのサンプルを使用したTuxedoパイプラインの合計実行時間

図3は、8つのサンプルを用いた実行(各サンプルは4つの重複から構成)で得られた発現の異なる遺伝子を赤で示し、黒で示した他の遺伝子発現と比較して有意に低いp値(Y軸)を示しています1。X軸は2を底とする対数での変化倍数で、各遺伝子の変化倍数がp値に対してプロットされています。サンプル数が多いほど、遺伝子発現の推定精度が向上します。右上のプロットはサンプル2をサンプル1と比較した遺伝子発現を、左下のプロットはサンプル1をサンプル2と比較した遺伝子発現を示しています。黒い点で示された遺伝子発現は、両方のサンプル間で有意差がありません。


図3:Cuffdiff結果のvolcano plot図3:Cuffdiff結果のVolcano plot
スループット テスト – 2つ以上のサンプルを含む単一のパイプライン、生物学的および技術的重複
典型的なRNA-Seq研究では、複数のサンプル、時には数百の異なるサンプル(たとえば、正常vs.疾患、未処理vs.処理済みのサンプル)が含まれます。これらのサンプルは生物学的特性上、高いノイズ レベルを持つ傾向があるため、厳密なデータ前処理が必要です。
 
PowerEdge C6420クラスターの8ノードで処理できるデータ量を確認するために、さまざまな数のサンプル(185のペアエンド リード データ セットから選択されたすべての異なるRNA-Seqデータ)をテストしました。図4に示すように、サンプル数が2、4、8、16、32、64と増えると、ランタイムが指数関数的に増加します。1日あたり10億個のフラグメントという数は、Cascade Lake 6248/LustreME4ストレージと更新されたパイプラインにより、約3倍に増加しました。

図4:Cascade Lake 6248/LustreME4とSkylake 6148/H600間の8 x C6420のスループット比較
図4:Cascade Lake 6248/LustreME4とSkylake 6148/H600の間で8台のC6420を使用した場合のスループットの比較

Cuffmergeステップは、サンプル数が増えても遅くなりませんが、CuffdiffステップとCuffnormステップは大幅に遅くなります。特に、Cuffdiffステップは実行時間が指数関数的に増加するため、パイプラインのボトルネックになります(図5)。CuffnormのランタイムはCuffdiffのように指数関数的に増加しますが、CuffnormのランタイムはCuffdiffのランタイムによって制限されているため、無視できます。  Cuffquantステップを追加することで、Cuffdiffの実行時間が大幅に改善されました。Cuffdiffステップで30時間のランタイム短縮を達成し、CuffnormはCuffquantステップで20時間短縮しました。ただし、CuffdiffとCuffnormは同時に起動するため、Cuffnormによるパフォーマンスの向上は見えません。

図5:CuffdiffとCuffnormのランタイム インクリメント
図5:CuffdiffとCuffnormのランタイム増分
結論
スループット テストの結果は、Lustreストレージを搭載した8ノードPowerEdge C6420が、図1に示すTuxedoパイプラインを介して、それぞれ約5,000万のペアリード(25 MF)を持つ64個のサンプルから約27億個のフラグメントを処理できることを示しています。Tuxedoパイプラインは他の一般的なパイプラインよりも比較的高速であるため、これらの結果を一般化したり、HPCシステムのサイズを正確に設定したりすることは困難です。ただし、この結果は、HPCシステムのサイズを大まかに見積もるのに役立ちます。

リソース
1. RNA-Seq Differential Gene Expression: Basic Tutorial[オンライン]https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/このハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。
2. RNA-Seq pipeline benchmark with Dell EMC Ready Bundle for HPC Life Sciences[オンライン]https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdfこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。
3. Dell EMC Ready Solution for HPC Lustre Storage[2024年7月時点でリンクが無効]

メモ:これらは、サンプルのプールから無作為に選択され、それらの間に意味のある関連性はありません。

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
文書のプロパティ
文書番号: 000124142
文書の種類: How To
最終更新: 25 7月 2024
バージョン:  3
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。