メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能

「Dell EMC Ready Solution for HPC Life Sciences:Cascade Lake CPUおよびLustre/ME4 Refreshを使用したTuxedoパイプライン(英語)」

概要: この記事では、『Dell EMC Ready Solution for HPC Life Sciences: Tuxedo Pipeline with Cascade Lake CPU and Lustre/ME4 Refresh』を参照してください。

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

手順

注:この記事は、HPCおよびAIイノベーション ラボのKihoon Yoonによって2019年12月に作成されました
新しいハードウェアと更新されたパイプラインを組み合わせることで、スループットは以前のReady Solutionの3倍に向上します

概要
遺伝子発現解析は、一塩基多型(SNP)、挿入/欠失(インデル)、染色体再構築の同定と同じくらい重要です。最終的に、生理学的および生化学的イベント全体は、最終的な遺伝子発現産物であるタンパク質に依存します。ほとんどの哺乳類はタンパク質発現の前に追加の制御層を持っていますが、システム内に存在する転写産物の数を知ることは、細胞の生化学的状態を特徴付けるのに役立ちます。理想的には、生命科学の進歩に大きく貢献できる細胞内のタンパク質全体を定量化できる技術です。しかし、まだ実現には程遠い状況です。 
このブログでは、Tuxedoパイプライン(1)として知られる一般的なRNA-Seqデータ解析パイプラインの1つをテストします。Tuxedoパイプライン・スイートこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。 は、ショートリードマッピング、スプライス結合の同定、転写産物およびアイソフォーム検出、差次的発現、可視化、品質管理メトリクスなど、さまざまなRNA-Seqデータを解析するための一連のツールを提供します。パイプラインの詳細な手順を図 1 に示します。Tuxedoパイプラインのこの更新バージョンには、以前のブログ(2)でテストした古いバージョンと比較したCuffquantステップが含まれています

図 1 更新された Tuxedo パイプラインと Cuffquant ステップ
図1 Cuffquantで更新されたTuxedoパイプライン ステップ

テスト・クラスタの構成を表1にまとめます。

表1 テスト済みのコンピューティング ノード構成

Dell EMC PowerEdge C6420

CPU

Xeon® Gold 6248 20c 2.5GHz x 2(Cascade Lake)

RAM

12 x 16GB @2933 MT/秒

OS

RHEL 7.6

内部接続

インテルOmni-Path®

BIOSシステム プロファイル

最適化されたパフォーマンス

論理プロセッサー

Disabled

仮想化テクノロジー

Disabled

トップハット

2.1.1

蝶ネクタイ2

2.2.5

R

3.6

生体伝導体-カマーバンド

2.26.0


テスト済みのコンピューティング ノードは、Intel® Omni-Path(3)を介してDell EMC Ready Solution for Lustre Storageに接続されました。ストレージの構成の概要を表2に示します。

表2 Lustre Storage Solutionのハードウェアおよびソフトウェアの仕様

Dell EMC Ready Solution for Lustre Storage

ノードの数

1 x Integrated Manager for Lustre(IML)としてのDell EMC PowerEdge R640
2 x メタデータ サーバー(MDS)
としてのDell EMC PowerEdge R740
オブジェクト ストレージ サーバー(OSS)としてのDell EMC PowerEdge R740 x 2

プロセッサ

IMLサーバー: デュアル インテル Xeon Gold 5118 @ 2.3 GHz
MDSおよびOSSサーバー: デュアル インテル Xeon Gold 6136 @ 3.00 GHz

メモリー

IMLサーバー: 12 x 8 GB 2,666 MT/s DDR4 RDIMM
MDSおよびOSSサーバー: 24 x 16 GiB 2,666 MT/s DDR4 RDIMM

外部ストレージ
コント ローラー

2 x Dell 12 Gb/秒SAS HBA(各MDS上)
4 x Dell 12 Gb/秒SAS HBA(各OSS上)

オブジェクト ストレージ
エンクロージャ

4 x ME4084、合計336 x 8TB NL 7.2K RPM SAS HDD

メタデータ ストレージ
囲い

1x ME4024(960GB SAS SSDを24台搭載)。最大4,688Bファイル/inodeをサポート

RAIDコントローラ

ME4084およびME4024エンクロージャの二重RAID

オペレーティングシステム

CentOS 7.5 x86_64
Red Hat Enterprise Linux(RHEL)7.5 x86_64

カーネル バージョン

3.10.0-862.el7.x86_64

BIOSのバージョン

1.4.5

インテルOmni-Path
IFSバージョン

10.8.0.0

Lustreファイル システム
バージョン

2.10.4

IMLバージョン

4.0.7.0


RNA-Seqパイプラインの性能研究は、Natureワークフローが同一でない入力ファイルを必要とするため、簡単ではありません。185 個の RNA-Seq ペアエンドリードデータが公開データリポジトリから収集されますこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。です。すべての読み取りデータ ファイルには、約2,500万個のフラグメント(MF)が含まれており、読み取り長は類似しています。テストのサンプルは、185 個のペアエンド読み取りファイルのプールからランダムに選択されました。これらの無作為に選ばれたデータには生物学的な意味はありませんが、ノイズレベルの高いこれらのデータは、最悪のシナリオでテストを行うことは確かです
パフォーマンス評価
2サンプル検定
図 2 では、各ステップの実行時間がプロットされています。このテストは、約2,500万のリードRNA-Seqデータを含む2つのサンプルを使用して、2つの計算ノードで実行されました。Tophat ステップは、コンピューティング ノード上の各サンプルに対して並列に開始されます。その後、カフリンクスはトップハットの完成から始まります。カフマージ ステップは、2 つのカフスボタン実行の結果を結合します。各サンプルの遺伝子発現を定量するために Cuffquant ステップを追加し、その結果を Cuffdiff ステップと Cuffnorm ステップでさらに調べます。最後のステップであるCummeRbundは、CummeRbund R-packageの統計分析ステップであり、図2.

図 2 2 つのサンプルを使用した Tuxedo パイプラインの合計実行時間: SRR1608490とSRR934809。に示すような視覚化されたレポートを生成します
図 2 2 つのサンプルを使用した Tuxedo パイプラインの合計実行時間: SRR1608490SRR934809.

図3は、8つのサンプルラン(各サンプルは4つの重複からなる)から発現の異なる遺伝子を赤で示し、黒で示した他の遺伝子発現と比較して有意に低いp値(Y軸)を示しています1.X軸は2を底とする対数での折り目変化であり、これらの各遺伝子の折り目変化をp値に対してプロットします。サンプル数が多いほど、遺伝子発現の推定精度が向上します。右上のプロットはサンプル1と比較したサンプル2の遺伝子発現で、左下のプロットはサンプル2と比較したサンプル1の遺伝子発現です。黒い点の遺伝子発現は、両方のサンプルで有意差はありません。


図3 Cuffdiff結果のボルケーノプロット図3 Cuffdiff結果の火山プロット
スループットテスト – 2つ以上のサンプルを含む単一のパイプライン、生物学的および技術的重複
典型的なRNA-Seq研究は、複数のサンプル、時には数百の異なるサンプル、正常サンプルと疾患サンプル、または未治療サンプルと治療済みサンプルで構成されています。これらのサンプルは、生物学的な理由により、高レベルのノイズを持つ傾向があります。したがって、分析には精力的なデータ前処理手順が必要です。
 
PowerEdge C6420クラスターの8ノードで処理できるデータ量を確認するために、さまざまな数のサンプル(185のペアエンド リード データ セットから選択されたすべての異なるRNA-Seqデータ)をテストしました。図4に示すように、サンプル数が増えると、2、4、8、16、32、64サンプルのランタイムが指数関数的に増加します。1日あたり10億個のフラグメントの数は、Cascade Lake 6248/LustreME4ストレージと更新されたパイプラインにより、約3倍に増加しました

図4 Cascade Lake 6248/LustreME4とSkylake 6148/H600間の8 x C6420のスループット比較
図4:Cascade Lake 6248/LustreME4とSkylake 6148/H600の間で8台のC6420を使用した場合のスループットの比較

Cuffmergeステップは、サンプル数が増えても遅くなりませんが、CuffdiffステップとCuffnormステップは大幅に遅くなります。特に、Cuffdiffステップは実行時間が指数関数的に増加するため、パイプラインのボトルネックになります(図5)。Cuffnorm のランタイムは Cuffdiff のように指数関数的に増加しますが、Cuffnorm のランタイムは Cuffdiff のランタイムによって制限されているため、無視できます。  Cuffquantステップを追加することで、Cuffdiffの実行時間が大幅に改善されました。Cuffdiffステップで30時間のランタイム短縮を達成し、CuffnormはCuffquantステップで20時間短縮しました。ただし、Cuffdiff と Cuffnorm は同時に起動するため、Cuffnorm によるパフォーマンスの向上は見えません

図 5 Cuffdiff と Cuffnorm のランタイム インクリメント
図5 CuffdiffとCuffnormのランタイム増分
結論
スループット テストの結果は、Lustreストレージを搭載した8ノードPowerEdge C6420が、図1に示すTuxedoパイプラインを介して、それぞれ~5,000万のペアリード(25 MF)を持つ64個のサンプルから約27億個のフラグメントを処理できることを示しています。Tuxedoパイプラインは他の一般的なパイプラインよりも比較的高速であるため、これらの結果を一般化したり、HPCシステムのサイズを正確に設定したりすることは困難です。ただし、この結果は、HPCシステムのサイズを大まかに見積もるのに役立ちます。

リソース
1。 RNA-Seq Differential Gene Expression: 基本チュートリアル。[オンライン]https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.このハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。
2。Dell EMC Ready Bundle for HPC Life Sciencesを使用したRNA-Seqパイプライン ベンチマーク。[オンライン]https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.このハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。
3。Dell EMC Ready Solution for HPC Lustre Storage。[2024年7月時点でリンクが無効]

:これらは、サンプルのプールからランダムに選択され、それらの間に意味のある関連性はありません。

対象製品

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
文書のプロパティ
文書番号: 000124142
文書の種類: How To
最終更新: 25 7月 2024
バージョン:  3
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。