メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能

適用於 HPC 生命科學的 Dell EMC Ready Solution:透過 Cascade Lake CPU 和 Lustre ME4 Refresh 的 BWA-GATK 管道輸送量測試

概要: 適用於 HPC 生命科學的 Dell EMC Ready Solution:透過 Cascade Lake CPU 和 Lustre ME4 Refresh 的 BWA-GATK 管道輸送量測試

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

適用於 HPC 生命科學的 Dell EMC 就緒解決方案的 64 運算節點組態,每天可處理 194 個基因組 (涵蓋深度達 50 倍)。

概觀

變異呼叫此超連結會帶您前往 Dell Technologies 以外的網站。 這是一個從順序數據識別變異的程式。此程式有助於判斷個別基因組或分號中特定位置是否有單一核質多態 (SFP)、插入和刪除 (indels) 和結構變數 (SVS)。識別基因體變化的主要目標是連結到人類疾病。雖然並非所有人類疾病都與基因變化有關,但不同種類的呼叫可為研究基因變化所導致之特定疾病的基因專家提供寶貴的準則。BWA-GATK 是新一代排序 (NGS) 運算工具之一,旨在從人類 NGS 數據中識別出發芽和體體異動。有一些款式識別工具,我們了解沒有單一工具能完美執行 (1)。然而,我們選擇 GATK 做為效能指標工具之一的 GATK,以展示適用於 HPC 生命科學的 Dell EMC 就緒解決方案,能夠處理複雜且龐大的 NGS 工作負載。
此部落格旨在提供有關 Intel® Xeon® Gold 6248 處理器的寶貴效能資訊,以利 BWA-GATK 銷售管道效能指標搭配適用於 HPC Lustre 儲存裝置的 Dell EMC 就緒解決方案 (ME4 系列更新) (2)。使用超線程時,Xeon® 黃金級 6248 CPU 具有 20 個實體核心或 40 個邏輯核心。測試叢集組態摘要列於表 1。

表 1 測試的運算節點組態
 
Dell EMC PowerEdge C6420
CPU 2 個 Xeon® 黃金級 6248 20 核心 2.5 GHz (Cascade Lake)
RAM 12 條 16 GB (2933 MTps)
操作系統 RHEL 7.6
互聯 Intel® Omni-Path
BIOS 系統配置檔 效能最佳化
邏輯處理器 已停用
虛擬化技術 已停用
BWA 0.7.15-r1140
Samtools 1.6
GATK 3.6-0-g89b7209

通過測試的運算節點已透過 Intel® Omni-Path 連接至適用於 HPC Lustre 儲存裝置的 Dell EMC 就緒解決方案。儲存裝置的摘要組態列於表 2。
表 2 解決方案軟硬體規格
 
適用於 Lustre 儲存裝置的 Dell EMC 就緒解決方案
節點數 1 個 Dell EMC PowerEdge R640 擔任 Integrated Manager for Lustre (IML)
2x Dell EMC PowerEdge R740 作為元數據伺服器 (MDS)
2x Dell EMC PowerEdge R740 作為物件儲存伺服器 (OSS)
處理器 IML 伺服器:雙 Intel Xeon 黃金級 5118 (2.3 GHz
MDS 和 OSS 伺服器):雙 Intel Xeon 黃金級 6136 (3.00 GHz)
記憶體 IML 伺服器:12 條 8 GB 2,666 MT/秒 DDR4 RDIMM
MDS 和 OSS 伺服器:24 條 16 GiB 2,666 MT/秒 DDR4 RDIMM
外接式儲存
控制器
2 個 Dell 12 Gb/秒 SAS HBA (在每個 MDS 上)
4 個 Dell 12 Gb/秒 SAS HBA (在每個 OSS 上)
物件儲存
機櫃
4 個 ME4084,共 336 個 8 TB NL 7.2K RPM SAS HDD
元數據儲存
機櫃
1 個 ME4024,配備 24 個 960GB SAS SSD。最高支援 4.68 B inode
RAID 控制器 ME4084 和 ME4024 機櫃中的雙面 SAS RAID 控制器
作業系統 CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
BIOS 版本 1.4.5
Intel Omni-Path
IFS 版本
10.8.0.0
Lustre 檔案系統
版本
2.10.4
IML 版本 4.0.7.0

測試數據是從其中一個 Inumina 的白金級基因組中選擇。ERR194161已處理由 Illumina 提交的《2000 年映英版》,並可從 EMBL-EBI 取得。此個人的DNA標識碼為NA12878。鏈接網站的數據說明顯示,此範例的涵蓋深度為 >30倍。

效能評估

單一範例多重節點效能

圖 1 中概述了各種數量的樣本和運算節點 (含 50 個全基因組排序 (WGS) 數據的運行時間。此處所執行的測試旨在展示伺服器層級的效能,而非個別元件的比較。圖 1 中的數據點是根據同時處理的樣本總數計算,每個運算節點一個範例 (圖中 X 軸)。BWA-GATK 管道資訊的詳細數據可從 Broad Institute 網站取得 (3)。用於測試的最大運算節點數目為 64x C6420。搭配 Lustre ME4 的 C6420 顯示比 Lustre MD3 更好的擴充行為。

Lustre MD3 和 Lustre ME4 之間的效能比較
圖 1 Lustre MD3 和 Lustre ME4 之間的效能比較

多個範例多重節點效能

執行 NGS 管道的一個典型方式是在運算節點上執行多個範例,並使用多個運算節點來最大化 NGS 數據程式的輸送量。用於測試的運算節點數量為 C6420 的 64 個運算節點,每個節點的樣本數量為五個樣本。最多 320 個樣本會同時處理,以預估每日無工作失敗的基因組數量上限。
如圖 2 所示,當同時處理 5 個樣本時,單一 C6420 運算節點每天可處理 50 個全人類基因組中的 3.24 個。每個範例會配置 7 個核心和 30 GB 記憶體。 

  輸送量測試,最高可達 64 C6420 和 Lustre ME4
圖 2 輸送量測試,最高可達 64 C6420 和 Lustre ME4

在 40 小時內,64 個 C6420 運算節點可以處理 50 個全人類基因組中的 320 個。  換言之,測試組態的效能總和是整個人類 基因組每天 194 個基因組 ,涵蓋深度達 50 倍。

結論

隨著 WGS 的數據大小不斷成長。目前 WGS 的平均大小為 50 倍。這比 4 年前開始建立 BWA-GATK 管道基準時的一般 WGS 大 5 倍。不斷增加的數據不會使儲存裝置側容量受限,因為管道中的大多數應用程式也會受到 CPU 頻率速度的約束。因此,隨著數據規模不斷成長,管道的運作時間更長,而非產生更多寫入。
但是,由於數據需要平行化,同時開啟的暫存盤數量增加,導致在程式期間產生的臨時檔案數量較多,這會耗盡 Linux 操作系統中的開啟檔案限制。其中一個應用程式因達到開啟檔案數目上限而無訊息失敗。簡單的解決方案是將限制 >增加到15萬。
然而,使用 Lustre ME4 作為臨時空間的就緒解決方案的輸送量容量較舊版本更好。現在,64 個節點就緒解決方案可為 50 個 WGS 提供每天 194 個基因組處理能力。

資源 

1.新一代基因組排序數據變化性分析工具問卷調查。Pabinger S、Dander A、Fischer M、Snajder R、Sperk M、Efremova M、克拉比奇勒 B、Speicher MR、Zschocke J、Trajanosk Z. 2、s.l.:簡短的 Bioinform,2014 年 3 月,第 15 卷 (2)。10.1093/bib/bbs086。
2.適用於 HPC Lustre 儲存裝置的 Dell EMC 就緒解決方案。  (文章不再可供參考,由 HPC 團隊提取)
3.基因組分析工具組。https://software.broadinstitute.org/gatk/ 此超連結會帶您前往 Dell Technologies 以外的網站。

対象製品

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
文書のプロパティ
文書番号: 000176939
文書の種類: Solution
最終更新: 11 1月 2024
バージョン:  6
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。