適用於 HPC 生命科學的 Dell EMC 就緒解決方案的 64 運算節點組態,每天可處理 194 個基因組 (涵蓋深度達 50 倍)。
概觀
變異呼叫 這是一個從順序數據識別變異的程式。此程式有助於判斷個別基因組或分號中特定位置是否有單一核質多態 (SFP)、插入和刪除 (indels) 和結構變數 (SVS)。識別基因體變化的主要目標是連結到人類疾病。雖然並非所有人類疾病都與基因變化有關,但不同種類的呼叫可為研究基因變化所導致之特定疾病的基因專家提供寶貴的準則。BWA-GATK 是新一代排序 (NGS) 運算工具之一,旨在從人類 NGS 數據中識別出發芽和體體異動。有一些款式識別工具,我們了解沒有單一工具能完美執行 (1)。然而,我們選擇 GATK 做為效能指標工具之一的 GATK,以展示適用於 HPC 生命科學的 Dell EMC 就緒解決方案,能夠處理複雜且龐大的 NGS 工作負載。
此部落格旨在提供有關 Intel® Xeon® Gold 6248 處理器的寶貴效能資訊,以利 BWA-GATK 銷售管道效能指標搭配適用於 HPC Lustre 儲存裝置的 Dell EMC 就緒解決方案 (ME4 系列更新) (2)。使用超線程時,Xeon® 黃金級 6248 CPU 具有 20 個實體核心或 40 個邏輯核心。測試叢集組態摘要列於表 1。
Dell EMC PowerEdge C6420 | |
---|---|
CPU | 2 個 Xeon® 黃金級 6248 20 核心 2.5 GHz (Cascade Lake) |
RAM | 12 條 16 GB (2933 MTps) |
操作系統 | RHEL 7.6 |
互聯 | Intel® Omni-Path |
BIOS 系統配置檔 | 效能最佳化 |
邏輯處理器 | 已停用 |
虛擬化技術 | 已停用 |
BWA | 0.7.15-r1140 |
Samtools | 1.6 |
GATK | 3.6-0-g89b7209 |
適用於 Lustre 儲存裝置的 Dell EMC 就緒解決方案 | |
---|---|
節點數 | 1 個 Dell EMC PowerEdge R640 擔任 Integrated Manager for Lustre (IML) 2x Dell EMC PowerEdge R740 作為元數據伺服器 (MDS) 2x Dell EMC PowerEdge R740 作為物件儲存伺服器 (OSS) |
處理器 | IML 伺服器:雙 Intel Xeon 黃金級 5118 (2.3 GHz MDS 和 OSS 伺服器):雙 Intel Xeon 黃金級 6136 (3.00 GHz) |
記憶體 | IML 伺服器:12 條 8 GB 2,666 MT/秒 DDR4 RDIMM MDS 和 OSS 伺服器:24 條 16 GiB 2,666 MT/秒 DDR4 RDIMM |
外接式儲存 控制器 |
2 個 Dell 12 Gb/秒 SAS HBA (在每個 MDS 上) 4 個 Dell 12 Gb/秒 SAS HBA (在每個 OSS 上) |
物件儲存 機櫃 |
4 個 ME4084,共 336 個 8 TB NL 7.2K RPM SAS HDD |
元數據儲存 機櫃 |
1 個 ME4024,配備 24 個 960GB SAS SSD。最高支援 4.68 B inode |
RAID 控制器 | ME4084 和 ME4024 機櫃中的雙面 SAS RAID 控制器 |
作業系統 | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
BIOS 版本 | 1.4.5 |
Intel Omni-Path IFS 版本 |
10.8.0.0 |
Lustre 檔案系統 版本 |
2.10.4 |
IML 版本 | 4.0.7.0 |