Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

適用於 HPC 生命科學的 Dell EMC Ready Solution:Tuxedo 管道搭配 Cascade Lake CPU 和 Lustre/ME4 重新整理

Summary: 本文說明標題如下的白皮書:「適用於 HPC 生命科學的 Dell EMC Ready Solution:Tuxedo 管道搭配 Cascade Lake CPU 和 Lustre/ME4 重新整理」。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

注意:由 HPC 與 AI 創新實驗室的 Kihoon Yoon 於 2019 年 12 月撰寫的文章
新硬體和更新的管道共同使輸送量比之前的 Ready Solution 高出 3 倍。

概觀
基因表現分析與識別單核苷酸多型性 (SNP)、插入/缺失 (indel) 或染色體重組一樣重要。最終,整個生理和生化事件取決於最終的基因表現產物,即蛋白。儘管大多數哺乳動物在蛋白表現之前都有額外的控制層,但瞭解系統中存在多少轉錄本,有助於描繪細胞的生化狀態。在理想情況下,技術使我們能夠量化細胞中全部的蛋白,並可能推動生命科學的演進過程大幅躍進;然而,我們與實現目標的距離仍然遙遠。 
在本部落格中,我們測試了一個流行的 RNA-定序資料分析管道,稱為 Tuxedo 管道 (1)。Tuxedo 管道套件此超連結會帶您前往 Dell Technologies 以外的網站。 提供一套用於分析各種 RNA-定序資料的工具,包括短讀取對應、識別剪接連結、轉錄本和異構體檢測、差異表現、視覺化和品質控制指標。管道中的詳細步驟如圖 1 所示。與上一篇部落格中測試的舊版本相比,本 Tuxedo 管道的更新版本包括 Cuffquant 步驟 (2)。

圖 1 使用 Cuffquant 步驟更新 Tuxedo 管道圖 1 使用 Cuffquant 步驟更新 Tuxedo 管道

表 1 為測試叢集的組態摘要。

表 1 測試的運算節點組態

Dell EMC PowerEdge C6420

CPU

2x Xeon® Gold 6248 20c 2.5 GHz (Cascade Lake)

RAM

12x 16 GB @2933 MT/s

作業系統

RHEL 7.6

互聯

Intel® Omni-Path

BIOS 系統設定檔

效能最佳化

邏輯處理器

已停用

虛擬化技術

已停用

tophat

2.1.1

bowtie2

2.2.5

R

3.6

bioconductor-cummerbund

2.26.0


經過測試的運算節點是透過 Intel® Omni-Path 連接至適用於 Lustre 儲存的 Dell EMC Ready Solution (3)。表 2 中列出儲存裝置的組態摘要。

表 2 Lustre 儲存解決方案硬體和軟體規格

適用於 Lustre 儲存的 Dell EMC Ready Solution

節點數

1x Dell EMC PowerEdge R640,作為 Integrated Manager for Lustre (IML)
2x Dell EMC PowerEdge R740,作為中繼資料伺服器 (MDS)
2x Dell EMC PowerEdge R740,作為物件儲存伺服器 (OSS)

處理器

IML 伺服器:雙 Intel Xeon Gold 5118 @ 2.3 GHz
MDS 和 OSS 伺服器:雙 Intel Xeon Gold 6136 @ 3.00 GHz

記憶體

IML 伺服器:12 x 8 GB 2,666 MT/s DDR4 RDIMM
MDS 和 OSS 伺服器:24 x 16 GiB 2,666 MT/s DDR4 RDIMM

外部儲存裝置
控制器

2 x Dell 12 Gb/s SAS HBA (在每個 MDS 上)
4 x Dell 12 Gb/s SAS HBA (在每個 OSS 上)

物件儲存
機櫃

4x ME4084,共 336 x 8TB NL 7.2K rpm SAS HDD

中繼資料儲存
機櫃

1x ME4024,含 24x 960 GB SAS SSD。最多支援 4.688B 個檔案/節點

RAID 控制器

ME4084 和 ME4024 機櫃中的雙工 RAID

作業系統

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

核心版本

3.10.0-862.el7.x86_64

BIOS 版本

1.4.5

Intel Omni-Path
IFS 版本

10.8.0.0

Lustre 檔案系統
版本

2.10.4

IML 版本

4.0.7.0


RNA-定序管道的效能研究並不簡單,因為自然工作流程需要不相同的輸入檔案。185 RNA-定序配對端讀取資料是收集自公開資料儲存庫此超連結會帶您前往 Dell Technologies 以外的網站。。所有讀取資料檔案包含約 25 百萬個片段 (MF),且具有類似的讀取長度。用於測試的樣本是從 185 個配對端讀取檔案的集區中隨機選擇。雖然這些隨機選取的資料沒有任何生物學意義,但可以肯定的是,這些具有高噪音量的資料將使測試處於最壞的情況。
效能評估
雙樣本測試
圖 2 繪製了每個步驟的執行階段。該測試在兩個運算節點中執行,其中兩個樣本包含約 25 百萬個讀取 RNA-定序資料。Tophat 步驟會在運算節點上平行開始每個樣本。接著,Cufflinks 會在 Tophat 完成後開始。Cuffmerge 步驟結合了兩次 Cufflinks 執行的結果。新增 Cuffquant 步驟以量化每個樣本中的基因表現,並在 Cuffdiff 和 Cuffnorm 步驟中進一步檢查結果。最後一個步驟,CummeRbund 是 CummeRbund R 套裝的統計分析步驟,它會產生一個視覺化報告,如圖 2 所示。

圖 2 包含兩個樣本的 Tuxedo 管道的總執行階段:SRR1608490 和 SRR934809。圖 2 包含兩個樣本的 Tuxedo 管道的總執行階段:SRR1608490SRR934809

圖 3 以紅色顯示來自 8 個樣本執行 (每個樣本由 4 個重複項目組成) 的差異表現基因,與其他以黑色顯示的基因表現相比,p 值 (Y 軸) 明顯較低1。X 軸是對數底數為 2 的摺疊變化,每個基因的這些摺疊變化會比對 p 值繪製。更多的樣本會帶來更好的基因表現估計。右上圖是樣本 2 中的基因表現與樣本 1 的比較,而左下圖是樣本 1 中與樣本 2 相比的基因表現。在兩個樣本中,黑點中的基因表現沒有顯著差異。


圖 3 Cuffdiff 結果的 Volcano 圖圖 3 Cuffdiff 結果的 Volcano 圖
輸送量測試 – 具有兩個以上樣本、生物和技術重複項目的單一管道
典型的 RNA-定序研究由多個樣本組成,有時是 100 多個不同的樣本,正常與疾病或未治理與已治療的樣本。由於其生物學原因,這些樣本往往具有高噪音量;因此,分析需要進行嚴格的資料預處理程序。
 
我們測試了不同的樣本數 (從 185 個配對端讀取資料集中選取所有不同 RNA-定序資料),以瞭解 PowerEdge C6420 叢集中的 8 個節點可處理多少資料。如圖 4 所示,當樣本數量增加時,2、4、8、16、32 和 64 個樣本的執行階段會呈指數級成長。使用 Cascade Lake 6248/LustreME4 儲存裝置和更新的管道後,以每天十億個片段為單位的數量增加了近三倍。

圖 4 Cascade Lake 6248/LustreME4 和 Skylake 6148/H600 與 8 個 C6420 之間的輸送量比較圖 4 Cascade Lake 6248/LustreME4 和 Skylake 6148/H600 與 8 個 C6420 之間的輸送量比較

Cuffmerge 步驟不會隨著樣本數量的增加而減慢,Cuffdiff 和 Cuffnorm 步驟則會顯著減慢。特別是,Cuffdiff 步驟成為管道的瓶頸,因為執行時間呈指數級成長 (圖 5)。雖然 Cuffnorm 的執行階段會像 Cuffdiff 一樣呈指數級成長,但可加以忽略,因為 Cuffnorm 的執行階段受 Cuffdiff 的執行階段限制。  新增 Cuffquant 步驟顯著改善了 Cuffdiff 的執行階段。在 Cuffdiff 步驟上減少了 30 小時的執行階段,Cuffnorm 使用 Cuffquant 步驟提前 20 小時完成。不過看不到 Cuffnorm 的效能提升,因為 Cuffdiff 和 Cuffnorm 同時開始。


圖 5 Cuffdiff 和 Cuffnorm 上的執行階段增量
圖 5 Cuffdiff 和 Cuffnorm 上的執行階段增量
結論
輸送量測試結果顯示,配備 Lustre 儲存裝置的 8 節點 PowerEdge C6420 可透過 Tuxedo 管道處理來自 64 個樣本約 27 億個片段,各約 5 千萬配對的讀取 (25 MF),如圖 1 所示。由於 Tuxedo 管道比其他熱門管道相對更快,因此很難概括或利用這些結果來準確調整 HPC 系統的大小。然而,這些結果有助於大略估計 HPC 系統的大小。

資源
 1. RNA-定序差異基因表現:基礎教學課程。[線上] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/。此超連結會帶您前往 Dell Technologies 以外的網站。
2.RNA-定序管道效能指標,搭配適用於 HPC 生命科學的 Dell EMC Ready Bundle。[線上] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf。此超連結會帶您前往 Dell Technologies 以外的網站。
3.適用於 HPC Lustre 儲存的 Dell EMC Ready Solution。[於 2024 年 7 月時,連結已損壞]

注意:這些是從樣本集區中隨機選擇,它們之間沒有任何有意義的關聯。

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
Article Properties
Article Number: 000124142
Article Type: How To
Last Modified: 25 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.