注意:由 HPC 與 AI 創新實驗室的 Kihoon Yoon 於 2019
年 12 月撰寫的文章新硬體和更新的管道共同使輸送量比之前的就緒解決方案高出 3 倍。
概述
基因表達分析與鑒定單核苷酸多態性(SNP)、插入/缺失(插入缺失)或染色體重組一樣重要。最終,整個生理和生化事件取決於最終的基因表達產物,即蛋白質。儘管大多數哺乳動物在蛋白質表達之前都有額外的控制層,但了解系統中存在多少轉錄本有助於表徵細胞的生化狀態。理想情況下,一項技術使我們能夠量化細胞中的全部蛋白質,從而在生命科學的進步中表現出色;然而,我們遠未實現它。
在這裡,在本博客中,我們測試了一種流行的RNA-Seq數據分析管道,稱為Tuxedo管道(1)。燕尾服管道套件 提供一套用於分析各種 RNA-Seq 數據的工具,包括短讀長映射、剪接連接鑒定、轉錄本和亞型檢測、差異表達、可視化和品質控制指標。管道中的詳細步驟如圖 1 所示。這個更新版本的Tuxedo管道包括Cuffquant步驟,與上一篇博客中測試的舊版本相比(2)。
圖 1 使用 Cuffquant 步驟
更新了燕尾服管道表 1 匯總了測試集群的配置。
表1 測試的計算節點設定 |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2 個 Xeon® Gold 6248 20c 2.5GHz (Cascade Lake) |
RAM |
12 個 16GB @2933 MT/秒 |
作業系統 |
RHEL 7.6 |
互聯 |
Intel® Omni-Path |
BIOS 系統設定檔 |
效能最佳化 |
邏輯處理器 |
已停用 |
虛擬化技術 |
已停用 |
頂帽 |
2.1.1 |
領結2 |
2.2.5 |
R |
3.6 |
生物導體-坎默邦德 |
2.26.0 |
經過測試的運算節點是透過 Intel® Omni-Path 連接至 Lustre 儲存裝置適用的 Dell EMC Ready Solution (3)。表 2 中列出了存儲的摘要配置。
表 2 Lustre 儲存解決方案軟硬體規格 |
|
適用於 Lustre 儲存的 Dell EMC 就緒解決方案 |
|
節點數 |
1 個 Dell EMC PowerEdge R640,作為 Lustre (IML) |
處理器 |
IML 伺服器:雙 Intel Xeon 黃金級 5118 @ 2.3 GHz |
記憶體 |
IML 伺服器:12 條 8 GB 2,666 MT/秒 DDR4 RDIMM |
外接式儲存裝置 |
2 個 Dell 12 Gb/s SAS HBA (在每個 MDS 上) |
物件儲存 |
4 個 ME4084,共 336 個 8 TB NL 7.2K RPM SAS 硬碟 |
中繼資料儲存 |
1 個 ME4024 搭配 24 個 960GB SAS SSD。最多支援 4.688B 個檔案/inode |
RAID 控制器 |
ME4084 和 ME4024 機櫃中的雙工 RAID |
作業系統 |
CentOS 7.5 x86_64 |
核心版本 |
3.10.0-862.el7.x86_64 |
BIOS 版本 |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Lustre 檔案系統 |
2.10.4 |
IML 版本 |
4.0.7.0 |
RNA-Seq管道的性能研究並非易事,因為自然工作流程需要不相同的輸入檔。185 RNA-Seq 配對末端讀取數據是從公共數據儲存庫收集的。所有讀取的數據檔都包含大約 2500 萬個片段 (MF),並且具有類似的讀取長度。用於測試的樣本是從 185 個配對端讀取檔池中隨機選擇的。雖然這些隨機選擇的數據沒有任何生物學意義,但可以肯定的是,這些具有高雜訊水平的數據將使測試處於最壞的情況。
效能評估
雙樣品測試
圖 2 繪製了每個步驟的運行時間。該測試在兩個計算節點中運行,其中兩個樣本包含約2500萬個讀取的RNA-Seq數據。並行計算節點上的每個示例啟動 Tophat 步驟。隨後,袖扣在Tophat完成後開始。袖帶合併步驟結合了兩次袖扣運行的結果。添加袖帶定量步驟以量化每個樣品中的基因表達,並在袖帶和袖帶範步驟中進一步檢查結果。最後一步,CummeRbund 是 CummeRbund R 包的統計分析步驟,它生成一個可視化報告,如圖 2 所示。
圖 2 包含兩個樣本的 Tuxedo 管道的總運行時間:SRR1608490 和 SRR934809。
圖3顯示了來自8個樣品運行(每個樣品由4個重複組成)的差異表達基因,紅色,與其他黑色基因表達相比,p值(Y軸)明顯較低1.X軸是2的對數底的摺疊變化,每個基因的這些摺疊變化與p值繪製。更多的樣品將帶來更好的基因表達估計。右上圖是樣本 2 中的基因表達與樣本 1 的比較,而左下圖是樣本 1 中與樣本 2 相比的基因表達。在兩個樣品中,黑點中的基因表達沒有顯著差異。
圖3 袖帶結果
的火山圖通量測試 – 具有兩個以上樣品的單條管線,生物和技術副本
典型的RNA-Seq研究由多個樣品組成,有時是100多個不同的樣品,正常與疾病或未處理與處理的樣品。由於生物學原因,這些樣品往往具有高水準的雜訊;因此,分析需要嚴格的數據預處理程式。
我們測試了不同數量的樣本 (從 185 個配對端讀取資料集中選取的所有不同 RNA-Seq 資料),以瞭解 PowerEdge C6420 叢集中的 8 個節點可處理多少資料。如圖 4 所示,當樣本數量增加時,2、4、8、16、32 和 64 個樣本的運行時呈指數級增長。使用 Cascade Lake 6248/LustreME4 儲存裝置和更新的管道後,每天十億個片段的數量增加了近三倍。
圖 4 Cascade Lake 6248/LustreME4 和 Skylake 6148/H600
與 8 個 C6420 的通量比較Cuffmerge 步驟不會隨著樣本數量的增加而減慢,而 Cuffdiff 和 Cuffnorm 步進會顯著減慢。特別是,Cuffdiff步驟成為管道的瓶頸,因為運行時間呈指數級增長(圖5)。雖然 Cuffnorm 的運行時像 Cuffdiff 一樣呈指數級增長,但它是可以忽略的,因為 Cuffnorm 的運行時受 Cuffdiff 的運行時的限制。 添加 Cuffquant 步驟顯著改善了 Cuffdiff 的運行時間。在 Cuffdiff 步驟上減少了 30 小時的運行時間,而 Cuffnorm 使用 Cuffquant 步驟可以更快地完成 20 小時。儘管Cuffnorm的性能提升是不可見的,因為Cuffdiff和Cuffnorm同時啟動。
圖 5 Cuffdiff 和 Cuffnorm
的執行階段增量結論
通量測試結果顯示,配備 Lustre 儲存裝置的 8 節點 PowerEdge C6420 可透過圖 1 所示的 Tuxedo 管道處理來自 64 個樣本的約 27 億個片段,每個樣本 (25 MF) 可處理約 27 億個片段。由於 Tuxedo 管道比其他流行的管道相對較快,因此很難概括或利用這些結果來準確調整 HPC 系統的大小。然而,這些結果更有助於您粗略估計 HPC 系統的大小。
資源
1. RNA-Seq差異基因表達:基礎教程。[在線] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
2.RNA-Seq 流水線效能指標,搭配適用於 HPC 生命科學的 Dell EMC Ready Bundle。[在線] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3.適用於 HPC Lustre 儲存的 Dell EMC Ready Solution。[連結已失效,截至 2024 年 7 月]
注意:這些是從樣本池中隨機選擇的,它們之間沒有任何有意義的關聯。