注意:由 HPC 與 AI 創新實驗室的 Kihoon Yoon 於 2019 年 12 月撰寫的文章
新硬體和更新的管道共同使輸送量比之前的 Ready Solution 高出 3 倍。
概觀
基因表現分析與識別單核苷酸多型性 (SNP)、插入/缺失 (indel) 或染色體重組一樣重要。最終,整個生理和生化事件取決於最終的基因表現產物,即蛋白。儘管大多數哺乳動物在蛋白表現之前都有額外的控制層,但瞭解系統中存在多少轉錄本,有助於描繪細胞的生化狀態。在理想情況下,技術使我們能夠量化細胞中全部的蛋白,並可能推動生命科學的演進過程大幅躍進;然而,我們與實現目標的距離仍然遙遠。
在本部落格中,我們測試了一個流行的 RNA-定序資料分析管道,稱為 Tuxedo 管道 (1)。Tuxedo 管道套件 提供一套用於分析各種 RNA-定序資料的工具,包括短讀取對應、識別剪接連結、轉錄本和異構體檢測、差異表現、視覺化和品質控制指標。管道中的詳細步驟如圖 1 所示。與上一篇部落格中測試的舊版本相比,本 Tuxedo 管道的更新版本包括 Cuffquant 步驟 (2)。
圖 1 使用 Cuffquant 步驟更新 Tuxedo 管道
表 1 為測試叢集的組態摘要。
表 1 測試的運算節點組態 |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2x Xeon® Gold 6248 20c 2.5 GHz (Cascade Lake) |
RAM |
12x 16 GB @2933 MT/s |
作業系統 |
RHEL 7.6 |
互聯 |
Intel® Omni-Path |
BIOS 系統設定檔 |
效能最佳化 |
邏輯處理器 |
已停用 |
虛擬化技術 |
已停用 |
tophat |
2.1.1 |
bowtie2 |
2.2.5 |
R |
3.6 |
bioconductor-cummerbund |
2.26.0 |
經過測試的運算節點是透過 Intel® Omni-Path 連接至適用於 Lustre 儲存的 Dell EMC Ready Solution (3)。表 2 中列出儲存裝置的組態摘要。
表 2 Lustre 儲存解決方案硬體和軟體規格 |
|
適用於 Lustre 儲存的 Dell EMC Ready Solution |
|
節點數 |
1x Dell EMC PowerEdge R640,作為 Integrated Manager for Lustre (IML) |
處理器 |
IML 伺服器:雙 Intel Xeon Gold 5118 @ 2.3 GHz |
記憶體 |
IML 伺服器:12 x 8 GB 2,666 MT/s DDR4 RDIMM |
外部儲存裝置 |
2 x Dell 12 Gb/s SAS HBA (在每個 MDS 上) |
物件儲存 |
4x ME4084,共 336 x 8TB NL 7.2K rpm SAS HDD |
中繼資料儲存 |
1x ME4024,含 24x 960 GB SAS SSD。最多支援 4.688B 個檔案/節點 |
RAID 控制器 |
ME4084 和 ME4024 機櫃中的雙工 RAID |
作業系統 |
CentOS 7.5 x86_64 |
核心版本 |
3.10.0-862.el7.x86_64 |
BIOS 版本 |
1.4.5 |
Intel Omni-Path |
10.8.0.0 |
Lustre 檔案系統 |
2.10.4 |
IML 版本 |
4.0.7.0 |
RNA-定序管道的效能研究並不簡單,因為自然工作流程需要不相同的輸入檔案。185 RNA-定序配對端讀取資料是收集自公開資料儲存庫。所有讀取資料檔案包含約 25 百萬個片段 (MF),且具有類似的讀取長度。用於測試的樣本是從 185 個配對端讀取檔案的集區中隨機選擇。雖然這些隨機選取的資料沒有任何生物學意義,但可以肯定的是,這些具有高噪音量的資料將使測試處於最壞的情況。
效能評估
雙樣本測試
圖 2 繪製了每個步驟的執行階段。該測試在兩個運算節點中執行,其中兩個樣本包含約 25 百萬個讀取 RNA-定序資料。Tophat 步驟會在運算節點上平行開始每個樣本。接著,Cufflinks 會在 Tophat 完成後開始。Cuffmerge 步驟結合了兩次 Cufflinks 執行的結果。新增 Cuffquant 步驟以量化每個樣本中的基因表現,並在 Cuffdiff 和 Cuffnorm 步驟中進一步檢查結果。最後一個步驟,CummeRbund 是 CummeRbund R 套裝的統計分析步驟,它會產生一個視覺化報告,如圖 2 所示。圖 2 包含兩個樣本的 Tuxedo 管道的總執行階段:SRR1608490 和 SRR934809。
圖 3 以紅色顯示來自 8 個樣本執行 (每個樣本由 4 個重複項目組成) 的差異表現基因,與其他以黑色顯示的基因表現相比,p 值 (Y 軸) 明顯較低1。X 軸是對數底數為 2 的摺疊變化,每個基因的這些摺疊變化會比對 p 值繪製。更多的樣本會帶來更好的基因表現估計。右上圖是樣本 2 中的基因表現與樣本 1 的比較,而左下圖是樣本 1 中與樣本 2 相比的基因表現。在兩個樣本中,黑點中的基因表現沒有顯著差異。圖 3 Cuffdiff 結果的 Volcano 圖
輸送量測試 – 具有兩個以上樣本、生物和技術重複項目的單一管道
典型的 RNA-定序研究由多個樣本組成,有時是 100 多個不同的樣本,正常與疾病或未治理與已治療的樣本。由於其生物學原因,這些樣本往往具有高噪音量;因此,分析需要進行嚴格的資料預處理程序。
我們測試了不同的樣本數 (從 185 個配對端讀取資料集中選取所有不同 RNA-定序資料),以瞭解 PowerEdge C6420 叢集中的 8 個節點可處理多少資料。如圖 4 所示,當樣本數量增加時,2、4、8、16、32 和 64 個樣本的執行階段會呈指數級成長。使用 Cascade Lake 6248/LustreME4 儲存裝置和更新的管道後,以每天十億個片段為單位的數量增加了近三倍。圖 4 Cascade Lake 6248/LustreME4 和 Skylake 6148/H600 與 8 個 C6420 之間的輸送量比較
Cuffmerge 步驟不會隨著樣本數量的增加而減慢,Cuffdiff 和 Cuffnorm 步驟則會顯著減慢。特別是,Cuffdiff 步驟成為管道的瓶頸,因為執行時間呈指數級成長 (圖 5)。雖然 Cuffnorm 的執行階段會像 Cuffdiff 一樣呈指數級成長,但可加以忽略,因為 Cuffnorm 的執行階段受 Cuffdiff 的執行階段限制。 新增 Cuffquant 步驟顯著改善了 Cuffdiff 的執行階段。在 Cuffdiff 步驟上減少了 30 小時的執行階段,Cuffnorm 使用 Cuffquant 步驟提前 20 小時完成。不過看不到 Cuffnorm 的效能提升,因為 Cuffdiff 和 Cuffnorm 同時開始。
圖 5 Cuffdiff 和 Cuffnorm 上的執行階段增量
結論
輸送量測試結果顯示,配備 Lustre 儲存裝置的 8 節點 PowerEdge C6420 可透過 Tuxedo 管道處理來自 64 個樣本約 27 億個片段,各約 5 千萬配對的讀取 (25 MF),如圖 1 所示。由於 Tuxedo 管道比其他熱門管道相對更快,因此很難概括或利用這些結果來準確調整 HPC 系統的大小。然而,這些結果有助於大略估計 HPC 系統的大小。
資源
1. RNA-定序差異基因表現:基礎教學課程。[線上] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/。
2.RNA-定序管道效能指標,搭配適用於 HPC 生命科學的 Dell EMC Ready Bundle。[線上] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf。
3.適用於 HPC Lustre 儲存的 Dell EMC Ready Solution。[於 2024 年 7 月時,連結已損壞]
注意:這些是從樣本集區中隨機選擇,它們之間沒有任何有意義的關聯。