提醒:HPC 和 AI 创新实验室的 Kihoon Yoon 于 2019
年 12 月撰写的文章与以前的 Ready Solution 相比,新硬件和更新的管道共同将吞吐量提高了 3 倍。
概述
基因表达分析与鉴定单核苷酸多态性 (SNP)、插入/缺失 (indel) 或染色体重组同样重要。最终,整个生理和生化事件取决于最终的基因表达产物,即蛋白质。尽管大多数哺乳动物在蛋白质表达之前都有一个额外的控制层,但了解系统中存在多少个转录本有助于表征细胞的生化状态。理想情况下,一项技术使我们能够量化细胞中的整个蛋白质,这些蛋白质可以在生命科学的进步中显着突出;然而,我们离实现这一目标还很遥远。
在这篇博客中,我们测试了一种流行的 RNA-Seq 数据分析管道,称为 Tuxedo 管道 (1)。Tuxedo 管道套件 提供一组用于分析各种 RNA-Seq 数据的工具,包括短读长定位、剪接连接鉴定、转录本和亚型检测、差异表达、可视化和质量控制指标。图 1显示了管道中的详细步骤。与之前博客中测试的旧版本相比,Tuxedo 管道的更新版本包括 Cuffquant 步骤 (2)。
图 1 使用 cuffquant 步骤
更新了 Tuxedo 管道表 1 汇总了测试群集的配置。
表 1 测试计算节点配置 |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2 个至强® Gold 6248 20c 2.5 GHz (Cascade Lake) |
RAM |
12x 16GB @2933 MT/s |
OS |
RHEL 7.6 |
互连 |
英特尔® Omni-Path |
BIOS 系统配置文件 |
性能已优化 |
Logical Processor |
禁用 |
虚拟化技术 |
禁用 |
礼帽 |
2.1.1 |
领结2 |
2.2.5 |
R |
3.6 |
Bioconductor-CummerBund |
2.26.0 |
测试的计算节点通过英特尔® Omni-Path 连接到 Dell EMC Ready Solution for Lustre Storage (3)。表 2 中列出了存储的总体配置。
表 2 Lustre 存储解决方案硬件和软件规格 |
|
适用于 Lustre 存储的 Dell EMC Ready 解决方案 |
|
节点数量 |
1 台 Dell EMC PowerEdge R640 作为 Integrated Manager for Lustre (IML) |
处理器 |
IML 服务器:双 Intel Xeon Gold 5118 @ 2.3 GHz |
内存 |
IML 服务器:12 个 8 GB 2,666 MT/s DDR4 RDIMM |
外部存储 |
2 个戴尔 12 Gb/s SAS HBA(在每个 MDS 上) |
对象存储 |
4 个 ME4084,总共 336 个 8 TB NL 7.2K rpm SAS 硬盘 |
元数据存储 |
1 个 ME4024,带 24 个 960 GB SAS SSD。支持多达 46.88 亿个文件/索引节点 |
RAID 控制器 |
ME4084 和 ME4024 机柜中的双工 RAID |
操作系统 |
CentOS 7.5 x86_64 |
内核版本 |
3.10.0-862.el7.x86_64 |
BIOS 版本 |
1.4.5 |
英特尔 Omni-Path |
10.8.0.0 |
Lustre 文件系统 |
2.10.4 |
IML 版本 |
4.0.7.0 |
RNA-Seq管道的性能研究并非易事,因为自然工作流程需要不同的输入文件。185 从公共数据存储库收集 185 个 RNA-Seq 双端读取数据 。 所有读取数据文件都包含大约 2500 万个片段 (MF),并且具有相似的读取长度。从 185 个双端读取文件池中随机选择的检测样本。虽然这些随机选择的数据没有任何生物学意义,但这些噪声水平高的数据肯定会使测试处于最坏的情况下。
性能评估
双样本检测
在图 2 中,绘制了每个步骤的运行时间。该测试在两个计算节点中运行,其中两个样本包含大约 2500 万个读取 RNA-Seq 数据。为计算节点上的每个示例并行启动顶帽步骤。随后,袖扣在 Tophat 完成后开始。Cuffmerge 步骤结合了两次 Cufflinks 运行的结果。添加Cuffquant步骤以量化每个样品中的基因表达,并在Cuffdiff和Cuffnorm步骤中进一步检查结果。最后一步,CummeRbund 是 CummeRbund R 包的统计分析步骤,它生成可视化报告,如图 2 所示。
图 2 Tuxedo 管道的总运行时,包含两个示例:SRR1608490 和 SRR934809。
图 3 以红色显示来自 8 个样品运行(每个样品由 4 个重复组成)的差异表达基因,与其他基因表达(黑色所示)相比,p 值(Y 轴)显著降低1.X 轴是对数基数为 2 的倍数变化,每个基因的这些倍数变化与 p 值作图。更多的样本将带来更好的基因表达估计。右上图是样本 2 与样本 1 相比的基因表达,而左下图是样本 1 与样本 2 相比的基因表达。两种样品中黑点中的基因表达没有显着差异。
图 3 Cuffdiff 结果
的火山图通量测试 – 单个管道包含两个以上的样品、生物和技术重复样品
典型的RNA-Seq研究由多个样本组成,有时是100个不同的样本,正常与疾病或未经处理与处理的样本。由于其生物学原因,这些样品往往具有高水平的噪音;因此,分析需要严格的数据预处理程序。
我们测试了不同数量的样本(从 185 个双端读取数据集中选择的所有不同 RNA-Seq 数据),以了解 PowerEdge C6420 群集中的 8 个节点可以处理多少数据。如图 4 所示,当样本数量增加时,2、4、8、16、32 和 64 个样本的运行时间呈指数增长。借助 Cascade Lake 6248/LustreME4 存储和更新的管道,每天十亿个片段的数量增加了近三倍。
图 4 Cascade Lake 6248/LustreME4 和 Skylake 6148/H600
之间与 8x C6420 的吞吐量比较Cuffmerge 步骤不会随着样本数量的增加而减慢,而 Cuffdiff 和 Cuffnorm 步骤则明显减慢。特别是,由于运行时间呈指数级增长,Cuffdiff 步骤成为管道的瓶颈(图 5)。尽管 Cuffnorm 的运行时像 Cuffdiff 一样呈指数级增长,但它是可以忽略的,因为 Cuffnorm 的运行时受 Cuffdiff 运行时的限制。 添加 Cuffquant 步骤显著改善了 Cuffdiff 的运行时间。Cuffdiff 步骤的运行时间减少了 30 小时,而 Cuffquant 步骤的运行时间缩短了 20 小时。尽管由于 Cuffdiff 和 Cuffnorm 同时启动,因此看不到 Cuffnorm 的性能提升。
图 5 Cuffdiff 和 Cuffnorm
上的运行时增量总结
吞吐量测试结果表明,具有 Lustre 存储的 8 节点 PowerEdge C6420 可以通过图 1 所示的 Tuxedo 管道处理来自 64 个样本的大约 27 亿个片段,每个样本有 ~5000 万对读取 (25 MF)。由于 Tuxedo 管道比其他常用管道相对较快,因此很难概括或利用这些结果来准确调整 HPC 系统的规模。但是,这些结果有助于粗略估计 HPC 系统的大小。
资源
1. RNA-Seq差异基因表达:基础教程。[在线] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.
阿拉伯数字。采用适用于 HPC 生命科学的 Dell EMC Ready Bundle 的 RNA-Seq 管道基准测试。[在线的] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.
3.适用于 HPC Lustre 存储的 Dell EMC Ready 解决方案。[截至 2024 年 7 月链接失效]
注意:这些是随机选择的样本库,它们之间没有任何有意义的关联。