提醒:文章由 HPC 和 AI 创新实验室的 Kihoon Yoon 于 2019 年 12 月撰写
与以前的就绪型解决方案相比,新硬件和更新的管道共同将吞吐量提高了 3 倍。
概览
基因表达分析与识别单核苷酸多态性 (SNP)、插入/删除 (indel) 片段或染色体重组同样重要。最终,整个生理和生化过程都取决于最终的基因表达产物,即蛋白质。虽然大多数哺乳动物在表达蛋白质之前还有一个控制层,但了解系统中的转录本数量有助于描述细胞的生化状态。理想情况下,出现一种技术,使我们能够对细胞中的全部蛋白质进行量化分析,从而大大推动生命科学的发展;然而,我们离实现这个目标还很遥远。
在这篇博客中,我们测试一种流行的 RNA-Seq 数据分析管道,即 Tuxedo 管道 (1)。Tuxedo 管道套件 提供一套工具,可用于分析各种 RNA-Seq 数据,其中包括短读段比对、剪接接头识别、转录本和异构体检测、差异表达、可视化和质量控制指标。 图 1 显示了管道中的详细步骤。与之前博客中测试的旧版本相比,这个更新的 Tuxedo 管道的版本包含 Cuffquant 步骤 (2)。
图 1 包含 Cuffquant 步骤的更新的 Tuxedo 管道
表 1 汇总了测试群集的配置。
表 1 测试的计算节点配置 |
|
Dell EMC PowerEdge C6420 |
|
CPU |
2 个至强® Gold 6248 20c 2.5GHz (Cascade Lake) |
RAM |
12 个 16GB @2933 MT/s |
OS |
RHEL 7.6 |
互连 |
英特尔® Omni-Path |
BIOS 系统配置文件 |
性能已优化 |
Logical Processor |
禁用 |
虚拟化技术 |
禁用 |
tophat |
2.1.1 |
bowtie2 |
2.2.5 |
R |
3.6 |
bioconductor-cummerbund |
2.26.0 |
测试的计算节点已通过英特尔® Omni-Path 连接到适用于 Lustre 存储的 Dell EMC 就绪型解决方案 (3)。表 2 列出了存储的配置摘要。
表 2 Lustre 存储解决方案硬件和软件规格 |
|
适用于 Lustre 存储的 Dell EMC 就绪型解决方案 |
|
节点数量 |
1 台 Dell EMC PowerEdge R640 作为 Integrated Manager for Lustre (IML) |
处理器 |
IML 服务器:2 个英特尔至强 Gold 5118 @ 2.3 GHz |
内存 |
IML 服务器:12 个 8 GB 2,666 MT/s DDR4 RDIMM |
外部存储 |
2 个戴尔 12 Gb/s SAS HBA(在每个 MDS 上) |
对象存储 |
4 个 ME4084,总共 336 个 8 TB NL 7.2K rpm SAS 硬盘 |
元数据存储 |
1 个 ME4024,具有 24 个 960GB SAS SSD。每个索引节点可支持多达 46.88 亿个文件 |
RAID 控制器 |
ME4084 和 ME4024 机柜中的双工 RAID |
操作系统 |
CentOS 7.5 x86_64 |
内核版本 |
3.10.0-862.el7.x86_64 |
BIOS 版本 |
1.4.5 |
英特尔 Omni-Path |
10.8.0.0 |
Lustre 文件系统 |
2.10.4 |
IML 版本 |
4.0.7.0 |
由于 Nature Workflow 需要不同的输入文件,因此对 RNA-Seq 管道进行性能研究并非易事。185 个 RNA-Seq 双端测序读段数据收集自公共数据存储库。所有测序读段数据文件都包含大约 2500 万个片段,并且具有相似的测序读段长度。检测样本从 185 个双端测序读段数据文件构成的样本库中随机选取。虽然这些随机选取的数据没有任何生物学意义,但这些噪声水平高的数据肯定会将测试置于最坏的情况下。
性能评估
双样本检测
在图 2 中,绘制了每个步骤的运行时间。该测试在两个计算节点中进行,并且两个样本包含大约 2500 万个测序读段的 RNA-Seq 数据。计算节点上每个样本的 Tophat 步骤会并行启动。随后,在 Tophat 完成后,Cufflinks 开始运行。Cuffmerge 步骤合并两次 Cufflinks 运行的结果。这里添加 Cuffquant 步骤,以便对每个样本中的基因表达进行量化分析,并在 Cuffdiff 和 Cuffnorm 步骤中进一步检查结果。最后一步,CummeRbund 是 CummeRbund R 包的统计分析步骤,它生成可视化报告,如图 2 所示。图 2 包含两个样本的 Tuxedo 管道的总运行时间:SRR1608490 和 SRR934809。
图 3 以红色显示来自 8 次样本运行(每个样本由 4 个完全相同的项组成)的差异表达基因,与其他以黑色表示的基因表达相比,前者的 p 值(Y 轴)明显更小1。X 轴是以 2 为对数基数的倍数变化,每个基因的这些倍数变化都与 p 值相对应。采用的样本越多,基因表达估计就越好。右上图为样本 2 与样本 1 的基因表达对比图,而左下图为样本 1 与样本 2 的基因表达对比图。采用黑点的基因表达在两个样本中无明显差异。图 3 Cuffdiff 结果的火山图
吞吐量测试 – 单个管道包含两个以上在生物和技术方面完全相同的样本
典型的 RNA-Seq 研究由多个样本组成,不同样本数量有时达到 100 个,这些样本分别是正常样本与疾病样本或未经处理的样本与已处理的样本。由于生物学上的原因,这些样本往往具有高水平的噪声;因此,分析需要强有力的数据预处理程序。
我们测试了不同数量的样本(所有不同的 RNA-Seq 数据均选自 185 个双端测序读段数据集),以了解 PowerEdge C6420 群集中的 8 个节点可处理多少数据。如图 4 所示,当样本数量增加时,2、4、8、16、32 和 64 个样本的运行时间呈指数增长。借助 Cascade Lake 6248/LustreME4 存储和更新的管道,每天十亿个片段的数量增加了近三倍。图 4 Cascade Lake 6248/LustreME4 和 Skylake 6148/H600 之间使用 8 个 C6420 的吞吐量比较
Cuffmerge 步骤不会随着样本数量的增加而减慢,而 Cuffdiff 和 Cuffnorm 步骤则明显减慢。特别是,由于运行时间呈指数增长,Cuffdiff 步骤成为管道的瓶颈(图 5)。尽管 Cuffnorm 的运行时间与 Cuffdiff 的运行时间一样呈指数增长,但由于 Cuffnorm 的运行时间受 Cuffdiff 的运行时间限制,因此它是可以忽略的。 添加 Cuffquant 步骤可显著改善 Cuffdiff 的运行时间。Cuffdiff 步骤的运行时间缩短了 30 个小时,而 Cuffnorm 步骤比 Cuffquant 步骤快了 20 个小时。尽管由于 Cuffdiff 和 Cuffnorm 同时启动,因此 Cuffnorm 的性能提升并不明显,但我们仍可看到它有所改善。
图 5 Cuffdiff 和 Cuffnorm 的运行时间递增
结论
吞吐量测试结果表明,配备 Lustre 存储器的 8 节点 PowerEdge C6420 可以通过图 1 所示的 Tuxedo 管道处理来自 64 个样本的大约 27 亿个片段,每个样本大约有 5000 万个双端测序读段数据(2500 万个片段)。由于 Tuxedo 管道比其他常用管道相对更快,因此很难推广或利用这些结果来准确地确定 HPC 系统的规模。但是,这些结果有助于粗略估计 HPC 系统的规模。
资源
1. RNA-Seq 差异基因表达:基础教程。[Online] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/。
2.使用适用于 HPC 生命科学的 Dell EMC Ready 套装的 RNA-Seq 管道基准。[Online] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf。
3.适用于 HPC Lustre 存储的 Dell EMC 就绪型解决方案。[截至 2024 年 7 月链接已失效]
提醒:这些都是从样本库中随机选取的,它们之间没有任何有意义的关联。