Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

适用于 HPC 生命科学的 Dell EMC Ready 解决方案:采用 Cascade Lake CPU 和 Lustre/ME4 刷新的 Tuxedo 管道

Summary: 本文介绍标题为“适用于 HPC 生命科学的 Dell EMC 就绪型解决方案:采用 Cascade Lake CPU 和 Lustre/ME4 刷新的 Tuxedo 管道”。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

提醒:HPC 和 AI 创新实验室的 Kihoon Yoon 于 2019
年 12 月撰写的文章与以前的 Ready Solution 相比,新硬件和更新的管道共同将吞吐量提高了 3 倍。

概述
基因表达分析与鉴定单核苷酸多态性 (SNP)、插入/缺失 (indel) 或染色体重组同样重要。最终,整个生理和生化事件取决于最终的基因表达产物,即蛋白质。尽管大多数哺乳动物在蛋白质表达之前都有一个额外的控制层,但了解系统中存在多少个转录本有助于表征细胞的生化状态。理想情况下,一项技术使我们能够量化细胞中的整个蛋白质,这些蛋白质可以在生命科学的进步中显着突出;然而,我们离实现这一目标还很遥远。 
在这篇博客中,我们测试了一种流行的 RNA-Seq 数据分析管道,称为 Tuxedo 管道 (1)。Tuxedo 管道套件此超链接会将您带往 Dell Technologies 之外的网站。 提供一组用于分析各种 RNA-Seq 数据的工具,包括短读长定位、剪接连接鉴定、转录本和亚型检测、差异表达、可视化和质量控制指标。图 1显示了管道中的详细步骤。与之前博客中测试的旧版本相比,Tuxedo 管道的更新版本包括 Cuffquant 步骤 (2)。

图 1 使用 cuffquant 步骤更新的 Tuxedo 管道图 1 使用 cuffquant 步骤

更新了 Tuxedo 管道表 1 汇总了测试群集的配置。

表 1 测试计算节点配置

Dell EMC PowerEdge C6420

CPU

2 个至强® Gold 6248 20c 2.5 GHz (Cascade Lake)

RAM

12x 16GB @2933 MT/s

OS

RHEL 7.6

互连

英特尔® Omni-Path

BIOS 系统配置文件

性能已优化

Logical Processor

禁用

虚拟化技术

禁用

礼帽

2.1.1

领结2

2.2.5

R

3.6

Bioconductor-CummerBund

2.26.0


测试的计算节点通过英特尔® Omni-Path 连接到 Dell EMC Ready Solution for Lustre Storage (3)。表 2 中列出了存储的总体配置。

表 2 Lustre 存储解决方案硬件和软件规格

适用于 Lustre 存储的 Dell EMC Ready 解决方案

节点数量

1 台 Dell EMC PowerEdge R640 作为 Integrated Manager for Lustre (IML)
2 台 Dell EMC PowerEdge R740 作为元数据服务器 (MDS)
2 台 Dell EMC PowerEdge R740 作为对象存储服务器 (OSS)

处理器

IML 服务器:双 Intel Xeon Gold 5118 @ 2.3 GHz
MDS 和 OSS 服务器:双 Intel Xeon Gold 6136 @ 3.00 GHz

内存

IML 服务器:12 个 8 GB 2,666 MT/s DDR4 RDIMM
MDS 和 OSS 服务器:24 x 16 GiB 2,666 MT/s DDR4 RDIMM

外部存储
控制器

2 个戴尔 12 Gb/s SAS HBA(在每个 MDS 上)
4 个戴尔 12 Gb/s SAS HBA(在每个 OSS 上)

对象存储
外壳

4 个 ME4084,总共 336 个 8 TB NL 7.2K rpm SAS 硬盘

元数据存储
外壳

1 个 ME4024,带 24 个 960 GB SAS SSD。支持多达 46.88 亿个文件/索引节点

RAID 控制器

ME4084 和 ME4024 机柜中的双工 RAID

操作系统

CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64

内核版本

3.10.0-862.el7.x86_64

BIOS 版本

1.4.5

英特尔 Omni-Path
IFS 版本

10.8.0.0

Lustre 文件系统
版本

2.10.4

IML 版本

4.0.7.0


RNA-Seq管道的性能研究并非易事,因为自然工作流程需要不同的输入文件。185 从公共数据存储库收集 185 个 RNA-Seq 双端读取数据 此超链接会将您带往 Dell Technologies 之外的网站。。 所有读取数据文件都包含大约 2500 万个片段 (MF),并且具有相似的读取长度。从 185 个双端读取文件池中随机选择的检测样本。虽然这些随机选择的数据没有任何生物学意义,但这些噪声水平高的数据肯定会使测试处于最坏的情况下。
性能评估
双样本检测
在图 2 中,绘制了每个步骤的运行时间。该测试在两个计算节点中运行,其中两个样本包含大约 2500 万个读取 RNA-Seq 数据。为计算节点上的每个示例并行启动顶帽步骤。随后,袖扣在 Tophat 完成后开始。Cuffmerge 步骤结合了两次 Cufflinks 运行的结果。添加Cuffquant步骤以量化每个样品中的基因表达,并在Cuffdiff和Cuffnorm步骤中进一步检查结果。最后一步,CummeRbund 是 CummeRbund R 包的统计分析步骤,它生成可视化报告,如图 2 所示。

图 2 Tuxedo 管道的总运行时,包含两个示例:SRR1608490和SRR934809。图 2 Tuxedo 管道的总运行时,包含两个示例:SRR1608490SRR934809

图 3 以红色显示来自 8 个样品运行(每个样品由 4 个重复组成)的差异表达基因,与其他基因表达(黑色所示)相比,p 值(Y 轴)显著降低1.X 轴是对数基数为 2 的倍数变化,每个基因的这些倍数变化与 p 值作图。更多的样本将带来更好的基因表达估计。右上图是样本 2 与样本 1 相比的基因表达,而左下图是样本 1 与样本 2 相比的基因表达。两种样品中黑点中的基因表达没有显着差异。


图 3 Cuffdiff 结果的火山图图 3 Cuffdiff 结果
的火山图通量测试 – 单个管道包含两个以上的样品、生物和技术重复样品
典型的RNA-Seq研究由多个样本组成,有时是100个不同的样本,正常与疾病或未经处理与处理的样本。由于其生物学原因,这些样品往往具有高水平的噪音;因此,分析需要严格的数据预处理程序。
 
我们测试了不同数量的样本(从 185 个双端读取数据集中选择的所有不同 RNA-Seq 数据),以了解 PowerEdge C6420 群集中的 8 个节点可以处理多少数据。如图 4 所示,当样本数量增加时,2、4、8、16、32 和 64 个样本的运行时间呈指数增长。借助 Cascade Lake 6248/LustreME4 存储和更新的管道,每天十亿个片段的数量增加了近三倍。

图 4 Cascade Lake 6248/LustreME4 和 Skylake 6148/H600 之间使用 8 个 C6420 的吞吐量比较图 4 Cascade Lake 6248/LustreME4 和 Skylake 6148/H600

之间与 8x C6420 的吞吐量比较Cuffmerge 步骤不会随着样本数量的增加而减慢,而 Cuffdiff 和 Cuffnorm 步骤则明显减慢。特别是,由于运行时间呈指数级增长,Cuffdiff 步骤成为管道的瓶颈(图 5)。尽管 Cuffnorm 的运行时像 Cuffdiff 一样呈指数级增长,但它是可以忽略的,因为 Cuffnorm 的运行时受 Cuffdiff 运行时的限制。  添加 Cuffquant 步骤显著改善了 Cuffdiff 的运行时间。Cuffdiff 步骤的运行时间减少了 30 小时,而 Cuffquant 步骤的运行时间缩短了 20 小时。尽管由于 Cuffdiff 和 Cuffnorm 同时启动,因此看不到 Cuffnorm 的性能提升。


图 5 Cuffdiff 和 Cuffnorm 上的运行时增量
图 5 Cuffdiff 和 Cuffnorm
上的运行时增量总结
吞吐量测试结果表明,具有 Lustre 存储的 8 节点 PowerEdge C6420 可以通过图 1 所示的 Tuxedo 管道处理来自 64 个样本的大约 27 亿个片段,每个样本有 ~5000 万对读取 (25 MF)。由于 Tuxedo 管道比其他常用管道相对较快,因此很难概括或利用这些结果来准确调整 HPC 系统的规模。但是,这些结果有助于粗略估计 HPC 系统的大小。

资源
1. RNA-Seq差异基因表达:基础教程。[在线] https://melbournebioinformatics.github.io/MelBioInf_docs/tutorials/rna_seq_dge_basic/rna_seq_basic_tuxedo/.此超链接会将您带往 Dell Technologies 之外的网站。
阿拉伯数字。采用适用于 HPC 生命科学的 Dell EMC Ready Bundle 的 RNA-Seq 管道基准测试。[在线的] https://downloads.dell.com/manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/high-computing-solution-resources_white-papers86_en-us.pdf.此超链接会将您带往 Dell Technologies 之外的网站。
3.适用于 HPC Lustre 存储的 Dell EMC Ready 解决方案。[截至 2024 年 7 月链接失效]

注意:这些是随机选择的样本库,它们之间没有任何有意义的关联。

Affected Products

ME Series, OEMR ME40XX and ME4XX, Dell EMC PowerVault ME4012, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Dell EMC PowerVault ME412 Expansion, Dell EMC PowerVault ME424 Expansion, Dell EMC PowerVault ME484
Article Properties
Article Number: 000124142
Article Type: How To
Last Modified: 25 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.