Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

在配有 NVIDIA T4 GPU 的 Dell EMC DSS 8440 服务器上使用 NVIDIA Clara Parabricks 加速基因组数据分析速度

Summary: 本文介绍有关在配有 NVIDIA T4 GPU 的 Dell EMC DSS 8440 上使用 NVIDIA Parabricks 加快基因组数据分析速度的信息。

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

概述

处理下一代测序 (NGS) 数据的第一步称为初级分析。此步骤特定于测序仪器,并生成包含测序读数的多个 FASTQ 文件。在下一步(即所谓的二次分析)中,FASTQ 测序读数会映射到参考基因组或参考转录组。附加处理会识别感兴趣的样本和参考样本之间是否存在变异或差异。在后续下游步骤中,将对变异进行批注并进行解释。对单个样本的二次分析时间从数小时到数天不等,具体取决于数据大小、可用计算资源、软件和分析工作流。

二次分析是一个计算和存储密集型过程,特别是在处理成百上千个基因组时更是如此。人们会采用许多策略来避免二次分析瓶颈。直到最近,由于硬件加速器需要自定义软件,使用 GPU 或 FPGA 的硬件加速的采用率仍然很低。Parabricks 的基因组学软件率先采用使用 GPU 执行各种基因组分析工作流的软件堆栈,该公司已于 2019 年被 NVIDIA 收购。大约两年前,我们通过 Dell EMC PowerEdge C4140/4x NVIDIA® Tesla® V100 GPU 测试了 Parabricks。戴尔在其服务器和存储解决方案中引入了许多先进技术,并且 NVIDIA Clara Parabricks 发布了具有增强加速功能并添加各种调用程序的健壮版本。例如,基于配有 NVIDIA® Tesla® T4 GPU 的 DELL EMC DSS 8440 服务器的多 GPU 服务器设计很有希望加快二次分析,同时在价格和性能之间提供有吸引力的平衡。  此博客报告了 NVIDIA Clara Parabricks 在配有 Dell EMC Isilon F800 存储的多 Tesla®T4 GPU DSS 8440 服务器上进行二次分析的新参考体系结构和基准测试结果。

参考架构

图 1 说明了经测试的参考体系结构。该体系结构采用模块化结构且易于扩展。NVIDIA Clara Parabricks 应用程序软件使用一个或多个 GPU,以尽可能简单地进行横向扩展。硬件构造块包含作为管理节点的 Dell EMC PowerEdge R640、用于 GPU 计算的 DSS 8440 服务器以及 Dell EMC Isilon F800 存储。


图 1 经测试的参考体系结构


DSS 8440 2 路 4U 服务器最多可容纳 10 个 NVIDIA® Tesla® V100S Tensor Core GPU、最多 10 个 NVIDIA® Quadro RTX™ GPU,或最多 16 个 NVIDIA Tesla T4 GPU,从而提供所需强劲动力。表 1 列出了 DSS 8440 的详细配置。

 
Dell EMC DSS 8440
CPU 2 个至强® Gold 6248R 24 核 3.0 GHz
RAM 24 个 64GB,速度为 2933 MT/s
操作系统 Red Hat Enterprise Linux Server 7.4 版 (Maipo)
BIOS 系统配置文件 性能已优化
逻辑处理器 已禁用
虚拟化技术 已禁用
加速器 16 个 NVIDIA® Tesla® T4 GPU
Parabricks v3.0.0.05

两个 Z9100 的交换机提供了计算节点与 Isilon F800 存储群集之间的互连。另一个交换机 N2248X-ON 用于执行管理。

NGS 数据

二次分析运行时间的基准数据包括三个人类全基因组测序 (WGS) 数据集,ERR091571SRR3124837ERR194161,分别代表 10 倍、30 倍和 50 倍的样本覆盖率。这些数据集可在欧洲核苷酸档案库 (ENA) 中找到。

性能评估

软件改进减少了运行时间
NVIDIA 一如既往地为 NVIDIA Clara Parabricks 提供软件改进。图 2 显示的是使用配有 4 个 V100 GPU 的 Dell PowerEdge C4140 服务器测试环境执行 Parbarricks 生殖系突变分析的两个版本之间的运行时间缩减对比。v2.1.0 升级到 v3.0.0 后,运行时间减少了 42%。


图 2 最新版本的 Parabricks 生殖系变异探索流程运行时间。

配有 16 个 T4 的 DSS 8440 的性能

与使用一个 V100 GPU 相比,使用单个 T4 GPU 的 NVIDIA Clara Parabricks 二次分析的运行时间约慢 30%。但是,两 (2) 个 T4 GPU 提供的 TFLOPS 约比一 (1) 个 V100 GPU 多 10%,成本约为一半。DSS 8440 提供多达 16 个 PCIe 插槽,这为设计基于 T4 GPU 的服务器提供了可能性,该服务器可提供与配有 4 个 V100 GPU 的 C4140 系统类似的运行时间性能,但成本较低。
使用配有 16 个 T4 GPU 的 PowerEdge DSS 8440 进行 Parabricks 生殖系分析。对于先前所述的每个 WGS 样本数据集,每次分别使用 1、2、4、8 和 16 个 T4 GPU 进行二次分析并记录下运行时间。结果如图 3 至图 5 所示。总的来说,运行时间不会随着每次分析的 GPU 数量的增加而线性扩展。扩展模式类似于每个样本的数据量从 10 倍增加到 50 倍。
尽管这里没有介绍,但对 Parabricks 运行时间的早期 Dell EMC 调查结果(每次分析使用 8 个或更多 V100 GPU)并不能像 T4 GPU 那样高效地扩展。其他测试表明 6 个 T4 GPU 时的运行时间结果与 4 个 V100 GPU 基本相同。


图 3 与 10 个 WGS 的性能比较


图 4 与 30 个 WGS 的性能比较


图 5 与 50 个 WGS 的性能比较


结论

配备 16 个 T4 GPU 的 DSS 8440 每天能够处理 50 个人类基因组(30 倍覆盖度)。使用传统 x86 CPU 体系结构的类似每日分析吞吐量需要 10 个 PowerEdge C6420 计算节点。完整的体系结构在以前的戴尔出版物中进行了讨论。
但是,将所有 16 个 T4 GPU 用于处理一个样本几乎没有好处,因为每次分析使用 16 个 GPU 最多比使用 8 个 GPU 快 10%。DSS 8440 的设计允许并行进行多个二次分析。通过为每个样本分配八个 T4 GPU,每日分析吞吐量可增加到每天处理约 50 个基因组。每个样本使用四个 GPU 会将分析吞吐量增加到每天约 70 个基因组。更重要的是,使用 T4 GPU 的每日输出不到使用 V100 GPU 设计成本的一半。
除了速度之外,与其他分析工具的兼容性对结果的可比性至关重要。Parabricks 生殖系分析结果与之前测试的已知 BWA-GATK 单倍型分析结果几乎相同。  我们还希望将 Parabricks 变异探索结果与 samtools/mpileup 等其他工具集进行比较。  这两个完全不同的工具对已鉴定的变异达到了约 90% 的总体一致性,而在许多已知的包含重要基因的基因组区域的变异一致性超过 99%。

Article Properties


Affected Product

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640

Last Published Date

03 Dec 2020

Version

1

Article Type

How To