作者:Mario Gallegos 和 Xin Chen,HPC 和 AI 创新实验室,2018 年 10 月
概览
适用于 HPC NFS 存储 (NSS) with High Availability 的最新 Dell EMC Ready 解决方案(
NSS-HA 解决方案)版本将是 NSS7.3-HA,计划于本月晚些时候发布。
此版本的 NSS 包含新的
Dell EMC PowerVault ME4084 存储阵列 和 Red Hat Enterprise Linux 7.5,并继续使用英特尔至强可扩展处理器系列 CPU(代号为 Skylake 的体系结构),以提供比以前的 NSS-HA 解决方案更高的总体系统性能。此博客介绍了此最新版本的 NSS 解决方案的 I/O 性能测试结果。
NSS7.3-HA 配置的设计如图 1 所示。NSS7.3-HA 与其直接前身 NSS7.2-HA 之间的主要区别是:
- 后端存储阵列:
- NSS7.2-HA:PowerVault MD3460 + 可选的 MD3060e(60 或 120 个硬盘)
- NSS7.3-HA:PowerVault ME4084(84 个硬盘)
- 操作系统:
- NSS7.2-HA:RHEL 7.4
- NSS7.3-HA:Red Hat® Enterprise Linux® 7.5
除了必要的软件和固件更新等项目外,NSS7.2-HA 和 NSS7.3-HA 共享相同的 HA 群集设计和基本存储配置。(有关配置的更多详细信息,请参阅
NSS7.0-HA 白皮书 。
NSS7.2-HA 和 NSS7.3-HA 的另一项重大改进是最大容量大幅增加。虽然 NSS7.2-HA 受到 Red Hat XFS 当前 500 TB 支持限制的限制,但经过实验室的广泛测试和验证,Dell EMC 和 Red Hat 达成了一项合作协议,支持 NSS7.3-HA 配置,并具有高达 768 TB 的可用空间。那就是 Dell EMC PowerVault ME4084,全部装入了 12 TB HDD 或 1008 TB 原始存储空间。
NSS-HA 体系结构
图 1 显示了虚线矩形内的 NSS 7.3 架构,嵌入在包括客户端和公共网络交换机在内的典型测试平台中。
图 1.NSS7.3-HA 1008 TB 原始空间(768 TB 可用空间) 体系结构和测试台
下表总结了新的 NSS HA 7.3 解决方案的不同组件。
表 1.NSS7.2-HA 和 NSS7.3-HA 的组件
|
NSS7.2-HA 版本(2018 年 4 月) “PowerEdge 第 14 代服务器和 MD3460 + MD3060e” |
NSS7.3-HA 版本(2018 年 10 月) “PowerEdge 第 14 代服务器和基于 ME4084 的解决方案” |
软件 |
Red Hat Enterprise Linux 7.4, 内核 3.10.0-693.el7.x86_64 Red Hat 可扩展文件系统 (XFS) v4.5.0-12 |
Red Hat Enterprise Linux 7.5, 内核 3.10.0-862.el7.x86_64 Red Hat 可扩展文件系统 (XFS) v4.5.0-15 |
NFS 服务器 |
两台 Dell PowerEdge R740 服务器。 CPU:双 Intel Xeon Gold 6136 @ 3.0 GHz,每个处理器 12 个内核。 内存:12 个 16GiB 2666 MT/s RDIMM。 |
外部网络连接 |
EDR InfiniBand、10 GbE 或英特尔 Omni-Path。 对于此博客,请参阅 Mellanox ConnectX-4 IB EDR/100 GbE。 对于订单,CX-5 IB EDR/100 GbE。 |
内部连接 |
千兆以太网,交换机 Dell Networking S3048-ON |
OFED 版本 |
Mellanox OFED 4.3-1.0.1.0 |
Mellanox OFED 4.4-1.0.0 |
直接存储连接 |
12 Gbps SAS 连接。 |
存储子系统 |
Dell EMC MD3460 + 可选的 MD3060e。 60-120-3.5“ NL SAS 4 TB 驱动器。 两种配置,240 或 480 TB(原始空间)。 6 或 12 个 LUN,8+2 RAID 6,分段大小 512KiB 无备盘 |
Dell EMC PowerVault ME4084。 84 个 3.5“ NL SAS 驱动器,高达 12 TB。 一种配置:高达 1008 TB(原始空间)。 8 个 LUN,线性 8+2 RAID 6,块大小 128KiB。 4 个全局硬盘备件。 |
新的 PowerVault ME4084 存储继续使用线性 8+2 RAID 6 作为基本构建单元,其中新的区块大小(分段大小)为 128 KiB,并选择预读值“条带大小”以获得最佳性能。此外,由于我们现在有 84 个驱动器,因此我们有 8 个基于 RAID 6 的 LUN 和 4 个全局备用 HDD,配置为立即更换任何故障磁盘。这意味着此解决方案可以具有高达 768 TB 的可用空间。
NSS7.3-HA I/O 性能
此博客介绍了当前 NSS-HA 解决方案(即 NSS7.3)的 I/O 性能测试结果。所有性能测试均在高可用性无故障场景中进行,以衡量解决方案的最大功能。测试侧重于三种类型的 I/O 模式:大型顺序读取和写入、小型随机读取和写入以及三种元数据操作(文件创建、统计和删除)。
使用 32 节点计算群集为基准测试生成工作负载。客户端和 1008 TB(原始存储大小)NSS 配置使用 InfiniBand EDR 和通过 IPoIB 装载的文件系统进行连接。每个 I/O 基准测试都在一系列客户端上运行,以测试解决方案的可扩展性。下表列出了有关所用客户端的详细信息。
表 2.客户端配置(性能测试)
服务器型号 |
PowerEdge C6420 |
服务器数量 |
32 服务器群集 |
CPU |
英特尔(R) 至强(R) Gold 6148 CPU @ 2.40 GHz |
RAM |
192 GiB |
操作系统 |
Red Hat Enterprise Linux Server 发行版 7.4 |
内核 |
3.10.0-693.17.1.el7.x86_64 |
网络适配器 |
Mellanox ConnectX-4 VPI IB EDR/100 GbE 单端口 QSFP28 |
OFED 版本 |
MLNX_OFED-4.3.1.0.1.0 |
本研究使用了 IOzone 和 MDtest 基准。IOzone 用于顺序和随机测试。对于顺序测试,使用了 1024 KiB 的请求大小。传输的数据总量为 256 GiB,以确保 NFS 服务器高速缓存达到饱和。随机测试使用 4 KiB 请求大小,每个客户端读取和写入 4 GiB 文件。元数据测试使用带有 OpenMPI 的 MDtest 基准执行,包括文件创建、统计和删除操作。(有关测试中使用的完整命令,请参阅 NSS7.0-HA 白皮书 的附录 A。
IPoIB 顺序写入和读取
图 2 和图 3 显示了顺序写入和读取性能。由于测试群集有 32 个节点,因此使用 32 个客户端各运行 2 个线程来获得 64 线程数据点。
对于 NSS7.3-HA,峰值读取性能为 7 GB/秒,峰值写入性能几乎为 5 GB/秒。从这两个图中可以明显看出,当前的 NSS7.3-HA 解决方案比以前的版本具有更高的顺序性能数字。读取性能提升高达 18.7%,但写入性能尤其出色,其性能是之前解决方案的 2.65 倍(16 线程)。比较峰值性能值,NSS7.3-HA 上的写入速度提高了 2.13 倍,读取速度提高了
12.5%。这在一定程度上是因为所有 PowerVault ME4084 内部组件(包括硬盘)的 SAS 内部速度更高至 12 Gbps(PowerVault MD3460 为 6 Gbps),从而提高了每个 LUN 的吞吐量,但也因为新的存储控制器可以比上一代 PowerVault MD3 更快地处理信息。
图 2.IPoIB 大顺序写入性能
图 3.IPoIB 大顺序读取性能
IPoIB 随机写入和读取
图 4 和图 5 显示了随机写入和读取性能。
从图中可以看出,随机写入在 32 个线程时实现了峰值性能,而之前的解决方案版本在 64 个线程时达到峰值。NSS7.3 上的随机读取性能稳步提高,多达 32 个客户端,而对于以前的解决方案,峰值为 16 个客户端。同样,新存储的性能优于前代,与前代相比,写入(2 线程)提高多达 3.44 倍,读取性能(32 线程)提高 85%。比较峰值性能,随机写入和随机读取的差异分别约为 13% 和 85%。这些改进主要是因为与 PowerVault MD3460 控制器相比,新的 PowerVault ME4084 控制器具有更快的处理能力。
图 4.IPoIB 随机写入性能
图 5.IPoIB 随机读取性能
IPoIB 元数据操作
图 6、图 7 和图 8 分别显示了文件 create、stat 和 remove 操作的结果。由于 HPC 计算群集只有 32 个计算节点,因此在下图中,每个客户端最多执行一个线程,客户端计数最多为 32,线程计数为 64、128、256 和 512,每个客户端同时执行 2、4、8 或 16 个操作(线程)。
对于文件创建,与以前的解决方案相比,新解决方案在 32 个客户端上显示出大约 2 倍的性能持续提高,峰值差异 (208%),然后略有下降,但即使比较两种解决方案在 256 线程时的峰值性能,新解决方案的速度也提高了
30%。新存储对统计操作的改进最大,其改进高达 7.7 倍,有 256 个线程,与峰值性能相比,NSS7.3 显示的每秒统计操作数几乎是以前版本的 NSS 的 6 倍。
最后,删除操作的改进相对较小,大多数数据点的性能比以前的解决方案提高 33% 或更高;除了 128 个线程,其性能提高了 2.21 倍。在峰值性能下,与以前的 NSS 系统相比,新存储的性能提高了近 55%。
所有这些改进都归功于使用 SAS3 速度 (12 Gbps) 的更快硬盘,以及能够实现更高 IOPS 和带宽的全新 PowerVault ME4084 控制器。
图 6.IPoIB 文件创建性能
图 7.IPoIB 文件统计性能
图 8.IPoIB 文件删除性能
结论和未来的工作
在解决方案的不同代次中,NSS-HA 解决方案进行了许多硬件和软件更新,以持续提供高可用性、更高的性能和更大的存储容量。在所有这些版本中,NSS-HA 解决方案系列的核心体系结构设计保持不变。为了显示 NSS7.3-HA 与上一版本 (NSS7.2-HA) 之间的性能差异,对两种解决方案的性能数据进行了对比,显示了基于 PowerVault ME4084 的最新版本解决方案的卓越性能: