HPC 不断发展,因此,工作负载也是如此。随着数据集变得越来庞大复杂,AI 工作负载(如 Deep Learning)成为主角。现在,越来越多的 Deep Learning 工作负载都在强大、可扩展、低延迟的 HPC 系统中运行,这些系统所解决的挑战是十年前无法想像的。生命科学、数字制造、石油和天然气、金融等领域传统 HPC 工作负载正由 Deep Learning 推动,以更短的时间和更高的准确度从数据中产生更有意义的洞察力。Intel 认识到 AI 方法现在是 HPC 工作负载的重要组成部分。为了满足培训和(更重要的)加快 AI 模型的决策速度的需求,英特尔已通过新的第二用 英特尔®至强®可扩展处理器系列使这些工作负载成为主角。
第二用 英特尔®至强®可扩展处理器上的 Deep Learning Boost
第二用 英特尔®至强®可扩展处理器带来了大量新的改进功能,包括部署英特尔®傲腾™ DC 永久性内存的能力、改进的 DRAM 速度、对传统指令集(例如单精度 Fp32)的更强的处理能力,以及采用新的 Intel® Deep Learning Boost 指令集对 Deep Learning 工作负载的新处理功能。
第二用 英特尔®至强®可扩展处理器上的 Deep Learning Boost
Deep learning 是一种使用人工神经网络开发模型的过程,此网络由许多以高密度图形互联的独立处理单元(或神经元)组成。神经网络在识别各种数据中的未知或不可预知模式方面展现出惊人的能力,并已应用到从图像和视频识别与分析到音频和语言转换、再到时间序列数据和异常检测分析等领域。
使用神经网络开发尖端模型的过程分为两个阶段:培训,其中,现有数据用于指导神经网络如何识别模式;推断,其中,培训的模型将用于新数据,并有望用于做出适当的决策。多年来,神经网络的培训过程一直是硬件和软件创新的重点,而在推断中,企业从 AI 的努力中受益颇多。
与培训相比,推断具有不同的硬件要求。培训需要半精度或单精度浮点算术,并能够同时处理多个相似数据的大型矢量。推断的总计算要求低得多,更侧重于延迟(决策时间),并且可以利用更低精度的数字格式(如 8 位和 16 位整数)。
第二用 英特尔®至强®可扩展处理器系列主要侧重于第二(推断)阶段,该阶段拥有一项全新的功能,称为 Deep Learning Boost。Intel® Deep Learning Boost 将更少的精确算术(8 位和 16 位整数)带给至强的 512 位宽矢量单元 (AVX512)。这是降低精度推断的巨大功能,因为支持 Deep Learning Boost 的英特尔®至强®处理器可以在单个硬件指令中同时处理 64 个 8 位整数(或 32 个 16 位整数)!将这种功能与执行融合操作的能力(例如在这些宽低精度的矢量上进行融合乘加运算 (FMA))相结合,系统的吞吐量大幅增加。
Dell EMC 一直在对可实现的性能改进进行基准测试,Intel® Deep Learning Boost 可以将这些改进带给神经网络推断。上面的数字表明,您的组织通过部署第二用 带有 Intel® Deep Learning Boost 的英特尔®至强®可扩展处理器,可以实现的改进。第一代 英特尔®至强®可扩展处理器(代号为 "Skylake")能够在 ResNet-50 推理基准中以单精度 (FP32) 每秒处理 258 张图像,并能以更低的 8 位整数精度每秒处理 389 张图像,Deep Learning Boost 带给第二用 英特尔®至强®可扩展处理器的新指令可以在 8 位整数精度中产生三倍以上的吞吐量,达到每秒 1278 张图像!
为何这如此重要
这对您的业务意味着什么?您的 AI 模型所做的每个推断都是您以前没有的见解,或者是您已自动化的、消除了决策障碍的工作负载。其中每个见解—每个都已消除障碍—都可以转化为新的销售、额外的追加销售或更快的投资决策。这就是公司口袋里的钱。
随着公司进行数字化转型,利用 AI 尤其是 Deep Dearning 是在数据驱动型世界中保持竞争力的制胜法宝。虽然培训 AI 模型在这个早期阶段是重点,但推断才是真正使企业实现 AI 的方式。搭载采用 Intel® Deep Learning Boost 的英特尔®至强®可扩展处理器的 Dell EMC PowerEdge 服务器可以通过更高的性能模型推理,帮助您的企业实现 AI 的全部潜能。更高的性能将转化为更好的业务。