Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

搭載 Intel Cascade Lake 處理器之 HPC 的 BIOS 特性

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

文章作者:HPC 與 AI Innovation Lab 的 Varun Bawa、Savitha Pareek 及 Ashish K Singh,2019 年 4 月

Resolution

隨著第 2 代 Intel Xeon® 處理器可擴充系列處理器 (架構代號「Cascade Lake」) 推出,Dell EMC 已更新 PowerEdge 第 14 代伺服器,讓核心數量增加和記憶體速度加快,進而受惠於 HPC 應用程式。

本部落格介紹第一組結果,並討論搭載最新 Intel Xeon® Cascade Lake 處理器的 Dell EMC PowerEdge C6420 不同 BIOS 調整選項對部分 HPC 效能指標和應用程式的影響。以下簡述 Cascade Lake 處理器、BIOS 選項和本研究中使用的 HPC 應用程式。

Cascade Lake 是 Intel 繼任 Skylake 的產品。Cascade Lake 處理器最多可支援 28 個核心、六個 DDR4 記憶體通道,速度最高可達 2933 MT/秒。與 Skylake 類似,Cascade Lake 透過 AVX512 指令集支援額外的矢量化功率,允許 32 DP FLOP/週期。Cascade Lake 推出 向量神經網路指令 (VNNI),可加速影像分類、語音辨識、語言翻譯、物件偵測等 AI 和 DL 工作負載的效能。VNNI 還支援 8 位指令,以加速推理性能

Cascade Lake 包含針對某些側通道漏洞的硬體緩解措施。預期這可以改善儲存工作負載的效能,不妨看看 創新實驗室未來的研究。

由於 Skylake 和 Cascade Lake 與插槽相容,因此系統 BIOS 中公開的處理器調校旋鈕在這些處理器世代中都類似。本研究探索下列 BIOS 調整選項,與 過去在 Skylake 上發表的工作類似。

處理器設定:

  • 相鄰快取記憶體行預先擷取:相鄰快取行預取機制允許自動硬體預取,無需程式設計人員干預即可運行。啟用後,它會在 128 位元組的磁區中容納兩個 64 位元組的高速快取行,無論是否要求額外的高速快取行。
  • 軟體預先擷取器:它通過在需要時將數據載入到緩存中來避免停滯。範例:使用 L2 預先擷取指令,先將資料從主記憶體預先擷取至 L2 快取記憶體,接著再使用 L1 預先擷取指令,接著再將資料從 L2 快取記憶體預先擷取至 L1 快取記憶體。在此,若設為啟用,處理器會針對每個記憶體要求預先擷取額外的快取記憶體行。
  • SNC (Sub-Numa 叢集):啟用 SNC 類似於將單一插槽分割成兩個 NUMA 網域,每個網域都有一半的實體核心和一半的記憶體。如果這聽起來很熟悉,其實用程序類似於 Intel Xeon E5-2600 v3 和 v4 處理器中的 「晶片上叢集」選項 。SNC 的實作方式與 COD 不同,與使用晶片上叢集選項的前幾代相比,這些變更改善了 Cascade Lake 的遠端插槽存取。在作業系統層級,啟用 SNC 的雙插槽伺服器會顯示四個 NUMA 網域。其中兩個域將彼此更靠近(在同一個插槽上),另外兩個域將距離更遠,跨越 UPI 到遠端套接字。這可以使用作業系統工具進行,例如:數位 –H ,如圖 1 所示。
SLN316864_en_US__1image001(1)
圖 1:NUMA 節點配置

系統設定檔:

系統設定檔是一個中繼選項,可設定多個以效能和電源管理為重點的 BIOS 選項,例如渦 輪加速模式C狀態、C1E、 狀態管理、非核心頻率等。 本研究中比較的不同系統設定檔包括:
  • 效能
  • 效能每瓦數C
  • 效能功耗比作業系統
我們使用兩個 HPC 效能指標和兩個 HPC 應用程式來瞭解這些 BIOS 選項對 Cascade Lake 效能的影響。表 1 和表 2 中說明用於本研究的伺服器和 HPC 應用程式的組態。
應用 網域 版本 基準
高效能 Linpack (HPL) 計算-求解密集線性方程組 來自英特爾 MKL - 2019 更新 1 問題大小佔總記憶體的 90%、92% 和 94%
串流 記憶體頻寬 5.4 三合會
WRF 氣象研究與預報 3.9.1 康納斯 2.5公里
ANSYS® Fluent®  流體動力 19.2 Ice_2m、
Combustor_12m、
Aircraft_wing_14m Exhaust_System_33m

表 1:應用程式與效能指標

元件 詳細資料
伺服器 PowerEdge 伺服器 C6420
處理器 Intel® Xeon® Gold 6230 CPU @ 2.1GHz,20 核心
記憶體 192GB – 12 條 16GB 2933 MT/秒 DDR4
作業系統 Red Hat Enterprise Linux 7.6Red Hat Enterprise Linux 7.6
核心 3.10.0-957.el7.x86_64
編譯器 Intel Parallel Studio 叢集Edition_2019_Update_1

表2 伺服器組態

此處顯示的所有結果均基於單伺服器測試;叢集層級效能將受單一伺服器效能的限制。以下指標用於比較性能:
  • 流 – 流基準報告的三合會分數。
  • HPL – GFLOP/秒。
  • Fluent - Fluent 報告的求解器等級。
  • WRF – Conus 2.5km 過去 719 個間隔內計算的平均時間步長

基準測試和應用結果

圖形符號縮寫:

系統設定檔:

效能 – 效能SLN316864_en_US__2a2作業系統 – PerformancePerWattOS SLN316864_en_US__3a3 DAPC – PerformancePerWattDAPCSLN316864_en_US__4a1
子 NUMA 叢集:SNC = 0(SNC = Disabled):SNC = 1(SNC = Enabled:格式為等量圖形)
SW – 軟體預先擷取器:SW = 0 (SW = 已停用):SW = 1 (SW = 啟用)

SLN316864_en_US__5image006
 圖 2:高性能 Linpack

圖 2 比較了不同 BIOS 選項中問題大小 = 90% 的 HPL 結果,即 N=144476。此圖顯示以不同 BIOS 組態執行 HPL 時所獲得的絕對 Gigaflops。獲得的這些千兆浮點數繪製在y軸上,越高越好。
以下是圖表中的觀察結果:
  • 由於軟體預先擷取,HPL 效能差異不到 1%。
  • SNC 對 HPL 效能沒有重大影響 (SNC=停用時可改善 0.5%)。
  • 相較於作業系統和 DAPC,效能系統設定檔最多可提升 6%。
 SLN316864_en_US__6image008
圖 3:串流

圖 3 比較不同 BIOS 組態的 STREAM 結果。
該圖繪製了運行 STREAM Triad 時獲得的記憶體頻寬(以千兆位元組/秒為單位)。獲得的記憶體頻寬(GB/秒)繪製在y軸上,越高越好。與每秒 GB 數的特定值相關聯的 BIOS 組態會繪製在 x 軸上。
以下是圖表中的觀察結果:
  • SNC=enabled 記憶體頻寬最多提高 3%。
  •  由於軟體預先擷取位於 STREAM 記憶體頻寬上,因此效能偏差不大。 
  •  系統設定檔之間沒有偏差。
   SLN316864_en_US__7a4
圖 4:記憶體頻寬 – SNC

圖 4 繪製了此類配置下的 Stream Triad 記憶體頻寬分數。完整的系統記憶體頻寬為 ~220 GB/秒。當本地插槽上的 20 個內核訪問本地記憶體時,記憶體頻寬為 ~ 109GB/s - 完整系統頻寬的一半。其中一半 (~56 GB/秒) 是同一 NUMA 節點上的 10 個執行緒存取其本機記憶體,以及一個 NUMA 節點上存取屬於同一插槽上另一個 NUMA 節點之記憶體的記憶體。當執行緒透過遠端插槽上的 QPI 連結存取遠端記憶體時,記憶體頻寬下降 42% 至 ~33GB/秒。這告訴我們,當數據不是本地數據時,SNC 模式下會出現顯著的頻寬損失。

SLN316864_en_US__8image012
 圖 5:WRF

圖 5 比較了不同 BIOS 選項下的 WRF 結果,使用的數據集為 conus2.5km,預設為「namelist.input」檔案。
該圖繪製了在不同 BIOS 配置下運行 WRF-conus2.5km 數據集時獲得的絕對平均時間步長(以秒為單位)。獲得的平均時間步長繪製在y軸上,越低越好。與平均時間步長的特定值相關聯的相對輪廓繪製在 x 軸上。
以下是圖表中的觀察結果:
  • SNC=啟用時效能提高 2%。
  •  軟體預先擷取啟用與停用沒有效能差異。
  •  效能設定檔比 PerformancePerWattDAPC 設定檔好 1%
  SLN316864_en_US__9a7
 SLN316864_en_US__10a6
圖 6 到 圖 9 分別繪製了使用 Ice_2m、Combustor_12m、Aircraft_Wing_14m 和 Exhaust_System_33m 數據集運行 Fluent- 時獲得的求解器評級。獲得的求解器額定值繪製在 y 軸上,越高越好。與「平均時間」的特定值關聯的相對輪廓繪製在 x 軸上。
以下是上圖的總體觀察結果:
  • SNC=Enabled 可提升多達 4% 的效能。
  • 軟體預先擷取對效能沒有影響。
  • 相較於 DAPC 和作業系統設定檔,效能設定檔的效能提升多達 2%。

結論

在本研究中,我們評估了使用 Intel Xeon Gold 6230 處理器時,不同 BIOS 調整選項對效能的影響。觀察不同 BIOS 選項在不同效能指標和應用程式的表現,得出下列結論:
  • 軟體預先擷取 不會對所測試的資料集造成顯著的效能影響。因此,我們建議軟體預先擷取器維持預設值,即「啟用」。
  • SNC=啟用時,流暢和串流效能提升 2-4%,WRF 效能則比 SNC = 停用提高約 1%。因此, 我們建議啟用 SNC 以獲得更好的性能。
  • 效能設定檔比 PerformancePerWattDAPC 和 PerformancePerWattOS 好 2-4%。因此, 我們建議使用 HPC 的效能設定檔
建議關閉一般用途 HPC 叢集的 超執行緒 。根據所使用的應用程式,應根據需要測試和啟用此功能的優點。

本研究中未討論的是一種名為「適應性雙重 DRAM 裝置校正 (ADDDC)」的記憶體 RAS,當系統配置了具有 x4 DRAM 組織 (32 GB、64 GB DIMM) 的記憶體時,即可使用該記憶體。當系統具有 x8 型 DIMM (8 GB、16 GB) 時,ADDDC 將無法使用,且在這些組態中無足輕重。若為 HPC 工作負載,建議 在提供可調式選項時,將 ADDDC 設為「停用」。

 

Article Properties


Affected Product

High Performance Computing Solution Resources, Poweredge C4140, Red Hat Enterprise Linux Version 7

Last Published Date

10 Apr 2021

Version

4

Article Type

Solution