Zu den Hauptinhalten
  • Bestellungen schnell und einfach aufgeben
  • Bestellungen anzeigen und den Versandstatus verfolgen
  • Erstellen Sie eine Liste Ihrer Produkte, auf die Sie jederzeit zugreifen können.

搭載 Intel Cascade Lake 處理器之 HPC 的 BIOS 特性

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Symptome

文章作者:HPC 與 AI Innovation Lab 的 Varun Bawa、Savitha Pareek 及 Ashish K Singh,2019 年 4 月

Lösung

隨著第 2 代 Intel Xeon® 處理器可擴充系列處理器 (架構代號「Cascade Lake」) 推出,Dell EMC 已更新 PowerEdge 第 14 代伺服器,讓核心數量增加和記憶體速度加快,進而受惠於 HPC 應用程式。

本部落格介紹第一組結果,並討論搭載最新 Intel Xeon® Cascade Lake 處理器的 Dell EMC PowerEdge C6420 不同 BIOS 調整選項對部分 HPC 效能指標和應用程式的影響。以下簡述 Cascade Lake 處理器、BIOS 選項和本研究中使用的 HPC 應用程式。

Cascade Lake 是 Intel 繼任 Skylake 的產品。Cascade Lake 處理器最多可支援 28 個核心、六個 DDR4 記憶體通道,速度最高可達 2933 MT/秒。與 Skylake 類似,Cascade Lake 透過 AVX512 指令集支援額外的矢量化功率,允許 32 DP FLOP/週期。Cascade Lake 推出 向量神經網路指令 (VNNI),可加速影像分類、語音辨識、語言翻譯、物件偵測等 AI 和 DL 工作負載的效能。VNNI 還支援 8 位指令,以加速推理性能

Cascade Lake 包含針對某些側通道漏洞的硬體緩解措施。預期這可以改善儲存工作負載的效能,不妨看看 創新實驗室未來的研究。

由於 Skylake 和 Cascade Lake 與插槽相容,因此系統 BIOS 中公開的處理器調校旋鈕在這些處理器世代中都類似。本研究探索下列 BIOS 調整選項,與 過去在 Skylake 上發表的工作類似。

處理器設定:

  • 相鄰快取記憶體行預先擷取:相鄰快取行預取機制允許自動硬體預取,無需程式設計人員干預即可運行。啟用後,它會在 128 位元組的磁區中容納兩個 64 位元組的高速快取行,無論是否要求額外的高速快取行。
  • 軟體預先擷取器:它通過在需要時將數據載入到緩存中來避免停滯。範例:使用 L2 預先擷取指令,先將資料從主記憶體預先擷取至 L2 快取記憶體,接著再使用 L1 預先擷取指令,接著再將資料從 L2 快取記憶體預先擷取至 L1 快取記憶體。在此,若設為啟用,處理器會針對每個記憶體要求預先擷取額外的快取記憶體行。
  • SNC (Sub-Numa 叢集):啟用 SNC 類似於將單一插槽分割成兩個 NUMA 網域,每個網域都有一半的實體核心和一半的記憶體。如果這聽起來很熟悉,其實用程序類似於 Intel Xeon E5-2600 v3 和 v4 處理器中的 「晶片上叢集」選項 。SNC 的實作方式與 COD 不同,與使用晶片上叢集選項的前幾代相比,這些變更改善了 Cascade Lake 的遠端插槽存取。在作業系統層級,啟用 SNC 的雙插槽伺服器會顯示四個 NUMA 網域。其中兩個域將彼此更靠近(在同一個插槽上),另外兩個域將距離更遠,跨越 UPI 到遠端套接字。這可以使用作業系統工具進行,例如:數位 –H ,如圖 1 所示。
SLN316864_en_US__1image001(1)
圖 1:NUMA 節點配置

系統設定檔:

系統設定檔是一個中繼選項,可設定多個以效能和電源管理為重點的 BIOS 選項,例如渦 輪加速模式C狀態、C1E、 狀態管理、非核心頻率等。 本研究中比較的不同系統設定檔包括:
  • 效能
  • 效能每瓦數C
  • 效能功耗比作業系統
我們使用兩個 HPC 效能指標和兩個 HPC 應用程式來瞭解這些 BIOS 選項對 Cascade Lake 效能的影響。表 1 和表 2 中說明用於本研究的伺服器和 HPC 應用程式的組態。
應用 網域 版本 基準
高效能 Linpack (HPL) 計算-求解密集線性方程組 來自英特爾 MKL - 2019 更新 1 問題大小佔總記憶體的 90%、92% 和 94%
串流 記憶體頻寬 5.4 三合會
WRF 氣象研究與預報 3.9.1 康納斯 2.5公里
ANSYS® Fluent®  流體動力 19.2 Ice_2m、
Combustor_12m、
Aircraft_wing_14m Exhaust_System_33m

表 1:應用程式與效能指標

元件 詳細資料
伺服器 PowerEdge 伺服器 C6420
處理器 Intel® Xeon® Gold 6230 CPU @ 2.1GHz,20 核心
記憶體 192GB – 12 條 16GB 2933 MT/秒 DDR4
作業系統 Red Hat Enterprise Linux 7.6Red Hat Enterprise Linux 7.6
核心 3.10.0-957.el7.x86_64
編譯器 Intel Parallel Studio 叢集Edition_2019_Update_1

表2 伺服器組態

此處顯示的所有結果均基於單伺服器測試;叢集層級效能將受單一伺服器效能的限制。以下指標用於比較性能:
  • 流 – 流基準報告的三合會分數。
  • HPL – GFLOP/秒。
  • Fluent - Fluent 報告的求解器等級。
  • WRF – Conus 2.5km 過去 719 個間隔內計算的平均時間步長

基準測試和應用結果

圖形符號縮寫:

系統設定檔:

效能 – 效能SLN316864_en_US__2a2作業系統 – PerformancePerWattOS SLN316864_en_US__3a3 DAPC – PerformancePerWattDAPCSLN316864_en_US__4a1
子 NUMA 叢集:SNC = 0(SNC = Disabled):SNC = 1(SNC = Enabled:格式為等量圖形)
SW – 軟體預先擷取器:SW = 0 (SW = 已停用):SW = 1 (SW = 啟用)

SLN316864_en_US__5image006
 圖 2:高性能 Linpack

圖 2 比較了不同 BIOS 選項中問題大小 = 90% 的 HPL 結果,即 N=144476。此圖顯示以不同 BIOS 組態執行 HPL 時所獲得的絕對 Gigaflops。獲得的這些千兆浮點數繪製在y軸上,越高越好。
以下是圖表中的觀察結果:
  • 由於軟體預先擷取,HPL 效能差異不到 1%。
  • SNC 對 HPL 效能沒有重大影響 (SNC=停用時可改善 0.5%)。
  • 相較於作業系統和 DAPC,效能系統設定檔最多可提升 6%。
 SLN316864_en_US__6image008
圖 3:串流

圖 3 比較不同 BIOS 組態的 STREAM 結果。
該圖繪製了運行 STREAM Triad 時獲得的記憶體頻寬(以千兆位元組/秒為單位)。獲得的記憶體頻寬(GB/秒)繪製在y軸上,越高越好。與每秒 GB 數的特定值相關聯的 BIOS 組態會繪製在 x 軸上。
以下是圖表中的觀察結果:
  • SNC=enabled 記憶體頻寬最多提高 3%。
  •  由於軟體預先擷取位於 STREAM 記憶體頻寬上,因此效能偏差不大。 
  •  系統設定檔之間沒有偏差。
   SLN316864_en_US__7a4
圖 4:記憶體頻寬 – SNC

圖 4 繪製了此類配置下的 Stream Triad 記憶體頻寬分數。完整的系統記憶體頻寬為 ~220 GB/秒。當本地插槽上的 20 個內核訪問本地記憶體時,記憶體頻寬為 ~ 109GB/s - 完整系統頻寬的一半。其中一半 (~56 GB/秒) 是同一 NUMA 節點上的 10 個執行緒存取其本機記憶體,以及一個 NUMA 節點上存取屬於同一插槽上另一個 NUMA 節點之記憶體的記憶體。當執行緒透過遠端插槽上的 QPI 連結存取遠端記憶體時,記憶體頻寬下降 42% 至 ~33GB/秒。這告訴我們,當數據不是本地數據時,SNC 模式下會出現顯著的頻寬損失。

SLN316864_en_US__8image012
 圖 5:WRF

圖 5 比較了不同 BIOS 選項下的 WRF 結果,使用的數據集為 conus2.5km,預設為「namelist.input」檔案。
該圖繪製了在不同 BIOS 配置下運行 WRF-conus2.5km 數據集時獲得的絕對平均時間步長(以秒為單位)。獲得的平均時間步長繪製在y軸上,越低越好。與平均時間步長的特定值相關聯的相對輪廓繪製在 x 軸上。
以下是圖表中的觀察結果:
  • SNC=啟用時效能提高 2%。
  •  軟體預先擷取啟用與停用沒有效能差異。
  •  效能設定檔比 PerformancePerWattDAPC 設定檔好 1%
  SLN316864_en_US__9a7
 SLN316864_en_US__10a6
圖 6 到 圖 9 分別繪製了使用 Ice_2m、Combustor_12m、Aircraft_Wing_14m 和 Exhaust_System_33m 數據集運行 Fluent- 時獲得的求解器評級。獲得的求解器額定值繪製在 y 軸上,越高越好。與「平均時間」的特定值關聯的相對輪廓繪製在 x 軸上。
以下是上圖的總體觀察結果:
  • SNC=Enabled 可提升多達 4% 的效能。
  • 軟體預先擷取對效能沒有影響。
  • 相較於 DAPC 和作業系統設定檔,效能設定檔的效能提升多達 2%。

結論

在本研究中,我們評估了使用 Intel Xeon Gold 6230 處理器時,不同 BIOS 調整選項對效能的影響。觀察不同 BIOS 選項在不同效能指標和應用程式的表現,得出下列結論:
  • 軟體預先擷取 不會對所測試的資料集造成顯著的效能影響。因此,我們建議軟體預先擷取器維持預設值,即「啟用」。
  • SNC=啟用時,流暢和串流效能提升 2-4%,WRF 效能則比 SNC = 停用提高約 1%。因此, 我們建議啟用 SNC 以獲得更好的性能。
  • 效能設定檔比 PerformancePerWattDAPC 和 PerformancePerWattOS 好 2-4%。因此, 我們建議使用 HPC 的效能設定檔
建議關閉一般用途 HPC 叢集的 超執行緒 。根據所使用的應用程式,應根據需要測試和啟用此功能的優點。

本研究中未討論的是一種名為「適應性雙重 DRAM 裝置校正 (ADDDC)」的記憶體 RAS,當系統配置了具有 x4 DRAM 組織 (32 GB、64 GB DIMM) 的記憶體時,即可使用該記憶體。當系統具有 x8 型 DIMM (8 GB、16 GB) 時,ADDDC 將無法使用,且在這些組態中無足輕重。若為 HPC 工作負載,建議 在提供可調式選項時,將 ADDDC 設為「停用」。

 

Betroffene Produkte

High Performance Computing Solution Resources, Poweredge C4140, Red Hat Enterprise Linux Version 7
Artikeleigenschaften
Artikelnummer: 000176921
Artikeltyp: Solution
Zuletzt geändert: 10 Apr. 2021
Version:  4
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.