Savitha Pareek、varun bawa、& Ashish K HPC、および AI イノベーションラボで書かれた記事 (codenamed 6 月2日第 2019 6
世代インテル® Xeon®スケーラブルなファミリープロセッサー (アーキテクチャ–Cascade Lake) は、インテルによる Skylake の後継機能であり、その主要な時間に対応しています。Dell EMC の HPC エンジニアリングチームは、いくつかのエンジニアリングテストユニットにアクセスできました。このブログでは、初期ベンチマークスタディの結果が示されています。
このブログの目的は、最新の Intel® Xeon®スケーラブルなファミリープロセッサーで得られたパフォーマンスを説明して分析することです。これにより、パフォーマンスを先行機種と比較することができます。解析のために、ストリーム、HPL、HPCG のベンチマークを選択しました。この調査では、単一および複数のノードのパフォーマンスへの影響がハイライト表示されています。これらのテストは、 HPC ワークロードに推奨される BIOS 設定を使用して、Dell EMC PowerEdge C6420 (シングルノードスタディ) と PowerEdge R740 (マルチノードスタディ) で実施されています。Cascade Lake プロセッサーには、intel®ディープラーニングブースト (INTEL DL の向上)、VNNI を使用したメモリ帯域幅の増加、ベクター浮動小数点パフォーマンスと効率性の向上などの多くの機能拡張が含まれています。
表1:Testbed 情報
Server |
PowerEdge C6420 & PowerEdge R740 |
|||
プロセッサ |
シングルノード構成 |
マルチノード構成 |
||
Server-PowerEdge C6420 & PowerEdge R740 |
サーバー-PowerEdge R740 |
|||
Skylake: Intel Xeon® 6142 [16C@2、6GHz] Intel Xeon® 6130 [16C@2 1Ghz 以上] Intel Xeon® 8180 [28C @ 2.5 GHz] |
Cascade Lake: Intel Xeon® 8268 [24C@2 90GHz] |
|||
Cascade Lake: Intel Xeon® 6242 [16C @ 2.8 GHz] Intel Xeon® 6230 [20C@2 1Ghz 以上] Intel Xeon® 8280 [28C @ 2.7 GHz] |
||||
メモリー |
Cascade Lake test-192GB-12 x 16 GB 2933 MT/s DDR4 Skylake テスト– 192GB-12 x 16 GB 2933 MT/s DDR4 (アクティブ 2666 MT/s) |
|||
オペレーティングシステム |
Red Hat Enterprise Linux 7.6 |
|||
カーネル バージョン |
3.10.0-957.el7.x86_64 |
|||
BIOSオプション |
ターボ = 有効、論理プロセッサ = 無効、SubNumaCluster = 有効、仮想化テクノロジ = 無効。 |
|||
InfiniBand |
IFS 10.9.2 を使用した Intel の方向性のパス |
|||
Compiler |
Intel Parallel Studio XE 2018 update 4 |
|||
アプリケーション |
||||
ベンチマーク |
ドメイン |
バージョン |
テスト構成 |
|
HPL |
ハイパフォーマンス LINPACK-計算 |
インテルMKLグラフィックス2018 U4 |
問題サイズ-合計メモリの90% |
|
HPCG |
ハイパフォーマンスの共役勾配-計算 |
インテルMKLグラフィックス2018 U4 |
問題のサイズ-336 x 336 x 336 |
|
ストリーム |
メモリ帯域幅 |
5.4 |
レーション |
|
次の2つのケースを定量化するテストが実施されました。
ストリーム
Intel Cascade Lake と Skylake のピークメモリ帯域幅のパフォーマンスを得るには、 ストリーム ベンチマークを選択しました。これは、持続可能なメモリ帯域幅の測定のために、HPC ドメインにおける事実上の業界標準のベンチマークです。メモリ帯域幅の比較には、障害許容値が使用されています。
図1:ストリーム– Skylake vs Cascade Lake
Skylake に対してサポートされている最大メモリ周波数は 2666MT/s です。 Cascade Lake は 2933MT/s をサポートします。つまり、Cascade Lake を使用してメモリ周波数を10% 高くすることができます。図1に示すように、Cascade Lake プロセッサーは、Skylake に対する 7 ~ 12% のメモリ帯域幅を示しています。コアあたりのメモリ帯域幅は、特定のプロセッサの SKU によって異なります。一部のカスケード Lake Sku には Skylake を基準とした追加のコアがあるため、コアメモリ帯域幅の比較あたりの総メモリ帯域幅の比較は異なります。図1に示すように、8280と6242の両方で、各先行機種と比較して、コアあたり最大7% のメモリ帯域幅が高くなります。ただし、6230では、6230のコアが25% 増加するため、6130に対するコアあたりのメモリ帯域幅が11% 削減されています。メモリ帯域幅に敏感なアプリケーションの場合、コアあたりのメモリ帯域幅を重要な要素として使用することができます。
LINPACK:
Intel LINPACK を使用して、プロセッサの計算機能を測定しました。問題のサイズ (N) は、システムメモリの90% で、ブロック長 (NB) は384です。ここでは、2つのカスケード Lake プロセッサを使用してパフォーマンスと拡張をカバーしています。
Skylake vs Cascade Lake –
図2:LINPACK パフォーマンス (Skylake vs/Cascade Lake)
図2に示すように、LINPACK は、カスケード Lake プロセッサで最大15% のパフォーマンス向上を示しています。この比較は、CPU のモデル番号と、インテル Xeon®スケーラブルファミリーの Skylake とその後継の比較に基づいています。Intel Xeon®6230は、ソケットごとに4つ以上のコアを搭載し、6130を介してパフォーマンスが15% 向上します。また、両方の8280と6242は、その先行機種と同様のコア数を持ち、その CPU のベース周波数が増加し、メモリ帯域幅が大きくなるため、パフォーマンスが向上します。
マルチノードパフォーマンス: 複数ノードの調査では、Intel Xeon®8268を搭載した PowerEdge R740 サーバーの8ノードクラスターを使用しており、1、2、4、8ノードについて収集された結果を取得しました。残りのシステム構成は表2に記載されています。
図3:8268 @ 2.90 GHz を使用したマルチノード LINPACK のパフォーマンス
図3は、1つの8268ノードの LINPACK のパフォーマンスを 3059 GFLOPS および 23946 GFLOPS (8 ノード) で、7.83 X を1ノードから8ノードに拡張することを意味しています。1つのノードの効率性は ~ 69% であり、2、4、8ノードに対しては最大67% です。効率性は1ノードから2ノードに低下します。ただし、拡張性はほぼ直線的なものになります。
HPCG ベンチマーク
HPCG のベンチマークは、Gauss-Seide l を使用した、コンディショナが3レベルの階層型マルチグリッド (MG) 方式である、共役グラデーションソルバーに基づいています。
HPCG ベンチマークは、3D ドメインのグリッドポイントごとに27個のポイントステンシルを使用して、論理的にグローバルに分散された疎的な線形システムを構築します。つまり、点 (i、j、k) の方程式は、その値と周囲の26箇所に依存します。ベンチマークによって算出されたグローバルドメインは、(NRx * Nx) X (NRz * Nz) X (NRz * Nz) です。この場合、Nx、Ny、Nz はローカルサブグリッドの寸法で、各 MPI プロセスに割り当てられていて、MPI ランクの数は NR = (NRx X Nrx X NRz) になります。
解析のために、2つのカテゴリに分けてテストしました。
Skylake vs cascade lake : このセクションでは、HPCG パフォーマンスを使用して Skylake をカスケード lake と比較します。 1/4 を超える合計システムメモリを占有している、 336 ^ 3のグリッドサイズを使用しています。ノードあたりの MPI プロセスの数とスレッドの数は、最適な結果とメモリの使用率に基づいています。
図4:HPCG パフォーマンス (Skylake vs/Cascade Lake)
図4に示すように、主要な HPCG パフォーマンスの向上は、その先行機種とのカスケード Lake プロセッサーを使用して行います。HPCG は、より多くのメモリバインドアプリケーションであるため、6230は6130より10% 優れていますが、6242は6142よりも12% 優れており、8280は8180よりも7% 優れています。
マルチノードを使用した HPCG: マルチノードのベンチマークでは、ローカル寸法グリッドのサイズを336 ^ 3 、最高の MPI プロセスと OpenMP スレッドの組み合わせで選択しました。
図5:Cascade Lake を使用したマルチノード HPCG パフォーマンス
図5は、カスケード Lake 8268 @ 2.9 GHz での HPCG のパフォーマンスと最大8ノードの拡張を示しています。HPCG パフォーマンスは、2つのノードに対して43GFLOPS の場合は、2つのノードでの 1.96 X パフォーマンスの向上を意味します。4ノードまたは8ノードの上に移動すると、パフォーマンスが最大 7.7 X に向上します。
結論
PowerEdge システムは、カスケード Lake プロセッサを使用できるようになり、この新しい世代のプロセッサで最大 2933 MT/s のメモリ速度をサポートできるようになりました。「Cascade Lake プロセッサーを使用したテスト」には、メモリ帯域幅での7-12% のパフォーマンス向上、HPL での4-15% の改善、および比較した CPU モデルにおける HPCG の7-12% の改善が示されています。1 ~ 8 ノードのカスケード Lake テストは、過去の Skylake で見てきたように、優れた拡張性を示しています。
さらに、Cascade Lake は VNNI の手順を導入しています。これにより、 このブログでさらに詳しく説明されているように、2倍の深さの学習ワークロードを高速化できます。
将来の作業では、WRF、NAMD、GROMACS、CP2K、LAMMPS などのさまざまな HPC アプリケーションで、Cascade Lake のパフォーマンスメリットを評価することを計画しています。