2세대 인텔 제온 스케일러블 프로세서를 사용한 HPC 합성 벤치마크 성능 – STREAM, HPL 및 HPCG(영문)

Summary: 2 세대 Intel® Xeon® 확장 가능한 프로세서 – 스트림, HPL 및 HPL를 사용 하 여 HPC 합성 벤치 마크 성능에 대 한 정보를 참조 하십시오.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Savitha Pareek, varun wa, & ashish Singh HPC의 및 AI 혁신

®® 2019 실습실 제품군 프로세서 ( 아키텍처- 하프 Lake)는 intel의 후속 작업을 Skylake 하 고 가장 높은 기간 동안 준비 됩니다. HPC 엔지니어링 Dell EMC 팀에는 몇 가지 엔지니어링 테스트 유닛에 대 한 액세스 권한이 있으며이 블로그에서는 초기 벤치마킹 연구 결과를 제공 합니다.

이 블로그에서는 최신 Intel® Xeon® 확장 가능한 제품군 프로세서에서 얻은 성능을 설명 하 고 분석 하 고 해당 성능을 이전 구성과 비교 하는 데 목적이 있습니다. 우리의 분석을 위해 STREAM, HPL 및 HPL 벤치 마크가 선택 되어 있습니다. 이 연구에서는 단일 및 여러 노드에 대 한 성능 영향을 중점적으로 설명 합니다. 이러한 테스트는 Dell EMC PowerEdge C6420 (단일 노드 연구) PowerEdge 및 HPC 워크 로드에 권장 되는 BIOS 설정을사용 하 여 R740 (다중 노드 연구)를 수행 합니다. 하프 Lake 프로세서에는 VNNI, 더 높은 메모리 대역폭, 향상 된 벡터 부동 소수점 성능 및 효율성을 제공 하는® 인텔 DL 부스트 와 같은 다양 한 향상 된 기능이 포함 되어 있습니다.

Cause

Resolution

표 1: Testbed 정보

서버	PowerEdge C6420 & PowerEdge R740
프로세서	단일 노드 구성		다중 노드 구성
	Server-PowerEdge C6420 & PowerEdge R740		서버-PowerEdge R740
	Skylake – Intel Xeon® 6142 [16C@2.6GHz h z] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180 [28C @ 2.5 g h z]		하프 Lake – Intel Xeon® 8268 [24C@2.90GHz h z]
	하프 Lake – Intel Xeon® 6242 [16C @ 2.8 g h z] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @ 2.7 g h z]
Memory	하프 Lake test-192GB-12 x 16GB 2933 MT/s DDR4 Skylake 테스트 – 192GB-12 x 16GB 2933 MT/s DDR4 (활성 2666 MT/s)
운영 체제	Red Hat Enterprise Linux 7.6
커널 버전	3.10.0-957.el7.x86_64
BIOS 옵션	터보 = Enabled, Logical Processor = Disabled, SubNumaCluster = Enabled, Virtualization 기술 = Disabled.
InfiniBand	IFS 10.9.2이 포함 된 Intel Omni 경로
컴파일러나	인텔 병렬 스튜디오 XE 2018 업데이트 4
애플리케이션
벤치 마크	도메인	버전		테스트 구성
HPL	고성능 LINPACK 컴퓨팅	인텔 MKL 그래픽 2018 U4		문제 크기-총 메모리의 90%
HPCG	고성능 켤레 그라데이션-컴퓨팅	인텔 MKL 그래픽 2018 U4		문제 크기 – 336 x 336 x 336
스트리밍합니다	메모리 대역폭	5.4		Triad

다음 두 가지 사례를 정량화 하는 테스트를 수행 했습니다.

단일 노드에서 Skylake에서 케스케이드 Lake로 성능 향상
단일 노드 및 다중 노드를 통한 성능 향상

스트리밍합니다

Intel 캐스케이드 Lake 및 Skylake에서 최고 메모리 대역폭 성능을 확보 하기 위해, HPC 도메인에서 사실상 업계 표준 벤치 마크를 사용 하 여 지속 되는 메모리 대역폭 (GB/s)을 측정 합니다. TRIAD 값이 메모리 대역폭을 비교 하는 데 사용 되었습니다.

SLN317735_en_US__1image (10401)

Figure1: 스트림-Skylake vs 하프 Lake

Skylake에 대해 지원 되는 최대 메모리 주파수는 2666MT/s이 고, 하프 Lake는 2933MT/s를 지원 하 고, 하프 Lake가 있는 10% 이상의 메모리 주파수를 의미 합니다. 그림 1에 따라 하프 Lake 프로세서는 Skylake에 비해 7 ~ 12%의 메모리 대역폭을 표시 합니다. Core 당 메모리 대역폭은 특정 프로세서 SKU에 따라 다릅니다. 일부 캐스케이드 Lake Sku에는 Skylake에 대 한 추가 코어가 있으므로 코어 메모리 대역폭 비교가 총 메모리 대역폭 비교와 다릅니다. 그림 1에 따라 8280 및 6242에는 각각 해당 선행 작업 보다 7%의 코어 당 더 높은 메모리 대역폭이 있습니다. 하지만 6230은 6230 코어 당 최소 25%의 코어 당 메모리 대역폭을 6130 단위로 표시 합니다. Core 당 메모리 대역폭은 메모리 대역폭을 인식 하는 애플리케이션에 중요 한 요인이 될 수 있습니다.

LINPACK-

인텔 LINPACK을 사용 하 여 프로세서의 컴퓨팅 기능을 측정 했습니다. 문제 크기 (N)는 시스템 메모리의 90%이 고 블록 크기 (NB)는 384입니다. 여기에는 하프 Lake 프로세서에 대 한 성능 및 확장성이 포함 되어 있습니다.

Skylake vs 하프 Lake –

SLN317735_en_US__2image (13765)

그림 2: LINPACK 성능 (Skylake vs 하프 Lake)

그림 2에 따라 LINPACK은 캐스케이드 Lake 프로세서에서 최대 15%의 성능 향상을 보여 줍니다. 이 비교는 CPU 모델 번호를 기반으로 하며,이는 Skylake와 Intel Xeon® 확장 가능한 패밀리의 후속 작업을 비교 합니다. 소켓 당 코어 수가 4 개 이상인 Intel Xeon® 6230에서는 6130을 통해 성능이 15% 향상 되는 동시에, CPU 기본 주파수와 더 높은 메모리 대역폭을 증가 하는 것으로 인해 성능이 향상 되는 것과 유사한 코어 카운트가 있는 8280 및 6242을 사용 합니다.

다중 노드 성능- 다중 노드를 연구 하는 경우에는 Intel Xeon® 8268을 사용 하는 PowerEdge R740 서버의 8 노드 클러스터와 1, 2, 4 및 8 노드에 대 한 캡처된 결과를 사용 했습니다. 나머지 시스템 구성에 대해서는 표 2에 나와 있습니다.

SLN317735_en_US__3image (10402)

그림 3: 8268 @ 2.90 g h z를 사용 하는 다중 노드 LINPACK 성능

그림 3에서 볼 수 있듯이 단일 8268 노드에 대 한 LINPACK 성능은 3059 GFLOPS이 23946 고, 8 노드의 경우 7.83 X는 노드 1 개에서 여덟 개의 노드로 확장 하는 것을 의미 합니다. 단일 노드에 대 한 효율성은 ~ 69%이 고, 2, 4 및 8 노드의 경우 ~ 67%입니다. 노드 1 개에서 2 개의 노드로 효율성을 높일 수 있습니다. 하지만 확장성은 대부분의 선형입니다.

HPCG 벤치 마크

HPCG 벤치 마크는 켤레 그라데이션 해 찾기를 기반으로 하며 조절기는 3 수준 계층적 다중 그리드 (가우스-Seidel)를 사용 합니다.

HPCG 벤치 마크는 3D 도메인의 각 그리드 지점 (i, j, k)에 있는 방정식이 해당 값과 26 주변 neighbours에 영향을 미치는 것과 같이 3D 도메인의 각 그리드 지점에서 27 포인트 스텐실을 사용 하 여 물리적으로 분산 된 스파스 선형 시스템을 논리적으로 분산 하 여 구성 합니다. 벤치 마크에 의해 계산 되는 글로벌 도메인은 (NRx * Nx) x (Nrx * Nx) x (NRy * * Nz)입니다. 여기서 Nx, 및 Nz는 각 MPI 프로세스에 할당 되 고 MPI 랭크 수가 NR NOT = (NRx X NRy X NRz) 인 로컬 하위 눈금의 크기입니다.

분석을 위해 테스트는 2 개 범주로 분류 되어 있습니다.

Skylake vs cascade lake – 이 섹션에서는 hpcg 성능을 사용 하 여 Skylake를 하프 호수와 비교 합니다. 1/4의 총 시스템^{메모리를 차지} 하는 336 ^ 3 의 그리드 크기를 활용 했습니다. 노드당 MPI 프로세스 수와 스레드 수는 최상의 결과와 메모리 사용률을 기준으로 합니다.

SLN317735_en_US__4image (10403)

그림 4: HPCG 성능 (Skylake vs 하프 Lake)

그림 4에 따라 하프 Lake 프로세서를 사용 하 여 선행 작업에 걸쳐 상당한 HPCG 성능 향상을 확인할 수 있습니다. HPCG가 더 많은 메모리를 기반으로 하는 애플리케이션을 사용 하는 경우, 캐스케이드 Lake 프로세서를 통한 성능 향상은 스트림 벤치 마크와 관련 하 여, 6230 보다 10% 더 나은 6130을 수행 합니다. 6242은 6142 보다 12% 더 나은 성능을 발휘 하며 8280는 8180 보다 7%의 성능을 발휘 합니다

멀티 노드 기반 hpcg - 다중 노드 벤치마킹의 경우, 336 ^ 3 및 best MPI 프로세스와 OpenMP 스레드 조합의 로컬 치수 그리드 크기를 선택 했습니다.

SLN317735_en_US__5image (10404)

그림 5: 하프 Lake를 사용 하는 다중 노드 HPCG 성능

그림 5는 하프 Lake 8268 @ 2.9 g h z를 포함 한 HPCG의 성능과 최대 8 개의 노드를 확장 하는 것을 보여 줍니다. HPCG performance는 2 개의 노드에 대 한 단일 노드 및 84GFLOPS에 대 한 43GFLOPS 이며 2 개의 노드로 이루어진 성능 향상을 의미 합니다. 4 개 및 8 개의 노드로 앞으로 이동 하면 성능이 최대 7.7 X까지 향상 됩니다.

결론

캐스케이드 Lake 프로세서를 사용할 수 있는 경우 PowerEdge 시스템은 이제이 새로운 세대 프로세서를 사용 하 여 최대 2933 MT/s의 메모리 속도를 지원할 수 있습니다. 캐스케이드 Lake 프로세서를 사용한 테스트에서는 메모리 대역폭에서 7-12% 성능 향상을 보여 줍니다. 4-15% 향상 된 CPU 모델에 대 한 HPL의 hpl 및 7-12% 개선을 통해 향상 되었습니다. 과거에 Skylake 하는 것과 같이 1 개에서 8 개 노드의 하프 Lake 테스트를 통해 우수한 확장성을 확인할 수 있습니다.

또한, Cascade Lake에는 이 블로그에서보다 2x 3 ~ 3 ~ 3 ~ 3 ~ 3 ~ 3 배 더 높은 학습 워크 로드를 가속화 하는 VNNI 지침이 도입 되어 있습니다.

향후 작업을 위해 WRF, NAMD, GROMACS, CP2K 및 LAMMPS와 같은 HPC 다양 한 애플리케이션 환경에 대 한 하프 Lake의 성능 이점을 평가할 계획입니다.

Affected Products

High Performance Computing Solution Resources

Article Number: 000133009

Article Type: Solution

Last Modified: 18 May 2021

Version: 4

Check if your device is covered by Support Services.

2세대 인텔 제온 스케일러블 프로세서를 사용한 HPC 합성 벤치마크 성능 – STREAM, HPL 및 HPCG(영문)

Summary: 2 세대 Intel® Xeon® 확장 가능한 프로세서 – 스트림, HPL 및 HPL를 사용 하 여 HPC 합성 벤치 마크 성능에 대 한 정보를 참조 하십시오.

Symptoms

Cause

Resolution

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

2세대 인텔 제온 스케일러블 프로세서를 사용한 HPC 합성 벤치마크 성능 – STREAM, HPL 및 HPCG(영문)

Summary: 2 세대 Intel® Xeon® 확장 가능한 프로세서 – 스트림, HPL 및 HPL를 사용 하 여 HPC 합성 벤치 마크 성능에 대 한 정보를 참조 하십시오.

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services