Savitha Pareek, varun wa, & ashish Singh HPC의 및 AI 혁신
®® 2019 실습실 제품군 프로세서 ( 아키텍처- 하프 Lake)는 intel의 후속 작업을 Skylake 하 고 가장 높은 기간 동안 준비 됩니다. HPC 엔지니어링 Dell EMC 팀에는 몇 가지 엔지니어링 테스트 유닛에 대 한 액세스 권한이 있으며이 블로그에서는 초기 벤치마킹 연구 결과를 제공 합니다.
이 블로그에서는 최신 Intel® Xeon® 확장 가능한 제품군 프로세서에서 얻은 성능을 설명 하 고 분석 하 고 해당 성능을 이전 구성과 비교 하는 데 목적이 있습니다. 우리의 분석을 위해 STREAM, HPL 및 HPL 벤치 마크가 선택 되어 있습니다. 이 연구에서는 단일 및 여러 노드에 대 한 성능 영향을 중점적으로 설명 합니다. 이러한 테스트는 Dell EMC PowerEdge C6420 (단일 노드 연구) PowerEdge 및 HPC 워크 로드에 권장 되는 BIOS 설정을사용 하 여 R740 (다중 노드 연구)를 수행 합니다. 하프 Lake 프로세서에는 VNNI, 더 높은 메모리 대역폭, 향상 된 벡터 부동 소수점 성능 및 효율성을 제공 하는® 인텔 DL 부스트 와 같은 다양 한 향상 된 기능이 포함 되어 있습니다.
표 1: Testbed 정보
서버 |
PowerEdge C6420 & PowerEdge R740 |
|||
프로세서 |
단일 노드 구성 |
다중 노드 구성 |
||
Server-PowerEdge C6420 & PowerEdge R740 |
서버-PowerEdge R740 |
|||
Skylake – Intel Xeon® 6142 [16C@2.6GHz h z] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180 [28C @ 2.5 g h z] |
하프 Lake – Intel Xeon® 8268 [24C@2.90GHz h z] |
|||
하프 Lake – Intel Xeon® 6242 [16C @ 2.8 g h z] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @ 2.7 g h z] |
||||
Memory |
하프 Lake test-192GB-12 x 16GB 2933 MT/s DDR4 Skylake 테스트 – 192GB-12 x 16GB 2933 MT/s DDR4 (활성 2666 MT/s) |
|||
운영 체제 |
Red Hat Enterprise Linux 7.6 |
|||
커널 버전 |
3.10.0-957.el7.x86_64 |
|||
BIOS 옵션 |
터보 = Enabled, Logical Processor = Disabled, SubNumaCluster = Enabled, Virtualization 기술 = Disabled. |
|||
InfiniBand |
IFS 10.9.2이 포함 된 Intel Omni 경로 |
|||
컴파일러나 |
인텔 병렬 스튜디오 XE 2018 업데이트 4 |
|||
애플리케이션 |
||||
벤치 마크 |
도메인 |
버전 |
테스트 구성 |
|
HPL |
고성능 LINPACK 컴퓨팅 |
인텔 MKL 그래픽 2018 U4 |
문제 크기-총 메모리의 90% |
|
HPCG |
고성능 켤레 그라데이션-컴퓨팅 |
인텔 MKL 그래픽 2018 U4 |
문제 크기 – 336 x 336 x 336 |
|
스트리밍합니다 |
메모리 대역폭 |
5.4 |
Triad |
|
다음 두 가지 사례를 정량화 하는 테스트를 수행 했습니다.
스트리밍합니다
Intel 캐스케이드 Lake 및 Skylake에서 최고 메모리 대역폭 성능을 확보 하기 위해, HPC 도메인에서 사실상 업계 표준 벤치 마크를 사용 하 여 지속 되는 메모리 대역폭 (GB/s)을 측정 합니다. TRIAD 값이 메모리 대역폭을 비교 하는 데 사용 되었습니다.
Figure1: 스트림-Skylake vs 하프 Lake
Skylake에 대해 지원 되는 최대 메모리 주파수는 2666MT/s이 고, 하프 Lake는 2933MT/s를 지원 하 고, 하프 Lake가 있는 10% 이상의 메모리 주파수를 의미 합니다. 그림 1에 따라 하프 Lake 프로세서는 Skylake에 비해 7 ~ 12%의 메모리 대역폭을 표시 합니다. Core 당 메모리 대역폭은 특정 프로세서 SKU에 따라 다릅니다. 일부 캐스케이드 Lake Sku에는 Skylake에 대 한 추가 코어가 있으므로 코어 메모리 대역폭 비교가 총 메모리 대역폭 비교와 다릅니다. 그림 1에 따라 8280 및 6242에는 각각 해당 선행 작업 보다 7%의 코어 당 더 높은 메모리 대역폭이 있습니다. 하지만 6230은 6230 코어 당 최소 25%의 코어 당 메모리 대역폭을 6130 단위로 표시 합니다. Core 당 메모리 대역폭은 메모리 대역폭을 인식 하는 애플리케이션에 중요 한 요인이 될 수 있습니다.
LINPACK-
인텔 LINPACK을 사용 하 여 프로세서의 컴퓨팅 기능을 측정 했습니다. 문제 크기 (N)는 시스템 메모리의 90%이 고 블록 크기 (NB)는 384입니다. 여기에는 하프 Lake 프로세서에 대 한 성능 및 확장성이 포함 되어 있습니다.
Skylake vs 하프 Lake –
그림 2: LINPACK 성능 (Skylake vs 하프 Lake)
그림 2에 따라 LINPACK은 캐스케이드 Lake 프로세서에서 최대 15%의 성능 향상을 보여 줍니다. 이 비교는 CPU 모델 번호를 기반으로 하며,이는 Skylake와 Intel Xeon® 확장 가능한 패밀리의 후속 작업을 비교 합니다. 소켓 당 코어 수가 4 개 이상인 Intel Xeon® 6230에서는 6130을 통해 성능이 15% 향상 되는 동시에, CPU 기본 주파수와 더 높은 메모리 대역폭을 증가 하는 것으로 인해 성능이 향상 되는 것과 유사한 코어 카운트가 있는 8280 및 6242을 사용 합니다.
다중 노드 성능- 다중 노드를 연구 하는 경우에는 Intel Xeon® 8268을 사용 하는 PowerEdge R740 서버의 8 노드 클러스터와 1, 2, 4 및 8 노드에 대 한 캡처된 결과를 사용 했습니다. 나머지 시스템 구성에 대해서는 표 2에 나와 있습니다.
그림 3: 8268 @ 2.90 g h z를 사용 하는 다중 노드 LINPACK 성능
그림 3에서 볼 수 있듯이 단일 8268 노드에 대 한 LINPACK 성능은 3059 GFLOPS이 23946 고, 8 노드의 경우 7.83 X는 노드 1 개에서 여덟 개의 노드로 확장 하는 것을 의미 합니다. 단일 노드에 대 한 효율성은 ~ 69%이 고, 2, 4 및 8 노드의 경우 ~ 67%입니다. 노드 1 개에서 2 개의 노드로 효율성을 높일 수 있습니다. 하지만 확장성은 대부분의 선형입니다.
HPCG 벤치 마크
HPCG 벤치 마크는 켤레 그라데이션 해 찾기를 기반으로 하며 조절기는 3 수준 계층적 다중 그리드 (가우스-Seidel)를 사용 합니다.
HPCG 벤치 마크는 3D 도메인의 각 그리드 지점 (i, j, k)에 있는 방정식이 해당 값과 26 주변 neighbours에 영향을 미치는 것과 같이 3D 도메인의 각 그리드 지점에서 27 포인트 스텐실을 사용 하 여 물리적으로 분산 된 스파스 선형 시스템을 논리적으로 분산 하 여 구성 합니다. 벤치 마크에 의해 계산 되는 글로벌 도메인은 (NRx * Nx) x (Nrx * Nx) x (NRy * * Nz)입니다. 여기서 Nx, 및 Nz는 각 MPI 프로세스에 할당 되 고 MPI 랭크 수가 NR NOT = (NRx X NRy X NRz) 인 로컬 하위 눈금의 크기입니다.
분석을 위해 테스트는 2 개 범주로 분류 되어 있습니다.
Skylake vs cascade lake – 이 섹션에서는 hpcg 성능을 사용 하 여 Skylake를 하프 호수와 비교 합니다. 1/4의 총 시스템메모리를 차지 하는 336 ^ 3 의 그리드 크기를 활용 했습니다. 노드당 MPI 프로세스 수와 스레드 수는 최상의 결과와 메모리 사용률을 기준으로 합니다.
그림 4: HPCG 성능 (Skylake vs 하프 Lake)
그림 4에 따라 하프 Lake 프로세서를 사용 하 여 선행 작업에 걸쳐 상당한 HPCG 성능 향상을 확인할 수 있습니다. HPCG가 더 많은 메모리를 기반으로 하는 애플리케이션을 사용 하는 경우, 캐스케이드 Lake 프로세서를 통한 성능 향상은 스트림 벤치 마크와 관련 하 여, 6230 보다 10% 더 나은 6130을 수행 합니다. 6242은 6142 보다 12% 더 나은 성능을 발휘 하며 8280는 8180 보다 7%의 성능을 발휘 합니다
멀티 노드 기반 hpcg - 다중 노드 벤치마킹의 경우, 336 ^ 3 및 best MPI 프로세스와 OpenMP 스레드 조합의 로컬 치수 그리드 크기를 선택 했습니다.
그림 5: 하프 Lake를 사용 하는 다중 노드 HPCG 성능
그림 5는 하프 Lake 8268 @ 2.9 g h z를 포함 한 HPCG의 성능과 최대 8 개의 노드를 확장 하는 것을 보여 줍니다. HPCG performance는 2 개의 노드에 대 한 단일 노드 및 84GFLOPS에 대 한 43GFLOPS 이며 2 개의 노드로 이루어진 성능 향상을 의미 합니다. 4 개 및 8 개의 노드로 앞으로 이동 하면 성능이 최대 7.7 X까지 향상 됩니다.
결론
캐스케이드 Lake 프로세서를 사용할 수 있는 경우 PowerEdge 시스템은 이제이 새로운 세대 프로세서를 사용 하 여 최대 2933 MT/s의 메모리 속도를 지원할 수 있습니다. 캐스케이드 Lake 프로세서를 사용한 테스트에서는 메모리 대역폭에서 7-12% 성능 향상을 보여 줍니다. 4-15% 향상 된 CPU 모델에 대 한 HPL의 hpl 및 7-12% 개선을 통해 향상 되었습니다. 과거에 Skylake 하는 것과 같이 1 개에서 8 개 노드의 하프 Lake 테스트를 통해 우수한 확장성을 확인할 수 있습니다.
또한, Cascade Lake에는 이 블로그에서보다 2x 3 ~ 3 ~ 3 ~ 3 ~ 3 ~ 3 배 더 높은 학습 워크 로드를 가속화 하는 VNNI 지침이 도입 되어 있습니다.
향후 작업을 위해 WRF, NAMD, GROMACS, CP2K 및 LAMMPS와 같은 HPC 다양 한 애플리케이션 환경에 대 한 하프 Lake의 성능 이점을 평가할 계획입니다.