DELL EMC DSS8440 서버는 고성능 컴퓨팅, 기계 학습 (ML) 및 심층 학습 워크 로드를 위해 설계 된 2 소켓, 4u 서버입니다. Nvidia Volta V100S 및 nvidia Tesla T4 Tensor Core Gpu 및 nvidia quadro Rtx gpu와 같은 다양 한 gpu를 지원 합니다 .
(그림 1 Dell EMC DSS840 서버)
이 블로그에서는 다양 한 산업 표준 벤치마킹 툴을 사용 하 여 비용 효율적인 NVIDIA Quadro RTX 6000 및 NVIDIA Quadro RTX 8000 Gpu와의 성능을 평가 합니다. 단일 vs 배정밀도 작업 부하에 대 한 테스트를 포함 합니다. Quadro 시리즈는 오랫동안 존재 하는 반면, Turing 아키텍처가 포함 된 RTX Gpu는 후기 2018에서 실행 됩니다. 표 1의 사양은 RTX 8000 GPU가 더 높은 메모리 구성 측면에서 RTX 6000 보다 상위 인지를 보여 줍니다. 하지만 RTX 8000 및 RTX 6000 Gpu에는 V100S GPU에 비해 높은 수준의 전력이 필요 합니다. 더 높은 메모리 용량을 필요로 하는 워크 로드의 경우 RTX 8000을 선택 하는 것이 좋습니다.
사양 | RTX 6000 | RTX 8000 | V100S-32 GB |
---|---|---|---|
아키텍처 | Turing | Volta | |
Memory | 24GB GDDR6 | 48 GB GDDR6 | 32 GB HBM2 |
기본 클럭 속도 (MHz) | 1395 | 1245 | |
GPU 최대 클럭 속도 (MHz) | 1770 | 1597 | |
CUDA 코어 | 4608 | 5120 | |
FP32 (TFLOPS 최대값) | 16.3 | 16.4 | |
메모리 대역폭 (GB/s) | 672 | 1134 | |
전원 | 295 W | 250W |
표. GPU 사양 1 개
서버 | DellEMC, PowerEdge, DSS8440 | ||
---|---|---|---|
프로세서 | 2 x 인텔 제온 6248, 20 C @ 2.5 g h z | ||
Memory | 24 x 32 GB @ 2933 MT/s (768 GB 합계) | ||
GPU | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S-PCIe |
스토리지 | 1 x Dell Express Flash NVMe 1tb 2.5 "U. 2 (P4500) | ||
전원 공급 장치 | 4 x 2400W |
표. 2 서버 구성 세부 정보
BIOS | 2.5.4 |
---|---|
OS | RHEL 7.6 |
커널 | 3.10.0-957.el7.x86_64 |
시스템 프로필 | 성능 최적화 |
고 대 도구 키트 드라이브 |
10.1 440.33.01 |
표. 3 개의 시스템 펌웨어 세부 정보
애플리케이션 | 버전 |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 업데이트 4 |
LAMMPS | 3 2020 년 3 월 openmpi – 4.0.3 알아봅니다 |
MLPERF | v 0.6 교육 docker 19.03 |
표. 4 애플리케이션 정보
LAMMPS 는 Sandia 국립 연구소 및 신전 대학에서 연구원에 의해 관리 되는 Molecular Dynamics 애플리케이션입니다. LAMMPS는 NVIDIA Gpu에서 효율적으로 실행 되도록 Kokkos 패키지 와 함께 컴파일됩니다 . 그림 2에 나와 있는 것 처럼 Lennard Jones dataset은 성능 비교와 Timesteps/s로 측정 됩니다.
(그림. 2 개의 Lennard Jones 그래프)
표 1에 나와 있는 것 처럼 RTX 6000 및 RTX 8000 Gpu는 동일한 수의 코어, 단일 precision 성능 및 GPU 대역폭을 포함 하지만 GPU 메모리는 다릅니다. RTX Gpu에도 유사 하 게 구성 되어 있기 때문에 성능도 같은 범위에 있습니다. RTX Gpu 확장성은이 애플리케이션에 적합 하며 두 Gpu의 성능 모두 동일 합니다.
Volta V100S GPU 성능은 Quadro RTX Gpu 보다 약 3 배 빠릅니다. 이 더 높은 성능에 대 한 주요 요인은 V100S GPU의 GPU 메모리 대역폭을 크게 높이는 것입니다.
HPL은 컴퓨팅 성능을 측정 하는 표준 HPC 벤치 마크입니다. TOP500 목록에서 supercomputers 전 세계적으로 순위를 결정 하는 레퍼런스 벤치 마크로 사용 됩니다.
다음 그림에서는 DSS 8440 서버를 사용 하는 RTX 6000, RTX 8000 및 V100S Gpu의 성능을 보여 줍니다. 여기에서 볼 수 있듯이 RTX Gpu의 성능이 V100S GPU 보다 훨씬 낮습니다. 이는 HPL이 기본적으로 이중 정밀도 부동 소수점 작업 인 matrix LU factorization 수행 하는 것으로 예상 됩니다.
(그림. 다양 한 gpu를 포함 하는 3 Hpl 성능)
이론상의 부동 소수점 성능을 비교 하는 경우 (즉, 두 Gpu 모두의 피크) V100S GPU 성능이 훨씬 더 높은 것을 확인할 수 있습니다. 단일 RTX GPU의 이론적인 Rpeak 값은 약 500GFlops입니다. 이 값은 GPU 당 성능 (Rmax)을 덜 산출 합니다. Volta V100S GPU에 대 한 Rpeak 값은 8.2 TFlops 이며,이로 인해 각 카드의 성능이 훨씬 향상 됩니다.
MLPerf 제품군의 개발에 대 한 ML led의 업계 표준 성능 벤치 마크가 필요 합니다. 이 제품군에는 ML 하드웨어 및 소프트웨어의 성향 습득 및 유추 성능을 평가 하기 위한 벤치 마크가 포함 되어 있습니다. 이 섹션에서는 Gpu의 교육 성능도 다룹니다. 다음 표에는 Gpu를 평가 하는 데 사용 되는 심층 학습 워크 로드, 데이터 세트 및 타겟 기준이 나열 되어 있습니다.
벤치 마크 | 형식화 | 품질 목표 | 레퍼런스 구현 모델 |
---|---|---|---|
이미지 분류 | ImageNet (224x224) | 75.9% 최고 1 개 정확도 | Resnet-50 v 1.5 |
오브젝트 감지 (옅은 중량) |
COCO2017 | 23% 맵 | SSD-ResNet34 |
오브젝트 감지 (중량 중량) |
COCO2017 | 0.377 Box 최소 AP 0.339 마스크 최소 ap |
Mask R-CNN |
변환 (되풀이) |
WMT 영어-독일어 | 24.0 BLEU | 고 대 |
변환 (비 되풀이) |
WMT 영어-독일어 | 25.0 BLEU | 변압기 |
본문 학습 | N/A | 사전 훈련 된 체크 포인트 | 미니 이동 |
표. 5 개의 mlperf 데이터 세트 및 타겟 기준 (소스:https://mlperf.org/training-overview/#overview )
다음 그림에서는 rtx 및 V100S gpu의 타겟 기준을 충족 하는 시간을 보여 줍니다.
(그림. 4 개의 mlperf 성능)
결과는 여러 개의 실행을 수행 하 고, 가장 높은 값과 가장 낮은 값을 무시 하 고, 나열 된 지침에 따라 다른 실행을 평균 계산 하는 것으로 간주 됩니다. RTX Gpu에 대 한 성능도 유사 합니다. RTX Gpu 간의 분산 비율은 최소 및 MLPerf 지침에 따라 허용 범위 내에서 결정 됩니다. Volta V100 GPU는 최상의 성능을 제공 하는 반면 RTX Gpu는 오브젝트 검색 벤치 마크를 제외 하 고도 잘 작동 합니다.
게시 시에는 회선 오류로 인해 RTX Gpu와 함께 MLPerf에서 이미지 분류 벤치 마크가 실패 했습니다. 이 문제는 향후 cuDNN 릴리즈에서 해결 될 것으로 예상 됩니다.
이 블로그에서는 Dell EMC DSS 8440 GPU 서버 및 NVIDIA RTX Gpu를 HPC 및 AI 워크 로드의 성능에 대해 설명 했습니다. 두 RTX Gpu에 대 한 성능도 유사 하지만 RTX 8000 GPU는 더 많은 양의 메모리를 필요로 하는 애플리케이션에 가장 적합 합니다. 배정밀도 워크 로드 또는 높은 메모리 대역폭 Volta V100S을 필요로 하는 워크 로드와 새로운 NVIDIA A100 GPU를 선택 하는 것이 가장 좋습니다.
향후에는 RTX Gpu에 다른 단일 precision 애플리케이션을 사용 하는 성능 연구와 RTX 및 A100 Gpu에 대 한 유추 연구를 제공 해야 합니다.