O Dell EMC servidor do DSS8440 é um servidor de 2 soquetes e 4U projetado para computação de alto desempenho, m2 (Machine Learning) e cargas de trabalho de aprendizagem profunda. Ele dá suporte a várias GPUs como as GPUs NVIDIA V100S e NVIDIA Tesla T4 tensor Core, bem como as GPUs NVIDIA Quadro RTX .
(Figura. 1 Dell EMC servidor do DSS840)
Neste blog, avaliamos o desempenho da NVIDIA Quadro RTX 6000 e as GPUs NVIDIA Quadro 8000 comparadas em comparação com a GPU de nível superior V100S GPU usando várias ferramentas de benchmark padrão do setor. Isso inclui testes em cargas de trabalho únicas versus duplas. Embora a série quadro exista por um longo tempo, as GPUs RTX com a arquitetura NVIDIA ativação são lançadas no 2018 mais recente. As especificações na tabela 1 mostram que a GPU RTX 8000 é superior ao RTX 6000 em termos de configuração de memória mais alta. No entanto, as GPUs do RTX 8000 e do RTX 6000 têm mais necessidades de energia em comparação com a GPU do V100S. Para cargas de trabalho que exigem uma capacidade de memória maior, o RTX 8000 é a melhor opção.
Especificações | RTX 6000 | RTX 8000 | V100S-32 GB |
---|---|---|---|
Arquitectura | Turing | Volta | |
Memória | GDDR6 DE 24 GB | GDDR6 DE 48 GB | HBM2 DE 32 GB |
Taxa de clock padrão (MHz) | 1395 | 1245 | |
Taxa de clock máxima de GPU (MHz) | 1770 | 1597 | |
Núcleos CUDA | 4608 | 5120 | |
FP32 (máximo de TFLOPS) | 16,3 | 16,4 | |
Largura de banda da memória (GB/s) | 672 | 1134 | |
Power | 295 W | 250 W |
Tabela. 1 especificações da GPU
Servidor | DellEMC, PowerEdge, DSS8440 | ||
---|---|---|---|
Processador | 2 x processadores Intel Xeon 6248, 20 C a 2,5 GHz | ||
Memória | 24 x 32 GB 2933 MT/s (768 GB no total) | ||
GPU | 8 x quadro RTX 6000 | 8 x quadro RTX 8000 | 8 x voltar V100S-PCIe |
Armazenamento | 1 x Dell Express flash NVMe 1 TB 2,5 "U. 2 (P4500) | ||
Fontes de alimentação | 4 x 2400 W |
Tabela. 2 detalhes de configuração do servidor
BIOS | 2.5.4 |
---|---|
OS | RHEL 7,6 |
Kernel | 3.10.0-957.el7.x86_64 |
Perfil do sistema | Desempenho otimizado |
Kit de ferramentas do CUDA Driver do CUDA |
10,1 440.33.01 |
Tabela. 3 detalhes do firmware do sistema
Aplicativo | Versão |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 atualização 4 |
LAMMPS | Março de 3 2020 OpenMPI – 4.0.3 |
MLPERF | treinamento de v 0,6 Docker 19, 3 |
Tabela. 4 informações do aplicativo
LAMMPS é um aplicativo do moleculares numéricos Dynamics que é mantido por pesquisadores em Sandia National Laboratories e Temple University. A LAMMPS foi compilada com o pacote KOKKOS para funcionar com eficiência nas GPUs NVIDIA. O conjunto de dados Lennard Jones foi usado para comparação de desempenho e etapas de execução/s sendo a métrica, conforme mostrado na Figura 2:
(Figura. 2 Lennard Jones gráfico)
Conforme listado na tabela 1, as GPUs do RTX 6000 e do RTX 8000 têm o mesmo número de núcleos, desempenho de precisão única e largura de banda da GPU, mas memória de GPU diferente. Como as duas GPUs RTX possuem uma configuração semelhante, o desempenho também está no mesmo intervalo. As GPUs RTX são bem dimensionadas para esse aplicativo, e o desempenho das duas GPUs é idêntico.
O desempenho de V100S GPU é aproximadamente três vezes mais rápido do que as GPUs de RTX. O principal fator para esse maior desempenho é a maior largura de banda da memória GPU da GPU do V100S.
O uniHPL é um padrão de benchmark HPC que mede o desempenho de computação. Ele é usado como um benchmark de referência pela lista TOP500 para classificar supercomputadors em todo o mundo.
A figura a seguir mostra o desempenho das GPUs do RTX 6000, RTX 8000 e V100S usando o servidor DSS 8440. Como você pode ver, o desempenho das GPUs RTX são significativamente menores do que a GPU V100S. Isso deve ser esperado, já que o HPL realiza uma fatoração de matriz da LU que é principalmente operações de ponto flutuante de precisão dupla.
(Figura. 3 HPL desempenho com diferentes GPUs)
Se compararmos o desempenho teórico do ponto flutuante, ou seja, Rpeak das duas GPUs, veremos que o desempenho da GPU do V100S é muito maior. O valor de Rpeak teórica em uma única GPU de RTX é de aproximadamente 500GFlops. Esse valor gera menos desempenho (RMAX) por GPU. O valor de Rpeak para a GPU de V100S é 8.2 TFlops, o que resulta em um desempenho muito maior de cada placa.
A necessidade de benchmarks de desempenho padrão do setor para ML liderou o desenvolvimento do MLPerf Suite. Esse pacote inclui benchmarks para avaliar o desempenho de inferência e o treinamento de ML de hardware e software. Esta seção aborda apenas o desempenho de treinamento de GPUs. A tabela a seguir lista as cargas de trabalho de aprendizagem profunda, conjuntos de dados e critérios de destino que são usados para avaliar as GPUs.
Avalia | ConjuntoDeDados | Destino da qualidade | Modelo de implementação de referência |
---|---|---|---|
Classificação da imagem | ImageNet (224x224) | 75,9% superior-1 de precisão | Resnet-50 v 1.5 |
Detecção de objeto (peso leve) |
COCO 2017 | 23% de mapa | SSD-ResNet34 |
Detecção de objeto (peso pesado) |
COCO 2017 | 0,377 Box mínimo de 0,339 de máscara de ponto de acesso máximo de |
Mask R-CNN |
Tradução (recorrente) |
WMT inglês – alemão | 24,0 BLEU | GNMT |
Tradução (não recorrente) |
WMT inglês – alemão | 25,0 BLEU | Transformador |
Reforço aprendizagem | N/D | Checkpoint pré treinado | Mini-go |
Tabela. 5 MLPerf conjuntos de dados e critérios de destino (origem:https://mlperf.org/Training-overview/#overview )
a figura a seguir mostra o tempo para atender aos critérios de destino para as GPUs de RTX e V100S:
(Figura. 4 MLPERF de desempenho)
Os resultados são considerados após a execução de várias execuções, descartando o valor mais alto e o mais baixo, e calculando a média das outras execuções de acordo com as diretrizes listadas. O desempenho das GPUs RTX é semelhante. A porcentagem de variação entre as duas GPUs de RTX é mínima e dentro da faixa de aceitação de acordo com as diretrizes do MLPerf. Durante a V100 GPU, a GPU oferece o melhor desempenho, as GPUs de RTX também são executadas com exceção do benchmark de detecção de objetos.
No momento da publicação, o benchmark de classificação de imagem no MLPerf apresentava falha com GPUs de RTX devido a um erro de convolução. Esse problema deve ser corrigido em uma versão futura do cuDNN.
Neste blog, discutimos o desempenho do servidor de GPU Dell EMC DSS 8440 e as GPUs NVIDIA RTX para cargas de trabalho HPC e AI. O desempenho para as duas GPUs RTX é semelhante, no entanto, a GPU RTX 8000 seria uma melhor opção para aplicativos que exigem uma quantidade maior de memória. Para cargas de trabalho de precisão duplas, ou cargas de trabalho que exigem alta largura de banda de memória V100S e a nova GPU NVIDIA A100 são a melhor opção.
No futuro, planejamos oferecer um estudo de desempenho sobre GPUs RTX com outros aplicativos de precisão única e um estudo de inferência nas GPUs RTX e A100.