メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能

Servidor Dell EMC DSS 8440 com GPUs NVIDIA RTX para cargas de trabalho de HPC e IA

概要: O Dell EMC servidor do DSS8440 é um servidor de 2 soquetes e 4U projetado para computação de alto desempenho, m2 (Machine Learning) e cargas de trabalho de aprendizagem profunda. Este artigo compara o desempenho de várias GPUs como as GPUs NVIDIA V100S e NVIDIA Tesla T4 tensor Core, bem como as GPUs NVIDIA Quadro RTX nesse sistema. ...

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

 

Deepthi Cherlopalle e Frank Han

 

Laboratório de inovação de HPC Dell EMC e AI de junho de 2020

 

O Dell EMC servidor do DSS8440 é um servidor de 2 soquetes e 4U projetado para computação de alto desempenho, m2 (Machine Learning) e cargas de trabalho de aprendizagem profunda. Ele dá suporte a várias GPUs como as GPUs NVIDIA V100SSLN321776_en_US__1iC_External_Link_BD_v1 e NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 tensor Core, bem como as GPUs NVIDIA Quadro RTXSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Figura. 1 Dell EMC servidor do DSS840)

Neste blog, avaliamos o desempenho da NVIDIA Quadro RTX 6000 e as GPUs NVIDIA Quadro 8000 comparadas em comparação com a GPU de nível superior V100S GPU usando várias ferramentas de benchmark padrão do setor. Isso inclui testes em cargas de trabalho únicas versus duplas. Embora a série quadro exista por um longo tempo, as GPUs RTX com a arquitetura NVIDIA ativação são lançadas no 2018 mais recente. As especificações na tabela 1 mostram que a GPU RTX 8000 é superior ao RTX 6000 em termos de configuração de memória mais alta. No entanto, as GPUs do RTX 8000 e do RTX 6000 têm mais necessidades de energia em comparação com a GPU do V100S. Para cargas de trabalho que exigem uma capacidade de memória maior, o RTX 8000 é a melhor opção.

Especificações RTX 6000 RTX 8000 V100S-32 GB
Arquitectura Turing Volta
Memória GDDR6 DE 24 GB GDDR6 DE 48 GB HBM2 DE 32 GB
Taxa de clock padrão (MHz) 1395 1245
Taxa de clock máxima de GPU (MHz) 1770 1597
Núcleos CUDA 4608 5120
FP32 (máximo de TFLOPS) 16,3 16,4
Largura de banda da memória (GB/s) 672 1134
Power 295 W 250 W

Tabela. 1 especificações da GPU

Servidor DellEMC, PowerEdge, DSS8440
Processador 2 x processadores Intel Xeon 6248, 20 C a 2,5 GHz
Memória 24 x 32 GB 2933 MT/s (768 GB no total)
GPU  8 x quadro RTX 6000    8 x quadro RTX 8000   8 x voltar V100S-PCIe 
Armazenamento 1 x Dell Express flash NVMe 1 TB 2,5 "U. 2 (P4500)
Fontes de alimentação 4 x 2400 W

Tabela. 2 detalhes de configuração do servidor

BIOS 2.5.4
OS RHEL 7,6
Kernel 3.10.0-957.el7.x86_64
Perfil do sistema Desempenho otimizado
Kit de ferramentas
do CUDA Driver do CUDA
10,1
440.33.01

Tabela. 3 detalhes do firmware do sistema

Aplicativo Versão
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 atualização 4
LAMMPS Março de 3 2020
OpenMPI – 4.0.3
MLPERF SLN321776_en_US__1iC_External_Link_BD_v1 treinamento
de v 0,6 Docker 19, 3

Tabela. 4 informações do aplicativo

原因

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 é um aplicativo do moleculares numéricos Dynamics que é mantido por pesquisadores em Sandia National Laboratories e Temple University. A LAMMPS foi compilada com o pacote KOKKOSSLN321776_en_US__6iC_External_Link_BD_v1 para funcionar com eficiência nas GPUs NVIDIA. O conjunto de dados Lennard Jones foi usado para comparação de desempenho e etapas de execução/s sendo a métrica, conforme mostrado na Figura 2:

SLN321776_en_US__8image (18427)

(Figura. 2 Lennard Jones gráfico)

 Conforme listado na tabela 1, as GPUs do RTX 6000 e do RTX 8000 têm o mesmo número de núcleos, desempenho de precisão única e largura de banda da GPU, mas memória de GPU diferente. Como as duas GPUs RTX possuem uma configuração semelhante, o desempenho também está no mesmo intervalo. As GPUs RTX são bem dimensionadas para esse aplicativo, e o desempenho das duas GPUs é idêntico.

O desempenho de V100S GPU é aproximadamente três vezes mais rápido do que as GPUs de RTX. O principal fator para esse maior desempenho é a maior largura de banda da memória GPU da GPU do V100S.


High Performance Linpack (HPL)

O uniHPL é um padrão de benchmark HPC que mede o desempenho de computação. Ele é usado como um benchmark de referência pela lista TOP500 para classificar supercomputadors em todo o mundo.

A figura a seguir mostra o desempenho das GPUs do RTX 6000, RTX 8000 e V100S usando o servidor DSS 8440. Como você pode ver, o desempenho das GPUs RTX são significativamente menores do que a GPU V100S. Isso deve ser esperado, já que o HPL realiza uma fatoração de matriz da LU que é principalmente operações de ponto flutuante de precisão dupla.

SLN321776_en_US__9image (18428)

(Figura. 3 HPL desempenho com diferentes GPUs)

Se compararmos o desempenho teórico do ponto flutuante, ou seja, Rpeak das duas GPUs, veremos que o desempenho da GPU do V100S é muito maior. O valor de Rpeak teórica em uma única GPU de RTX é de aproximadamente 500GFlops. Esse valor gera menos desempenho (RMAX) por GPU. O valor de Rpeak para a GPU de V100S é 8.2 TFlops, o que resulta em um desempenho muito maior de cada placa.


MLPerf

A necessidade de benchmarks de desempenho padrão do setor para ML liderou o desenvolvimento do MLPerf Suite. Esse pacote inclui benchmarks para avaliar o desempenho de inferência e o treinamento de ML de hardware e software. Esta seção aborda apenas o desempenho de treinamento de GPUs. A tabela a seguir lista as cargas de trabalho de aprendizagem profunda, conjuntos de dados e critérios de destino que são usados para avaliar as GPUs.

Avalia ConjuntoDeDados Destino da qualidade Modelo de implementação de referência
Classificação da imagem ImageNet (224x224) 75,9% superior-1 de precisão Resnet-50 v 1.5
Detecção
de objeto (peso leve)
COCO 2017 23% de mapa SSD-ResNet34
Detecção
de objeto (peso pesado)
COCO 2017 0,377 Box mínimo de 0,339 de máscara de ponto de acesso máximo de
Mask R-CNN
Tradução
(recorrente)
WMT inglês – alemão 24,0 BLEU GNMT
Tradução
(não recorrente)
 WMT inglês – alemão  25,0 BLEU Transformador
Reforço aprendizagem N/D Checkpoint pré treinado Mini-go

Tabela. 5 MLPerf conjuntos de dados e critérios de destino (origem:https://mlperf.org/Training-overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

a figura a seguir mostra o tempo para atender aos critérios de destino para as GPUs de RTX e V100S:

SLN321776_en_US__11image (18441)
(Figura. 4 MLPERF de desempenho)

Os resultados são considerados após a execução de várias execuções, descartando o valor mais alto e o mais baixo, e calculando a média das outras execuções de acordo com as diretrizes listadas. O desempenho das GPUs RTX é semelhante. A porcentagem de variação entre as duas GPUs de RTX é mínima e dentro da faixa de aceitação de acordo com as diretrizes do MLPerf. Durante a V100 GPU, a GPU oferece o melhor desempenho, as GPUs de RTX também são executadas com exceção do benchmark de detecção de objetos.

No momento da publicação, o benchmark de classificação de imagem no MLPerf apresentava falha com GPUs de RTX devido a um erro de convolução. Esse problema deve ser corrigido em uma versão futura do cuDNN.

解決方法

Resumo

Neste blog, discutimos o desempenho do servidor de GPU Dell EMC DSS 8440 e as GPUs NVIDIA RTX para cargas de trabalho HPC e AI. O desempenho para as duas GPUs RTX é semelhante, no entanto, a GPU RTX 8000 seria uma melhor opção para aplicativos que exigem uma quantidade maior de memória. Para cargas de trabalho de precisão duplas, ou cargas de trabalho que exigem alta largura de banda de memória V100S e a nova GPU NVIDIA A100 são a melhor opção.

No futuro, planejamos oferecer um estudo de desempenho sobre GPUs RTX com outros aplicativos de precisão única e um estudo de inferência nas GPUs RTX e A100.


対象製品

High Performance Computing Solution Resources
文書のプロパティ
文書番号: 000132886
文書の種類: Solution
最終更新: 25 2月 2021
バージョン:  4
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。