Artigo escrito por Savitha pareek, Varun Bawa, & Ashish K Singh da HPC e o laboratório de inovação do ai em junho de 2019
2 a geração Intel® Xeon® processadores dimensionáveis da família (arquitetura codinome –cascata Lake) é o sucessor da Intel para Skylake e está pronto para o seu horário. A equipe de engenharia de HPC em Dell EMC tinha acesso a algumas unidades de teste de engenharia, e esse blog apresenta os resultados de nosso estudo inicial de benchmark.
O objetivo deste blog é ilustrar e analisar o desempenho obtido nos últimos processadores da família Intel® Xeon® dimensionáveis e comparar o desempenho com seu antecessor. Escolhemos benchmarks de fluxo, HPL e HPCG para nossa análise. O estudo destaca o impacto sobre o desempenho de um, bem como de vários nós. Esses testes foram realizados no Dell EMC PowerEdge C6420 (estudo de nó único) e PowerEdge R740 (estudo de vários nós) com as configurações de BIOS recomendadas para as cargas de trabalho do HPC. O processador em cascata traz muitas melhorias como o Intel® Boost (Intel DL Boost) com VNNI, maior largura de banda da memória e maior desempenho e eficiência do ponto flutuante.
Tabela 1: Informações do testbed
Servidor |
PowerEdge C6420 & PowerEdge R740 |
|||
Processadores |
Configuração de um único nó |
Configuração de vários nós |
||
Servidor-PowerEdge C6420 & PowerEdge R740 |
Servidor-PowerEdge R740 |
|||
Skylake – Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1GHz] Intel Xeon® 8180 [28C a 2,5 GHz] |
Lago em cascata – Intel Xeon® antirretorno 8268 [24C@2.90GHz] |
|||
Lago em cascata – Intel Xeon® 6242 [16C @ 2,8 GHz] Intel Xeon® 6230 [20C@2.1GHz] Intel Xeon® 8280 [28C @ 2.7 GHz] |
||||
Memória |
Teste de lago em cascata-192 GB-12 x 16 GB 2933 MT/s DDR4 Teste de Skylake – 192 GB-12 x 16 GB 2933 MT/s DDR4 (ativo 2666 MT/s) |
|||
Sistema operacional |
Red Hat Enterprise Linux 7.6 |
|||
Versão do kernel |
3.10.0-957.el7.x86_64 |
|||
Opções do BIOS |
Turbo = ativado, processador lógico = desabilitado, SubNumaCluster = Enabled, tecnologia de virtualização = Disabled. |
|||
InfiniBand |
Caminho Intel Omni com IFS 10.9.2 |
|||
Compilador |
Intel Parallel Studio XE 2018 atualização 4 |
|||
Aplicações |
||||
Avalia |
Domínio |
Versão |
Configuração de teste |
|
HPL |
Computação LINPACK de alto desempenho |
Intel MKL Graphics 2018 U4 |
Tamanho do problema – 90% da memória total |
|
HPCG |
Gradiente conjugado de alto desempenho – computação |
Intel MKL Graphics 2018 U4 |
Tamanho do problema – 336 x 336 x 336 |
|
TDS |
Largura de banda da memória |
5.4 |
Triad |
|
Testes foram realizados para quantificar os dois casos a seguir:
TDS
Para obter o desempenho de pico de largura de banda da Intel em cascata e Skylake, escolhemos o benchmark de fluxo , que é o padrão de referência de benchmark do setor em HPC domínio para a medição da largura de banda da memória sustentável (em GB/s). O valor TRIAD foi usado para comparar a largura de banda da memória.
Figure1: FLUXO – Skylake vs em cascata
A frequência máxima suportada de memória para Skylake é 2666MT/s enquanto a cascata é compatível com 2933MT/s, o que significa 10% de frequência de memória superior com cascata. Conforme a Figura 1, os processadores em cascata do Lago mostram 7 a 12% mais largura de banda de memória relativa à Skylake. A largura de banda da memória por núcleo depende da SKU específica do processador. Como algumas SKUs da cascata em cascata têm núcleos adicionais em relação ao Skylake, as comparações de largura de banda de memória por núcleo são diferentes do que a comparação total da largura de banda da memória. De acordo com a Figura 1, o 8280 e o 6242 têm maior largura de banda de memória por núcleo até 7% do que seus respectivos antecessores. No entanto, o 6230 mostra 11% menos largura de banda de memória por núcleo em relação a 6130 devido ao aumento de 25% em núcleos para 6230. A largura de banda da memória por núcleo pode ser um fator importante para aplicativos que são sensíveis à largura de banda da memória.
LINPACK -
Medição da capacidade computacional dos processadores usando o Intel LINPACK. O tamanho do problema (N) é de 90% da memória do sistema enquanto o tamanho do Block (NB) é 384. Aqui estamos cobrindo o desempenho e o dimensionamento com processadores em cascata.
Skylake vs em cascata –
Figura 2: Desempenho do LINPACK (Skylake vs em cascata)
De acordo com a Figura 2, a LINPACK mostra melhoria de desempenho de até 15% com processadores em cascata. Essa comparação baseia-se no número do modelo da CPU, comparando Skylake e os respectivos sucessores da família Intel Xeon® escalável. O Intel Xeon® 6230 com 4 mais núcleos por soquete Obtém um aumento de 15% no desempenho em até 6130, enquanto o 8280 e o 6242 com contagem de núcleo semelhante, como seus antecessores, aumentam a melhoria no desempenho devido ao aumento na frequência de base da CPU e maior largura de banda da memória.
Desempenho de vários nós- Para o estudo de vários nós, usamos um cluster de 8 nós do PowerEdge servidores R740 com Intel Xeon® 8268 e resultados capturados para 1, 2, 4 e 8 nós. O restante da configuração do sistema é mencionado na tabela 2.
Figura 3: Desempenho de LINPACK de vários nós com 8268 a 2,90 GHz
Como a Figura 3 mostra, o desempenho do LINPACK para um único nó 8268 é 3059 GFLOPS e 23946 GFLOPS para 8 nós, o que significa 7.83 X Scale de 1 nó a 8 nós. A eficiência para um único nó é ~ 69%, enquanto ~ 67% para 2, 4 e 8 nós. A eficiência diminui de 1 nó para 2 nós; no entanto, a escalabilidade é principalmente linear posteriormente.
Benchmark do HPCG
O benchmark do HPCG baseia-se no Solver gradation, em que o Pre-condition é um método multigrid hierárquico de três níveis, com a magnetiza-Seidel.
O benchmark do HPCG constrói um sistema linear globalmente distribuído fisicamente e fisicamente distribuído usando um estêncil de 27 pontos em cada ponto de grade em um domínio 3D de modo que a equação no ponto (i, j, k) depende de seus valores e 26 vizinhos em torno dos vizinhos. O domínio global computacionaled by benchmark is (NRx * NX) X (NRy * NY) X (NRz * NZ), em que NX, NY e NZ são dimensões de subgrades locais, atribuídas a cada processo MPI e o número de fileiras MPI são NR = (NRx X NRy X NRz).
Para nossa análise, dividimos testes em 2 categorias-
Skylake vs Cascade em cascata – nesta seção, comparamos Skylake com o Lake em cascata usando o desempenho do HPCG. Utilizamos o tamanho da grade de 2,3 ^ 3 , que ocupa mais de 1/4° da memória total do sistema. O número de processos MPI por nó e o número de threads se baseiam nos melhores resultados e na utilização da memória.
Figura 4: Desempenho do HPCG (Skylake vs em cascata)
De acordo com a Figura 4, observamos uma melhoria significativa do desempenho do HPCG com processadores em cascata de lago em seus antecessores. Como o HPCG é mais aplicativo vinculado à memória, a melhoria de desempenho com processadores em cascata em cascata está alinhada com o resultado do benchmark de fluxo, no qual 6230 realiza 10% melhor do que o 6130, o 6242 realiza 12% melhores que 6142 e 8280 realiza 7% melhor do que 8180.
HPCG com vários nós — para benchmarking de vários nós, escolhemos o tamanho da grade de dimensão local de 336 ^ 3 e o processo de referência de OpenMP e o melhor.
Figura 5: Desempenho de HPCG de vários nós com o lago em cascata
A Figura 5 mostra o desempenho do HPCG com cascata Lake 8268 a 2.9 GHz e dimensionando até 8 nós. O desempenho do HPCG é 43GFLOPS para um único nó e o 84GFLOPS para dois nós, o que significa 1.96 X melhoria de desempenho com dois nós. À medida que avançamos com 4 e 8 nós, o desempenho melhora até 7.7 X.
Conclusão
Com a disponibilidade de processadores em cascata, os sistemas PowerEdge agora podem oferecer suporte a velocidades de memória de até 2933 MT/s com esse processador de geração mais recente. Nossos testes com processadores em cascata do Lago mostram uma melhoria de desempenho de 7-12% em largura de banda da memória, 4-15% de melhoria no HPL e 7-12% de melhoria no HPCG nos modelos de CPU comparados. Testes de lago em cascata de 1 a 8 nós mostram boa escalabilidade, visto que vimos com Skylake no passado.
Além disso, o lago em cascata apresenta instruções de VNNI que podem acelerar as cargas de trabalho de inferência de aprendizagem profundas cerca de 2 a 3 vezes descritas neste blog.
Para nosso trabalho futuro, planejamos avaliar a vantagem de desempenho do Lake em cascata em diferentes HPC aplicativos como, por exemplo, WRF, NAMD, GROMACS, CP2K e LAMMPS