Gå til hovedindhold
  • Afgiv ordrer hurtigt og nemt
  • Se ordrer og spor status for din forsendelse
  • Opret og få adgang til en liste med dine produkter

BIOS-karakterisering for HPC med Intel Cascade Lake-processorer

Denne artikel gælder for Denne artikel gælder ikke for Denne artikel er ikke knyttet til et bestemt produkt. Det er ikke alle produktversioner, der er identificeret i denne artikel.

Symptomer

Artikel skrevet af Varun Bawa, Savitha Pareek og Ashish K Singh fra HPC og AI Innovation Lab i april 2019

Løsning

Med lanceringen af 2. generations skalerbare processorer i Intel Xeon-processorserien® (arkitektur med kodenavnet "Cascade Lake") har Dell EMC opdateret 14. generations PowerEdge-servere for at drage fordel af det øgede antal kerner og højere hukommelseshastigheder og dermed HPC-programmer.

Denne blog præsenterer det første sæt resultater og diskuterer virkningen af de forskellige BIOS-finjusteringsmuligheder, der er tilgængelige på Dell EMC PowerEdge C6420 med de nyeste Intel Xeon® Cascade Lake-processorer til visse HPC-benchmarks og -programmer. Nedenfor gives en kort beskrivelse af Cascade Lake-processoren, BIOS-mulighederne og HPC-programmerne, der anvendes i denne undersøgelse.

Cascade Lake er Intels efterfølger til Skylake. Cascade Lake-processoren understøtter op til 28 kerner, seks DDR4-hukommelseskanaler med en hastighed på op til 2933 MT/s. I lighed med Skylake understøtter Cascade Lake ekstra vektoriseringskraft med AVX512-instruktionssættet, der tillader 32 DP FLOP / cyklus. Cascade Lake introducerer Vector Neural Network Instructions (VNNI), som accelererer ydeevnen for AI- og DL-workloads som billedklassificering, talegenkendelse, sprogoversættelse, objektregistrering og meget mere. VNNI understøtter også 8-bit instruktion for at accelerere inferensydelsen.

Cascade Lake inkluderer hardwareafhjælpninger for nogle sidekanalsårbarheder. Det forventes, at dette kan forbedre ydeevnen på storageworkloads, se fremtidige undersøgelser fra Innovation Lab.

Da Skylake og Cascade Lake er sokkelkompatible, er de processorindstillingsknapper, der vises i systemets BIOS, de samme på tværs af disse processorgenerationer. Følgende BIOS-indstillingsmuligheder blev undersøgt i denne undersøgelse, svarende til arbejde offentliggjort tidligere på Skylake.

Processorindstillinger:

  • Tilstødende Cache Line Prefetch: Den tilstødende Cache-Line Prefetch-mekanisme tillader automatisk hardware prefetch, den fungerer uden programmørintervention. Når indstillingen er aktiveret, giver den plads til to 64-byte cachelinjer i en 128-byte-sektor, uanset om der er anmodet om den ekstra cachelinje eller ej.
  • Software Prefetcher: Det undgår stall ved at indlæse dataene i cachen, før det er nødvendigt. Eksempel: At prefetche data fra hovedhukommelsen til L2-cachen langt foran brugen med en L2 prefetch-instruktion og derefter prefetch data fra L2-cachen til L1-cachen lige før brug med en L1 prefetch-instruktion. Herinde henter processoren, når den er aktiveret, en ekstra cachelinje for hver hukommelsesanmodning.
  • SNC (subnuma klynge): Aktivering af SNC svarer til at opdele den enkelte sokkel i to NUMA-domæner, hver med halvdelen af de fysiske kerner og halvdelen af hukommelsen til soklen. Hvis dette lyder bekendt, svarer det i nytte til Cluster-on-Die-indstillingen , der var tilgængelig i Intel Xeon E5-2600 v3- og v4-processorer. SNC implementeres anderledes end COD, og disse ændringer forbedrer fjernsokkeladgang i Cascade Lake sammenlignet med de tidligere generationer, der brugte Cluster-on-Die-indstillingen. På operativsystemniveau viser en server med to sokler med SNC aktiveret fire NUMA-domæner. To af domænerne vil være tættere på hinanden (på samme stik), og de to andre vil være en større afstand væk, over UPI til fjernstikket. Dette kan ses ved hjælp af OS-værktøjer som: numactl –H og er illustreret i figur 1.
SLN316864_en_US__1image001(1)
Figur 1: Layout af NUMA-noder

Systemprofiler:

Systemprofilerne er en metamulighed, der igen indstiller flere ydeevne- og strømstyringsfokuserede BIOS-indstillinger som Turbo-tilstand, Cstate, C1E, Pstate-styring, Uncore-frekvens osv.  De forskellige systemprofiler, der sammenlignes i denne undersøgelse, omfatter:
  • Performance (Ydeevne)
  • YdeevnePerWattDAPC
  • YdeevnePerWattOS
Vi brugte to HPC-benchmarks og to HPC-programmer til at forstå disse BIOS-indstillingers indvirkning på Cascade Lake-ydeevnen. Konfigurationerne af server- og HPC-applikationer, der anvendes til denne undersøgelse, er beskrevet i tabel 1 og tabel 2.
Programmer Domæne Version Benchmark
Højtydende Linpack (HPL) Computation-Solve et tæt system af lineære ligninger Fra Intel MKL - 2019 Update 1 Problemstørrelse 90%, 92% og 94% af den samlede hukommelse
Stream Hukommelsesbåndbredde 5.4 Triad
WRF Vejrforskning og prognoser 3.9.1 Conus 2,5 km
ANSYS® flydende®  Flydende dynamik 19.2 Ice_2m,
Combustor_12m,
Aircraft_wing_14m
Exhaust_System_33m

Tabel 1: Programmer og benchmarks

Komponenter Detaljer
Server PowerEdge-server C6420
Processor Intel® Xeon® Gold 6230 CPU @ 2,1 GHz, 20 kerner
Hukommelse 192 GB – 12 x 16 GB, 2933 MT/sek., DDR4
Operativsystem Red Hat Enterprise Linux 7.6Red Hat Enterprise Linux 7.6
Kerne 3.10.0-957.el7.x86_64
Compiler Intel Parallel Studio-klynge Edition_2019_Update_1

Tabel 2 Serverkonfiguration

Alle de resultater, der vises her, er baseret på tests med en enkelt server; Ydeevnen på klyngeniveau afhænger af den enkelte servers ydeevne. Følgende metrics blev brugt til at sammenligne effektivitet:
  • Stream – Triad-score som rapporteret af stream-benchmarket.
  • HPL - GFLOP / sekund.
  • Fluent - Problemløservurdering som rapporteret af Fluent.
  • WRF – Gennemsnitligt tidstrin beregnet over de sidste 719 intervaller for Conus 2,5 km

Benchmarks og applikationsresultater

Forkortelser for grafnotation:

Systemprofiler:

Perf – Ydeevne-OSSLN316864_en_US__2a2 – PerformancePerWattOS SLN316864_en_US__3a3 DAPC – PerformancePerWattDAPC Sub-NOMA-klyngedannelseSLN316864_en_US__4a1
: SNC = 0 (SNC = Deaktiveret): SNC = 1(SNC = Aktiveret: Formateret som stribet i grafer)
SW - Software Prefetcher: SW = 0 (SW = deaktiveret): SW = 1 (SW = aktiveret)

SLN316864_en_US__5image006
 Figur 2: Højtydende Linpack

Figur 2 sammenligner resultatet af HPL med problemstørrelse = 90 %, dvs. N=144476 på tværs af forskellige BIOS-indstillinger. Grafen viser absolutte gigaflops, der er opnået, mens HPL køres på tværs af forskellige BIOS-konfigurationer. Disse opnåede Gigaflops er plottet på y-aksen, højere er bedre.
Nedenfor er observationerne fra grafen:
  • Mindre end 1 % forskel i HPL-ydeevne på grund af software-prefetch.
  • Ingen større effekt af SNC på HPL-ydeevnen (0,5% bedre med SNC=Disabled).
  • Performance System Profile er op til 6 % bedre sammenlignet med OS og DAPC.
 SLN316864_en_US__6image008
Figur 3: Stream

Figur 3 sammenligner resultatet af STREAM på tværs af de forskellige BIOS-konfigurationer.
Grafen plotter hukommelsesbåndbredden i gigabyte pr. sekund, der opnås, mens du kører STREAM Triad. Den opnåede hukommelsesbåndbredde (GB / sek) er plottet på y-aksen, højere er bedre. BIOS-konfigurationen, der er knyttet til specifikke værdier af gigabyte pr. sekund, afbildes på x-aksen.
Nedenfor er observationerne fra grafen:
  • Op til 3 % bedre hukommelsesbåndbredde med SNC=aktiveret.
  •  Ikke meget afvigelse i ydeevne på grund af Software prefetch på STREAM-hukommelsesbåndbredde. 
  •  Ingen afvigelse på tværs af systemprofiler.
   SLN316864_en_US__7a4
Figur 4: Hukommelsesbåndbredde – SNC

Figur 4 viser Stream Triad-hukommelsesbåndbreddescoren i en sådan konfiguration. Den fulde båndbredde for systemhukommelsen er ~220 GB/s. Når 20 kerner på en lokal sokkel får adgang til lokal hukommelse, er hukommelsesbåndbredden ~ 109 GB/s - halvdelen af systemets fulde båndbredde. Halvdelen af dette, ~ 56 GB / s, er hukommelsesbåndbredden på 10 tråde på den samme NUMA-node, der har adgang til deres lokale hukommelse, og på en NUMA-nodeadgangshukommelse, der tilhører den anden NUMA-node på samme stik. Der er et fald på 42 % i hukommelsesbåndbredden til ~33 GB/s, når trådene får adgang til fjernhukommelsen via QPI-linket på fjernstikket. Dette fortæller os, at der er betydelig båndbreddestraf i SNC-tilstand, når data ikke er lokale.

SLN316864_en_US__8image012
 Figur 5: WRF

Figur 5 sammenligner resultatet af WRF på tværs af forskellige BIOS-indstillinger. Det anvendte datasæt er conus2,5 km med standardfilen "namelist.input".
Grafen viser det absolutte gennemsnitlige timestep i sekunder, der er opnået under kørsel af WRF-conus2,5 km datasæt på forskellige BIOS-konfigurationer. Det gennemsnitlige opnåede tidstrin er plottet på y-aksen, lavere er bedre. De relative profiler, der er knyttet til specifikke værdier for gennemsnitligt tidstrin, afbildes på x-aksen.
Nedenfor er observationerne fra grafen:
  • 2 % bedre ydeevne med SNC=Aktiveret.
  •  Ingen forskel i ydeevnen for software, der er forudinstalleret i forhold til deaktiveret.
  •  Ydeevneprofilen er 1 % bedre end PerformancePerWattDAPC-profilerne
  SLN316864_en_US__9a7
 SLN316864_en_US__10a6
Figur 6 til figur 9 viser Problemløservurdering, der er opnået under kørsel af henholdsvis Ice_2m-, Combustor_12m-, Aircraft_Wing_14m- og Exhaust_System_33m datasættet. Den opnåede Problemløser-vurdering afbildes på y-aksen, Højere er bedre. De relative profiler, der er knyttet til specifikke værdier for gennemsnitstid, afbildes på x-aksen.
Nedenfor er de overordnede observationer fra ovenstående grafer:
  • Op til 4 % bedre ydeevne med SNC=Aktiveret.
  • Ingen effekt af Software Prefetch på ydeevnen.
  • Op til 2 % bedre ydeevne med ydeevneprofil sammenlignet med DAPC- og OS-profiler.

Konklusion

I denne undersøgelse evaluerede vi virkningen af forskellige BIOS-indstillingsmuligheder på ydeevnen ved brug af Intel Xeon Gold 6230-processoren. Ved at observere ydeevnen for forskellige BIOS-muligheder på tværs af forskellige benchmarks og applikationer konkluderes følgende:
  • Software Prefetch har ingen væsentlig indvirkning på ydeevnen på de datasæt, der blev testet. Derfor anbefaler vi, at Software Prefetcher forbliver som standard, dvs. aktiveret
  • Med SNC = aktiveret 2-4% præstationsforøgelse i Fluent og Stream, ca. 1% i WRF sammenlignet med SNC = deaktiveret. Derfor anbefaler vi, at SNC skal være aktiveret for at opnå bedre ydeevne.
  • Ydeevneprofilen er 2-4 % bedre end PerformancePerWattDAPC og PerformancePerWattOS. Vi anbefaler derfor ydeevneprofilen til HPC.
Det anbefales, at Hyper-Threading slås fra for generelle HPC-klynger. Afhængigt af de anvendte applikationer skal fordelene ved denne funktion testes og aktiveres efter behov.

Ikke omtalt i denne undersøgelse er en hukommelses-RAS, der kaldes Adaptive Double DRAM Device Correction (ADDDC), som er tilgængelig, når et system er konfigureret med hukommelse, der har x4 DRAM-organisation (32 GB, 64 GB DIMM'er). ADDDC er ikke tilgængelig, når et system har x8-baserede DIMM-moduler (8 GB, 16 GB), og det er uden betydning for disse konfigurationer. For HPC-workloads anbefales det, at ADDDC indstilles til deaktiveret, når det er tilgængeligt som en justerbar mulighed.

 

Berørte produkter

High Performance Computing Solution Resources, Poweredge C4140, Red Hat Enterprise Linux Version 7
Artikelegenskaber
Artikelnummer: 000176921
Artikeltype: Solution
Senest ændret: 10 apr. 2021
Version:  4
Find svar på dine spørgsmål fra andre Dell-brugere
Supportservices
Kontrollér, om din enhed er dækket af supportservices.