Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

HPC:n BIOS-ominaisuudet Intel Cascade Lake -suorittimilla

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Artikkelin kirjoittaneet Varun Bawa, Savitha Pareek ja Ashish K Singh HPC:stä ja AI Innovation Labista huhtikuussa 2019

Resolution

Toisen sukupolven Intel Xeon® Scalable Family -suorittimien (arkkitehtuuri, koodinimeltään Cascade Lake) julkaisun myötä Dell EMC on päivittänyt 14. sukupolven PowerEdge-palvelimet hyötymään ytimien määrän kasvusta ja muistin nopeudesta, mikä hyödyttää HPC-sovelluksia.

Tässä blogikirjoituksessa esitellään ensimmäiset tulokset ja käsitellään uusimmilla Intel Xeon® Cascade Lake -suorittimilla varustetussa Dell EMC PowerEdge C6420:ssa saatavilla olevien BIOS-hienosäätövaihtoehtojen vaikutusta joihinkin suurteholaskennan vertailuarvoihin ja sovelluksiin. Seuraavassa on lyhyt kuvaus tässä tutkimuksessa käytetyistä Cascade Lake -suorittimista, BIOS-vaihtoehdoista ja HPC-sovelluksista.

Cascade Lake on Intelin seuraaja Skylakelle. Cascade Lake -prosessori tukee jopa 28 ydintä, kuusi DDR4-muistikanavaa nopeudella jopa 2933 MT/s. Kuten Skylake, Cascade Lake tukee lisävektorointitehoa AVX512-käskysarjalla, joka mahdollistaa 32 DP FLOP/syklin. Cascade Lake sisältää Vector Neural Network Instructions (VNNI) -ohjeet, jotka nopeuttavat tekoäly- ja DL-kuormitusten, kuten kuvien luokittelun, puheentunnistuksen, kielen kääntämisen ja objektien tunnistuksen, suorituskykyä. VNNI tukee myös 8-bittisiä käskyjä päättelysuorituskyvyn nopeuttamiseksi.

Cascade Lake sisältää laitteistokorjauksia joihinkin sivukanavan haavoittuvuuksiin. Tämän odotetaan parantavan tallennuskuormitusten suorituskykyä. Tutustu Innovation Labin tuleviin tutkimuksiin.

Koska Skylake ja Cascade Lake ovat yhteensopivia kannan kanssa, järjestelmän BIOSissa näkyvät suorittimen säätönupit ovat samanlaiset eri suoritinsukupolvissa. Tässä tutkimuksessa tutkittiin seuraavia BIOS-viritysvaihtoehtoja, jotka ovat samankaltaisia kuin aiemmin Skylakessa julkaistu työ.

Suorittimen asetukset:

  • Viereisen välimuistirivin esihaku: Viereisen välimuistilinjan esihakumekanismi mahdollistaa automaattisen laitteiston esihaun, se toimii ilman ohjelmoijan toimia. Kun se on käytössä, se siirtää kaksi 64-tavuista välimuistiriviä 128-tavuiseen sektoriin riippumatta siitä, onko lisävälimuistiriviä pyydetty vai ei.
  • Ohjelmiston esihaku: Se välttää pysähtymisen lataamalla tiedot välimuistiin ennen kuin niitä tarvitaan. Esimerkki: Tietojen esihaku päämuistista L2-välimuistiin paljon ennen käyttöä L2-esihakuohjeella ja sitten tietojen esihaku L2-välimuistista L1-välimuistiin juuri ennen käyttöä L1-esihakuohjeella. Kun asetus on käytössä, suoritin hakee ylimääräisen välimuistirivin jokaista muistipyyntöä varten.
  • SNC (NUMA-aliklusteri): SNC: n käyttöönotto muistuttaa yhden kannan jakamista kahteen NUMA-verkkotunnukseen, joissa molemmissa on puolet fyysisistä ytimistä ja puolet kannan muistista. Jos tämä kuulostaa tutulta, se on apuohjelmaltaan samanlainen kuin Cluster-on-Die-vaihtoehto , joka oli saatavana Intel Xeon E5-2600 v3- ja v4-prosessoreissa. SNC toteutetaan eri tavalla kuin COD, ja nämä muutokset parantavat etäpistokkeiden käyttöä Cascade Lakessa verrattuna aiempiin sukupolviin, jotka käyttivät Cluster-on-Die-vaihtoehtoa. Käyttöjärjestelmätasolla kaksikantainen palvelin, jossa SNC on käytössä, näyttää neljä NUMA-toimialuetta. Kaksi verkkotunnuksista on lähempänä toisiaan (samassa pistorasiassa), ja kaksi muuta ovat pidemmän matkan päässä, UPI: n yli etäpistorasiaan. Tämä näkyy esimerkiksi seuraavilla käyttöjärjestelmätyökaluilla: numactl –H , ja se on esitetty kuvassa 1.
SLN316864_en_US__1image001(1)
Kuva 1: NUMA-solmujen rakenne

Järjestelmäprofiilit:

Järjestelmäprofiilit ovat meta-asetuksia, jotka puolestaan asettavat useita suorituskykyyn ja virranhallintaan keskittyviä BIOS-asetuksia, kuten Turbo-tila, Cstate, C1E, Pstate-hallinta, Uncore-taajuus jne.  Tässä tutkimuksessa vertailtuja eri järjestelmäprofiileja ovat:
  • Suorituskyky
  • SuorituskykyPerWattDAPC
  • PerformancePerWattOS
Käytimme kahta HPC-vertailuarvoa ja kahta HPC-sovellusta ymmärtääksemme näiden BIOS-vaihtoehtojen vaikutusta Cascade Lake -suorituskykyyn. Tässä tutkimuksessa käytetyt palvelin- ja HPC-sovellusten kokoonpanot on kuvattu taulukossa 1 ja taulukossa 2.
Sovellukset Domain Versio Vertailukohtana
Tehokas Linpack (HPL) Laskenta-Ratkaise tiheä lineaaristen yhtälöiden järjestelmä Intel MKL - 2019 Update 1: ltä Ongelman koko 90%, 92% ja 94% kokonaismuistista
Stream Muistin kaistanleveys 5.4 Triad
WRF Säätutkimus ja ennustaminen 3.9.1 Conus 2.5km
ANSYS® Sujuva®  Virtausdynamiikka 19.2 Ice_2m,
Combustor_12m,
Aircraft_wing_14m,
Exhaust_System_33m

Taulukko 1: Sovellukset ja vertailuarvot

Osia Tiedot
Server PowerEdge-palvelin C6420
Suoritin Intel® Xeon® Gold 6230 -suoritin @ 2,1 GHz, 20 ydintä
Muisti 192 Gt – 12 x 16 Gt 2 933 MT/s:n DDR4
Käyttöjärjestelmä Red Hat Enterprise Linux 7.6Red Hat Enterprise Linux 7.6
Ydin 3.10.0-957.el7.x86_64
Kääntäjä Intel Parallel Studio -klusterin Edition_2019_Update_1

Taulukko 2 Palvelimen kokoonpano

Kaikki tässä esitetyt tulokset perustuvat yhden palvelimen testeihin; Klusteritason suorituskyky riippuu yksittäisen palvelimen suorituskyvystä. Tehokkuuden vertailuun käytettiin seuraavia mittareita:
  • Stream – Triad-pisteet stream-vertailuarvon mukaan.
  • HPL - GFLOP / sekunti.
  • Fluent - Ratkaisija-luokitus Fluentin ilmoittamana.
  • WRF – Conus 2,5 km:n keskimääräinen aika-askel viimeisten 719 intervallin aikana

Vertailuarvot ja sovellustulokset

Graafimerkintöjen lyhenteet:

Järjestelmäprofiilit:

SLN316864_en_US__2a2 Suorituskykyinen käyttöjärjestelmä – PerformancePerWattOS SLN316864_en_US__3a3 DAPC – PerformancePerWattDAPCSLN316864_en_US__4a1
Sub-NUMA-klusterointi: SNC = 0 (SNC = pois käytöstä): SNC = 1 (SNC = käytössä: Muotoiltu raidoitettuna kaavioina)
SW – Ohjelmiston esihaku: SW = 0 (SW = ei käytössä): SW = 1 (SW = käytössä)

SLN316864_en_US__5image006
 Kuva 2: Suorituskykyinen Linpack

Kuvassa 2 verrataan HPL:n tulosta ongelmaan Ongelman koko = 90 % eli N = 144476 eri BIOS-vaihtoehdoissa. Kaavio esittää absoluuttiset gigaflopit, jotka saadaan HPL:ää käytettäessä eri BIOS-kokoonpanoissa. Nämä saadut gigafloopit piirretään y-akselille, korkeampi on parempi.
Alla havainnot kaaviosta:
  • Alle 1 %:n ero HPL:n suorituskyvyssä ohjelmiston esihaun vuoksi.
  • SNC:llä ei ole merkittävää vaikutusta HPL:n suorituskykyyn (0,5 % parempi, kun SNC = pois käytöstä).
  • Performance System -profiili on jopa 6 % parempi verrattuna käyttöjärjestelmään ja DAPC-ratkaisuun.
 SLN316864_en_US__6image008
Kuva 3: Stream

Kuvassa 3 verrataan STREAM-toiminnon tuloksia eri BIOS-kokoonpanoissa.
Kaavio piirtää muistin kaistanleveyden gigatavuina sekunnissa, joka on saatu STREAM Triadin käytön aikana. Saatu muistin kaistanleveys (Gt/s) näytetään y-akselilla, suurempi on parempi. BIOS-kokoonpano, joka liittyy tiettyihin gigatavua sekunnissa -arvoihin, on piirretty x-akselille.
Alla havainnot kaaviosta:
  • Jopa 3 % parempi muistin kaistanleveys, kun SNC = käytössä.
  •  Suorituskyky ei juurikaan poikkea STREAM-muistin kaistanleveyden ohjelmiston esihaun vuoksi. 
  •  Ei poikkeamia järjestelmäprofiilien välillä.
   SLN316864_en_US__7a4
Kuva 4: Muistin kaistanleveys - SNC

Kuvassa 4 esitetään Stream Triad -muistin kaistanleveyspisteet tällaisessa kokoonpanossa. Järjestelmämuistin koko kaistanleveys on ~220 Gt/s. Kun paikallisen kannan 20 ydintä käyttävät paikallista muistia, muistin kaistanleveys on ~ 109 Gt/s - puolet järjestelmän koko kaistanleveydestä. Puolet tästä, ~ 56 Gt / s, on muistin kaistanleveys 10 säiettä samassa NUMA-solmussa, joka käyttää paikallista muistiaan, ja yhdessä NUMA-solmussa, joka käyttää muistia, joka kuuluu saman kannan toiseen NUMA-solmuun. Muistin kaistanleveys laskee 42 % ~ 33 Gt/s:iin, kun säikeet käyttävät etämuistia etäkannan QPI-linkin kautta. Tämä kertoo meille, että SNC-tilassa on merkittävä kaistanleveysrangaistus, kun tiedot eivät ole paikallisia.

SLN316864_en_US__8image012
 Kuva 5: WRF

Kuvassa 5 verrataan WRF:n tulosta eri BIOS-vaihtoehtojen välillä, käytetty tietojoukko on conus2.5km oletusarvoisella namelist.input-tiedostolla.
Kaavio esittää absoluuttisen keskimääräisen aika-askeleen sekunteina, jotka saadaan, kun WRF-conus2.5km -tietojoukkoa suoritetaan eri BIOS-kokoonpanoissa. Saatu keskimääräinen aika-askel piirretään y-akselille, pienempi on parempi. Keskimääräisen aika-askeleen tiettyihin arvoihin liittyvät suhteelliset profiilit on piirretty x-akselille.
Alla havainnot kaaviosta:
  • 2 % parempi suorituskyky, kun SNC = käytössä.
  •  Software Prefetch Enabled vs Disabled- ja Disabled -toiminnoissa ei ole suorituskykyeroa.
  •  Suorituskykyprofiili on 1% parempi kuin PerformancePerWattDAPC-profiilit
  SLN316864_en_US__9a7
 SLN316864_en_US__10a6
Kuvioissa 6–9 esitetään Fluent- -komennon aikana saatu ratkaisijaluokitus Ice_2m, Combustor_12m, Aircraft_Wing_14m ja Exhaust_System_33m tietojoukon kanssa. Saatu ratkaisimen luokitus piirretään y-akselille, Korkeampi on parempi. Keskimääräisen ajan tiettyihin arvoihin liittyvät suhteelliset profiilit on piirretty x-akselille.
Alla on yleisiä havaintoja yllä olevista kaavioista:
  • Jopa 4 % parempi suorituskyky, kun SNC = käytössä.
  • Software Prefetch ei vaikuta suorituskykyyn.
  • Jopa 2 % parempi suorituskyky suorituskykyprofiililla verrattuna DAPC- ja käyttöjärjestelmäprofiileihin.

Johtopäätös

Tässä tutkimuksessa arvioimme BIOSin eri hienosäätövaihtoehtojen vaikutusta suorituskykyyn Intel Xeon Gold 6230 -suoritinta käytettäessä. Tarkkailemalla eri BIOS-vaihtoehtojen suorituskykyä eri vertailuarvoissa ja sovelluksissa voidaan päätellä seuraavaa:
  • Software Prefetchillä ei ole merkittävää vaikutusta testattujen tietojoukkojen suorituskykyyn. Siksi suosittelemme, että Software Prefetcher pysyy oletuksena eli käytössä
  • Kun SNC = käytössä 2-4%: n suorituskyvyn lisäys sujuvassa ja streamissa, noin 1% WRF: ssä verrattuna SNC = pois käytöstä. Siksi suosittelemme, että SNC: n olisi voitava saavuttaa parempi suorituskyky.
  • Suorituskykyprofiili on 2-4% parempi kuin PerformancePerWattDAPC ja PerformancePerWattOS. Siksi suosittelemme HPC:n suorituskykyprofiilia .
Suosittelemme poistamaan Hyper-Threading-ominaisuuden käytöstä yleiskäyttöisissä HPC-klustereissa. Käytettyjen sovellusten mukaan tämän ominaisuuden etuja on testattava ja otettava käyttöön tarpeen mukaan.

Tässä tutkimuksessa ei käsitellä RAS-muistia nimeltä Adaptive Double DRAM Device Correction (ADDDC), joka on käytettävissä, kun järjestelmään on määritetty muisti, jossa on x4 DRAM -organisaatio (32 Gt, 64 Gt DIMM-moduuleja). ADDDC ei ole käytettävissä, kun järjestelmässä on x8-pohjaisia DIMM-moduuleja (8 Gt, 16 Gt), eikä sillä ole merkitystä näissä kokoonpanoissa. HPC-kuormituksissa ADDDC poistetaan käytöstä, kun se on käytettävissä säädettävänä vaihtoehtona.

 

Article Properties


Affected Product

High Performance Computing Solution Resources, Poweredge C4140, Red Hat Enterprise Linux Version 7

Last Published Date

10 Apr 2021

Version

4

Article Type

Solution