Ratkaisun yleiskuvaus
Tässä blogikirjoituksessa kuvataan Dell EMC HPC NFS -tallennusratkaisun versiota 7.4 (NSS7.4-HA), joka hyödyntää Intelin toisen sukupolven skaalautuvia Xeon "Cascade Lake" -suorittimia. Näissä parannelluissa Xeon-suorittimissa on jopa 28 ydintä, jopa 38,5 Mt välimuistia ja kuusi 2933 MT/s muistikanavaa kantaa kohden. Cascade Lake
-suorittimien tärkeimmät ominaisuudet ovat integroidut
laitteiston lieventäminen sivukanavahyökkäyksiä vastaan, Intel DL Boost (VNNI) sekä tuki lisääntyneelle kellonopeudelle ja muistinopeuksille.
Cascade Lake ja sen edeltäjä Skylake sisältävät ominaisuuden nimeltä
ADDDC (Adaptive
Double
DRAM
Device
Correction). ADDDC kirjaa suoritusvaiheessa dynaamisesti virheitä tekevät DRAM-laitteet. Samalla jatketaan myös SDDC-korjausta (
Single
Device
Data
Correction) ja tarjotaan itsekorjaavaa koodimuistia (ECC). Yhdessä nämä ominaisuudet takaavat DIMM-moduulien pitkäikäisyyden. Ominaisuus aktivoidaan vain x4 DRAM -laitteissa, eikä se tee mitään, kun järjestelmässä on x8 DRAM -laitteita. Koska uusin NSS-HA:n versio 7.4 käyttää vain 16 Gt x8-muistia, ADDDC ei ole valittavissa BIOSissa. Jos kuitenkin käytät 32 Gt: n muistia, joka on x4, ADDDC on saatavana viritettävänä vaihtoehtona, ja on suositeltavaa, että se poistetaan käytöstä suorituskyvyn suosimiseksi RAS-ominaisuuksiin.
On suositeltavaa määrittää NFS-palvelimille HPC-profiili blogin "
BIOS-luonnehdinta Intel Cascade Lake -suorittimille" Tämä sisältää BIOSin virittämisen sub-NUMA-klusterin käyttöön, loogisen suorittimen käytöstä poistamisen ja järjestelmäprofiilin määrittämisen "Suorituskyky". Jos päivität olemassa olevan järjestelmän suorittimia Cascade Lake -suorittimiin, varmista, että BIOS on ensin päivitetty Cascade Lakea tukevaan versioon. HPC and AI Innovation Lab -yksikön HPC Engineering -tiimi suoritti joukon vertailutestejä Cascade Lake -suorittimia käyttävillä NSS-palvelimilla ja vertasi tuloksia aiempiin tuloksiin, jotka saatiin NSS7.3-HA-ratkaisulla, joka käytti PowerEdge-palvelinten uusinta versiota edellisen sukupolven "Skylake-SP" Xeon -perheen suorittimilla. Vertailutulokset ja vertailu on esitetty tässä blogissa.
Dell EMC:n tarjoama NFS-tallennusratkaisu on optimoitu ja viritetty parhaan suorituskyvyn parantamiseksi. Seuraavat keskeiset seikat tulee huomioida NSS7.4-HA-ratkaisun käyttöönoton valmistelussa:
- Cascade Lake -suorittimien käyttöjärjestelmän vähimmäisvaatimuksena on Red Hat Enterprise Linux 7.6. Kernel-versiolla 3.10.0-957.el7 NFS-jako kuitenkin jää jumiin ja tehtävä, kuten esimerkiksi kworker, käyttää suoritinta 100 %. Ongelman syynä on se, että TCP-kerroksen ja sunrpc-kerroksen kuljetustilan synkronointi jää jälkeen. Ongelman on ratkaisu paketissa kernel-3.10.0-957.5.1.el7 ja sitä uudemmissa versioissa. Tämän ratkaisun pohjakäyttöjärjestelmänä on siis RHEL7.6 ja käytetty kernel-versio on kernel-3.10.0-957.5.1.el7. Lisätietoja: https://access.redhat.com/solutions/3742871 (englanninkielinen).
- NSS7.4-HA -ratkaisu: jos seuraavia paketteja ei ole asennettu, nfsserver-resurssi ei käynnisty, koska nfs-idmapd.service ei käynnisty. Lisätietoja: https://access.redhat.com/solutions/3746891 (englanninkielinen).
- resource-agents-4.1.1-12.el7_6.4
- resource-agents-aliyun-4.1.1-12.el7_6.4
- resource-agents-gcp-4.1.1-12.el7_6.4 tai uudempi.
- RHEL7.6-version julkaisutiedoissa huomautetaan, että LVM:n I/O-tason bugi aiheuttaa tietojen korruptoitumista fyysisen aseman varattavan tilan ensimmäisissä 128 kilotavussa. Ongelma on korjattu versiosta lvm2-2.02.180-10.el7_6.2 eteenpäin. Varmista siis, että lvm2-paketti on päivitetty uusimpaan versioon. Jos lvm2:n päivittäminen ei ole mahdollista, ongelman voi kiertää: älä käytä VG:n (Volume Group, asemaryhmä) metatietoja muuttavia LVM-komentoja kuten lvcreate tai lvextend silloin, kun VG:n loogiset asemat ovat käytössä.
NSS7.4-HA-arkkitehtuuri
Kuvassa 1 näkyy NSS7.4-HA:n rakenne. Tarvittavia ohjelmisto- ja laiteohjelmistopäivityksiä lukuun ottamatta NSS7.4-HA ja NSS7.3-HA jakavat saman HA-klusterikokoonpanon ja tallennustilan kokoonpanon. NFS-palvelinpari korkean saatavuuden aktiivi-passiivi-kokoonpanossa on yhdistetty PowerVault ME4084 -järjestelemään. Kummassakin NFS-palvelimessa on kaksi SAS-korttia. Kumpikin kortti on yhdistetty SAS-kaapelilla kumpaankin jaetun tallennustilan ohjaimeen. Näin yhden SAS-kortin tai -kaapelin vika ei vaikuta tiedon saatavuuteen. (
NSS7.3-HA-kokoonpanoa koskevassa white paper -julkaisussa (englanninkielinen) on tarkempaa tietoa kokoonpanosta.)
NSS7.4-HA-arkkitehtuuri
Komponenttien vertailu: NSS7.4-HA ja NSS7.3-HA
NSS-HA-ratkaisun arkkitehtuurisuunnittelu ja käyttöönotto-ohjeistus pysyvät muuttumattomina, vaikka Dellin NSS-HA-ratkaisut tarjoavatkin lukuisten laitteisto- ja ohjelmistopäivitysten myötä parempaa saatavuutta, suorituskykyä ja suurempaa tallennustilaa kuin ensimmäinen NSS-HA-julkaisuversio. Tämä uusin versio ja sitä edeltävä NSS7.3-HA-versio hyödyntävät samaa Power Vault ME4084 -tallennusratkaisua. Seuraavassa taulukossa vertaillaan uusimman NSS7.4-HA-ratkaisun ja aiemman NSS7.3-HA-ratkaisun komponentteja.
Taulukko 1: Taulukko 1: Komponenttien vertailu: NSS7.4-HA ja NSS7.3-HA
Ratkaisu |
NSS7.4-HA julkaisuversio (kesäkuu 2019) |
NSS7.3-HA julkaisuversio (lokakuu 2018) |
NFS-palvelimen malli |
2 x Dell EMC PowerEdge R740 |
Sisäiset liitännät |
Gigabit Ethernet Dell Networking S3048-ON -kytkimellä |
Tallennuksen alijärjestelmä |
Dell EMC PowerVault ME4084 84 - 3,5" NL SAS -asemat, jopa 12 Tt. Tukee jopa 1008 Tt (raakatila) 8 LUN:aa, lineaarinen 8+2 RAID 6, lohkon koko 128KiB. 4 yleistä varakiintolevyä. |
Tallennustilan yhteys |
12 Gb/s SAS-yhteydet. |
suoritin |
2 x Intel Xeon Gold 6240 @ 2,6 GHz, 18 ydintä suoritinta kohti |
2 x Intel Xeon Gold 6136 @ 3,0 GHz, 12 ydintä suoritinta kohti |
Muisti |
12 x 16 GiB 2933 MT/s RDIMM-moduulit |
12 x 16 GiB 2666 MT/s RDIMM-moduulit |
Käyttöjärjestelmä |
Red Hat Enterprise Linux 7.6 |
Red Hat Enterprise Linux 7.5 |
Kernel-versio |
3.10.0-957.5.1.el7.x86_64 |
3.10.0-862.el7.x86_64 |
Red Hat Scalable File System (XFS) |
v4.5.0-18 |
v4.5.0-15 |
Ulkoinen verkkoyhteys |
Mellanox ConnectX-5 InfiniBand EDR/100 GbE ja 10 GbE |
Mellanox ConnectX-5 InfiniBand EDR ja 10 GbE. NSS7.3-HA-ratkaisublogissakäytettiin Mellanox ConnectX-4 IB EDR/ 100 GbE - liuosblogia. |
OFED-versio |
Mellanox OFED 4.5-1.0.1.0 |
Mellanox OFED 4.4-1.0.0 |
Seuraavaksi tässä blogikirjoituksessa käsitellään testipenkkiä ja NSS7.4-HA:n suorituskykytietoja. NSS7.4-HA:n ja edeltävän version suorituskykyerojen havainnollistamiseksi esitellään myös NSS7.3-HA:n vastaavat suorituskykytulokset.
Testipenkin kokoonpano
Seuraavaksi kuvaillaan testipenkkiä, jolla NSS7.4-HA-ratkaisun suorituskykyä ja toimivuutta arvioidaan. Huomaa, että suorituskykytestauksessa käytettävät suorittimet eivät ole samat kuin ratkaisuun valitut, koska Xeon Gold 6240 -suorittimet eivät saapuneet testiin ajoissa. Suunnitelmissa on toistaa joitakin testejä kun 6240-suorittimia on saatavilla ja tarpeen mukaan korjata raporttia.
Taulukko 2: NSS7.4-HA-laitteistokokoonpano
Palvelimen kokoonpano |
NFS-palvelimen malli |
Dell PowerEdge R740 |
suoritin |
2 x Intel Xeon Gold 6244 -suoritin @ 3,60GHz, jokaisessa 8 ydintä |
Muisti |
12 x 16 GiB 2933 MT/s RDIMM-moduulit |
Paikalliset levyt ja RAID-ohjain |
PERC H730P, jossa viisi 300 Gt 15K SAS -kiintolevyä. Kaksi levyä on määritetty RAID1-tilassa käyttöjärjestelmälle, kaksi levyä on RAID0-tilassa virtuaalimuistitilaa varten ja viides levy on lennossa käyttöön otettava varalevy RAID1-ryhmälle. |
Mellanox EDR -kortti (paikka 8) |
Mellanox ConnectX-5 EDR -kortti |
1 GbE Ethernet -kortti (alikorttipaikka) |
Broadcom 5720 QP 1 Gigabit Ethernet -verkkoalikortti. Tai Intel(R) Gigabit 4P I350-t rNDC |
Ulkoinen tallennusohjain (paikat 1 ja 2) |
Kaksi Dell 12 Gbps SAS -HBA-sovitinta |
Järjestelmien hallinta |
iDRAC9 Enterprise |
Tallennustilan kokoonpano |
Tallennuskehikko |
1 x Dell PowerVault ME4084 -kehikko |
RAID-ohjaimet |
Kaksisuuntaiset RAID-ohjaimet Dell ME4084 -tallennusjärjestelmässä |
Kiintolevyasemat |
84 – 10 Tt:n 7.2K NL SAS -levyt levyjärjestelmää kohden, yhteensä 84 x 10 Tt |
Muut osat |
Yksityinen Gigabit Ethernet -kytkin |
Dell Networking S3048-ON |
Virranjakoyksikkö |
Kaksi kytkimellistä telineasennettavaa virranjakoyksikköä, malli APC AP7921B |
Taulukko 3: NSS7.4-HA Palvelinohjelmiston versiot
Osa |
Kuvaus |
Käyttöjärjestelmä |
Red Hat Enterprise Linux (RHEL) 7.6 x86_64 korjausluettelo |
Kernel-versio |
3.10.0-957.5.1.el7.x86_64 |
Klusteriohjelmistopaketti |
Red Hat Cluster Suite, vähintään RHEL 7.6 |
Tiedostojärjestelmä |
Red Hat Scalable File System (XFS) 4.5.0-18. |
Järjestelmänhallintatyökalu |
Dell OpenManage Server Administrator 9.3.0-3407_A00 |
Taulukko 4: NSS7.4-HA-asiakkaan kokoonpano
Osa |
Kuvaus |
Palvelimet |
32 x Dell EMC PowerEdge C6420 -laskentasolmu |
Suoritin |
2 x Intel Xeon Gold 6148 -suoritin @ 2,40GHz, 20 ydintä suoritinta kohti |
Muisti |
12 x 16 GiB 2666 MT/s RDIMM-moduulit |
Käyttöjärjestelmä |
Red Hat Enterprise Linux Server release 7.6 |
Kernel-versio |
3.10.0-957.el7.x86_64 |
Verkon liitäntä |
Mellanox InfiniBand EDR |
OFED-versio |
4.3-1.0.1.0 |
ConnectX-4-laiteohjelmisto |
12.17.2052 |
NSS7.4-HA – I/O-suorituskyvyn yhteenveto
Tässä osiossa käsitellään nykyisen NSS7.4-ratkaisun I/O-suorituskykytestien tuloksia. Kaikki suorituskykytestit suoritettiin häiriöttömästi, jotta ratkaisun enimmäiskapasiteetti voitiin mitata. Testit keskittyivät kolmeen I/O-toimintorakenteeseen: suuriin peräkkäisiin lukuihin ja kirjoituksiin, pieniin satunnaisiin lukuihin ja kirjoituksiin sekä kolmeen metatieto-operaatioon (tiedoston luominen, tietonäyttö, poisto). Kuten edellinen versio NSS7.3-HA, ratkaisu käyttää deadline I/O -aikataulutinta ja 256 NFS-daimonia.
840 Tt:n (raakavaraston koko) konfiguraatiota vertaili IPoIB-verkkoyhteys EDR:n kautta. 32-solmuinen laskentaklusteri loi vertailutestien työkuormat. Jokainen testi ajattiin samalla asiakasalueella liuoksen skaalautuvuuden testaamiseksi.
Tässä tutkimuksessa käytettiin IOzone- ja mdtest- vertailuarvoja. Peräkkäisiin ja satunnaisiin testeihin käytettiin IOzonea. Peräkkäisten testien pyyntöjen kokona oli 1024 KiB. Jotta NFS-palvelimen välimuisti olisi saturoitu, siirrettyjen tietojen kokonaismäärä oli 2 Tt. Satunnaistestien pyyntöjen kokona oli 4 KiB, ja jokainen asiakas luki ja kirjoitti 4 GiB.n tiedoston. Metatietotestaus suoritettiin OpenMPI:n mdtest-testillä. Testiin kuuluivat tiedoston luomis-, stat-, ja poistotoiminnot. (NSS7.3-HA white paper -julkaisun liitteessä A (englanninkielinen) on lueteltu kaikki testeissä käytetyt komennot.)
IPoIB – peräkkäiset kirjoitukset ja luvut N–N
Peräkkäisten luku- ja kirjoitustoimintojen arvioimiseen käytettiin IOzone-vertailutestin versiota 3.487 peräkkäisten luku- ja kirjoitustoimintojen tilassa. Testit suoritettiin useilla eri säiemäärillä alkaen yhdestä säikeestä ja nousten toiseen potenssiin aina 64:ään säikeeseen saakka. Jokaisella säiemäärällä luotiin vastaava määrä tiedostoja, koska testi toimii yhdellä tiedostolla säiettä kohti (N–N). On valittu 2 Tt:n koostetiedostokoko, joka jaetaan tasan minkä tahansa testin säikeiden määrän kesken.
Kuvassa 2 verrataan NSS7.4-HA-version I/O-suorituskykyä NSS7.3-HA-version suorituskykyyn. Kuvasta voi todeta, että uusimman NSS7.4-version ja aiemman NSS7.3-version huipputeho on samaa tasoa: luku n. 7 Gt/s ja kirjoitus n. 5 Gt/s. Joillain säikeiden määrillä mitattiin kuitenkin 15–20 prosentin lasku kirjoitustoimintojen suorituskyvyssä NSS7.3-HA -ratkaisuun verrattuna. Tämän suorituskykyeron tutkimus on käynnissä. Lukutoimintojen suorituskyvyssä mitattiin lähes 45 prosentin nousu yhdellä ja kahdella säikeellä sekä 18 prosentin nousu kahdeksalla säikeellä. Yli kahdeksalla säikeellä lukutoimintojen suorituskyky on samalla tasolla kuin NSS7.3-HA -ratkaisussa. Lukusuorituskyvyn kasvu pienillä säikeiden määrillä johtuu todennäköisesti Cascade Lake -suorittimien laitteistotason suojauksesta sivukanavahyökkäyksiä vastaan. IPoIB – suurten peräkkäisten I/O-toimintojen suorituskyky
IPoIB – satunnaiset kirjoitukset ja luvut N–N
Satunnaisten I/O-toimintojen suorituskyvyn arviointiin käytettiin IOzonen versiota 3.487 satunnaistilassa. Testit suoritettiin yhdestä 64:ään säikeeseen korottaen määrä aina toiseen potenssiin. Tallennuskooksi valittiin 4 Kt. Jokainen asiakas simuloi pieniä satunnaistiedon käyttöjä lukemalla tai kirjoittamalla 4 GiB:n tiedoston. Koska klusterissa oli vain 32 solmua, 64-säikeinen arvopiste saatiin 32 asiakkaalla, joilla oli 2 säiettä.
Kuvassa 3 verrataan NSS7.4-HA:n satunnaista kirjoitus- ja luku-I/O-suorituskykyä NSS7.3-HA:n suorituskykyyn. Kuvasta voi todeta, että NSS7.4-HA-version ja NSS7.3-HA-version satunnaiskirjoituksen huipputeho on samaa tasoa; n. 7300 io/s. NSS7.4-HA -ratkaisussa kirjoituksen suorituskyky on yhdellä ja kahdella säikeellä n. 14 % alhaisempi kuin aiemmalla versiolla. Tätä tutkitaan. NSS7.4-ratkaisulla satunnaisluvun suorituskyky nousee tasaisesti ja saavuttaa 16607 io/s:n huipputehon 64 säikeellä. Aiemmassa julkaisuversiossa (NSS7.3-HA) 32 säikeellä saavutettiin 28 811 io/s:n huipputeho, joka on 42 % korkeampi kuin NSS7.4-HA -ratkaisun satunnaisluvun huipputeho. IPoIB – satunnaisten I/O-toimintojen suorituskyky
IPoIB – metatietotoiminnot
Järjestelmän metatietosuorituskyvyn arviointiin on käytetty MDTest-työkalun versiota 1.9.3 Käytetty MPI-jakelu oli OpenMPI, versio 1.10.7. Metatietotestit suoritettiin luomalla 32 säikeeseen asti 960 000 tiedostoa ja sitten lisäämällä tiedostojen lukumäärää, jotta ratkaisun skaalautuvuutta testattaisiin taulukon 5 mukaisesti. Metatietotestit: Tiedostojen ja kansioiden jakaminen säikeissä
Säikeiden määrä |
Tiedostojen määrä hakemistossa |
Hakemistojen määrä säikeessä |
Tiedostojen kokonaismäärä |
1 |
3000 |
320 |
960000 |
2 |
3000 |
160 |
960000 |
4 |
3000 |
80 |
960000 |
8 |
3000 |
40 |
960000 |
16 |
3000 |
20 |
960000 |
32 |
3000 |
10 |
960000 |
64 |
3000 |
8 |
1536000 |
128 |
3000 |
4 |
1436000 |
256 |
3000 |
4 |
3072000 |
512 |
3000 |
4 |
6144000 |
Kuvissa 4, 5 ja 6 näkyy tiedostojen luomis-, tietonäyttö- ja poistotoimintojen tulokset. Koska HPC-laskentaklusterissa on 32 laskentasolmua, alla olevissa kaaviokuvissa jokainen asiakas suorittaa maksimissaan yhden säikeen solmua kohti, 32:een asti. Asiakasmäärillä 64, 128, 256 ja 512 jokainen solmu suoritti 2, 4, 8 tai 16 samanaikaista toimintoa.
Tiedostojen luonnissa on 20 prosentin parannus 16:een säikeeseen saakka. 32:sta säikeestä eteenpäin molempien versioiden suorituskyky on lähes samalla tasolla.
NSS7.4:n tilastotoiminnot paranivat 10 % pienempien säikeiden (1,2, 8 ja 16) suorituskyvyssä ja > 30 % suorituskyvyn laskulla suurempien säikeiden määrällä (64 langasta 512 säikeeseen).
Lopuksi poistotoiminnoissa suorituskyky laski 14 % jopa 64 asiakkaaseen asti ja >20 % enemmän säikeiden määrässä 128 256 ja 512.
Kuva 4: IPoIB-tiedoston luontiteho
Kuva 5: IPoIB-fiel-tilaston suorituskyky
Kuva 6: IPoIB-fie poistaa suorituskyvyn
Johtopäätös
Seuraava taulukko tiivistää NSS7.4- ja NSS7.3-ratkaisujen suorituskyvyssä havaitut erot. Taulukko 5: NSS7.4- ja NSS7.3 HA -versioiden suorituskykyvertailu
Dell EMC HPC NFS -tallennusjärjestelmä |
NSS7.4-HA |
NSS7.4 – HA NSS7.3-HA |
Peräkk. 1MB kirjoittaa huippu: 1,4 %:n lasku |
4 834 Mt/s |
4 906 Mt/s |
Peräkk. 1MB lukee huippua: 0,7 %:n lasku |
7 024 Mt/s |
7 073 Mt/s |
Random 4KB kirjoittaa Peak: 0,7 %:n lasku |
7 290 io/s |
7 341 io/s |
Satunnainen 4KB lukee huippua: 42% lasku |
16 607 io/s |
28 811 io/s |
Luo työvaiheita/sekunti Huippu: 1,1 %:n lasku |
54 197 op/s |
54 795 op/s |
Tilastotoiminnot/sekunti Huippu: 35% lasku |
522 231 op/s |
808 317 op/s |
Poista työvaiheita/sekunti Huippu: 35% lasku |
47 345 op/s |
73 320 op/s |
Yllä olevista tuloksista voi päätellä, että nykyinen NSS7.4-HA -ratkaisu tarjoaa sitä edeltävään NSS7.3-HA -ratkaisuun verrattavaa suorituskykyä. Aiomme suorittaa vertausmittauksia Xeon Gold 6240 -suorittimilla, joissa on 18 ydintä suoritinta kohti. Tavoitteena on ymmärtää, johtuuko satunnaisluvun ja suurten säiemäärien tietonäyttö- ja poistotoimintojen suorituskyvyn lasku NSS7.4-HA-ratkaisun vertausmittauksiin käytetyn Xeon Gold 6244 -suorittimien (8 ydintä suoritinta kohti) pienemmästä ydinten määrästä.
Viitteet
Tarkempia tietoja NSS-HA-ratkaisuista löytyy julkaisemistamme artikkeleista