Løsningsoversikt
Denne bloggen beskriver Dell EMC HPC NFS Storage Solution versjon 7.4 (NSS 7.4-HA), som utnytter Intels andre generasjons Xeon skalerbare prosessorer med kodenavnet "Cascade Lake". Disse forbedrede Xeon-prosessorene har opptil 28 kjerner, opptil 38,5 MB hurtigbuffer på siste nivå og seks 2933 MT/s minnekanaler per sokkel. De viktigste funksjonene i de gjennom gripende tokjerneprosessorene er de integrerte
maskin vare begrensningene for side kanal angrep,
Intel DL-forsterkningen (VNNI) og støtten for økte klokke hastigheter og minne hastigheter.
På Cascade Lake og forgjengeren Skylake inkludere en funksjon som kalles
ADDDC (
adaptive
Double
dRAM
device
Correction). ADDDC implementeres ved kjøretid for dynamisk tilordning av mislykkede DRAM-enheter, mens den fortsetter å levere
Single
Device
Data
Correction (SDDC), ECC-minne (Error-correcting Code), som overføres til økt DIMM-levetid. Denne funksjonen aktiveres bare for X4 DRAM-enheter, og den gjør ingenting når det er x8 DRAM-enheter i systemet. Siden nyeste NSS-HA-versjon 7.4 bare bruker 16 GB minne, som er x8-organisasjon, er ADDDC nedtonet og er ikke et justerbart alternativ i BIOS. Hvis du imidlertid bruker 32 GB minne som er X4, vil ADDDC være tilgjengelig som et tunable-alternativ, og det anbefales å være satt til deaktivert for å favorisere ytelsen over RAS-funksjonene.
Det anbefales å konfigurere NFS-serverne med HPC profilen, som beskrevet i bloggen "BIOS-
characterization for Intel Cascade-prosessorer i Lake" Dette inkluderer justering av BIOS for å sette inn under Numa-klyngen aktivert, logisk prosessor deaktivert, og system profil som er satt til "ytelse". Hvis du oppgraderer et eksisterende system, må du sørge for at BIOS først blir oppdatert til en versjon som støtter Cascade Lake-prosessorer før du oppgraderer prosessorene til Cascade Lake-prosessorer. HPC-teknikerne ved HPC and AI Innovation Lab gjennomførte en rekke ytelsestester med NSS-servere utstyrt med Cascade Lake-prosessorer og sammenlignet resultatene med dem som tidligere var innhentet fra NSS 7.3-HA-løsningen, som brukte den nyeste versjonen av PowerEdge-servere utstyrt med den forrige generasjonen "Skylake-SP" Xeon-prosessorserien. Ytelses resultatene og sammenligningen vises i denne bloggen.
NFS lagrings løsning som leveres av Dell EMC, er optimalisert og justert for å få best mulig ytelse. Når du konfigurerer NSS 7.4-HA-løsningen, bør du merke deg følgende viktige punkter:
- Det minste støttede operativsystemet for bruk av Cascade Lake-prosessorer er Red Hat Enterprise Linux 7.6. Med kernel-versjon 3.10.0 -957.el7 vil imidlertid NFS-delingen henge med en oppgave, for eksempel kworker, som bruker 100 % av prosessoren. Årsaken til problemet skyldes at TCP-laget ikke synkroniseres med transportstatusen til sunrpc-lagene. Dette problemet løses med pakken kernel-3.10.0-957.5.1.el7 eller nyere. Det grunnleggende operativsystemet som brukes for denne løsningen, er RHEL 7.6, og kernel-versjonen som brukes, er kernel-3.10.0-957.5.1.el7. Se https://access.redhat.com/solutions/3742871 hvis du vil ha mer informasjon.
- Med mindre følgende pakker er installert, vil ikke nfsserver-ressursen starte fordi nfs-idmapd.-tjenesten ikke starter i NSS 7.4-HA-løsningen. Se https://access.redhat.com/solutions/3746891 hvis du vil ha mer informasjon.
- resource-agents-4.1.1-12.el7_6.4
- resource-agents-aliyun-4.1.1-12.el7_6.4
- resource-agents-gcp-4.1.1-12.el7_6.4 eller nyere.
- Versjonsmerknadene til RHEL 7.6 gjør oppmerksom på at en feil i I/U-laget til LVM forårsaker ødeleggelse av data i de første 128 KB av allokerbar plass på et fysisk volum. Problemet er løst med lvm2-2.02.180-10.el7_6.2 eller nyere. Sørg derfor for at lvm2-pakken er oppdatert til den nyeste versjonen. Hvis oppdatering av lvm2 ikke er et alternativ, vil løsningen være å bruke LVM-kommandoer som endrer volumgruppe (VG), for eksempel lvcreate eller lvextend, når logiske volumer i VG-feltet er i bruk.
NSS 7.4-HA-arkitektur
Figur 1 viser utformingen av NSS 7.4-HA. Med unntak av nødvendige programvare- og fastvareoppdateringer deler NSS 7.4-HA og NSS 7.3-HA den samme HA-klyngekonfigurasjonen og lagringskonfigurasjonen. De to NFS-serverne i aktiv-passiv-konfigurasjon med høy tilgjengelighet, er koblet til PowerVault ME4084. Det finnes to SAS-kort i hver NFS-server. Hvert kort har en SAS-kabel til hver kontroller i den delte lagringen, slik at feil ved ett enkelt SAS-kort eller én SAS-kabel ikke påvirker datatilgjengeligheten. (Se
NSS 7.3-HA-rapporten for mer detaljert informasjon om konfigurasjonen).
NSS 7.4-HA-arkitektur
Sammenligning av komponenter i NSS 7.4-HA og NSS 7.3-HA
Selv om Dell NSS-HA-løsninger har fått mange maskinvare- og programvareoppgraderinger for å tilby høyere tilgjengelighet, høyere ytelse og større lagringskapasitet siden den første NSS-HA-versjonen, forblir arkitekturdesign og retningslinjer for implementering av NSS-HA-løsningsserien uendret. Denne nyeste versjonen og den tidligere versjonen, NSS 7.3-HA, deler den samme lagringsmotoren, som er Power Vault ME4084. Tabellen nedenfor gir en sammenligning av komponentene i den nyeste NSS 7.4-HA-løsningen og den tidligere NSS 7.3-HA-løsningen
Tabell 1: Tabell 1: Sammenligning av komponenter i NSS 7.4-HA og NSS 7.3-HA
Løsning |
NSS 7.4-HA-versjon (juni 2019) |
NSS 7.3-HA-versjon (oktober 2018) |
NFS-servermodell |
2x Dell EMC PowerEdge R740 |
Intern tilkoblingsmulighet |
Gigabit Ethernet ved hjelp av Dell Networking S3048-ON |
Undersystem for lagring |
Dell EMC PowerVault ME4084 84-3,5 "NL SAS-stasjoner, opptil 12TB. Støtter opp til 1008TB (rå disk plass) 8 luner, lineær 8 + 2 RAID 6, del størrelse 128KiB. 4 globale reserveharddisker. |
Lagringstilkobling |
12 GB/s SAS-tilkoblinger. |
Prosessor |
2 x Intel Xeon Gold 6240 ved 2,6 GHz, 18 kjerner per prosessor |
2 x Intel Xeon Gold 6136 ved 3,0 GHz, 12 kjerner per prosessor |
Minne |
12 x 16 GiB 2933 MT/s RDIMM |
12 x 16 GiB 2666 MT/s RDIMM |
Operativsystem |
Red Hat Enterprise Linux 7.6 |
Red Hat Enterprise Linux 7.5 |
Kjerneversjon |
3.10.0-957.5.1.el7.x86_64 |
3.10.0-862.el7.x86_64 |
Red Hat Scalable File System (XFS) |
v4.5.0-18 |
v4.5.0-15 |
Ekstern nettverkstilkobling |
Mellanox ConnectX-5 InfiniBand EDR/100 GbE og 10 GbE |
Mellanox ConnectX-5 InfiniBand EDR og 10 GbE. For NSS 7.3-ha løsnings blogg, ble Mellanox ConnectX-4 IB EDR/100 GbE brukt. |
OFED Version (BIOS-versjon) |
Mellanox OFED 4.5-1.0.1.0 |
Mellanox OFED 4.4-1.0.0 |
I resten av bloggen vil testmiljøet og I/U-ytelsesinformasjonen for NSS 7.4-HA bli presentert. De tilsvarende ytelsestallene for NSS 7.3-HA blir også presentert for å vise ytelsesforskjellen mellom NSS7.4-HA og den forrige versjonen.
Testmiljø-konfigurasjon
Testmiljøet som brukes til å evaluere ytelsen og funksjonaliteten til NSS 7.4-HA-løsningen, er beskrevet her. Vær oppmerksom på at prosessorene som brukes til ytelsestesting, er forskjellige fra den som er valgt for løsningen, ettersom Xeon Gold 6240-prosessorene ikke ble mottatt i tide for dette arbeidet. Planen er å gjenta noe av testingen når 6240-prosessorene er tilgjengelige og endre denne rapporten etter behov.
Tabell 2: NSS 7,4-HA maskin vare konfigurasjon
Serverkonfigurasjon |
NFS-servermodell |
Dell PowerEdge R740 |
Prosessor |
2 x Intel Xeon Gold 6244-prosessor ved 3,60 GHz med 8 kjerner hver |
Minne |
12 x 16 GiB 2933 MT/s RDIMM |
Lokale disker og RAID-kontroller |
PERC H730P med fem 300 GB SAS-harddisker på 15 000 o/min. To disker er konfigurert i RAID1 for operativsystemet, to disker er konfigurert i RAID0 for veksleplass, og den femte disken er en varm reserve for RAID1-diskgruppen. |
Mellanox EDR-kort (spor 8) |
Mellanox ConnectX-5 EDR-kort |
1 GbE Ethernet-kort (tilleggskortspor) |
Broadcom 5720 QP 1 Gigabit Ethernet-tilleggsnettverkskort. Eller Intel (R) Gigabit 4P I350-t rNDC |
Ekstern lagringskontroller (spor 1 og spor 2) |
To Dell 12Gbps SAS HBA-er |
System administrasjon |
iDRAC9 Enterprise |
Lagringskonfigurasjon |
Lagringskabinett |
1x Dell PowerVault ME4084-kabinett |
RAID-kontrollere |
Dupleks RAID-kontrollere i Dell-ME4084 |
Hard Disk Drives (Harddisker) |
84 – 10 TB 7,2 K NL SAS-disker per array, 84 x 10 TB-disker totalt |
Andre komponenter |
Private Gigabit Ethernet-svitsj |
Dell Networking S3048-ON |
Strømfordelingsenhet |
To APC-svitsjede rack-PDU-er, modell AP7921B |
Tabell 3: NSS 7,4-HA serverens program vare versjoner
Komponent |
Beskrivelse |
Operativsystem |
Red Hat Enterprise Linux (RHEL) 7.6 x86_64 errata |
Kjerneversjon |
3.10.0-957.5.1.el7.x86_64 |
Klyngeserie |
Red Hat klyngeserie fra RHEL 7.6 |
Filsystem |
Red Hat skalerbart filsystem (XFS) 4.5.0-18. |
Verktøy for systemadministrasjon |
Dell OpenManage Server Administrator 9.3.0-3407_A00 |
Tabell 4: NSS 7,4-HA klient konfigurasjon
Komponent |
Beskrivelse |
Servere |
32x Dell EMC PowerEdge C6420-beregningsnoder |
CPU |
2 x Intel Xeon Gold 6148-prosessor ved 2,40 GHz med 20 kjerner per prosessor |
Minne |
12 x 16 GiB 2666 MT/s RDIMM |
Operativsystem |
Red Hat Enterprise Linux Server-versjon 7.6 |
Kjerneversjon |
3.10.0-957.el7.x86_64 |
Interconnect |
Mellanox InfiniBand EDR |
OFED-versjon |
4.3-1.0.1.0 |
ConnectX-4-fastvare |
12.17.2052 |
Sammendrag av NSS 7.4-HA I/U-ytelse
Denne delen viser resultatene av I/U-ytelsestestene for den gjeldende NSS 7.4-løsningen. Alle ytelsestestene ble utført i et feilfritt scenario for å måle den maksimale kapasiteten til løsningen. Testene fokuserer på tre typer I/U-mønstre: store sekvensielle lese- og skriveprosesser, små tilfeldige lese- og skriveprosesser og tre metadata-operasjoner (filoppretting, tilstand og fjern). På samme måte som forrige versjon NSS 7.3-HA, bruker løsningen tids frist I/u-planlegging og 256 NFS-daemoner.
En 840TB-konfigurasjon (rå lagrings størrelse) ble benchmark med IPoIB-nettverkstilkobling over EDR. En dataklynge på 32 noder ble brukt til å generere arbeidsbelastning for benchmarking-testene. Hver test ble kjørt over et område med klienter for å teste skalerbar heten for løsningen.
IOzone-og mdtest-benchmarkene ble brukt i denne studien. IOzone ble brukt for sekvensielle og tilfeldige tester. For sekvensielle tester ble det brukt en forespørselsstørrelse på 1024 KiB. Den totale datamengden som ble overført, var 2 TB for å sikre at NFS server-hurtigbufferen ble mettet. Tilfeldige tester brukte en forespørselsstørrelse på 4 KiB, og hver klient leste og skrev en 4 GiB-fil. Metadatatestene ble utført ved hjelp av mdtest-ytelsestest med OpenMPI og omfattet operasjonene filoppretting, tilstand og fjern. (Se tillegg A i NSS 7.3-HA-rapporten for fullstendige kommandoer som ble brukt i testene.)
IPoIB sekvensiell skriving og lesing av N-N
IOzone-benchmark versjon 3.487 ble brukt i den sekvensielle lese- og skrivemodusen for å evaluere sekvensiell lesing og skriving. Disse testene ble utført på flere tråder som starter ved én tråd og øker i 2. potens, opptil 64 tråder. Ved hver tråd ble et likt antall filer generert, ettersom denne testen fungerer på én fil per tråd eller N-N-tilfelle. En mengde fil størrelse på 2 TB har blitt valgt, som er lik delt på antall tråder i en gitt test.
Figur 2 gir en sammenligning av den sekvensielle I/u-ytelsen til NSS 7,4-HA-versjonen med den NSS 7.3-HA-versjonen. Fra figuren er det observert at den nyeste NSS 7.4 og den tidligere NSS 7.3 har tilsvarende toppytelse, med leseytelse på ~ 7 GB/s og topp skriveytelse på ~ 5 GB/s. I noen tråder ble det imidlertid målt en nedgang på 15-20 % i skriveytelsen sammenlignet med NSS 7.3-HA-løsningen. Undersøkelser av denne ytelsesforskjellen er i gang. Leseytelsen registrerte en økning på nesten 45 % i trådene 1 og 2 og en økning på 18 % i tråd 8. For at tråden skal telle høyere enn 8, er leseytelsen lik den i NSS 7.3-HA-løsningen. Økningen i leseytelse ved lavere tråder er sannsynligvis på grunn av maskinvarereduksjonen i Cascade Lake-prosessorene mot sidekanalangrep. IPoIB stor sekvensiell I/U-ytelse
IPoIB tilfeldig skriving og lesing av N-N
IOzone versjon 3.487 ble brukt i tilfeldig modus for å evaluere tilfeldig I/U-ytelse. Testene ble utført på trådene fra 1 til opptil 64 i 2 potens. Ressursstørrelsen ble valgt til å være 4 KB. Hver klient leste eller skrev en 4 GiB-fil for å simulere små, tilfeldige datatilganger. Siden klyngen bare hadde 32 noder, ble data punktet for 64-tråder Hentet sammen med 32-klientene som kjører 2 tråder hver.
Figur 3 viser sammenligning av tilfeldig skriving og lese I/u-ytelse av NSS 7,4-HA med NSS 7.3-HA. Fra figuren er det observert at NSS 7.4 har tilsvarende tilfeldig topp skriveytelse som NSS 7.3-HA, ~ 7300 IOPS. I NSS 7.4-HA-løsning, for det laveste antallet tråder på 1 og 2, er skriveytelsen omtrent 14 % mindre sammenlignet med forrige versjon av løsningen, og dette blir undersøkt. Den tilfeldige leseytelsen øker jevnt på NSS 7.4 og oppnår maksimal ytelse på 16607 IOPs ved 64 tråder. I forrige versjon (NSS 7.3-HA) ble maksimal ytelse på 28811 IOPs nådd på 32 tråder, som er 42 % høyere enn toppytelsen som ble oppnådd for tilfeldig lesing i NSS 7.4-HA-løsningen. IPoIB tilfeldig I/U-ytelse
IPoIB-operasjoner for metadata
MDTest Tool versjon 1.9.3 er brukt for å evaluere ytelsen til metadataene i systemet. MPI-distribusjonen som ble brukt, var OpenMPI versjon 1.10.7. Metadatatestene ble utført ved å opprette 960000 filer for tråder på opptil 32 og deretter øke antall filer for å teste skalerbarheten for løsningen som tabuleres i tabell 5. Tester av metadata: Distribusjon av filer og kataloger på tvers av tråder
Antall tråder |
Antall filer per katalog |
Antall kataloger per tråd |
Totalt antall filer |
1 |
3000 |
320 |
960000 |
2 |
3000 |
160 |
960000 |
4 |
3000 |
80 |
960000 |
8 |
3000 |
40 |
960000 |
16 |
3000 |
20 |
960000 |
32 |
3000 |
10 |
960000 |
64 |
3000 |
8 |
1536000 |
128 |
3000 |
4 |
1436000 |
256 |
3000 |
4 |
3072000 |
512 |
3000 |
4 |
6144000 |
Figur 4, figur 5 og figur 6 viser henholdsvis resultatene av operasjonene filoppretting, tilstand og fjerning. Ettersom HPC-dataklyngen har 32-datanoder i diagrammene, utførte hver klient maksimalt én tråd per node for tråder opptil 32. For klienter på 64, 128, 256 og 512, utførte hver node 2, 4, 8 eller 16 samtidige operasjoner.
Når du oppretter en fil, er det en 20 % forbedring av ytelsen opptil 16 tråder, og fra 32 tråder og framover er ytelsen til begge versjonene nesten lik.
Statistikk operasjoner i NSS 7,4 registrerte en 10% forbedring av ytelsen for de lavere trådenes tellere (1, 2, 8 og 16), og en > 30% reduksjon i ytelse ved høyere tråd tellere (fra 64 tråder til 512 tråder).
Til slutt vil Fjern operasjoner ha en 14% nedgang i ytelse opptil 64 klienter og en reduksjon på > 20% for høyere tråd antall på 128 256 og 512.
Figur 4: IPoIB-fil Opprett ytelse
Figur 5: IPoIB fiel stat-ytelse
Figur 6: IPoIB fie ta ut ytelsen
Konklusjon
I tabellen nedenfor finner du en oversikt over ytelsesforskjellen mellom de siste NSS 7.4-og NSS 7.3-løsningene. Tabell 5: Sammenligning av ytelse for NSS 7.4 og NSS 7.3 HA-versjoner
Dell EMC HPC NFS Storage |
NSS7.4-HA |
NSS7.4 – HA NSS7.3-HA |
Sekvensiell 1 MB skrive topp: 1,4% nedgang |
4 834 MB/s |
4 906 MB/s |
Sekvensiell Høyeste antall MB lese operasjoner: 0,7% nedgang |
7 024 MB/s |
7 073 MB/s |
De tilfeldige 4KB skrives topp: 0,7% nedgang |
7 290 IOPs |
7 341 IOPs |
Høyeste antall 4KB-lese operasjoner: 42% nedgang |
16 607 IOPs |
28 811 IOPs |
Opprettelse av drift/sekund: 1,1% nedgang |
54 197 Op/s |
54 795 Op/s |
Statistikk operasjoner/sekund topp: 35% nedgang |
522 231 Op/s |
808 317 Op/s |
Fjern operasjoner/sekund topp: 35% nedgang |
47 345 Op/s |
73 320 Op/s |
Fra ovenstående resultater kan vi konkludere med at den nåværende NSS 7.4-HA-løsningen gir en ytelse som er sammenlignbar med den foregående NSS 7.3-HA-løsningen. Vi planlegger å kjøre ytelsestestene med Xeon Gold 6240-prosessorer med 18 kjerner per prosessor for å undersøke om ytelsen for tilfeldig lesing og reduksjon av ytelsen ved høyere antall tråder i filtilstands- og filfjerningsoperasjoner kan skyldes det mindre antallet kjerner som brukes i Xeon Gold 6244-prosessorene (8 kjerner per prosessor), som brukes til ytelsesmåling av NSS 7.4-HA-løsningen.
Referanser
Hvis du vil ha mer informasjon om NSS-HA-løsninger, kan du se våre publiserte rapporter