Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Dell EMC Ready-løsninger for HPC BeeGFS-lagring med høykapasitet

Summary: De Dell EMC klare løsningene for HPC BeeGFS høy kapasitets lagring er en fullt ut støttet lagrings løsning for parallelle fil systemer med høy gjennomstrømning. Denne arkitekturen fremhever ytelse, og løsningen som er beskrevet her, er en lagrings løsning med høy kapasitet. Disse to løsningene for BeeGFS er forskjellige når det gjelder design målene og bruks tilfellene. Løsningen med høy ytelse er utformet som en scratch-løsning, et oppsamlings jord for midlertidige data sett, som vanligvis ikke beholdes utover leve tiden til jobben. Løsningen med høy kapasitet bruker 4X Dell EMC PowerVault ME4084-arrayer fullt ut med totalt 336 stasjoner og gir en rå kapasitet på 4PB hvis det er utstyrt med 12 TB SAS-stasjoner. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Denne artikkelen ble skrevet av Nirmala Sundararajan, HPC og kunstig skapnings Lab, april 2020

Cause


Innholdsfortegnelse:

  1. Innledning
  2. Løsnings referanse arkitektur
  3. Maskin vare-og program vare konfigurasjon
  4. Detaljer om løsnings konfigurasjon
  5. Ytelsesevaluering
  6. Konklusjon og fremtidig arbeid

 

Innledning

De Dell EMC klare løsningene for HPC BeeGFS høy kapasitets lagring er en fullt ut støttet lagrings løsning for parallelle fil systemer med høy gjennomstrømning. Denne bloggen tar for seg løsnings arkitekturen, hvordan den er justert for HPC ytelse, og presenterer I/u-ytelse ved hjelp av både IOZone sekvensielle og tilfeldige ytelses tester. En BeeGFS høy ytelses lagrings løsning som er bygd på NVMe-enheter, ble beskrevet i denne bloggen publisert under Nov 2019. Den arkitekturen som er underhevet ytelse, og løsningen som er beskrevet her, er en lagrings løsning med høy kapasitet.  Disse to løsningene for BeeGFS er forskjellige når det gjelder design målene og bruks tilfellene.  Løsningen med høy ytelse er utformet som en scratch-løsning, et oppsamlings jord for midlertidige data sett, som vanligvis ikke beholdes utover leve tiden til jobben. Løsningen med høy kapasitet bruker 4X Dell EMC PowerVault ME4084-arrayer fullt ut med totalt 336 stasjoner og gir en rå kapasitet på 4PB hvis det er utstyrt med 12 TB SAS-stasjoner. 


Tilbake til toppen


Resolution

Løsnings referanse arkitektur

Den Dell EMC klare løsningen for HPC BeeGFS lagring av høy kapasitet består av en behandlingsserver, et par metadata, et par med servere og tilhørende lagrings kjeder. Løsningen gir lagring som bruker ett enkelt navne område som er lett tilgjengelig av data maskinens data behandlings knute punkt. Følgende figur viser løsnings referanse arkitekturen med disse primære komponentene:

  • Behandlingsserver
  • Metadata-servert parer med PowerVault ME4024 som bak lagring
  • Storage Server-par med PowerVault ME4084 som bak lagring

Figur 1 viser referanse arkitekturen for løsningen.

SLN320833_en_US__1image001

Figur 1: Dell EMC klar løsning for HPC BeeGFS-lagring

I figur 1, vil behandlingsserveren som kjører BeeGFS Monitor-Daemon, være en PowerEdge-R640.   De to MetaDataene (MDS) er PowerEdge R740-serverne i en aktiv aktiv konfigurasjon for høy tilgjengelighet.  MDS-paret er koblet til 2U, PowerVault ME4024-array med 12 GB/s SAS-koblinger. ME4024 Storage-Array er vert for MetaDataene for tjenesten (MDTs). Et annet par med PowerEdge R740-servere, også i aktiv aktiv konfigurasjon av høy tilgjengelighet, brukes som Storage Servers (SS).  Dette SS-paret er koblet til fire fullt utfylte PowerVault ME4084-lagringsarray ved hjelp av 12 GB/s SAS-koblinger. ME4084-arrayene støtter en valg mellom 4 TB, 8 TB, 10 TB eller 12 TB NL SAS 7,2 K RPM hard disk stasjoner (hard disker og er vert for lagrings målene (STs) for BeeGFS fil systemet. Denne løsningen bruker Mellanox InfiniBand-HDR100 for data nettverket. Klientene og serverne er koblet til 1U Mellanox-HDR100en for HDR-kant, som støtter opptil 80-porter av QM8790 ved hjelp av HDR-splittere-kabler.


Tilbake til toppen


 

Maskin vare-og program vare konfigurasjon

 

Følgende tabeller beskriver maskin vare-speficiations og program vare versjoner som er godkjent for løsningen.

Behandlingsserver 1x Dell EMC PowerEdge R640
Metadata-servere (MDS) 2x Dell EMC PowerEdge R740
Storage Servers (SS) 2x Dell EMC PowerEdge R740
Prosessor Behandlingsserver: 2 x Intel Xeon Gold 5218 @ 2,3 GHz, 16 kjerner
MDS og ss: 2 x Intel Xeon Gold 6230 ved 2,10 GHz, 20 kjerner per prosessor
Minne Behandlingsserver: 12 x 8 GB DDR4 2666MT/s DIMM-er-96GB
MDS og ss: 12x 32 GB DDR4-2933MT/s DIMM-er-384GB
InfiniBand HCA (spor 8) 1x Mellanox ConnectX-6 enkelt Ports HDR100-adapter per MDS og SS
Eksterne lagrings kontrollere 2 x Dell 12Gbps SAS HBA-er (på hver MDS)
4x Dell 12Gbps SAS-HBA-er (på hver SS)
Data lagrings kabinett 4. Dell EMC PowerVault ME4084-kabinetter full fylles med totalt 336 stasjoner
2,69 PB rå lagrings kapasitet hvis den er utstyrt med 8TB SAS-stasjoner i 4X ME4084
Lagrings kabinett for metadata 1x Dell EMC PowerVault ME4024-kabinettet fylt ut med 24 stasjoner
RAID-kontrollere Dupleks-RAID-kontrollere i ME4084-og ME4024-kabinettene
Hard Disk Drives (Harddisker) 84-8TB 7200 RPM NL SAS3-stasjoner per ME4084 kabinett
24-960GB SAS3 SSD per ME4024-kabinett
Operativsystem CentOS Linux Release 8.1.1911 (kjerne)
Kjerneversjon 4.18.0-147.5.1. EL8-_1. x86_64
Mellanox OFED versjon 4,7-3.2.9.0
Grafana 6.6.2-1
InfluxDB 1.7.10-1
BeeGFS FILE SYSTEM (NTFS-FILSYSTEM) 7,2 beta2

Tabell 1: Testmiljø-konfigurasjon

Merk: For å kunne bruke ytelses characterization, har BeeGFS versjon 7,2-beta2 blitt brukt.


Tilbake til toppen


 

Detaljer om løsnings konfigurasjon

 

BeeGFS-arkitekturen består av fire hoved tjenester:

  1. Administrasjons tjeneste
  2. Metadata-tjenesten
  3. Lagrings tjeneste
  4. Client Service (klient)

Det finnes også en valg fri BeeGFS Monitoring-tjeneste.

Bortsett fra klient tjenesten som er en kjerne modul, vil administrasjon, metadata og lagrings tjenester være bruker område prosesser. Det er mulig å kjøre en hvilken som helst kombinasjon av BeeGFS-tjenester (klient-og Server-komponenter) sammen på de samme maskinene. Det er også mulig å kjøre flere forekomster av en hvilken som helst BeeGFS-tjeneste på den samme data maskinen. I den Dell EMC høy kapasitets konfigurasjonen av BeeGFS kjører overvåkings tjenesten på behandlingsserveren, flere forekomster av metadata-tjenesten kjøres på metadataene og én enkelt forekomst av lagrings tjeneste kjører på lagringsserver. Administrasjons tjenesten er installert på metadata-serverne.  

Overvåkings tjeneste

BeeGFS monitoring service (BeeGFS-man. service) samler inn BeeGFS statistikk og gir dem til brukeren ved hjelp av tids serie databasen InfluxDB.   For å visualisere data, beegfs-man-grafana gir forhånds definerte grafana instrument bord som kan brukes ut av esken. Figur 2 gir en generell oversikt over BeeGFS-klyngen som viser antall lagrings tjenester og metadata som er lagt inn i oppsettet (kalt noder på instrument bordet). Den viser også de andre instrument bord visningene som er tilgjengelige, og gir en oversikt over lagrings mål.

SLN320833_en_US__2image002 (1)

Figur 2 Grafana-bord-BeeGFS oversikt


Tilbake til toppen


 

Metadata-tjenesten

Lagrings tabellen for ME4024 som brukes til lagring av metadataene, fylles helt ut med 24X 960GB-SSD. Disse stasjonene er konfigurert i 12x lineær RAID1 disk grupper av to stasjoner hver som vist i figur 3. Hver RAID1-gruppe er et MetaData-mål.

SLN320833_en_US__3image003

Figur 3 fullt utfylt ME4024 array med 12 MDTs

I BeeGFS kan hver metadatatjeneste bare håndtere én enkelt MDT. Fordi det er 12 MDTs, må det være 12 forekomster av metadata-tjenesten. Hver av de to metadataene kjører seks forekomster av metadata-tjenesten. Metadata-målene er formatert med et ext4-filsystem (ext4-filsystemer fungerer godt med små filer og liten fil drift). I tillegg lagrer BeeGFS informasjon i utvidede attributter og direkte på inodes av fil systemet for å optimere ytelsen, som begge fungerer bra med ext4 fil systemet.

Tilbake til toppen


 

Administrasjons tjeneste

Beegfs-mgmtd -tjenesten er konfigurert på begge metadataene. Beegfs mgmtd-lageret initialiseres i katalog mgmtd på metadata mål 1 som vist nedenfor:

/opt/beegfs/sbin/beegfs-setup-mgmtd-p/beegfs/metaA-numa0-1/mgmtd-S beegfs-mgmt

Administrasjons tjenesten startes på en meta-server.
 

Tilbake til toppen


 

Lagrings tjeneste

I denne BeeGFS-løsningen med høy kapasitet er data lageret på fire PowerVault ME4084 lagrings rekker. Lineære RAID-6 disk grupper med 10 stasjoner (8 + 2) hver av disse er opprettet på hver tabell. Ett enkelt volum som bruker alt spacet, er opprettet for hver disk gruppe. Dette vil føre til 8 disk grupper/volumer per array. Hver rekke har 84 stasjoner og oppretter 8 x RAID-6 disk grupper er 4 stasjoner som kan konfigureres som globale varme Reserve deler på tvers av array-volumene.

Med oppsettet som er beskrevet ovenfor, er totalt på 32 x RAID-6-volumer på 4 x ME4084 i en grunnleggende konfigurasjon vist i figur 1. Hvert av disse RAID-6-volumene er konfigurert som et lagrings mål (ST) for BeeGFS File System, som resulterer i totalt 32 STs på tvers av fil systemet.

Hver ME4084-rekke har 84 stasjoner, med stasjons nummer 0-41 i den øverste skuffen og de nummererte 42-84 i den nederste skuffen.  I figur 5 vil hvert sett med 10 stasjoner som er merket med 1 til 8, representere 8xRAID6-gruppen. Ett volum opprettes fra hver RAID6-gruppe. Stasjonene som er merket med "S", representerer de globale Reserve delene. Figuren 5 viser tabellen sett forfra etter konfigurering av 8 volumer og 4 globale Reserve deler.

SLN320833_en_US__4image004

Figur 4 RAID 6 (8 + 2) disk gruppe oppsett på én ME4084 


Tilbake til toppen


 

Client Service (klient)

BeeGFS Client-modulen lastes inn på alle vertene som krever tilgang til BeeGFS File System. Når BeeGFS-modulen er lastet inn, og BeeGFS-Client-tjenesten er startet, vil tjenesten montere fil systemene som er definert i//ellerbeegfs-mounts. -filen i stedet for vanlig Fremgangs måte basert på /etc/fstab.  Med denne Fremgangs måten starter beegfs-klienten som alle andre Linux-tjenester gjennom tjeneste oppstarts skript, og aktiverer automatisk rekompilering av beegfs-klient modulen etter system oppdateringer..


Tilbake til toppen


 

Ytelsesevaluering

 

Denne delen presenterer ytelses egenskapene for de Dell EMC klare løsningene for HPC BeeGFS med høy kapasitet ved hjelp av IOzone sekvensielle og tilfeldige ytelses tester.  For ytterligere ytelse characterization ved bruk av IOR og MDtest og informasjon om konfigurering av høy tilgjengelighet, må du se etter en hvitt papir som skal publiseres senere.

Lagrings ytelsen ble evaluert ved hjelp av IOzone-benchmark (v 3.487). Sekvensiell lese-og skrive gjennomstrømming, og tilfeldig lese-og skrive IOPS ble målt. Tabell 2 beskriver konfigurasjonen av de PowerEdge R840-serverne som brukes som BeeGFS-klienter for disse ytelses studier.

Kundene 8x Dell EMC PowerEdge R840
Prosessor 4 x Intel (R) Xeon (R) Platinum 8260 CPU @ 2.40 GHz, 24 kjerner
Minne 24 x 16 GB DDR4 2933MT/s DIMM-er-384GB
Operativsystem Red Hat Enterprise Linux Server utgave 7.4 (Maipo)
Kjerneversjon 3.10.0-957.el7.x86_64
Interconnect 1x Mellanox ConnectX-6 enkelt Ports HDR100-adapter
OFED Version (BIOS-versjon) 4,7-3.2.9.0

Tabell 2 klient konfigurasjon

Serverne og klientene er koblet til over et HDR100-nettverk og nettverks detaljene som er oppgitt i tabell 3 nedenfor:  

InfiniBand-bryter QM8790 Mellanox kvantum HDR Edge-IU med 80x HDR 100 100 GB/s porter (ved bruk av splittere kabler)
Styrings bryte ren Dell Networking S3048 ToR svitsj-1U med 48x 1GbE, 4X SFP + 10GbE-porter

Tabell 3: Påloggings
 

Tilbake til toppen

 


 

Sekvensielle lese-og skrive operasjoner N-N

De sekvensielle lesingene og skrivingene ble målt ved bruk av sekvensiell lese-og skrive modus for IOzone. Disse testene ble utført på flere tråder som starter ved én tråd og øker i 2. potens, opptil 512 tråder. Ved hver tråd ble et likt antall filer generert, ettersom denne testen fungerer på én fil per tråd eller N-N-tilfelle. Prosessene ble distribuert på 8 fysiske klient noder i en rundtur, slik at forespørslene er likt distribuert med belastnings fordeling.

For tråder som teller 16 og over en mengde fil størrelse på 8TB ble valgt for å minimere effekten av hurtigbufringen fra serverne samt fra BeeGFS-klienter. For tråder som er under 16, er fil størrelsen på 768 GB per tråd (det vil si 1,5 TB for 2 tråder, 3 TB for 4 tråder og 6TB for 8 tråder). Innenfor en gitt test, var den samlede fil størrelsen som ble brukt like mye fordelt på antall tråder. En post størrelse på 1MiB ble brukt til alle kjøringer. Kommandoen som brukes for sekvensiell N-N-tester er angitt nedenfor:

Sekvensiell skriving og lese operasjoner: IOzone-i $test-c-e-r 1m-s $Size-t $Thread-+ n-+ m/Path/to/threadlist


OS-hurtigbufferene ble også fjernet på serverne mellom gjentakelser, samt mellom skrive-og lese testene ved å kjøre kommandoen:

# Sync & & Echo 3 >/proc/sys/VM/drop_caches


Fil systemet var demontert og montert på nytt på klientene mellom gjentakelser og mellom skrive-og lese tester for å tømme hurtig bufferen.

 

SLN320833_en_US__5image005

Figur 5: N-N sekvensielle lese ytelse

I figur 5 er det høyeste gjennomstrømming på 23,70 GB/s som oppnås i 256 tråder og topp skriving av 22,07 GB/s som oppnås i 512 tråder. Skrive ytelsen for enkel tråd er 623 MB/s og Read er 717 MB/s. Ytelsen skalerer nesten lineært opp til 32 tråder. Etter dette ser vi at leser og skriver mettes etter hvert som vi skalerer. Dette gir oss muligheten til å forstå at den samlede fremhevede ytelsen til denne konfigurasjonen er ≈ 23GB/s, og at for skriving er ≈ 22GB/s med topp som nevnt ovenfor. Lesene er veldig nær eller litt høyere enn skrive føringene, uavhengig av antallet tråder som brukes.


Tilbake til toppen


 

Tilfeldig lesing og skriving N-N

IOzone ble brukt i en tilfeldig modus for å evaluere tilfeldig i/u-ytelse.  Tester ble utført på tråd telling fra 16 til 512 tråder.  Direkte i/u-alternativ (-I) ble brukt til å kjøre IOzone, slik at alle operasjoner går over hurtig bufferen for bufferen og gå direkte til disken. BeeGFS stripe antall på 1 og del størrelse på 1 MB ble brukt. Forespørsels størrelsen var satt til 4KiB. Ytelsen ble målt i i/u-operasjoner per sekund (IOPS). OS-hurtigbufferene ble fjernet mellom de som kjøres på BeeGFS-serverne. Fil systemet ble demontert og montert på nytt på klienter mellom gjentakelser av testen. Kommandoen som brukes for tilfeldige lese-og skrive tester er som følger:

IOzone-i 2-w-c-O-I-r, 4 000-s $Size-t $Thread-+ n-+ k/Path/to/threadlist

SLN320833_en_US__6image006

Figur 6N-N tilfeldig ytelse

Figuren 6 viser at skrive ytelsen når rundt 31K IOPS og fortsatt er stabilt fra 32 tråder til 512 tråder. Lese ytelsen øker derimot med økningen i antall i/u-forespørsler med maksimal ytelse på rundt 47K-IOPS på 512 tråder, som er det maksimale antallet tråder som er testet for løsningen. ME4 krever høyere kødybde for å nå maksimal lese ytelse og grafen viser at vi kan få høyere ytelse hvis vi kjører de 1024 samtidige trådene. Når testene bare kjøres med 8 klienter, hadde vi imidlertid ikke nok kjerner til å kjøre antallet 1024-tråder.


Tilbake til toppen


 

Justerings parametere som brukes

Følgende justerings parametere var på plass under utføring av ytelses characterizationen for løsningen.

Standard stripesett for BeeGFS er 4. Størrelsen på gruppen og antall mål per fil (Stipe-tellinger) kan imidlertid konfigureres på en per-mappe eller på hver fil. For alle disse testene ble BeeGFS stripe-størrelse satt til 1 MB og stripesett for antall var angitt til 1 som vist nedenfor:

$beegfs-CTL--getentryinfo--montering =/mnt/beegfs/-/mnt/beegfs/benchmark/--detaljert
Inngangs type: katalog-
EntryID: 1-5E72FAD3-1
ParentID: rotnode for
metadata: meta-numa0-1 [ID: 1]
detaljer om stripesett:
+ Type: RAID0
+ Chunksize: 1m
+ Antall lagrings mål: ønsket: 1
+ Lagrings utvalg: 1 (standard)
inode-hash-bane: 61/4C/1-5E72FAD3-1

De transparente store sidene er deaktivert og de følgende innstillingene for virtuelt minne konfigurert på metadataene og serverne for lagring:

  • vm.dirty_background_ratio = 5
  • vm.dirty_ratio = 20
  • vm.min_free_kbytes = 262144
  • vm.vfs_cache_pressure = 50

Følgende justerings alternativer ble brukt for lagrings blokk enheter på serveren for lagring av data.

  • Tids frist for i/u-planlegging: frist
  • Antall schedulable-forespørsler: 2048:
  • Maksimums verdi for lese data: 4096

I tillegg til de følgende BeeGFS-spesifikke justerings alternativene ble brukt:
 
beegfs-meta.

connMaxInternodeNum = 64
tuneNumWorkers = 12

tuneUsePerUserMsgQueues = True # Optional
tuneTargetChooser = roundrobin (benchmarking)

beegfs-Storage.

connMaxInternodeNum = 64
tuneNumWorkers = 12
tuneUsePerTargetWorkers = True
tuneUsePerUserMsgQueues = sann # valg fri
tuneBindToNumaZone = 0
tuneFileReadAheadSize = 2 MB

beegfs-Client.

connMaxInternodeNum = 24
connBufSize = 720896


Tilbake til toppen


 

Konklusjon og fremtidig arbeid

 

Denne bloggen annonserer utgivelsen av Dell EMC BeeGFS høy kapasitets lagrings løsning, og fremhever ytelses egenskapene. Denne løsningen gir en topp ytelse på 23,7 GB/s for lese-og 22,1 GB/s for skriving som bruker IOzone sekvensielle ytelses tester. Vi ser også de tilfeldige skrives toppene på 31.3 K IOPS og tilfeldige lese operasjoner på 47.5 K IOPS.

Som en del av de neste trinnene, skal vi evaluere metadataets ytelse og N tråder til én enkelt fil (N til 1) IOR ytelse av denne løsningen. En hvit papir som beskriver metadataene og IOR ytelsen til løsningen med ytterligere informasjon om design vurderinger for denne høy kapasitets løsningen med høy tilgjengelighet forventes å være publisert etter at Valide Rings-og evaluerings prosessen er fullført.


Tilbake til toppen


Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000132681
Article Type: Solution
Last Modified: 27 Apr 2021
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.