Sisällysluettelo
- Johdanto
- Ratkaisuarkkitehtuuri
- Ratkaisun komponentit
- Suorituskyvyn kuvaus
- Peräkkäiset IOzone Performance N -työasemat N-tiedostoihin
- Peräkkäisten IOR Performance N -työasemat 1 tiedostoon
- Satunnaiset pienet lohkot IOzone Performance N -työasemista N-tiedostoihin
- Metatietojen suorituskyky MDtest-komennolla käyttäen tyhjiä tiedostoja
- Metatietojen suorituskyky MDtest-komennoilla, joissa käytetään neljää KiB-tiedostoa
- Johtopäätökset ja jatkosuunnitelmat
Johdanto
Nykypäivän HPC-ympäristöt vaativat entistä enemmän erittäin nopeaa tallennusta, joka vaatii usein myös suuren kapasiteetin ja hajautetun pääsyn useiden vakioprotokollien, kuten NFS:n, SMB:n ja muiden, kautta. Nämä suuren kysynnän HPC-vaatimukset kattavat tyypillisesti rinnakkaistiedostojärjestelmät, jotka tarjoavat samanaikaisen pääsyn yhteen tiedostoon tai tiedostojoukkoon useista solmuista, mikä jakaa tiedot tehokkaasti ja turvallisesti useisiin palvelinten loogisiin levyihin.
Ratkaisuarkkitehtuuri
Tämä blogi on jatkoa rinnakkaistiedostojärjestelmälle (PFS) HPC-ympäristöille. Se on DellEMC Ready Solution for HPC PixStor -tallennusratkaisu, jossa käytetään PowerVault ME484 EBOD -järjestelmiä ratkaisun kapasiteetin kasvattamiseen. Kuva 1 esittelee viitearkkitehtuurin, jossa näkyy kapasiteetin laajennus-SAS-lisäykset olemassa oleviin PowerVault ME4084 -tallennuslevysarjoihin.
PixStor-ratkaisu sisältää laajan yleisen rinnakkaistiedostojärjestelmän(PFS-komponenttina Spectrum Scale) sekä monia muita Arcastream-ohjelmistokomponentteja, kuten kehittyneen analytiikan, yksinkertaisen hallinnan ja valvonnan, tehokkaan tiedostohaun ja kehittyneet yhdyskäytäväominaisuudet.
Kuva 1: Viitearkkitehtuuri.
Ratkaisun komponentit
Ratkaisu on tarkoitus julkaista uusimmilla 2. sukupolven Intel Xeon Scalable Xeon -suorittimilla (eli Cascade Lake -suorittimilla ja joillakin palvelimilla on nopein käytettävissä oleva RAM-muisti (2933 MT/s). Koska nykyisillä laitteilla on käytössä suorituskykytietoja hyödyntäviä ratkaisuja, palvelimet, joissa on 1. sukupolven Intel Xeon Scalable Xeon -suorittimet (a.k.a). Skylake-suorittimia ja joissakin tapauksissa järjestelmää käytettiin hitaampaan RAM-muistiin. Koska ratkaisun pullonkaula sijaitsee DellEMC PowerVault ME40x4 -järjestelmien SAS-ohjaimissa, suorituskyvyn ei pitäisi olla merkittävästi eriytyvä, kun Skylaken suorittimet ja RAM-muisti on korvattu ennakoiduilla Cascade Lake -suorittimilla ja nopeammalla RAM-muistilla. Lisäksi ratkaisu päivitettiin uusimpaan PixStor(5.1.1.4) -versioon, joka tukee RHEL 7.7- ja OFED 4.7 -versioita järjestelmän luonteen vuoksi.
Aiemmin kuvatun tilanteen vuoksi taulukossa 1 on luettelo ratkaisun pääkomponenteista, mutta kun eroavaisuudet otettiin käyttöön, ensimmäisessä kuvaussarakkeessa on käytössä komponentteja, joita käytetään julkaisuhetkellä ja siten asiakkaiden saatavilla. Viimeinen sarake on osat, joita käytetään itse asiassa ratkaisun suorituskyvyn kannalta. Tiedoille (12 Tt:n NLS) ja metatietoille (960Gb SSD) luetellut asemat ovat suorituskykymerkinnässä käytettäviä asemia. Nopeammat asemat voivat tarjota parempia satunnaisia IOP-osoitteita ja parantaa luonti-/poiston metatietotoimintoja.
Kattavaksi katsoen luettelo mahdollisista tietojen kiintolevyistä ja metatietojen SSD-asemista julkaistiin. Luettelo perustuu verkossa käytettävissä olevaan DellEMC PowerVault ME4 -tukitaulukon tukemiin asemiin.
Taulukko 1 Julkaisuhetkellä käytetyt osat ja testisängyssä käytettävät osat
Ratkaisun osa |
Julkaisuhetkellä |
Testaa sänky |
Sisäiset liitännät |
Dell Networking S3048-ON Gigabit Ethernet |
Tietojen tallennuksen alijärjestelmä |
1 x 4 x Dell EMC PowerVault ME4084 1 x 4 x Dell EMC PowerVault ME484 (yksi ME4084:ää kohti) 80–12 Tt:n 3,5":n NL SAS3 -kiintolevyaseman vaihtoehdot 900 Gt:n @15K, 1,2 Tt:n @10K, 1,8 Tt:n @10K, 2,4 Tt:n @10K, 4 Tt:n NLS, 8 Tt:n NLS, 10 Tt:n NLS, 12 Tt:n NLS. 8 LUNia, lineaarinen 8+2 RAID 6, lohkon koko 512 KiB. Neljä 1,92 Tt:n SAS3 SSD -asemaa metatietoihin – 2 x RAID 1 (tai 4 globaalia kiintolevyn varalevyä, jos käytetään valinnaista High Demand -metatietomoduulia) |
Valinnainen high demand -metatietojen tallennuksen alijärjestelmä |
1 x 2 x Dell EMC PowerVault ME4024 (tarvittaessa 4 x ME4024, vain suuri kokoonpano) 24 x 960 Gt:n 2,5 tuuman SSD SAS3 -asemaa (vaihtoehdot 480 Gt, 960 Gt, 1,92 Tt) 12 LOOGIA, lineaarinen RAID 1. |
RAID-tallennusohjaimet |
12 Gb/s:n SAS |
Kapasiteetti määritetyllä tavalla |
Raaka: 8 064 Tt (7334 TiB tai 7,16 PiB), alustettu ~6144 Gt (5588 TiB tai 5,46 PiB) |
Suoritin |
Yhdyskäytävä |
2 x Intel Xeon Gold 6230 2.1G, 20C/40T, 10,4 Gt/s, 27,5 Mt:n välimuisti, Turbo, HT (125 W) DDR4-2933 |
– |
Suuren kysynnän metatiedot |
2 x Intel Xeon Gold 6136 @ 3,0 GHz, 12 ydintä |
Tallennussolmu |
2 x Intel Xeon Gold 6136 @ 3,0 GHz, 12 ydintä |
Hallintasolmu |
2 x Intel Xeon Gold 5220 2.2G, 18C/36T, 10,4 Gt/s, 24,75 Mt:n välimuisti, Turbo, HT (125 W) DDR4-2666 |
2 x Intel Xeon Gold 5118 @2,30GHz, 12 ydintä |
Muisti |
Yhdyskäytävä |
12 x 16 GiB 2 933 MT/s RDIMM -moduulia (192 GiB) |
– |
Suuren kysynnän metatiedot |
24 x 16 GiB 2 666 MT/s RDIMM -moduulia (384 GiB) |
Tallennussolmu |
24 x 16 GiB 2 666 MT/s RDIMM -moduulia (384 GiB) |
Hallintasolmu |
12 x 16 Gt:n DIMM-moduulia, 2 666 MT/s (192GiB) |
12 x 8 GiB 2 666 MT/s RDIMM-moduulia (96 GiB) |
Käyttöjärjestelmä |
Red Hat Enterprise Linux 7.6 |
Red Hat Enterprise Linux 7.7 |
Kernel-versio |
3.10.0–957.12.2.el7.x86_64 |
3.10.0–1062.9.1.el7.x86_64 |
PixStor-ohjelmisto |
5.1.0.0 |
5.1.1.4 |
Spectrum Scale (GPFS) -skaalaus |
5.0.3 |
5.0.4-2 |
Tehokkaat verkkoyhteydet |
Mellanox ConnectX-5 Dual-Port InfiniBand EDR/100 GbE ja 10 GbE |
Mellanox ConnectX-5 InfiniBand EDR |
Tehokas kytkin |
2 x Mellanox SB7800 (HA – vikasietoinen) |
1 x Mellanox SB7700 |
OFED-versio |
Mellanox OFED-4.6-1.0.1.0 |
Mellanox OFED-4.7-3.2.9 |
Paikalliset levyt (käyttöjärjestelmä ja analysointi/valvonta) |
Kaikki palvelimet paitsi hallintasolmu 3 x 480 Gt:n SSD SAS3 (RAID1 + HS) käyttöjärjestelmälle PERC H730P RAID -ohjain Hallintasolmu 3 x 480 Gt:n SSD SAS3 (RAID1 + HS) käyttöjärjestelmälle PERC H740P RAID -ohjain |
Kaikki palvelimet paitsi hallintasolmu 2 x 300 Gt 15K SAS3 (RAID 1) käyttöjärjestelmälle PERC H330 RAID -ohjain Hallintasolmu 5 x 300 Gt:n 15K SAS3 (RAID 5) käyttöjärjestelmän analysointiin /valvontaan PERC H740P RAID -ohjain |
Järjestelmänhallinta |
iDRAC 9 Enterprise + DellEMC OpenManage |
iDRAC 9 Enterprise + DellEMC OpenManage |
Suorituskyvyn kuvaus
Tämän uuden Ready Solution -ratkaisun luonteeseen käytimme taulukon 1 viimeisessä sarakkeessa mainittua laitteistoa, joka sisältää valinnaisen High Demand Metadata Module -moduulin. Ratkaisun suorituskyvyn arviointiin käytettiin seuraavia vertailutestoja:
- IOzone N–N peräkkäin
- IOR N:stä 1:een peräkkäin
- Satunnainen IOzone
- MDtest (MDtest)
Kaikkien edellä mainittujen suorituskykytestien yhteydessä työasemat olivat alla olevassa taulukossa 2 kuvatulla tavalla. Koska testattavissa olevia laskentasolmuja oli vain 16, kun säikeitä tarvittiin enemmän, ne jakautuivat laskentasolmuihin tasaisesti (eli 32 säiettä = 2 säiettä solmua kohden, 64 säiettä = 4 säiettä solmua kohti, 128 säiettä = 8 säiettä solmua kohti, 256 säiettä =16 säiettä solmua kohti, 512 säiettä = 32 säiettä solmua kohti, 1024 säiettä = 64 säiettä solmua kohti). Tarkoituksena oli simuloida suurempaa samanaikaisten työasemien määrää, kun laskentasolmuja on rajallinen. Koska vertailut tukevat suurta määrää säikeitä, käytettiin enimmäisarvoa jopa 1024 (määritetty kuhunkin testiin), mutta samalla vältettiin liiallinen kontekstin vaihtaminen ja muut siihen liittyvät sivuvaikutukset, jotka vaikuttavat suorituskykytuloksiin.
Taulukko 2 Asiakastestiympäristö
Asiakassolmujen määrä |
16 |
Asiakassolmu |
C6320 |
Suorittimet asiakassolmua kohden |
2 x Intel(R) Xeon(R) Gold E5-2697v4 18 ydintä, 2,30 GHz |
Muistia asiakassolmua kohden |
12 x 16GiB 2 400 MT/s RDIMM-moduulia |
BIOS |
2.8.0 |
Käyttöjärjestelmän ydin |
3.10.0-957.10.1 |
GPFS-versio |
5.0.3 |
Peräkkäiset IOzone Performance N -työasemat N-tiedostoihin
Peräkkäisten N-asiakkaiden ja N-tiedostojen suorituskykyä mitattiin IOzone-versiolla 3.487. Testit vaihtelevat yksittäisestä säikeestä 1024:ään säikeeseen asti, ja kapasiteetin laajennusratkaisun (4 x ME4084s + 4x ME484s) tulokset ovat ristiriidassa suurikokoisen ratkaisun kanssa (4 x ME4084s). Tallennus välimuistiin pieneni määrittämällä GPFS-sivuvarannon asetukseksi 16GiB ja käyttämällä tiedostoja, joiden koko on suurempi kuin kaksi kertaa suurempi. On tärkeää huomata, että GPFS:ssä säädettävä määrittää tietojen välimuistin enimmäismäärän asennetusta ja vapaasta RAM-muistin määrästä riippumatta. Huomioi myös, että aiemmissa DellEMC HPC -ratkaisuissa suurten peräkkäisten siirtojen lohkokoko on 1 MiB, mutta GPFS alustettiin 8 MiB-lohkoon, joten kyseistä arvoa käytetään suorituskykytestauksessa optimaalista suorituskykyä varten. Se saattaa näyttää liian suureksi ja hukkasi selvästi liian paljon tilaa, mutta GPFS käyttää alilohkovarausta tilanteen estämiseen. Nykyisessä kokoonpanossa jokainen lohko oli jaettu 256 alilohkoon, joista kukin oli 32 KiB-alilohkoa.
Seuraavilla komennoilla suoritettiin kirjoitus- ja lukutestausta, jossa säikeet olivat muuttuja, jossa käytettyjen säikeiden määrä (1–1024 lisättiin kahden tehon tehoihin), ja threadlist oli tiedosto, joka varasi jokaisen säikeen eri solmuun käyttämällä Round Robinia niiden jakamiseen yhtenäisesti 16 laskentasolmuun.
./iozone -i0 -c -e -w -r 8M -s 128G -t $Threads -+n -+m ./threadlist
./iozone -i1 -c -e -w -r 8M -s 128G -t $Threads -+n -+m ./threadlist
Kuva 2: Peräkkäisten suorituskykyjen määrä
N–NTulosten perusteella suorituskyky nousee hyvin nopeasti käytettyjen asiakkaiden määrän myötä ja saavuttaa sitten tasangon, joka on vakaa, kunnes IOzonen sallimien säikeiden enimmäismäärä saavutetaan, ja siksi suurten tiedostojen peräkkäisten tiedostojen suorituskyky on vakaa myös 1024:n samanaikaisten työasemien osalta. Huomaa, että sekä luku- että kirjoitusteho hyötyi levyjen määrän kaksinkertaistamisesta. Tallennussolmuissa käytettyjen kahden IB EDR -linkin kaistanleveys rajoitti enimmäislukutehoa kahdeksasta säikeestä alkaen, ja ME4-järjestelmissä saattaa olla ylimääräistä suorituskykyä. Huomaa myös, että kirjoitustehon enimmäistaso oli 16,7–20,4 Gt/s 64 ja 128 säikeellä ja se on lähempänä ME4-levyjärjestelmien enimmäismäärityksiä (22 Gt/s).
Tässä on tärkeää muistaa, että GPFS:n ensisijainen toimintatila on hajautettu ja että ratkaisu on alustettu käyttämään kyseistä tilaa. Tässä tilassa lohkot varataan käytön alusta näennäisen satunnaisesti, mikä jakaa tietoja jokaisen kiintolevyn koko pinnalle. Alkuperäinen suorituskyky on tietenkin pienempi, mutta suorituskyky pysyy melko vakaana riippumatta siitä, kuinka paljon tilaa tiedostojärjestelmässä käytetään. Toisin kuin muissa rinnakkaisissa tiedostojärjestelmissä, joissa käytetään alun perin ulompia väyliä, joihin mahtuu enemmän tietoja (sektoreita) levynkumouksen aikana ja joiden suorituskyky on siten mahdollisimman hyvä kiintolevyjen osalta, mutta kun järjestelmä käyttää enemmän tilaa, käytössä on vähemmän tietoja mullkumisjärjestyksessä, mikä puolestaan vähentää suorituskykyä.
Peräkkäisten IOR Performance N -työasemat 1 tiedostoon
Peräkkäisten N-asiakkaiden ja yhden jaetun tiedoston suoritusteho mitattiin IOR-versiolla 3.3.0, jota avustettiin OpenMPI 4.0.1 -versiolla vertailun suorittamisessa 16 laskentasolmussa. Testit vaihtelivat yhdestä säikeestä jopa 512 säikeeseen (koska ytimien määrä ei riitä 1024 säikeeseen), ja tulokset ovat ristiriidassa ratkaisun kanssa ilman kapasiteetin laajennusta.
Tallennus välimuistiin pieneni määrittämällä GPFS-sivuvarannon asetukseksi 16GiB ja käyttämällä tiedostoja, joiden koko on suurempi kuin kaksi kertaa suurempi. Tässä vertailutestissä käytettiin 8 MiB-lohkoa optimaalista suorituskykyä varten. Edellisen suorituskykytestiosion selitys on täydellisempi.
Seuraavilla komennoilla suoritettiin kirjoitus- ja lukutestaustestaus, jossa säikeet olivat muuttuja, jossa käytettyjen säikeiden määrä (1–1024 lisättiin kahden tehon tehoihin), ja my_hosts.$Threads on vastaava tiedosto, joka varasi kunkin säikeen eri solmuihin ja levitti niitä yhtenäisesti 16 laskentasolmuun.
mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --mca btl_openib_allow_ib 1 --mca pml ^ucx --oversubscribe --prefix /mmfs1/perftest/ompi /mmfs1/perftest/lanl_ior/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/tst.file -w -s 1 -t 8m -b 128G
mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --mca btl_openib_allow_ib 1 --mca pml ^ucx --oversubscribe --prefix /mmfs1/perftest/ompi /mmfs1/perftest/lanl_ior/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/tst.file -r -s 1 -t 8m -b 128G
Kuva 3: N–1 Peräkkäisten asemien tulokset
takaavat, että lisäasemien luku- ja kirjoitusteho on hyvä. Suorituskyky nousee jälleen hyvin nopeasti käytettyjen asiakkaiden määrän myötä. Sen jälkeen se saavuttaa tasangon, joka on melko vakaa luku- ja kirjoituskertojen kannalta. Testin aikana käytettyjen säikeiden enimmäismäärään asti. Huomaa, että suurin lukunopeus oli 24,8 Gt/s 16 säikeellä ja pullonkaula oli InfiniBand EDR -liittymä, ja ME4-järjestelmillä oli edelleen ylimääräistä suorituskykyä. Siitä eteenpäin lukemisen suorituskyky laski arvosta noin 23,8 Gt/s:n tasangolle saakka. Huomaa myös, että 19,3:n kirjoitusteho saavutettiin 8 säikeellä ja saavutettiin tasanne.
Satunnaiset pienet lohkot IOzone Performance N -työasemista N-tiedostoihin
Satunnaisten N-asiakkaiden ja N-tiedostojen suorituskykyä mitattiin FIO-versiolla 3.7 perinteisen Iozonen sijasta. Kuten edellisessä blogissa mainittiin, tarkoituksena oli hyödyntää suurempaa jonon syvyyttä, jotta voidaan tutkia ME4084-järjestelmien mahdollista enimmäissuorituskykyä (aiemmat ME4-ratkaisujen testit osoittavat, että ME4084-levyjärjestelmät tarvitsevat enemmän IO-painetta, jonka Iozone voi toimittaa satunnaisten IO-rajoitusten saavuttamiseen).
Testit vaih olivat erilaisia yksittäisestä säikeestä jopa 512 säikeeseen, koska työasemaytimistä ei ollut riittävästi 1024 säikeeseen. Kussakin säikeessä käytettiin eri tiedostoa, ja säikeet määritettiin työasemasolmujen round robin -toiminnolla. Tässä vertailutestissä käytettiin neljää KiB-lohkoa, jotka jäljittelivät pieniä lohkoja ja käyttivät jonon 16 syvyyttä. Suurkokoratkaisun ja kapasiteetin laajentamisen tuloksia verrataan.
Tallennus välimuistiin pieneni jälleen määrittämällä GPFS-sivuvarannon asetukseksi 16GiB ja käyttämällä tiedostoja, jotka ovat kaksinkertaisia tähän kokoon nähden. Ensimmäisessä suorituskykytestiosiossa on kattavampi kuvaus siitä, miksi tämä on tehokas GPFS-määrityksessä.
Kuva 4: N–N Satunnainen suorituskyky
Tulosten perusteella voimme havaita, että kirjoitusteho alkaa 29,1 000 io/s:n arvosta ja nousee tasaisesti jopa 64 säikeeseen, jolloin se näyttää saavuttavan tasangon noin 40 000 io/s:n nopeudella. Lukunopeus taas alkaa 1,4 000 io/s:n tasolla ja parantaa suorituskykyä lähes lineaarisesti käytettyjen asiakkaiden määrän vuoksi (muista, että kunkin datapisteen säikeiden määrä kaksinkertaistuu) ja saavuttaa 25,6 000 IO/s:n enimmäissuorituskyvyn 64 säikeellä, jolloin tasanne näyttää olevan lähellä. Jos säikeitä käytetään enemmän kuin 16 laskentasolmua, resurssipuutosten ja suorituskyvyn vähentäminen vaatii enemmän kuin 16 laskentasolmua, jolloin järjestelmät voisivat itse asiassa ylläpitää suorituskykyä.
Metatietojen suorituskyky MDtest-komennolla käyttäen tyhjiä tiedostoja
Metatietojen suoritustehoa mitattiin MDtest-versiolla 3.3.0, jota avustettiin OpenMPI 4.0.1 -versiolla, joka suoritti vertailun 16 laskentasolmussa. Testit vaihtelevat yksittäisestä säikeestä 512:een säikeeseen asti. Vertailuarvoa käytettiin vain tiedostoissa (ei hakemistojen metatiedoissa), ja ratkaisun luonti-, tilasto- ja luku- ja poistomäärien määrä oli ristiriidassa suurikokoisen ratkaisun kanssa.
Ratkaisun arviointiin käytettiin muita DellEMC HPC -tallennusratkaisuja ja aiempia blogituloksia, mutta yhdessä ME4024-järjestelmässä käytettiin valinnaista High Demand Metadata Modulea, vaikka tässä työssä testatuissa suurissa kokoonpanoissa oli kaksi ME4024-kokoonpanoa. Tämä high demand -metatietomoduuli voi tukea enintään neljää ME4024-levyjärjestelmää, ja me4024-levyjärjestelmien määrän kannattaa nostaa neljään, ennen kuin lisätään uusi metatietomoduuli. MUIDEN ME4024-levyjärjestelmien odotetaan parantavan metatietojen suorituskykyä lineaarisesti kunkin lisäjärjestelmän yhteydessä, paitsi ehkä tilastotoimintoja (ja tyhjien tiedostojen lukutoimintoja varten), koska määrä on erittäin suuri. Jossain vaiheessa suorittimista tulee pullonkaula eikä suorituskyky enää kasva lineaarisesti.
Seuraavassa komennossa suoritettiin vertailukohtaa, jossa säikeet olivat muuttuja käytettyjen säikeiden määrällä (1–512 lisää kahden vallalla), ja my_hosts.$Threads on vastaava tiedosto, joka varasi kunkin säikeen eri solmuun käyttämällä Round Robinia niiden yhtenäisenä jakamiseen 16 laskentasolmuun. Random IO -vertailun tavoin säikeiden enimmäismäärä oli rajoitettu 512:een, koska ytimien määrä ei riitä 1024 säikeelle ja kontekstin vaihtaminen vaikuttaisi tuloksiin, mikä ilmoitti, että määrä oli pienempi kuin ratkaisun todellinen suorituskyky.
mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --prefix /mmfs1/perftest/ompi --mca btl_openib_allow_ib 1 /mmfs1/perftest/lanl_ior/bin/mdtest -v -d /mmfs1/perftest/ -i 1 -b $Directories -z 1 -L -I 1024 -y -u -t -F
Koska I/OP-tiedostojen kokonaismäärä, tiedostojen määrä hakemistoa kohden ja säikeiden määrä voivat vaikuttaa suorituskykytuloksiin, tiedostojen kokonaismääräksi päätettiin pitää korjattuna kaksi MiB-tiedostoa (2^21 = 2097152), tiedostojen määrä hakemistoa kohden 1024 ja hakemistojen määrä vaihteli taulukon 3 säikeiden määrän mukaisesti.
Taulukko 3: Tiedostojen MDtest-jakelu hakemistoissa
Säikeiden määrä |
Hakemistojen määrä säikeessä |
Tiedostojen kokonaismäärä |
1 |
2048 |
2,097,152 |
2 |
1024 |
2,097,152 |
4 |
512 |
2,097,152 |
8 |
256 |
2,097,152 |
16 |
128 |
2,097,152 |
32 |
64 |
2,097,152 |
64 |
32 |
2,097,152 |
128 |
16 |
2,097,152 |
256 |
8 |
2,097,152 |
512 |
4 |
2,097,152 |
1024 |
2 |
2,097,152 |
Kuva 5: Metatietojen suorituskyky - tyhjät tiedostot
Huomioi ensin, että valittu skaalaus oli logarithmic ja perusta 10, jotta voidaan verrata toimintoja, joissa on eroja useiden eri tilausten määrässä. Muutoin osa toiminnoista näyttää normaalissa kaaviossa tasaiselta viivalta, joka on lähellä 0:aa. Peruskaavion 2 lokikaavio voisi olla sopivampi, koska säikeiden määrä kasvaa 2 säikeellä, mutta kaavio näyttää hyvin samankaltaiselta ja ihmiset tavallisesti käsittelevät ja muistavat paremmin lukuja 10:n voimien perusteella.
Järjestelmä saa erittäin hyvät tulokset, kun tilasto- ja lukutoiminnot saavuttavat huippuarvonsa 64 säikeellä lähes 11 Mt/s:n ja 4,7 Mt:n op/s:n nopeudella. Poistotoiminnot saavutettiin enintään 170,6 000 op/s:n nopeudella 16 säikeellä, ja toimintojen huippu saavutettiin 32 säikeellä 222,1 000 op/s:llä. Tilasto- ja lukutoiminnot vaihtelevat enemmän, mutta huippuarvon saavuttaminen ei laske tilastoissa alle 3 Mt:n op/s:iin ja lukutoimintojen 2 Mt:n op/s:iin. Luonti ja irrottaminen ovat vakaampia, kun ne ulottuvat tasangolle, ja niiden irrottaminen on yli 140 000 ja luonti 120 000 op/s. Huomioi, että lisäasemat eivät vaikuta useimpien tyhjien tiedostojen metatietotoimintoihin odotetulla tavalla.
Metatietojen suorituskyky MDtest-komennoilla, joissa käytetään neljää KiB-tiedostoa
Testi on lähes sama kuin aiempi, mutta tyhjien tiedostojen sijaan käytettiin pieniä 4 KiB-tiedostoja.
Seuraavassa komennossa suoritettiin vertailukohtaa, jossa säikeet olivat muuttuja käytettyjen säikeiden määrällä (1–512 lisää kahden vallalla), ja my_hosts.$Threads on vastaava tiedosto, joka varasi kunkin säikeen eri solmuun käyttämällä Round Robinia niiden yhtenäisenä jakamiseen 16 laskentasolmuun.
mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --prefix /mmfs1/perftest/ompi --mca btl_openib_allow_ib 1 /mmfs1/perftest/lanl_ior/bin/mdtest -v -d /mmfs1/perftest/ -i 1 -b $Directories -z 1 -L -I 1024 -y -u -t -F -w 4K -e 4K
Kuva 6: Metatietojen suorituskyky - pienet tiedostot (4K)
Järjestelmä saa erittäin hyvät tulokset tilasto- ja poistotoiminnoista saavuttaen huippuarvonsa 256 säikeessä 8,2 Mt op/s:n ja 400 000 op/s:n nopeudella. Lukutoiminnot saavutettiin enintään 44,8 000 op/s:n toiminnoilla. Luonti saavuttaa huippunsa 68,1K op/s:n toiminnoilla 512 säikeellä. Tilasto- ja poistotoiminnot vaihtelevat enemmän, mutta huippuarvon saavuttaminen ei laske tilastoissa alle 3 Mt:n op/s:iin ja poistoon 280 000 op/s. Luomis- ja lukutoiminnoissa on vähemmän vaihtelua, ja ne kasvavat jatkuvasti säikeiden määrän kasvaessa. Kuten on nähtävissä, kapasiteetin laajennusten ylimääräiset asemat muuttavat metatietojen suorituskykyä vain hiukan.
Koska nämä numerot koskevat metatietomoduulia, jossa on yksi ME4024, kunkin ME4024-lisäjärjestelmän suorituskyky kasvaa, mutta emme voi olettaa kunkin toiminnon kohdalla lineaarista lisäystä. Jos koko tiedosto ei sovi inodeen kyseiselle tiedostolle, ME4084-mallin datakohteita käytetään 4K-tiedostojen tallentamiseen, mikä rajoittaa suorituskyvyn jonkin verran. Koska inode-koko on 4 KiB ja siihen on edelleen tallentava metatietoja, vain noin 3 KiB:n tiedostot mahtuvat sisälle ja mikä tahansa tiedosto, joka käyttää tietokohteita.
Johtopäätökset ja jatkosuunnitelmat
Laajennetulla kapasiteetilla varustettu ratkaisu pystyi parantamaan suorituskykyä satunnaisten käyttöjen ja jopa peräkkäisten käyttöjen osalta. Tämä oli normaalia, koska hajallaan oleva tila toimii satunnaistettuina käyttötilana, ja jos levyjä on enemmän, parannus onnistuu. Taulukon 4 suorituskyky on vakaa, kunnes se on lähes täynnä. Lisäksi ratkaisu skaalautuu kapasiteettiin ja suorituskykyyn lineaarisesti sitä mukaan, kun tallennussolmumoduuleja lisätään, ja valinnaisen suuren kysynnän metatietomoduulin suorituskyky voi kasvaa samalla tavalla. Tämä ratkaisu tarjoaa HPC-asiakkaille erittäin luotettavan rinnakkaistiedostojärjestelmän, jota käytetään monissa 500 ylimmässä HPC-klusterissa. Lisäksi se tarjoaa erinomaiset hakutoiminnot, edistyneen valvonnan ja hallinnan sekä valinnaisten yhdyskäytämien lisäämisen mahdollistamaan tiedostojen jakamisen kaikkialla olevien vakioprotokollien, kuten NFS:n, SMB:n ja muiden, avulla niin moneen työasemaan kuin tarvitaan.
Taulukko 4 Huippusuorituskyky ja pysyvä suorituskyky
|
Huippusuorituskyky |
Pysyvä suorituskyky |
Kirjoittaa |
Read |
Kirjoittaa |
Read |
Suuret peräkkäiset N-työasemat–N-tiedostot |
20,4 Gt/s |
24,2 Gt/s |
20,3 Gt/s |
24 Gt/s |
Suuret peräkkäiset N-työasemat yhteen jaettuun tiedostoon |
19,3 Gt/s |
24,8 Gt/s |
19,3 Gt/s |
23,8 Gt/s |
Satunnaiset pienet lohkot N-asiakasohjelmista N-tiedostoihin |
40 KIOps |
25,6 KIOps |
40,0 KIOps |
19,3 KIOps |
Metatietojen luonti tyhjiksi tiedostoksi |
169,4 000 io/s |
123,5 000 io/s |
Metatietojen tilastoavat tyhjät tiedostot |
11 M:n IO:t |
3,2 Mt:n IOps |
Metatietojen luku- ja tyhjät tiedostot |
4,7 M/s |
2,4 Mt:n IOps |
Metatietojen poisto, tyhjät tiedostot |
170,6 000 IOps |
156,5 000 IOps |
Metatietojen luonti 4 KiB-tiedostoihin |
68,1 000 io/s |
68,1 000 io/s |
Metatietojen stat 4KiB -tiedostot |
8,2 Mt:n IO:t |
3 Mt:n IO:t |
Metatiedot lukevat 4 KiB-tiedostoja |
44,8 000 io/s |
44,8 000 io/s |
Metatietojen poisto 4 KiB-tiedostoista |
400 000 io/s |
280 000 io/s |
Koska ratkaisu on tarkoitus julkaista Cascade Lake -suorittimilla ja nopeammalla RAM-muistilla, suorituskykytarkistukset tehdään, kun lopullinen kokoonpano on valmis. Ja testaa valinnainen High Demand Metadata Module, jossa on vähintään 2 x ME4024s- ja 4KiB-tiedostoa, jotta metatietojen suorituskyky skaalautuu paremmin, kun tietotavoitteet ovat käytössä. Lisäksi yhdyskäytäväsolmujen suorituskyky mitataan ja raportoidaan yhdessä uusien blogien tai valkoisen julkaisun pistetarkistusten tulosten kanssa. Lisää ratkaisukomponentteja aiotaan testata ja julkaista, jotta valmiuksista tulee entistäkin enemmän.