Getroffen
productenBrocade X7-8, X7-4, 7730 en 7720 met FOS v9.1.x of FOS v9.2.0
Gecorrigeerd in releases
Brocade FOS v9.1.1c, v9.2.0a en hoger
Lopen alleen Gen 7 producten risico.
Gen 7-directors (X7-8 en X7-4) met een FC64-48 en/of FC32-X7-48-poort blade geïnstalleerd, lopen het risico dat zowel de overloop- als de "verificatie"-fouten optreden. FC32-64 en FC32-48-poortblades die zijn geïnstalleerd in Gen 7-directors lopen geen risico op een van beide fouten.
Gen 7-switches (G730 en G720) lopen alleen risico op een bufferoverschrijdingsfout. Deze switches worden niet blootgesteld aan en lopen ook geen risico op het ondervinden van de fout "verify" foutconditie.
Om verder in gevaar te komen, moet de fabric te maken krijgen met ernstige overbelasting, wat resulteert in beheer van oversubscriptie door Traffic
Optimizer. Het volgende RASlog-bericht wordt waargenomen als dit niveau van respons ooit is aangetroffen:
[TO-1006], 1011618/1002267, FID 128, INFO, Switch_100, Flows die bestemd zijn voor het dev02-apparaat zijn verplaatst naar PG_OVER_SUBSCRIPTION_4G_16G PG., cfs_ctrlr.c, regel: 1470, comp:cfsd, ltime:2023/05/17-06:15:33:923058
De actie voor beheer van oversubscriptie door Traffic Optimizer bestaat alleen in FOS v9.1.x firmware.
Gen 7-producten
die worden uitgevoerd op FOS v9.0.x lopen geen risico op een van de foutcondities.
Risicocondities
voor bufferoverschrijdingOm de bufferoverlooptoestand te laten optreden, moeten de F-poorten op de Gen 7-director
of switch niet alleen een periode van ernstige overbelasting vereisen, maar ook zijn geconfigureerd van de standaardwaarde naar een groter aantal buffers. FOS wijst
standaard 28 buffers toe.
Elke Gen 7-director of switch met het maximale aantal F-Port-buffers dat hoger is dan de standaardwaarden die door
FOS worden gebruikt, lopen mogelijk risico en elke X7-8- of X7-4-director die eerder FOS v9.0.x uitvoerde, kan risico lopen op
"verificatie"-fouten. In beide gevallen moet Traffic Optimizer ook proberen om de routering van frames te beheren als reactie op
een oversubscriptiegebeurtenis die wordt veroorzaakt tijdens een periode van ernstige overbelasting.
Om te bepalen welke directors en switches risico lopen, gebruikt u de opdracht "portbuffershow" om het buffergebruik
weer te geven. Als het totale buffergebruik voor poorten op dezelfde ASIC/chip die ook in een zone zijn verdeeld, tot een waarde van meer dan 256 buffers samenvoegt, wordt de Gen 7-switch beschouwd als een risico om een bufferoverschrijding te ondervinden als een ernstige overbelastingsgebeurtenis oversubscriptiebeheer van Traffic Optimizer vereist. De fout zal niet worden aangetroffen bij elke oversubscriptiebeheergebeurtenis, omdat het aantal buffers dat wordt beheerd op het moment van de gebeurtenis meer dan 256 moet zijn terwijl Traffic Optimizer oversubscription beheert, maar als deze is geconfigureerd om mogelijk meer dan 256 buffers te verwerken, zal de switch in gevaar komen.
Als in het bovenstaande voorbeeld uitvoer alle 8 F-poorten zich in één zone bevinden, loopt de switch het risico dat een framebufferoverflow
optreedt terwijl Traffic Optimizer een oversubscriptietoestand beheert omdat het totale aantal buffergebruik in dit voorbeeld 360 is.
In het volgende voorbeeld waarin de F-poorten echter niet allemaal zijn gezoneerd, zou deze switch geen risico lopen omdat de twee zones (weergegeven in groen) in totaal respectievelijk 232 buffers en 128 buffers zijn.
Het maximum aantal poorten dat wordt gebruikt voor beheer van oversubscriptie is 8 poorten. Als meer dan 8 poorten in een zone zijn verdeeld van dezelfde ASIC/chip, dan zijn in totaal 8 poorten met de hoogste buffergebruikswaarden om het risico te bepalen.
OPMERKING: Gen 7-directors en switches die nooit het aantal F-Port-bufferaantallen hebben gewijzigd van de standaardinstelling lopen geen risico om dit probleem met de framebufferoverschrijding te ervaren. De maximale waarde die wordt gebruikt als standaardinstelling voor Max/Reserved Buffers is 28 voor Gen 7-producten, maar er kunnen minder buffers worden toegewezen, afhankelijk van het type switch en de optische snelheid. Klanten
die hun max./gereserveerde bufferaantallen nog nooit hebben verhoogd, ondervinden geen probleem met de bufferoverschrijding
. Zelfs met 8 poorten samen, met behulp van de maximale standaardtoewijzing van 28 buffers per poort, is de totale waarde van
het maximale buffergebruik slechts 224 frames.
"Verify" foutrisicocondities
Naast het probleem met de bufferoverschrijding kunnen ook X7-8 en X7-4 directors risico lopen om foutmeldingen te "verifiëren" als aan de volgende voorwaarden in deze volgorde wordt voldaan:
- X7-8 of X7-4 director die eerder werd uitgevoerd op FOS v9.0.x
- De director wordt vervolgens geüpgraded naar FOX v9.1.x
- De director heeft vervolgens F-poorten die zich afmelden en zich aanmelden bij de v9.1.x-versie
- De director ondervindt vervolgens een oversubscriptie-gebeurtenis waarvoor beheer van Traffic Optimizer vereist is
- De director voert vervolgens een HA-fail-over uit (firmware-upgrade zorgt ervoor dat een fail-over plaatsvindt)
- De director ondervindt een andere oversubscriptie-gebeurtenis waarvoor beheer van Traffic Optimizer vereist is
X7-8- of X7-4-directors die aan al deze voorwaarden voldoen, in de opgegeven volgorde, kunnen risico lopen om fouten te "verifiëren" tijdens het beheer van oversubscriptie van Traffic Optimizer.
- X7-8- of X7-4-directors die alleen ooit op FOS v9.1.x firmware zijn uitgevoerd, lopen geen risico om de foutmelding "verify" te ervaren, omdat alleen het v9.1-programmeermodel wordt gebruikt voor alle poorten. Gen 7-directors moeten eerder zijn uitgevoerd met FOS v9.0.x om vatbaar te zijn voor dit probleem.
- X7-8- of X7-4-directors die tijdens het uitvoeren van FOS v9.1.x-firmware koud opstarten/inschakelen zijn ingeschakeld, lopen ook geen risico om de foutmelding "verify" te ervaren, omdat alle poorten de v9.1-programmering zullen gebruiken na het opnieuw opstarten
Symptomen
Gen 7-directors en switches die een oversubscriptiebeheergebeurtenis hebben ondervonden, zullen de volgende
Traffic Optimizer RASlog in acht nemen:
[TO-1006], 1011618/1002267, FID 128, INFO, Switch_100, Flows destined to b1a02 device have been moved to PG_OVER_SUBSCRIPTION_4G_16G PG., cfs_ctrlr.c, line: 1470, comp:cfsd, ltime:2023/05/17-06:15:33:923058
Aanvullende symptomen die als gevolg van deze geïdentificeerde problemen kunnen optreden, kunnen zijn:
- Er kunnen grote aantallen CRC-fouten op een koppeling worden waargenomen die niet zijn opgelost met vervanging van de glasvezel/kabel
- Frames kunnen worden verwijderd, krediet op een koppeling kan verloren gaan
- Poorten zijn mogelijk defect, ASIC kan stoppen en defect zijn
- Een director kan een onverwachte HA-fail-over of zelfs een koude herstart van de director waarnemen
- Switches kunnen een koude herstart zien
Beheer van oversubscriptie door de functie Traffic Optimizer onder specifieke omstandigheden kan leiden tot foutscenario's
die van invloed zijn op de overdracht van frames of poorten die worden beheerd. Bij ernstige overbelastingsscenario's kunnen deze fouten ook
van invloed zijn op de prestaties van andere Fabric OS (FOS) daemons, die actief zijn op de switch, wat leidt tot time-outs van software watchdogs
, wat resulteert in een HA-fail-over of switch panic.
Gen 7-directors en switches (X7-8, X7-4, 7730 en 7720) die een overloop van framebuffers ondervinden tijdens een poging
om oversubscribed flows te beheren en opnieuw te routeren als reactie op een ernstige overbelastingsgebeurtenis, kan onverwachte fouten veroorzaken. Als
het aantal frames de buffer overschrijdt die wordt gebruikt voor het beheren van de afhandeling van de oversubscriptie, kunnen
deze overtollige frames worden gemist tijdens de verwerking van Traffic Optimizer. Deze overtollige frames kunnen mogelijk worden overschreven door andere frames die leiden tot
FRAME CRC-fouten of zelfs poortfouten als headerinformatie wordt overschreven. Bij ernstige overbelastingsscenario's kan het beheer van deze overloop/overtollige frames leiden tot het blokkeren van andere FOS daemons, wat kan leiden tot
watchdog time-outs. Kritieke daemons die een time-out veroorzaken, zullen leiden tot een HA-fail-over of een verstorende herstart van de switch.
Naast mogelijke verwerking van frameoverflow kunnen X7-8 en X7-4 directors die eerder op FOS v9.0.x hadden gewerkt en vervolgens later zijn geüpgraded naar FOS v9.1.x, verificatiefouten ondervinden na HA-fail-overs (inclusief fouten die worden veroorzaakt door firmware-upgrades naar hogere versies van v9.1.x). Meerdere foutmeldingen over 'verify' worden waargenomen tijdens het beheer van oversubscriptie door Traffic Optimizer vanwege een gedetecteerd conflict in de programmering van poorten die zijn gemaakt wanneer sommige poorten, maar niet alle poorten worden gereset tijdens v9.1.x. Het conflict tussen congestion management programming op poorten die nooit zijn gereset tijdens v9.0.x en vervolgens later te maken hebben met congestion management terwijl v9.1.x op poorten die opnieuw zijn ingesteld, kan worden weergegeven na een HA fail-over-gebeurtenis.
Tijdelijke oplossing Bij risico kunnen directors en switches de actie Voor beheer van oversubscriptie van Traffic Optimizer uitschakelen.
Voer de volgende CLI-opdracht uit vanuit het onderhoudsaccount om het actiegedrag voor het beheer van oversubscriptie
uit te schakelen in Traffic Optimizer
onderhoud> serviceexec trafoptdebug --enableosclassification 0
OPMERKING: De onderhoudsopdracht moet worden uitgevoerd op alle logische switches in het chassis.
OPMERKING: De instelling zal permanent zijn bij fail-overs en voedingscycli
Corrigerende actie
Een softwareoplossing die wordt geleverd in FOS v9.1.1c en hoger voorkomt deze storingen. Dezelfde oplossingen worden ook geleverd
in fos v9.2.0a en hogere versies van FOS v9.2.x. Upgraden naar deze versies van FOS voorkomt een overschrijding van frames als gevolg van
beheer van oversubscriptie en voorkomt ook "verificatie"-fouten op X7-directors.
Voor elke Gen 7-director of switch (X7-8, X7-4, 7730 en 7720) die nog steeds een versie van FOS v9.0.x uitvoeren en "in gevaar"
kunnen zijn om de beschreven problemen aan te gaan, is het raadzaam om te wachten op de release van FOS v9.1.1c voordat u een upgrade uitvoert.
Gen 7-directors en switches die momenteel werken op een v9.1.x- of v9.2.0-release en die risico lopen,
moeten de work-around implementeren. Het deactiveren van de actie Traffic Optimizer oversubscription management voorkomt dat
zowel de bufferoverschrijding als "verify"-fouten optreden. Na het upgraden naar v9.1.1c of v9.2.0a kan de actie voor beheer van oversubscriptie
opnieuw worden ingeschakeld via de volgende opdracht:
Voer de volgende CLI-opdracht uit vanuit het onderhoudsaccount om het gedrag van de actie voor het beheer van oversubscriptie opnieuw in te schakelen in Traffic Optimizer
onderhoud> serviceexec trafoptdebug --enableosclassification 1
OPMERKING: De onderhoudsopdracht moet worden uitgevoerd op alle logische switches in het chassis.
Elke Gen 7-director of switch die de fout "bufferoverflow" al heeft ondervonden, moet een koude herstart
uitvoeren om de foutconditie volledig te herstellen:
Bestuur: Schakel de bladeswitches van de betreffende poort
uit/op de sleuf: Start de switch opnieuw op (koude herstart)
Optie 1: Voer de bovenstaande herstartactie uit en implementeer vervolgens de work-around om de beheeractie voor oversubscriptie uit te schakelen vanuit de optie Traffic Optimizer
2: Voer een upgrade uit naar een versie van FOS met de oplossing en voer vervolgens de hierboven weergegeven herstartactie uit.
Upgraden naar een versie van FOS met de geboden oplossing voorkomt dat de fout "bufferoverflow" optreedt, maar
zodra de storing zich voordoet, zal alleen een koude herstart van de ASIC de storing verhelpen.
Upgraden naar een versie van FOS met de geboden oplossing voorkomt en herstelt automatisch van de foutconditie
"verifiëren" zonder verdere actie.
Na het upgraden naar een versie van FOS die de oplossing bevat, wordt een controle van het interne geheugen uitgevoerd om te bepalen of de director of switch de fout eerder heeft ondervonden en moet opnieuw worden opgestart om te herstellen van de foutconditie.
De volgende RASlog wordt weergegeven als de foutconditie wordt gedetecteerd na het upgraden van FOS naar een versie met de oplossing:
2023/06/01-17:07:50 (GMT), [C5-1057], 5, SLOT 2 | CHASSIS, KRITIEK, Switch_3,
S10, C0: HW ASIC-chip heeft een inconsistente status = 0x1002.
Als de bovenstaande RASlog wordt waargenomen na het upgraden van FOS, heeft de director of switch eerder de fout "bufferoverflow
" ervaren voorafgaand aan de upgrade en moet een koude herstart worden uitgevoerd om de storing volledig te herstellen:
Bestuur: Schakel de bladeswitches van de betreffende poort
uit/op de sleuf: Start de switch opnieuw op (koude herstart)