Symptoms
La GUI di Unisphere e la CLI non sono più accessibili dopo aver tentato di modificare le impostazioni DNS. Il riavvio dei servizi di gestione non risolve il problema. È stato inoltre stabilito che ECOM non viene eseguito su SP o rimane in esecuzione per più di 10 minuti.
Il tentativo di utilizzare il seguente articolo della KB per riavviare MGMT non risolve il problema:
Dell Unity: Impossibile accedere a Unisphere Il sistema è occupato. Riprova più tardi (correggibile dall'utente)
https://www.dell.com/support/kbdoc/000056109
Command: svc_restart_service restart MGMT
La raccolta di raccolte di dati ha mostrato che erano presenti dump file ECOM.
Il riavvio di ogni SP per kb 000021439 ha consentito a ECOM di funzionare, ma solo per 10 minuti alla volta.
Dell Unity: Come ripristinare o risolvere i problemi quando il servizio di gestione (ECOM) non è in esecuzione su SP (correggibile dall'utente)
https://www.dell.com/support/kbdoc/000021439
Cause
Il problema si verifica quando un comando DNS "papi_clust_set.sh dns xxx" è scaduto e ha causato un errore irreversibile di ECOM. Può verificarsi anche quando si utilizza Unisphere per modificare le impostazioni DNS o per rimuovere un nuovo server DNS.
Nota: Lo strumento IPMI deve essere utilizzato per connettersi a uno dei due SP per la risoluzione dei problemi poiché ECOM è inattivo.
La valutazione e la revisione dei log hanno mostrato processi batch sospesi da un tentativo non riuscito di apportare modifiche DNS al sistema Unity.
Il comando utilizzato per controllare: uemcli /sys/task/job show -detail I log interni hanno mostrato quanto segue:
cemtracer_sysapi logs 18 Jul 2023 21:51:36 - [SYSAPI] ERROR - {0:777251:881779993}[1053|3741|f70d6b40][doTimeoutAction @ /c4_working/Unity_PullRequest_Build_Driver_Sles15_RTM_1.1/clariion/components/adapters/SystemAPI/framework/src/ConfigMgr.cpp:403] Timeout action (poll): abort Aborting the system.
I dump ECOM possono mostrare segni simili a quelli riportati di seguito:
Viene visualizzata la ricerca di "errore" in cemtracer_sysapi.log:
xx Nov xxxx 13:27:52 - [SYSAPI] ERROR - {0:24803979:204377483}[18921|28516|f70d6b40][_watchDogRoutine @ /c4_working/Unity_PullRequest_Build_Driver_Sles15_RTM_1.1/clariion/components/adapters/SystemAPI/framework/src/UpdateManagerImpl.cpp:1511] Watch dog poll request timeout occured. Now:24803979204 TimeGap:900621 Is in Poll:0
xx Nov xxxx 13:27:52 - [SYSAPI] ERROR - {0:24803979:205104121}[18921|28516|f70d6b40][_watchDogRoutine @ /c4_working/Unity_PullRequest_Build_Driver_Sles15_RTM_1.1/clariion/components/adapters/SystemAPI/framework/src/UpdateManagerImpl.cpp:1512] PerfStatReport:
xx Nov xxxx 13:27:52 - [SYSAPI] ERROR - {0:24803979:206876577}[18921|28516|f70d6b40][_watchDogRoutine @ /c4_working/Unity_PullRequest_Build_Driver_Sles15_RTM_1.1/clariion/components/adapters/SystemAPI/framework/src/UpdateManagerImpl.cpp:1516] dependencyMap:
xx Nov xxxx 13:27:52 - [SYSAPI] ERROR - {0:24803979:206905718}[18921|28516|f70d6b40][doTimeoutAction @ /c4_working/Unity_PullRequest_Build_Driver_Sles15_RTM_1.1/clariion/components/adapters/SystemAPI/framework/src/ConfigMgr.cpp:403] Timeout action (poll): abort
xx Nov xxxx 23:16:07 - [SYSAPI] ERROR - {0:1379:344272630}[2919|6108|f17ffb40][Poll @ /c4_working/Unity_PullRequest_Build_Driver_Sles15_RTM_1.1/clariion/components/adapters/SystemAPI/framework/src/TLDPollManager.cpp:383] Admin PEER poll request failed.Error Code = 7e110000.
xx Nov xxxx 23:16:58 - [SYSAPI] ERROR - {0:1429:454592292}[2919|20591|d79ffb40][performRequestBase @ /c4_working/Unity_PullRequest_Build_Driver_Sles15_RTM_1.1/clariion/components/adapters/SystemAPI/framework/src/util/TLDUtils.cpp:346] Admin failed to process request (err = 2115043355):
TAG_K10_ERROR_PACKET (0x10004)
TAG_K10_ERROR_CODE (0x10005) num: 2115043355 (0x7e11001b) str: "...~" hex: 1b:0:11:7e
xx Nov xxxx 23:31:15 - [SYSAPI] ERROR - {0:2286:652151017}[2919|6535|f70d6b40][_watchDogRoutine @ /c4_working/Unity_PullRequest_Build_Driver_Sles15_RTM_1.1/clariion/components/adapters/SystemAPI/framework/src/UpdateManagerImpl.cpp:1511] Watch dog poll request timeout occured. Now:2286652 TimeGap:900650 Is in Poll:0
xx Nov xxxx 23:31:15 - [SYSAPI] ERROR - {0:2286:652504752}[2919|6535|f70d6b40][_watchDogRoutine @ /c4_working/Unity_PullRequest_Build_Driver_Sles15_RTM_1.1/clariion/components/adapters/SystemAPI/framework/src/UpdateManagerImpl.cpp:1512] PerfStatReport:
xx Nov xxxx 23:31:15 - [SYSAPI] ERROR - {0:2286:653466119}[2919|6535|f70d6b40][_watchDogRoutine @ /c4_working/Unity_PullRequest_Build_Driver_Sles15_RTM_1.1/clariion/components/adapters/SystemAPI/framework/src/UpdateManagerImpl.cpp:1516] dependencyMap:
xx Nov xxxx 23:31:15 - [SYSAPI] ERROR - {0:2286:653504952}[2919|6535|f70d6b40][doTimeoutAction @ /c4_working/Unity_PullRequest_Build_Driver_Sles15_RTM_1.1/clariion/components/adapters/SystemAPI/framework/src/ConfigMgr.cpp:403] Timeout action (poll): abort
Resolution
Questo problema è stato risolto in Unity OE 5.2.0 e versioni successive. Se vengono trovati job che hanno smesso di rispondere, contattare il supporto tecnico Dell e citare questo articolo. I job sospesi possono essere visualizzati in Unisphere nella sezione Event/Jobs. Il supporto contribuirà alla cancellazione dei job sospesi utilizzando la sezione Internal della kb 000059274.
Dell Unity: Eliminazione di processi batch bloccati o sospesi, codice di errore: 0x7d13151 (correggibile
da
Dell)
https://www.dell.com/support/kbdoc/en-us/000059274/dell-emc-unity-deleting-stuck-or-suspended-batch-jobs-error-code-0x7d13151 Dopo aver rimosso i job sospesi, il servizio ECOM deve essere riavviato utilizzando l'000019807 della KB.
Dell Unity: Come eseguire un failover dei servizi di gestione (ECOM) (correggibile da Dell)
https://www.dell.com/support/kbdoc/000019807
Riferimento: UnityD-54308, UnityD-59297, UEE-16306, UEE-17969
Affected Products
Dell EMC Unity