Når det er inkludert støtte for watchdog-maskinvare, kan systemet nå utføre funksjonen til en watchdog daemon Linux. På Dell PowerEdge-systemer kan denne maskinvaren enten være overvåkingstidtakeren for brikkesett som er innebygd i plattformens brikkesett (for eksempel Intel ICH9) eller Dell iDRACs IPMI-kompatible BMC Watchdog-tidtaker.
Dell iDRAC gir automatisert systemgjenoppretting . I tillegg til gjenoppretting fra låsing av operativsystemet kan du ta et skjermbilde for analyse senere. Det var nødvendig med ekstra programvare på operativsystemet for å aktivere dette. Med nyere distribusjoner som støtter systemet, fungerer denne funksjonen med programvare som er tilgjengelig i en distribusjon, noe som eliminerer behovet for tilleggsprogramvare.
Det var imidlertid mulig å bruke den watchdogd daemon på Linux, men det var en sannsynlighet for at daemonen selv kunne låse seg mens resten av systemet var i drift. systemd fungerer som programvareovervåkning for alle systemtjenester, og BMC Watchdog Timer fungerer som maskinvareovervåkning for selve systemet. Hvis systemet ikke fungerer, er det en god sjanse for at systemet generelt sett ikke kan brukes. Derfor har vi nå en mer pålitelig metode for at alle systemtjenester skal overvåkes av BMC-overvåkingstidtakeren.
Limet mellom systemet og Dell iDRACs BMC Watchdog er ipmi_watchdog kjernemodulen, som gir Linux Watchdog API-tilgang til BMC Watchdog ved hjelp av /dev/watchdog. Systemd bruker dette grensesnittet til å starte overvåkingen med jevne mellomrom.
Konfigurere system med ipmi_watchdog
Systemd kan konfigureres til å bruke iDRAC BMC Watchdog med disse trinnene (på Fedora 19):
- Siden systemet har to watchdog-tidtakere (brikkesett og BMC), kan vi bruke én av dem. I dette eksempelet deaktiverer vi brikkesettovervåkningen. Brikkesettovervåkningen kan deaktiveres ved å angi alternativet "Operating system Watchdog Timer" (Overvåkingstidtaker for operativsystem) i system-BIOS til "Disabled" (Deaktivert) (standard).
- Motta en verdi for tidsavbrudd for overvåkningen, og si 180 sekunder.
- Aktiver ipmi_watchdog kjernemodulen for å laste ved systemoppstart med tidsavbruddet ovenfor:
- Fremgangsmåte 1: Opprett /etc/modules-load.d/ipmi_watchdog med følgende innhold
- Alternativer ipmi_watchdog tidsavbrudd = 180
- Nekt liste iTCO_wdt # valgfritt. Hvis brikkesettovervåkningen ikke er deaktivert i BIOS-oppsettet.
- Fremgangsmåte 2:
- Installer OpenIPMI rpm
- $ sudo yum install OpenIPMI
- Angi IPMI_WATCHDOG=yes og IPMI_WATCHDOG_OPTIONS med tidsavbruddet i /etc/sysconfig/ipmi.
- Aktiver ipmi-tjenesten til å starte automatisk
- $ sudo systemctl aktiver ipmi
- Aktiver systemets watchdog:
- Avslutte og angi RuntimeWatchdogSec=180 i /etc/systemd/system.conf
- Start systemet på nytt
- # systemctl daemon-reexec
Test om dette fungerer:
- Kontroller om watchdog er aktiv
- $ sudo journalctl |grep -i 'hardware watchdog' # skal vise at systemet er konfigurert til å bruke IPMI Watchdog.
- $ sudo ipmitool mc watchdog get # check if the "Watchdog Timer Is: Started/Running.» (Startet/kjørt)
- Test ved å simulere en kjernekrise (ikke gjør dette på et produksjonssystem). Kontroller at kdump er deaktivert.
- $ sudo echo c > /proc/sysrq-trigger
- Etter at systemet er tilbakestilt, må du kontrollere at et bilde av feilskjermbildet er tilgjengelig i iDRAC
- Logg på webgrensesnittet for iDRAC
- Oversikt – > Server -> Troubleshooting -> Last Crash Screen (Siste krasjskjermbilde).