跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表

使用 Systemd 進行自動化系統復原

摘要: 在納入監視程式硬體支援後,Systemd 現在可在 Dell PowerEdge 系統上執行監視程式精靈 Linux 的功能。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

納入此超連結會帶您前往 Dell Technologies 以外的網站監視程式此超連結會帶您前往 Dell Technologies 以外的網站 硬體支援後, Systemd此超連結會帶您前往 Dell Technologies 以外的網站 現在可以執行 Watchdog daemon Linux 的功能。在 Dell PowerEdge 系統上,此硬體可能是內建于平臺晶片組 (例如 Intel ICH9) 的晶片組監視程式計時器,或 Dell iDRAC 符合 IPMI 規範的 BMC Watchdog 計時器。

Dell iDRAC 提供 自動系統複 原功能,除了從作業系統鎖定中復原之外,還可于稍後擷取螢幕擷取畫面以供分析。作業系統上必須 有其他軟體 才能啟用此功能。在支援系統化的新版本下,此功能可搭配原生髮布中可用的軟體使用,無需使用附加軟體。

然而,在 Linux 上可以使用監視的精靈,但在系統其餘部分運作時,精靈本身可能會鎖定。系統可作為所有系統服務的軟體監視程式,而 BMC 監視程式計時器則是系統本身的硬體監視程式。因此,如果系統無法運作,則系統一般會無法使用。因此,我們現在為所有系統服務提供更可靠的方法,即服務的管理員 (systemd) 會被 BMC 的監視程式計時器「影響」。

系統與 Dell iDRAC 的 BMC 監視程式之間的黏膠是ipmi_watchdog核心模組,可讓 Linux Watchdog API此超連結會帶您前往 Dell Technologies 以外的網站 使用 /dev/watchdog 存取 BMC 監視程式。Systemd 會使用此介面定期啟動監視程式。

使用 ipmi_watchdog 設定系統

系統可設定為使用 iDRAC BMC 監視程式與這些步驟 (在 Fedora 19):

  1. 由於系統有兩個監視程式計時器 (晶片組和 BMC),我們可以使用其中一個。在此範例中,我們停用晶片組監視程式。可將系統 BIOS 中的「作業系統監視程式計時器」選項設為「Disabled」(已停用) (預設值),以停用晶片組監視程式。
  2. 以 Watchdog 的逾時值 (如 180 秒) 到達。
  3. 啟用ipmi_watchdog核心模組,以在系統啟動時載入上述逾時:
  • 方法 1:使用下列內容建立 /etc/modules-load.d/ipmi_watchdog
    • 選項 ipmi_watchdog逾時 = 180
    • Deny list iTCO_wdt # Optional(拒絕清單iTCO_wdt # 選用)。如果在 BIOS 設定中未停用晶片組監視程式。
  • 方法 2:
    • 安裝 OpenIPMI rpm
      • 安裝 OpenIPMI 的 $sudo yum
    • 在 /etc/sysconfig/ipmi 中設定IPMI_WATCHDOG=yes,並IPMI_WATCHDOG_OPTIONS逾時。
    • 啟用 ipmi 服務以自動啟動
      • $sudo systemctl enable ipmi
  • 啟用 Systemd 的監視程式:
    • 取消批示並設定 RuntimeWatchdogSec=180 in /etc/systemd/system.conf
  • 重新開機系統
    • # systemctl daemon-reexec

測試這是否有效:

  1. 檢查監視程式是否作用中
    • $sudo journalctl |grep -i 'hardware watchdog' # 應顯示系統已設定為使用 IPMI 監視程式。
    • $sudo ipmitool mc watchdog get # 檢查是否為「Watchdog Timer:開始/執行。」
  2. 透過仿效核心錯誤進行測試 (請勿在生產系統上執行此操作)。請確定 kdump 已停用。
    • $sudo echo c > /proc/sysrq-trigger
  3. 系統重設後,請確認 iDRAC 中有可用故障畫面的映射
    • 登入 iDRAC Web UI
    • 概觀 ->伺服器 ->故障診斷 ->上次當機畫面。
注意:此功能目前不受 Dell 支援,並在此分享,目的是在適用于 PowerEdge 伺服器的 Linux 資源中,向社群索取意見反應。
文章属性
文章编号: 000146106
文章类型: How To
上次修改时间: 17 8月 2024
版本:  7
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。