目錄
- 描述名稱
- 在系統記錄中識別 CPU IERR
- 解決 CPU IERR
- 作業系統問題
說明
CPU 內部錯誤 (CPU IERR) 或 CPU 機器檢查錯誤通常
並非 CPU 本身的錯誤。這表示 CPU 已偵測到系統內的錯誤,或收到來自系統元件的錯誤指示。這並非由 CPU 事件所造成,例如韌體不相符、系統匯流排中斷,或是記憶體讀取/寫入中斷。此錯誤理論上的原因可能來自任何系統元件、軟體或硬體所造成。
本文包含處理這些錯誤的最佳做法,且適用於所有 PowerEdge 伺服器。
警告:請勿移除 CPU!CPU IERR 錯誤很少是因 CPU 故障而造成,而 CPU 的參考僅取決於回報該錯誤的模組。儘管您可能已經在部分故障診斷網站或論壇中閱讀過相關內容,但除非經過訓練並具備進行此操作的工具,否則請務必避免移除 CPU。
在系統事件記錄中識別 CPU IERR
系統事件記錄中顯示的 CPU 內部錯誤為「CPU 1 發生內部錯誤 (IERR)」或「CPU 2 發生內部錯誤 (IERR)」。
圖 1:顯示 CPU IERR 的 DSET
解決 CPU IERR
若要解決此錯誤,請按照結構化的故障診斷計畫進行,以判斷造成錯誤的元件,以及如何解決此錯誤。
1.
檢查系統事件記錄,以瞭解所有與 CPU IERR 同時發生的其他錯誤。
2.如果發現任何其他錯誤,請先解決這些錯誤。解決錯誤的方法取決於所識別的錯誤。
3.將 BIOS 和 iDRAC 韌體更新至最新版本。
- 本文說明使用 iDRAC 介面更新 BIOS 或 iDRAC 的方法。
- 如果無法使用 iDRAC,下列教學文章列出其他更新方法。
4.在 Open Manage Server Administrator 或 iDRAC 中清除系統事件記錄 (兩者做法皆為透過開啟事件記錄、捲動至底部,並按下「清除記錄」)。舊的 CPU IERR 錯誤會在解決錯誤後產生警示,除非已從系統事件記錄中清除。
5.如果找不到任何錯誤,或是傳回 CPU IERR,請關閉系統、拔下電源線,並按住伺服器的電源按鈕 20 秒,然後再插回電源纜線並重新開啟系統。此程序稱為微量電力排出。
6.如果錯誤仍然存在,請聯絡技術支援以取得進一步協助。聯絡選項如下。
作業系統問題
部分作業系統事件可能會導致在系統事件記錄中紀錄 CPU IERR。其中包括下列項目:
- 嚴重的核心錯誤、
- 第三方程式互動、
- 執行階段嚴重停止,或
- 資源超額分配。
這是因為 CPU 將這些程式識別為無法辨識,並發出 CPU IERR 回應。
如果 CPU IERR 是由作業系統事件所造成,則應檢查作業系統事件記錄,並交叉參照伺服器系統事件記錄,以識別導致 CPU IERR 的作業系統事件。識別作業系統事件後,應聯絡作業系統供應商,以協助解決此問題。