目录
- 描述
- 识别系统日志中的CPU IERR
- 解决CPU IERR
- 操作系统问题
描述
CPU 内部错误 (CPU IERR) 或 CPU 机器检查错误通常不是
CPU 本身的错误。而是 CPU 在系统中检测到错误或从系统组件接收到错误指令的迹象。它是由诸如固件不匹配、系统总线中断或内存读/写中断之类的非 CPU 事件引起。理论上,错误可能由任何系统组件、软件或硬件引起。
本文介绍处理这些错误的最佳实践,对所有 PowerEdge 服务器有效。
警告:请勿卸下 CPU!CPU IERR 错误很少由 CPU 故障引起,对 CPU 的引用完全基于已报告错误的模块。尽管您可能在一些故障排除网站或论坛上看到这些内容,但除非经过培训并配备了相应的设备,否则请勿卸下CPU。
在系统事件日志中识别 CPU IERR
CPU 内部错误在系统事件日志中显示为“CPU 1 has an internal error (IERR)”或“CPU 2 has an internal error (IERR)”。
图 1:显示 CPU IERR 的 DSET
解决 CPU IERR
要解决此错误,请按照故障处理的结构化计划确定哪个组件导致了该错误以及如何解决该错误。
1.
检查系统事件日志以查找是否有与CPU IERR同时发生的任何其他错误。
2.如果发现任何其他错误,请先解决这些错误。解决错误的方式将取决于所发现的错误。
3.将BIOS和iDRAC固件更新为最新版本。
- 这篇文章介绍了如何使用 iDRAC 界面更新 BIOS 或 iDRAC。
- 如果 iDRAC 不可用,以下教程文章中列出了其他更新方法。
4.清除系统事件日志。也就是说,在Open Manage Server Administrator或iDRAC(对于两者,打开事件日志,滚动到底部并按“clear log”[清除日志]),除非从系统事件日志中清除了旧的CPU IERR错误,否则在错误解决后,它们将引起警报。
5.如果未发现错误,或CPU IERR重现,请关闭系统、拔下电源线并按住服务器电源按钮20秒,然后再插回电源线并重新打开系统。这个过程被称为释放残余电量。
6.如果错误仍然存在,请联系技术支持以获得进一步帮助。下面提供了联系人选项。
操作系统问题
某些操作系统事件可能导致在系统事件日志中记录 CPU IERR。这些事件包括:
- 致命的内核错误、
- 第三方程序交互、
- 运行时关键停止或
- 资源超量使用。
这是因为 CPU 将进程标识为未识别并在响应中断言 CPU IERR。
如果 CPU IERR 是由操作系统事件引起的,则应检查操作系统事件日志并与服务器系统事件日志互相对照,以确定导致 CPU IERR 的操作系统事件。一旦确定此操作系统事件,应联系操作系统供应商以帮助解决问题。