大家好!欢迎观看 iDRAC 培训系列视频。在本视频中,我们将介绍如何处理 iDRAC 的连接故障。在故障处理的第一步中,我们首先要提出几个基本问题。请看下面这些问题。您能 Ping 通 iDRAC 吗?我们可以借此了解是否有最基本的连接能力。此外还要注意,许多监视工具都要求执行 Ping 测试。例如,如果发现设备故障,但您仍能访问 Web 界面。下一个问题是,其他远程协议能否响应?这可能涉及到 PuTTY 或其他 SSH 软件等。
例如,这有助于确定 Web 界面是否无响应。再下一个问题是,风扇是否在以 100% 的转速旋转?有些时候,客户可能会抱怨服务器风扇的噪声突然变得非常大。这可以引出下一个问题,即:在 POST 时是否会收到有关初始化的错误?如果看到此类消息,则可以清楚地确定我们的 iDRAC 存在某种内部问题。如果我们能进入 iDRAC 网页,首先要尝试的做法之一是重置 iDRAC,因为重新启动通常可以解决很多问题。如果无法访问网页并且收到初始化错误,则需要让客户释放残余电量。
为此,我们需要将服务器的电源断开大约五分钟。然后重新插上系统电源,看看是否仍然存在初始化错误或 iDRAC 问题。接下来的故障处理步骤是检查 iDRAC 配置。我们要尝试的第一件事是连接到 iDRAC CLI,并运行“racadm getniccfg”。在这里,我们可以看到链路检测状态,了解当前使用是哪个 NIC,还可以看到 IP 配置。接下来,运行“get idrac.nic.vlanenable”命令,确定 VLAN 配置是否有误。然后看一下 iDRAC 的 BIOS 菜单设置。
按 F2 键进入“System Setup”,单击其菜单中的“iDRAC Settings”。在“Settings”菜单中,单击“Network”部分。从这里可以看到与我们先前使用 SSH 控制台时相同的设置。我们可以配置 NIC 选择,也可以向下滚动查看 IP 配置。滚动到底部还可以看到 VLAN 设置,并验证其配置是否正确无误。下一个选项是收集 TSR,这也称为 SupportAssist 收集。依次单击“Maintenance”、“SupportAssist”,然后单击“Start a Collection”。在“Data to Collect”列表中,选中“Debug Logs”复选框通常很有帮助。选择完毕后,单击“Collect”按钮。这需要几分钟时间才能完成。如果选中了“Debug Logs”,此操作可能需要 10 到 15 分钟完成。
完成后,将文件包保存到桌面。下载文件包之后,将其拖放到 Tesseract 程序中,您也可以将其解压,并查看其中的 HTML 数据。单击“Summary”,然后选择“Raw”选项。在这里可以搜索“ipv4”。可以在这个列表中检查和查看在“Static”或“DHCP”下都有哪些 IP 地址。我们可以确认 IP 地址、网关和网络掩码。再来试试搜索“nic.1”。我们可以检查活动 NIC 部分,确定它是否已经启用。如果向下滚动,还可以检查 VLAN ID,并查看 VLAN 是否已启用。如果配置看起来没有问题,或者活动 NIC 与 NIC 选择不符,可运行 RACADM 命令“racreset”来重新启动 iDRAC,或者如果有人在现场,也可按住“i”按钮 15 秒钟重新启动。
接下来,我们介绍缩小问题范围的一些关键步骤。首先是 iDRAC 能否 Ping 通网关?要对此进行测试,您可以通过 SSH 连接到 iDRAC,运行“racadm ping”命令,后接所需的相应地址。然后,iDRAC 能否在另外一个系统上正常工作?问题往往在于我们尝试用于连接的本地工作站。可能是浏览器问题、权限问题或其他网络问题。另外还要考虑,iDRAC 端口上的链路指示灯是否处于活动状态?您必须派人前往现场验证,但这有助于确认NIC 是否显示出了接通电源或建立连接的迹象。更换 iDRAC 端口会怎样?有可能只是某一个端口出现了故障。
通过更换 iDRAC 的通信端口,我们就能确认问题是仅限于某一个网络端口,还是系统存在其他问题。问题列表中的最后一项是:如果使用 iDRAC Direct 或直接插入笔记本电脑,能否正常访问?我们经常遇到超出我们控制能力的问题以及客户网络中的问题。原因可能是路由问题或站点之间的防火墙阻止了通信。如果无法从远程系统访问 iDRAC,则需要尝试直接连接到 iDRAC,从而执行本地测试。
如有必要,还可以重置 iDRAC 或在现场执行进一步的测试。在本视频的最后一部分中,我要介绍一个较为少见的问题,即未启用 iDRAC Web 服务器。有些时候,为了尝试加强网络安全性而配置 iDRAC 时,可能会因配置不当而引发这种问题。通过 SSH 连接到 iDRAC,并键入 RACADM 命令“get idrac.webserver”。通过输出可以看到,“Enable”属性设置为“Disabled”。这就是使用 SSH 时无问题,但使用网页浏览器时有问题的原因。要解决此问题,请键入 RACADM 命令 set idrac.webserver.enable enabled。现在,我们可以看到,Web 服务器已启用。刷新浏览器即可正常连接到网页。下面我们介绍作为最后手段的几种可选方案。
如果我们不得不擦除 iDRAC 的配置,但仍然可以连接到它,则可以运行 RACADM 命令“Racresetcfg”。在第 13 代系统上,这会将所有内容重置为出厂设置。在最新的第 14 代系统上,这会重置除网络和 root 用户账户之外的所有设置。如果您想执行此操作,则需要在命令末尾添加可选的“-rc”开关。下一个可选方案是关闭后再打开服务器,然后选择 F10 启动选项,以启动并进入 Lifecycle Controller。进入其中后,需要选择“Hardware Configuration”菜单。然后选择“Repurpose or Retire System”。在这里可以看到,有多个可以重置的选项。
我们可以选择“iDRAC”,然后单击“Next”。第三个可选方案是启动并进入 F2 BIOS 菜单。从中选择“iDRAC Settings”。然后滚动到页面底部。这是第 14 代系统,所以我们看到了两个不同的重置选项。最后这种可选方案是使用 LC 擦除方法。从本质上来说,这就是远程发送到 iDRAC 的停用和调整用途方法。所有系统都将重置为出厂设置,而不仅限于 iDRAC。这种方法需要用到客户的配置备份,以及下载的 iDRAC 许可证副本。
只要涉及到重置,明智之举始终是备份这些数据,但这在使用 LC 擦除方案时尤为重要,因为这会从系统中删除许可证。为了确保这种方法正常工作,我们需要一个可以远程访问 iDRAC 的 Windows 系统。键入屏幕上所示的 winrm 命令。您需要使用正确的用户名、密码和 iDRAC IP 替换方括号中的项目。将此命令发送到 iDRAC 后,系统大约需要十分钟时间完成主机的重置和重新启动。
感谢您抽出宝贵的时间,观看这一有关 iDRAC 连接故障处理的视频。