NetWorker:对 NetWorker 中的磁带库问题进行故障处理
摘要: 本文旨在帮助 NetWorker 支持人员和 NetWorker 备份管理员处理磁带库相关问题并进行故障处理。
说明
在调查磁带库问题之前,请务必考虑以下事项:
- 磁带机读取数据和标签以及将数据和标签写入介质并提供所有介质功能,并且不能移动盒式磁带本身
- Tape LIBRARIES 将介质盒式磁带从一个元素移动到另一个元素:驱动器、插槽以及导入和导出端口,并且不读取或写入任何数据
如果由于无法移动盒式磁带而导致 NetWorker作失败,则有几种可能的常规原因:
- 库自动器或内部的硬件或固件问题
- NetWorker 主机与磁带库机器人通过传输的连接问题
- NetWorker 主机和库之间的作系统、驱动程序或兼容性问题
- 与磁带库类型、状态和寻址相关的 NetWorker 配置问题
按时间顺序执行以下步骤,以帮助确定问题的性质,并可能解决问题。如果本文档无法解决该问题,它将提供一些测试来缩小问题范围,并帮助专家继续工作。
1.环境信息
从 NetWorker 服务器和受影响的存储节点:
- 主机名、作系统类型和版本。
- NetWorker 版本号和内部版本号。
- “”
inquire“命令,以显示磁带和库。 - 当前
nsrdb(如果需要,保留当前自动存储塔信息,以便回滚)
Linux:/nsr/res/nsrdb
Windows(默认值):C:\Program Files\EMC NetWorker\nsr\res\nsrdb - 存储节点、库的 NetWorker 名称以及受影响的节点、设备和卷的列表
- 问题的共性(特定卷、特定驱动器、特定节点等)
nsrget -o:d 在受影响的服务器和节点上。
-o:d 在磁带繁忙写入的任何主机上。您可以从 NetWorker Management Console (NMC) 的 监视 -> 设备下查看此 信息。
以下文章提供有关获取和使用 NSRGET 的信息:NetWorker:如何使用 NSRGet NetWorker 数据收集工具(英文版)
2.测试磁带库的就绪性
- 检查受影响库的存储节点所有者是否已启用并准备就绪:
- 在 NMC 中,转至 设备 ->存储节点。
- 确保 已启用查看 ->诊断模式 。
- 检查右侧窗格中的 Enabled 和 Ready 列。
- 如果预期已启用的存储节点未启用,请右键单击该存储节点,然后单击 启用/禁用 以 将其启用 。
- 如果存储节点未能在一两分钟内变为 Ready ,则必须单独跟进;库无响应,因为其存储节点无法访问。
- 检查受影响的库是否已启用并准备就绪:
- 在 NMC 中,转至设备 ->库。
- 确保 已启用查看 ->诊断模式 。
- 检查右侧窗格中的 Enabled 和 Ready 列。如果库显示 “就绪 ”状态,请继续执行 [
4]. - 如果未启用,您可以右键单击左侧的库实例,然后选择“启用/禁用”以重新启用它。
- 启用后,等待一两分钟,再次单击“库”容器,查看“就绪”列中是否出现绿色勾号。
- 如果库未准备就绪,请右键单击左侧的库实例,选择 属性,然后在 常规 选项卡上,确保 控制端口 值与
scsidev@#.#.#您从inquire命令验证每个 SP 是处于正常模式还是修复模式。 - 如果 控制端口 不匹配,请将“已启用 ”设置为 “否 ”,然后单击 “确定”;然后重新输入属性,并更改 控制端口 以匹配
inquire地址已发现。更新 控制端口后,将“已启用 ”更改回 “是”,然后再次单击“ 确定 ”以重新启用。等待一两分钟,以查看库是否变 为 Ready。 - 最后,如果在更正 控制端口 值后不允许库变 为 Ready,则最后一次输入库的属性;在 “高级 ”选项卡下,将“ 调试跟踪级别 ”设置为 5;并 再次禁用 并 重新启用 ,以在守护程序日志中捕获两分钟的启动顺序。
在 [2.2],确认 nsrlcpd 在预期的存储节点上启动。此外,请检查它未独立停止或重新启动。如果进程 ID (PID) 继续更改,则表明进程已被软件或转储核心停止或终止。此外,请注意服务器和存储节点之间的名称解析问题,这可能会阻止启动。服务器为节点解析的名称应与节点自己的 nsrladb 名称以及服务器的节点名称相匹配。
- 有关库就绪性问题的高级故障处理信息,请参阅 NetWorker 中的磁带库就绪问题疑难解 答。
- 请参阅 NetWorker 故障处理指南:如果您看到或怀疑节点的
nsrexecd开始,nsrsnmd或nsrlcpd是核心倾销。
有关 NetWorker 每主机进程的详细概述,请参阅:NetWorker 进程和端口
有关这些服务的消息记录在主机的 daemon.raw管理此进程:
- Linux:
/nsr/logs/daemon.raw - Windows(默认值):
C:\Program Files\EMC NetWorker\nsr\logs\daemon.raw - NetWorker:如何使用nsr_render_log呈现.raw日志文件
3.确定库的响应度:
如果库未准备就绪,并且您无法确定原因,请确保可以联系到库本身:
- 检查每个节点池的
inquire节点的输出来自 [1.3],确保磁带库在输出中显示为“Autochanger”,并记下 SCSI#.#.#地址。 - 如果库未出现在
inquire输出,请检查以确保作系统可以检测到它。如果库已在 NetWorker 中配置和启用,则 Solaris 主机不会报告该库。有关帮助,请参阅 NetWorker 中的磁带库检测问题疑难解答。 - 确保库能够响应基本库命令。使用[
3.1], run:'sjisn #.#.#'.有关库测试命令的更多信息,请查看 对 NetWorker 中的磁带库访问问题进行故障处理。 - 如果 SJI 命令失败,请考虑传输或硬件问题的可能性:请参阅 NetWorker 中的磁带库硬件问题故障处理 以获得帮助。
- 如果问题是作系统未发现库,并且正确响应 SJI 命令,NetWorker 无法发现,请尝试使用
jbconfig命令并选择选项 2;如果这不起作用,请尝试选项 4,手动提供磁带库地址并配置为标准磁带库(选项 56)。有关详细信息,请参阅 NetWorker 中的磁带库配置问题故障处理 。
4.测试磁带移动和卷运行状况
如果库已准备就绪并且看起来响应迅速,但在加载卷时遇到问题,则可能有许多不同的原因。
- 如果可能的话,清空整个库;如果可以停止其他作,请右键单击,然后从设备 ->库选项卡中重置库。
- 尝试将单个磁带盒加载到单个设备中,其中两个设备都被认为受到加载问题的影响;在每次尝试后根据需要卸载。
- 与不同驱动器中的相同卷以及被认为受影响的驱动器中的不同卷进行比较;请记下错误和模式(如果有)。
- 如果卷加载可靠地失败,而不考虑设备,请尝试以下标签检查:
- 加载卷而不安装,如果盒式磁带移动时没有错误,则您已验证臂的机械功能正常。
- 在该服务器上运行
nsrmm -pv -f networker_device如果它使用已验证标签进行响应,则您已验证介质也有效且运行状况良好。 - 在 库的属性中,在启用 诊断模式 的情况下,转到 计时器 选项卡,然后将 加载睡眠 设置为 60 ,然后单击 确定。
- 卸载卷,然后尝试重新加载卷(如果现在成功),则问题可能是计时问题(您可以尝试使用较低的睡眠值,直到它再次开始失败)。
- 如果
nsrmm命令失败,需要进一步测试。通过右键单击并选择 启用/禁用,在 NMC 中禁用有问题的驱动器。- 运行
scanner设备上的命令:- 对于 NetWorker 服务器的本地存储节点,请运行:
scanner -nizv local_device - 对于在“远程”NetWorker 存储节点上,运行:
scanner -s server -nizv local_device
- 对于 NetWorker 服务器的本地存储节点,请运行:
- ~20 行后折断并检查标签读取消息;成功通过下式表示
8936:scanner: scanning media_type tape volume_name on device_name。 - 如果
scanner返回消息 unexpected file number, wanted 2, got higher_number data loss has occurred, most could due to SCSI reset;检查对 NetWorker 中的覆盖标签和 SCSI 重置进行故障处理。
- 运行
- 如果
scanner返回一个message 8945:scanner: Read: -1 bytes确定是否可以在其他节点或驱动器上读取卷,并确定问题的趋势。如果您发现某些卷可以在某些节点上读取,但不能在其他节点上读取,并且设备为 LTO-4 或更高版本,请考虑驱动器解密失败:LTO 硬件加密和 NetWorker。
有关更高级的介质验证信息,请参阅:对 NetWorker 中的介质装载问题进行故障处理。
5. 测试驱动器排序问题
如果加载和装载命令成功,但标签读取或简单装载失败,则问题可能与驱动器顺序不正确有关。
- 如果可能的话,清空整个库;如果可以停止其他作,请右键单击,然后从设备 ->库中重置库。
- 尝试将单个磁带盒加载到单个设备中,其中两个设备都被认为受到加载问题的影响;在每次尝试后根据需要卸载。
- 与不同驱动器中的相同卷以及被认为受影响的驱动器中的不同卷进行比较;请记下错误和模式(如果有)。
- 如果负载可靠地失败,请尝试以下标签检查:
有关库加载问题的更高级帮助,请参阅:对 NetWorker 中的磁带库加载问题进行故障处理。
如果所有这些测试都失败,并且您没有进一步的测试,请确保在本文中记录每个步骤的结果,并联系 NetWorker 支持。清晰的细节对于加快解决方案的制定以及减少“重复步骤”至关重要。