NetWorker 故障处理指南:进程崩溃和核心转储
视频:Dell NetWorker:进程崩溃和核心转储故障处理综合指南
观看 YouTube 视频
验证以下每个故障处理步骤是否适用于您的环境。每个步骤都提供说明或文档链接,以消除可能的原因并在必要时采取纠正行动。这些步骤按最合适的顺序排列,以找出问题并确定正确的解决方案。请勿跳过任何步骤。
步骤1:收集信息 - 问题描述
要生成完整的问题描述,请解决以下问题:
- 在什么情况下进程会崩溃。此行为是否一致?
- 以前有没有做得更好。
- 发生次数和观察到的行为趋势
— 问题是否仅在备份环境或备份或特定类型的备份组负载过重时发生。
- 问题首次发生的时间。然后发生了什么变化?
- 问题的范围是什么(所有客户端/某些客户端、所有备份目标或一些)
- 到目前为止,已经尝试修复了什么,以及从中得出了什么结论。
步骤 2:收集信息 - 环境
- 哪个 NetWorker 进程无响应以及在哪台计算机上(服务器、存储节点或客户端)。
- NetWorker 服务器版本和平台
- 备份数据区
的大小和性质概述 - 这些备份的目标介质
步骤 3:保障性
使用联机 NetWorker 兼容性指南,检查是否支持所有组件(NetWorker 服务器、文件系统版本、代理、存储节点、客户端、目标)。
- 检查是否不存在会导致进程崩溃(磁盘故障、磁盘已满、网络错误等)的基础操作系统或硬件缺陷。
步骤 4:最佳做法
NetWorker 性能优化规划指南包含若干建议的软件和硬件要求,以及为了获得经过优化调整的 NetWorker 环境而应实施的建议。应对此进行审查,以确保此数据区遵循最佳做法。如果进程在负载最重时发生无响应,则这一点很重要。
步骤 5:组件隔离
我们如何着手找出流程无响应问题的根本原因取决于步骤 1 中定义的行为。如果触发因素未知,可以执行测试以尝试确定触发崩溃的原因:
- 在高负载
下监控系统性能 - 检查崩溃前后的操作系统日志文件,了解行为
的共性 - 阅读 NetWorker 计划,以确定特定 NetWorker 计划活动的发生时间之间是否存在相关性。
- 找出在此计算机上运行的可能影响其行为的非 NetWorker 操作,以及它们的计划是否与崩溃时间相关。
- 如果崩溃持续发生,请更改一些参数以尝试缩小原因范围。 例如,备份到不同的目标介质或从同一 NetWorker 客户端备份不同类型的数据
步骤 6:解决方法
核心转储是一个特殊的文件,它表示进程在特定时间的工作内存的转储,通常是在程序异常终止时。 核心转储文件可用于诊断进程无响应的原因,方法是分析崩溃时进程的哪些功能正在运行以及正在访问哪些数据。
大多数操作系统不会自动生成核心转储文件。 必须修改操作系统参数,以便在进程崩溃时生成核心转储文件。 此修改必须在崩溃之前完成。
1) 检查 /nsr/cores 目录以查找 unix 或 linux 中 NetWorker 进程的最新核心转储,或检查 Windows 注册表中定义的崩溃目录(请参阅步骤 2)。
2) 如果没有,请检查操作系统是否设置为在进程崩溃时生成核心转储文件。 有关完整的详细信息,请参阅操作系统文档,但简而言之,这可能涉及在 linux 或 unix 中更改 ulimit -c 和 -f 值,以及在 Windows 中更改注册表。
对于 Windows 2008R2:
- 使用 http://msdn.microsoft.com/en-us/library/bb787181(VS.85).aspx 中提供的新密钥更新注册表。
- 使用建议的值,在 C:\Users\Administrator\AppData\Local\CrashDumps
- Enable full crash dumps中创建转储文件。
3)核心文件可以在主机上检查,也可以打包在另一台机器上进行分析。 有关如何打包这些核心文件的详细信息,请参阅此处:
UNIX 和 Linux 核心文件打包:
489272:如何收集核心/故障转储信息和相关日志
对于 Windows,请按照以下说明进行操作:
198564:如何在 Windows
上收集挂起进程的内核和用户转储 4) 分析可用数据:
- 操作系统日志文件
- 来自 NetWorker 服务器和相关存储节点的 NetWorker 守护程序日志文件。
- 核心文件或崩溃文件
对核心文件的详细分析需要对 NetWorker 内部操作有深入的了解,应由 EMC NetWorker 支持人员完成。 但是,可以对核心文件进行初始读取,以将核心文件的内容与已知问题进行比较。
Linux 和 HP-UX
gdb [完整处理路径] [核心文件]
(gdb) 其中
AIX
dbx [完整处理路径] [核心文件]
(dbx) 其中
Solaris
pstack [ 核心文件 ]
dbx [完整处理路径] [核心文件]
(dbx) 其中
Windows
- 启动 windbg windows 调试程序
- 单击文件并在 windbg 中打开转储文件。
- 在底部命令窗口中键入 analyze --v 以检索完整信息。
5) 根据上述分析和有关系统行为的知识,您可以将事件与最新版本的 NetWorker 发行说明中详细介绍的已知问题列表进行比较。
步骤 7:高级调试(如果需要)
如果您怀疑造成无响应过程的 NetWorker 软件中存在故障,则必须打包崩溃文件(请参阅步骤 3),并将其与观察到的行为的完整描述一起提供给 Dell Technologies NetWorker 支持,以便对问题进行详细分析。