问题
性能问题可能有多种原因,包括网络配置、拥塞、主机配置、硬件故障、磁盘争用(共享相同驱动器的多个繁忙的 LUN)或存储阵列的最大利用率。
在提供以下内容之前,Unity 技术支持将无法对性能问题进行全面调查和故障排除:
- 服务数据文件 (Data Collect)
- UPA 文件(Unity 性能归档)
- 客户环境中遇到的症状的详细说明
如果未能及时提供此 LKB 中的信息,可能会导致更长的解决时间。
性能问题(症状、时间戳等)的详细信息至关重要,以便工程师知道要重点关注的位置(时间/LUN/主机/等),而不是花费几个小时来查找问题(而不是原因)。如果没有此详细信息,搜索问题可能需要花费数小时,我们可能只能分析一般性能统计信息。
范围
客户支持服务调查性能案例,以确定影响客户站点的问题。性能调整(为了实现主机或应用程序的峰值性能)和重新配置是存储管理员或解决方案架构师的任务,因此不会在中断/修复服务请求中处理。
不涉及实际问题的服务请求(例如请求阵列上当前工作负载级别的报告)不在支持协议范围之外。对于自助服务或需要帮助确定阵列上工作负载级别的人员,可以使用 LiveOptics 服务。有关此选项的详细信息,请参阅以下文章:
详细性能分析
的数据和信息要求对于每个事件,技术支持需要以下日志和信息,这些日志和信息
涵盖事件时间范围:
- 出现问题后不久生成的服务数据文件(也称为 Data Collects)。
- 如果正在使用复制,则需要来自两个阵列的 Data Collects 和 UPA 文件。
- Unity UPA 文件(Unity 性能归档),涵盖出现问题的整个期间。
- 如果问题似乎在阵列之外,则可能还需要主机抓取和交换机日志。
- 可能还需要 Unity 网络跟踪。
数据块问题
- 提供清晰而详细的问题描述:
- 问题何时发生?(日期/时间和时区)
- 哪些 LUN 受到影响?
- 是否在遇到问题的 LUN 上启用了数据减少或高级重复数据消除?是否为其他 LUN 启用了数据减少?(请参阅 Unity 最佳做法白皮书 - CPU 利用率 部分 - 第 9 页)
- 是否正在使用复制?请提供有关复制 RPO 的信息,以及如果复制暂停,性能问题会有所改善。
- 是否随时存在活动数据不可用?
- 是否在指定的时间运行任何其他操作?(备份、作业、批次、病毒扫描、主机磁盘优化 (TRIM/UNMAP)等)
- 如果某些内容无法正常工作,它是否可以正常工作?还是这是新实施/设置的一部分?最近是否添加了任何新应用程序或主机?
- 如何衡量性能或产生什么影响?主机端出现延迟或错误?终端用户是否报告速度缓慢?
- SAN 环境(主机、交换机、阵列)最近是否有任何更改?
- 影响(受影响的应用程序、受影响服务器的数量、受影响用户的数量等)
- 出现问题的频率是多少?(持续/定期/一次性/随机)
- 受影响主机的名称是什么?
- 使用什么拓扑?FC、iSCSI 还是以太网?(如果使用 iSCSI,则所有主机 都必须 禁用 TCP 延迟 ACK — 请参阅 KB 000079979并搜索 TCP 延迟 ACK。)
- 如果问题可能与连接有关,我们可能需要一个拓扑图。
- 网络中是否同时存在已知问题或最近是否已升级网络?此外,检查内部 LAN 上是否未使用 iSCSI,并且使用的任何交换机都必须是企业级交换机。
文件问题
- 提供清晰而详细的问题描述:
- 涉及哪些特定协议?
- 示例:NFS(版本)、CIFS(版本)、NDMP、iSCSI、FTP 等
- 问题是否与特定导出/共享、文件系统/LUN 相关?
- 问题在一天中的什么时间发生?(日期/时间和时区)
- 当前的活动工作负载是什么?
- 涉及哪些主机?
- 示例:备份、虚拟机、工作站、服务器等?
- 尽可能详细地了解应用程序。
- 网络配置是什么样的?
- 网络接口是否隔离在单独的 NIC 上?
收集服务数据文件(数据收集)
要收集服务数据文件 (Data Collect),请参阅 LKB 000023676 。在阵列上运行服务数据文件的输出文件将需要显示详细的阵列配置以及阵列上发生的任何可能对性能产生影响的事件。我们建议您在事件发生后 尽快 收集服务数据文件 (Data Collect)。
请记住,服务数据文件将仅包含最后 一个完整的 UPA 文件(一小时)和任何可用的 -tmp.archive UPA 文件。通常,这不足以进行适当的性能审查,并且需要额外的 APA。
要在服务数据文件 (Data Collect) 中查找 UPA 文件,请转至 spx\cmd_outputs\metrics\ 。
收集 UPA 文件
- 支持人员可能会要求提供其他 UPA 文件(与服务数据文件 (Data Collect) 中可用的 UPA 相比)。
- 与服务数据文件 (Data Collect) 不同,阵列将存储长达 48 小时的 UPA 文件。
- UPA 文件将类似于下面的示例。每个文件名都包含文件中 第一个 数据点的日期和时间。间隔为 10 秒,涵盖 1 小时减 10 秒。文件名中的日期和时间为 UTC/GMT。
- 请注意,下面示例中的最后一个 UPA 文件是最新的归档 (-tmp.archive)。这包含当前性能数据,可以从阵列(仅通过 SSH/CLI)拷贝以查看最新数据。我们可以使用此文件查看性能事件,而无需等到下一小时。
存储在 Dell Unity 阵列上的 UPA 文件示例:
2017 年 1 月 5 日 上午 10:59 11,017,216 _default_20170105_150000.archive
01/05/2017 11:59 AM 11,017,216 _default_20170105_160000.archive
01/05/2017 0 1:00 PM 11,017,216 _default_20170105_170000.archive
01/05/2017 01:59 PM 10,983,424 _default_20170105_180000.archive
01/05/2017 02:45 PM 8,308,736 _default_20170105_190000-tmp.archive
有两种方法(CLI 和 Unisphere/GUI)可用于收集 UPA 文件:
通过 Unisphere/GUI
选项 1:Unisphere 列表
此选项仅适用于 Unity OE 4.2 及更高版本。此处不会列出所有可用的 UPA。GUI (Unisphere) 存在限制,我们只能列出一定数量的可用文件。如果未看到所需的 UPA,则移至 选项 2 或使用 SSH/CLI。
选项 2:Unisphere 时间范围
- 您可以为系统选择一个时间范围,以拉取可用的 APA。
- 请在收集日志之前确认问题时间,以便仅下载必要的日志。
- 请记住,客户时间范围将在本地浏览器时间内,并且通常与当前工作站时间相同。
- 此选项仅适用于 Unity OE 4.2 及更高版本
通过 SSH/CLI
我们还可以使用 CLI 访问 Unity 阵列上(但每个选项 1 未在 GUI (Unisphere) 中列出的更多 UPA。
ll /EMC/backend/metricsluna1/archives/
cp /EMC/backend/metricsluna1/archive/_default_20230221_180000.archive.gz /cores/service/user
提醒:如果您仅收集当前的 UPA,则可能需要 |tail-10,因为后端上有数十个可用的 UPA 文件;但是,如果您愿意,您可以列出所有选项。
主机数据收集
可能需要主机抓取(或 EMC 报告)输出文件,尤其是在该问题对特定主机唯一的情况下。
交换机日志
如果性能问题仅存在于某些路径上,则可能需要交换机日志。有关说明,请参阅以下 LKB(基于所使用的型号):
Brocade/Connectrix
Cisco
网络跟踪捕获(TCP 转储)
某些文件性能问题可能与网络问题相关。为了完全确定问题的原因,支持人员可能会请求网络跟踪。有关说明,请参阅以下 LKB:
- 000022522: Dell EMC Unity:如何收集 Unity 性能分析的必要信息 https://www.dell.com/support/kbdoc/000022522