Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

PowerScale:如何运行 On-Cluster Analysis 工具

Summary: 有关如何使用 Isilon On-Cluster Analysis 工具 (IOCA) 并解释结果的说明。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Isilon On-Cluster Analysis (IOCA) 工具既可分析正在运行的 PowerScale 群集的运行状况,又可协助*规划升级。

* IOCA 不可取代对用于准备升级活动的升级相关文档的审查。请参阅 OneFS 升级计划和流程指南:

 

最新版本的 IOCA 工具可从 Lightning 下载。
     

提醒:即使下载上显示较旧的日期,也会下载最新版本。

提醒:下载并传输到群集后,您必须使用以下命令解压缩 IOCA 和 IOCA.sha256

# tar -xvf IOCA.tar
IOCA
IOCA.sha256

要验证 IOCA 的完整性,您可以使用上述 tar 包中的 sha256 文件,或者,您也可以使用一个独立的 IOCA.sha256 文件(可在此处下载)。
下载后,将其转移到 IOCA 脚本所在的相同位置(确保覆盖现有的 IOCA.sha256)。

如果使用 sha256sum:

# sha256sum -c /home/nyhanj1/IOCA.sha256
./IOCA: OK

查看上面以粗体表示的结果,确认其为 OK

如果您没有 sha256sum:

# cat IOCA.sha256
a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0 ./IOCA
# sha256 IOCA
SHA256 (IOCA) = a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0

手动验证两个校验和匹配。


要在群集上运行 IOCA:

  1. 验证您是否已连接到正确的群集。运行以下命令以显示群集中的序列号,并验证服务请求的序列号是否显示在列表中:
isi_for_array cat /etc/isilon_serial_number
  1. 创建 /ifs/data/Isilon_Support/ 目录(如果不存在),并通过运行以下命令切换到该目录:
mkdir -pv /ifs/data/Isilon_Support

cd /ifs/data/Isilon_Support
  1. 将最新版本的 IOCA 暂存到群集中的 /ifs/data/Isilon_Support/ 下:

  • 如果存在以前的版本,请通过运行以下命令验证它是否为最新版本,并将其与可供下载的版本进行比较。版本列在运行状况检查脚本的顶部。
perl IOCA -v
运行 IOCA 工具,添加任何其他参数。在以下示例中,升级前检查包括对升级到 9.5.1.0 的检查,并在运行状况检查结果后显示升级计划建议:
perl IOCA -u 9.5.1.0
  1. 收集输出并发布到服务请求。
  2. 查看运行状况检查中所有已发现的 FAIL 或 WARN 消息,以查找潜在问题。


解释 IOCA 输出: 

对于每个运行状况检查项,如果发现任何问题,通常会有一篇关联的知识库 (KB) 文章。此工具最初是一个面向内部的工具,它提供的一些文章尚无法从外部访问。我们目前正在开展相关工作,以允许外部受众访问这些参考文章。

以下是群集上的 BMC 或 CMC 硬件监控检查失败的输出示例:
BMC/CMC Hardware Monitoring                       FAIL
  FAIL: Hardware monitoring issues detected on nodes: 2
  INFO: 3 nodes have out of date CMC firmware versions: 1-3
  INFO: Refer to KB489050 (https://support.emc.com/kb/489050) for details.

在此示例中,它显示具有硬件监控问题的节点 2 的故障。它还包括 INFO,显示节点 1-3 上的 CMC 固件版本已过时。最后,它包含一篇知识库文章,其中包含解决步骤。 


法规遵从性模式

IOCA 在启用法规遵从性模式的群集上以与非合规模式群集相同的方式运行。无需使用 sudo 运行它。但是,compadmin 用户必须是 IOCA 脚本的所有者才能运行它。

以下是 IOCA 和可用参数或筛选器的用法:

Usage: IOCA [options] [destination OneFS version]
    -d, --debug       Display debugging information
    -e, --extra       Displays extra details as part of each check
    -j, --json        Displays output in JSON format
    -v, --version     Displays current script version
    -h, --help        Displays this help screen
    -r <checkName>, --run=<checkName>
        Executes only the specified check, can be included multiple times
    -u, --upgradeplan Includes an upgrade plan after health checks
    --rolling         Provide rolling reboot plans
    --parallel        Provide parallel reboot plans [where supported]
    --simultaneous    Provide simultaneous reboot plans [excludes node firmware]
    -o, --onefs
        Supports the following comma separated options [ex. 8.1.2,simultaneous]:
            <version>       Uses the provided destination OneFS version
            simultaneous    Simultaneous OneFS upgrade
            parallel        Parallel OneFS upgrade [requires 8.2.2+]
            rolling         Rolling OneFS upgrade
            exclude-nf      Upgrade plans will combine OneFS + node firmware by
                            default [9.2 feature], this option disables that
    -p, --patches
        Supports the following comma separated options [ex. none,simultaneous]:
            none            Opt out of patch recommendations
            simultaneous    Simultaneous patch installs
            parallel        Parallel patch installs [requires 9.1+]
            rolling         Rolling patch installs
    -nf, --node-firmware
        Supports the following comma separated options [ex. 10.3.3,parallel]:
            <version>       Uses the provided version for node firmware checks
            none            Opt out of node firmware recommendations
            simultaneous    Simultaneous node firmware updates [requires 8.2+]
            parallel        Parallel node firmware updates [requires 8.2+]
            rolling         Rolling node firmware updates
    -df, --drive-firmware
        Supports the following comma separated options [ex. 1.32]:
            <version>       Uses the provided version for drive firmware checks
            none            Opt out of drive firmware recommendations
    -vf, --verify-files
        Runs checks on files within specified location [ex. /ifs/data/] of certain file type [ex. .isi, .tgz, .tar.gz, .tar]
        <file location>     default location is /ifs/data/ - specify the location where the upgrade files were placed

Additional Information

运行以下命令时的各项检查和使用的名称的表:

--run=CHECK

提醒:IOCA 脚本会频繁更新。如果您想要查看新的检查完整列表,请确保在 Isilon 群集上更新到最新的 IOCA 版本,然后运行以下命令以获取完整列表。

perl

onefs94-a-1# perl IOCA --run=CHECK

Isilon On-Cluster Analysis                        0.1541

未识别到所请求的检查。
可用检查包括:
        checkA100Root                 检查是否需要将 A100 节点根镜像的大小调整为 2 GB
        checkAPIAuth                  检查从 8.1.2.0 升级到 9.2 或更高版本时,API 身份验证是否设置为基本
        checkAccessZones              检查是否为 7.1.1 中的升级配置了多个访问分区。检查是否有嵌套或重叠的 SMB 共享。发现任何非系统访问分区池时添加警告,仅适用于 OneFS 7.1.1 中的升级
        checkAggregationMode          对于到 OneFS 8+ 的升级,检查聚合模式是否不是传统 FEC 模式
        checkAspera                   检查是否已启用任何 aspera 服务。如果执行 OneFS 升级,则必须在升级后重新安装
        checkAuthStatus               检查每个节点上的身份验证状态。如果任何身份验证提供程序未联机或处于活动状态,则发出警告。  检查是否有 RFC2307 以及 GID/UID 自动定位,并指向 KB 000028577
        checkBBUDegCap                检查 Gen6 节点上的 BBU 降级的级别,如有过度降级则进行提示,因为这会增加节点进入 RO 状态的风险。
        checkBMCandCMC                检查是否有 BMC/CMC 相关问题
        checkBXENodes                 检查是否存在具有 BXE 接口的节点,并检查是否有 KB 000048172 和 KB 000064027 已知问题
        checkBootDisks                检查启动磁盘的剩余损耗期限、固件级别和历史错误数量
        checkCM6FWBug                 检查驱动器固件版本是否符合 FCO F022318EE 的标准
        checkCMOSTimeCentury          检查 CMOS 时间中配置的世纪是否是当前世纪
        checkCapacity                 根据《升级规划和进度指南》中记录的数字验证群集容量。如果接近,则发出警告
        checkCloudPools               检查是否有 CloudPools 相关问题
        checkConfCmtSyntax            检查 sysctl.conf 中是否有不带前导 # 符号的备注,因为这在解析 conf 文件时会导致问题。
        checkContact                  使用 --extra 参数运行时,展示 CELog 中配置的联系信息
        checkCoreDumps                检查 /var/log/messages 中报告的最近意外进程重启
        checkDTA000194434             检查是否符合 KB 000194434 中的标准
        checkDestinationOneFS         检查目标 OneFS 版本
        checkDiskpools                检查 OneFS 7.0 升级的磁盘池和类对等性
        checkDriveFirmware            检查是否有过时的驱动器固件并调用其他相关的驱动器固件检查
        checkDriveLoad                检查驱动器上的当前负载
        checkDriveStallTimeout        检查当前的 Drive Stall Timeout 设置,建议值为 3.5 秒(3500000 微秒)或更高
        checkDriveSupportPackage      检查驱动器支持包中是否有可用的驱动器固件更新
        checkDrivesHealth             检查驱动器的运行状况以及 sysctl 中的驱动器停止超时设置
        checkET004252                 检查是否有 ET004252 标准
        checkETAs                     检查是否有技术公告
        checkEmailSettings            使用 --extra 参数运行时,展示 CELog 中配置的电子邮件设置
        checkEncoding                 检查导出和群集配置是否为 utf-8/默认编码
        checkEvents                   检查所有节点上的事件和失败(如果存在任何严重事件)
        checkFCOF022318EE             检查驱动器固件版本是否符合 FCO F022318EE 的标准
        checkFCOF031617FC             检查驱动器固件版本是否符合 KB 000024620 的标准
        checkFCOF042415EE             检查群集是否符合 FCO F042415EE/KB 000051631 的标准
        checkFileSharing              检查 Atime 是否已启用
        checkFilepoolPolicies         检查 GNA 要求并检查文件池,了解设置的最终匹配项以及以数字开头的名称
        checkFirmwarePackages         在 OneFS 9.1 及更高版本中,确认固件包可用
        checkFlush                    检查群集上是否有正在运行的刷新进程/活动的 pre_flush 屏幕会话
        checkGatewayPriority          检查是否存在具有重复网关优先级的子网
        checkGroups                   检查节点以了解所有启用的协议。  如果组信息报告已启用的协议在任何节点上无法正常工作,则失败
        checkHDFS                     显示 HDFS 详细信息,仅在使用 --extra 运行时才有用
        checkHardening                检查群集中的节点上是否启用了 FIPS,需要在升级到 9.5 或更高版本之前禁用并在升级后重新启用,以避免评估失败
        checkHardwareStatus           检查电池运行状况、电源,并收集硬件详细信息以便在其他位置使用
        checkHardwareUpgrade          检查是否有正在进行的硬件升级
        checkHealth                   验证群集运行状况和节点运行状况
        checkIBInterfaces             检查 ib0/1 是否处于活动状态,检查 ETA180317 IB 交换机固件版本,并检查是否有重叠的 IB 网络
        checkIBPCIeSlot               检查 InfiniBand 卡是否安装在错误的插槽中,在升级到 OneFS 9 和更高版本时,这可能会导致节点启动问题
        checkIDI                      检查过去 90 天内的 IDI 错误
        checkISCSI                    检查在 /ifs/.ifsvar/iscsi/iscsi.conf 中配置的 iSCSI LUN(仅限 8.x 之前的 OneFS)
        checkIndexSnapshotCurrent     检查超过 2 周并可能导致容量问题的当前快照
        checkInternalPing             执行网络 ping 操作以检查内部网络
        checkJobHistory               检查作业历史记录中的问题,当前只有 MediaScan 问题
        checkJobStatus                检查是否有会影响升级的正在运行的作业
        checkJobs                     检查作业
        checkKB000066019              检查 reports.db 的大小,如超过 100 MB 则进行提示,因为这可能导致 KB 000066019 中描述的问题
        checkKB000081658              检查 KB 000081658 的标准
        checkKB000181818              检查 KB 000181818 的标准
        checkKB000192800              检查 KB 000192800 的标准
        checkKB000196175              检查 KB 000196175 的标准
        checkKB000196762              检查 KB 000196762 的标准
        checkKB000197850              检查 IB 队列对问题,如果 IB 队列对处于降级状态,这可能导致节点重启问题
        checkKB000212387              检查身份验证提供程序 msDS-SupportedEncryptionTypes 属性,确保设置并分配了值,否则升级到 9.5 或更高版本后可能发生 DU。
        checkKB000213188              检查是否有 SED 硬件当前版本低于 9.2 且目标版本为 9.5 或更高版本。
        checkKB201488                 检查是否所有节点都符合 KB 000201488 的标准
        checkKB201666                 检查是否有必要针对修补程序安装执行 KB 000201666 中的主动解决方法,以及是否满足前提条件
        checkKB201933                 检查 KB 000201933 的标准
        checkKB203381                 检查 KB 203381 的标准
        checkKB220014                 检查 KB 220014 的标准
        checkKB462202                 在第 5 代节点上检查 bios_settings.ini 中的 BootOrder,以确定是否存在 KB 000025523 中所述的风险
        checkKB489473                 检查是否所有节点都满足 KB 000061983 的标准
        checkKB490849                 检查是否存在 KB 000052089 中所述的风险
        checkKB496582                 检查是否是否存在 KB 000160596 中所述的身份验证规则问题
        checkKB496993                 检查群集是否存在 KB 000061504 中所述的风险
        checkKB501267                 检查 KB 000026510 的标准
        checkKB507031                 检查 KB 000035398 中所述的标准
        checkKB516613                 检查是否所有节点都满足 KB 000057267 中所述的标准
        checkKB519119                 检查节点是否可能受到 KB 519119 的影响
        checkKB519388                 进行升级前检查,以检查是否存在 KB 000162270 中所述的问题
        checkKB519423                 检查群集配置文件是否处于混合模式
        checkKB519890                 运行 OneFS 8.0.0.6、8.0.1.2、8.1.0.2 和 8.1.1.1 时,检查 LACP 模式下的 LAGG 界面已知问题
        checkKB521778                 检查 KB 000031948 中所述的标准
        checkKB521890                 检查 KB 000167681 中所述的标准
        checkKB524082                 检查是否已为 HTTP 客户端启用群集,并提示由 Apache 版本更改导致的兼容性问题
        checkKB527312                 检查 KB 000166965 的标准
        checkKB530050                 检查 KB 000040987 的标准
        checkKB533516                 检查群集是否为 AWS CloudPools 账户使用 IP,使其面临 DTA 533516 的风险
        checkKB535582                 检查是否存在 KB 000060471 中所述的风险
        checkKB537785                 检查 KB 000168829 的标准
        checkKB540000                 检查 KB 000058599 的标准
        checkKB540071                 未安装 IsiFw 软件包时,检查 /var/fw/fwpkg 下是否存在文件
        checkKB540513                 检查 KB 000174074 的标准
        checkKB540872                 从 OneFS 8.2 版本升级时,检查群集是否可能遇到 KB 000170982 中所述的问题
        checkKB540901                 检查启动磁盘分区是否有不匹配的 uuid,这可能导致启动失败
        checkKB544401                 检查 KB 000173157 的标准
        checkKB544854                 检查 KB 000173432 的标准
        checkKB546604                 检查 KB 000180866 的标准
        checkKerberos8000             升级到 OneFS 8.0.0.0 时,检查 Kerberos 配置文件问题
        checkLACPSFP                  根据 KB 000174095 检查 cxgb 接口上的 LACP
        checkLWIODLog                 在 /var/log/lwiod.log 中检查过去 30 天发生的已知问题
        checkLastZoneID8000           检查访问分区中是否存在升级到 OneFS 8.0.0.0 时可能会导致严重问题的差距
        checkLeakFreeBlocks           检查启用 efs\.lbm\.leak_freed_blocks 的节点。
        checkLegacyLDAP               检查 OneFS 6 到 OneFS 7 的升级中是否已启用传统 LDAP
        checkLicense                  检查许可证并根据许可的功能提供指导。  InsigntIQ 和 vCenter 许可证提供了兼容性指南中的信息。  iSCSI 指示仅同时执行 OneFS 升级,并且在 8.0 中不受支持。
        checkLinMasterPadding         检查 LIN 主填补是否全为 0
        checkListenQueue              检查每个节点的侦听队列溢出是否小于 50,000
        checkLogLevel                 检查 NFS、SMB、HDFS 和身份验证的 LWSM 日志级别
        checkLogs                     检查是否存在日志文件,如果列表中指定的任何日志文件不存在,则进行提示
        checkMaintenanceMode          检查群集当前是否处于维护模式
        checkMemory                   检查每个 DIMM 以满足 KB 000041666 中列出的标准,以及预期(根据每个产品信息行)是否与报告的 RAM 非常匹配
        checkMessagesLog              在 /var/log/messages.log 中检查过去 30 天发生的已知错误
        checkMirrors                  检查启动镜像运行状况
        checkNDMP                     检查是否有正在运行的 NDMP 会话
        checkNDMP16GB                 检查自 isi_ndmp_d 进程启动以来是否发生 LNN 改变,这可能会在 OneFS 升级的 HookDataMigrationUpgrade 阶段导致问题
        checkNDMPUpgradeTimeout       检查自 isi_ndmp_d 进程启动以来是否发生 LNN 改变,这可能会在 OneFS 升级的 HookDataMigrationUpgrade 阶段导致问题
        checkNFS                      使用 nfsstat 识别 RPC 错误
        checkNetBIOS                  升级到 OneFS 8.0.1 及更高版本时,检查 Isilon NetBIOS 名称服务 (nbns) 是否已启用
        checkNetstat                  通过 netstat 检查特定协议的连接计数
        checkNetworkParallelUpgrade   检查并行升级期间网络池无法访问的风险
        checkNetworkPoolIFaces        检查每个网络池及其分配的接口,如果有任何池只配置了 1 个接口并且设置了 IP 范围,可能会导致升级前强制检查失败
        checkNodeCompatibility        将节点与已知的受支持版本进行比较,以确保 OneFS 升级时的节点兼容性
        checkNodeFirmware             检查节点固件是否有更新
        checkNodesInstalled           检查已安装的节点,以在汇总列表中显示
        checkOneFSVersions            检查正在运行的版本和目标版本是否存在任何问题。失败:所有节点之间存在任何版本不匹配
        checkOpenFiles                检查每个节点,了解打开文件的数量 [sysctl kern.openfiles],并与打开文件数上限 [sysctl kern.maxfiles] 进行比较。  当超过上限的 80% 时,检查会发出警告;当超过上限的 90% 时,检查会失败
        checkPSCALE136276             检查 PSCALE-136276 的标准
        checkPartitions               检查系统分区空间
        checkPatches                  检查当前版本(如果没有目标版本)或目标版本的强烈建议的修补程序
        checkPerformance              检查群集性能
        checkProcesses                检查 OpenSM master、MCP、isi_mca_dump 和 isi_upgrade_d 进程相关问题
        checkProtectionLevel          检查存储池保护级别
        checkRealACL                  检查 /ifs/.ifsvar 或 ifs/.ifsvar/patch 上是否配置/设置了 Real ACL。如果设置,可能会导致升级/安装问题,因此不应该设置
        checkRemoteSupport            检查是否启用了 Restricted Shell 和 isi_supportassist,如果两者均启用并且您升级到 9.7,则会导致问题并使 SupportAssist 服务重启。
        checkRoutingTables            显示每个节点的路由表
        checkSBR8000                  对于目标版本为 8.0.0.0/1 的 OneFS 升级,检查升级前是否启用了 SBR
        checkSNMPDConfig              检查 SNMPD.config 和 isilon_serial_number,确保它们不是 0 字节
        checkSPNs                     显示 SPN 列表,仅在使用 --extra 运行时有用
        checkSRS                      检查远程连接配置问题
        checkSSHDConfig               检查 /etc/mcp/templates/sshd_config 文件是否有已知问题
        checkSWIFTAccounts            检查 SWIFT 账户,当 SWIFT 获得许可且正在执行到 9.5 或更高版本的升级时,它用于设置标志级别
        checkServices                 检查常见服务,确保它们处于预期状态
        checkServicesMonitoring       检查以确保已启用的服务受到监视
        checkSmartConnect             检查以确保 SmartConnect 服务 IP 均已分配并且未用于客户端连接
        checkSnapshot                 检查快照数量是否接近 20,000 的群集限制,以及 Autodelete 是否设置为 yes,并检查快照日志。检查快照日志,查找 EIN/EIO/EDEADLK/Failed 以创建快照
        checkStaticRouteConflict      检查冲突的静态路由
        checkStoragePools             检查存储池是否存在运行状况/容量/驱动器未预配问题
        checkSupportability           检查群集硬件和软件可支持性
        checkSwitchCompatibility      检查后端戴尔交换机以确认其版本至少为 10.5.0.6
        checkSymLink                  检查 /var/patch/catalog 或 /var/patch/tmp 是否为符号链接,或者目录是否为文件而不是目录。
        checkSyncIQ                   收集源和目标 SyncIQ 信息并报告 SyncIQ 合作伙伴。检查是否有以下问题:过多 SyncIQ 报告文件导致 tar 进程延迟其他升级进程,从而使群集长时间处于临时 DU 状态
        checkSystemFlag               检查设置了系统标记的磁盘池
        checkTimeDrift                检查节点之间的时间偏移
        checkTimeSync                 检查群集是否已启用以同步到外部服务器
        checkTimeZone                 检查目标 OneFS 代码级别中是否缺少时区
        checkUIDGID                   检查位于 / 和 /var 中的文件的 UID/GID 值是否大于 262143
        checkUpgrade                  检查与正在进行的升级相关的问题。如果已启用 isi_upgrade_d 服务,则发出警告。如果未处于已提交状态,则失败。如果升级活动已在进行,则失败。检查 fs_fmt_version,奇数或零 fs_fmt_version 有问题
        checkUpgradeAgentPort         检查 isi_upgrade_agent_d 守护程序使用的端口,以确保它未被其他进程使用
        checkUpgradePath              检查需要跳级升级的情况,并提供所需的细节
        checkUptime                   检查节点正常运行时间,超过 200 天时发出警告,并提示正常运行时间 ETA
        checkVaultCard                检查第 6 代节点中是否存在 M.2 存储区卡并确认在该设备上未超出 SMART 状态阈值
        checkZoneLocalAuth            对于到 OneFS 8.2 及更高版本的升级,检查本地提供程序是否与其他访问分区关联


以下是与此主题相关的可能有帮助的一些推荐资源:

Affected Products

PowerScale, Isilon, PowerScale OneFS, PowerScale F210, PowerScale F710

Products

Isilon
Article Properties
Article Number: 000021811
Article Type: How To
Last Modified: 05 Sept 2024
Version:  23
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.