Isilon On-Cluster Analysis (IOCA) 工具既可分析正在运行的 PowerScale 群集的运行状况,又可协助*规划升级。
* IOCA 不可取代对用于准备升级活动的升级相关文档的审查。请参阅 OneFS 升级计划和流程指南:
最新版本的 IOCA 工具可从 Lightning 下载。
提醒:即使下载上显示较旧的日期,也会下载最新版本。
提醒:下载并传输到群集后,您必须使用以下命令解压缩 IOCA 和 IOCA.sha256
# tar -xvf IOCA.tar IOCA IOCA.sha256
要验证 IOCA 的完整性,您可以使用上述 tar 包中的 sha256 文件,或者,您也可以使用一个独立的 IOCA.sha256 文件(可在此处下载)。
下载后,将其转移到 IOCA 脚本所在的相同位置(确保覆盖现有的 IOCA.sha256)。
如果使用 sha256sum:
# sha256sum -c /home/nyhanj1/IOCA.sha256 ./IOCA: OK
查看上面以粗体表示的结果,确认其为 OK
如果您没有 sha256sum:
# cat IOCA.sha256 a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0 ./IOCA
# sha256 IOCA SHA256 (IOCA) = a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0
手动验证两个校验和匹配。
isi_for_array cat /etc/isilon_serial_number
mkdir -pv /ifs/data/Isilon_Support
cd /ifs/data/Isilon_Support
将最新版本的 IOCA 暂存到群集中的 /ifs/data/Isilon_Support/ 下:
perl IOCA -v运行 IOCA 工具,添加任何其他参数。在以下示例中,升级前检查包括对升级到 9.5.1.0 的检查,并在运行状况检查结果后显示升级计划建议:
perl IOCA -u 9.5.1.0
BMC/CMC Hardware Monitoring FAIL
FAIL: Hardware monitoring issues detected on nodes: 2
INFO: 3 nodes have out of date CMC firmware versions: 1-3
INFO: Refer to KB489050 (https://support.emc.com/kb/489050) for details.
在此示例中,它显示具有硬件监控问题的节点 2 的故障。它还包括 INFO,显示节点 1-3 上的 CMC 固件版本已过时。最后,它包含一篇知识库文章,其中包含解决步骤。
IOCA 在启用法规遵从性模式的群集上以与非合规模式群集相同的方式运行。无需使用 sudo 运行它。但是,compadmin 用户必须是 IOCA 脚本的所有者才能运行它。
以下是 IOCA 和可用参数或筛选器的用法:
Usage: IOCA [options] [destination OneFS version] -d, --debug Display debugging information -e, --extra Displays extra details as part of each check -j, --json Displays output in JSON format -v, --version Displays current script version -h, --help Displays this help screen -r <checkName>, --run=<checkName> Executes only the specified check, can be included multiple times -u, --upgradeplan Includes an upgrade plan after health checks --rolling Provide rolling reboot plans --parallel Provide parallel reboot plans [where supported] --simultaneous Provide simultaneous reboot plans [excludes node firmware] -o, --onefs Supports the following comma separated options [ex. 8.1.2,simultaneous]: <version> Uses the provided destination OneFS version simultaneous Simultaneous OneFS upgrade parallel Parallel OneFS upgrade [requires 8.2.2+] rolling Rolling OneFS upgrade exclude-nf Upgrade plans will combine OneFS + node firmware by default [9.2 feature], this option disables that -p, --patches Supports the following comma separated options [ex. none,simultaneous]: none Opt out of patch recommendations simultaneous Simultaneous patch installs parallel Parallel patch installs [requires 9.1+] rolling Rolling patch installs -nf, --node-firmware Supports the following comma separated options [ex. 10.3.3,parallel]: <version> Uses the provided version for node firmware checks none Opt out of node firmware recommendations simultaneous Simultaneous node firmware updates [requires 8.2+] parallel Parallel node firmware updates [requires 8.2+] rolling Rolling node firmware updates -df, --drive-firmware Supports the following comma separated options [ex. 1.32]: <version> Uses the provided version for drive firmware checks none Opt out of drive firmware recommendations -vf, --verify-files Runs checks on files within specified location [ex. /ifs/data/] of certain file type [ex. .isi, .tgz, .tar.gz, .tar] <file location> default location is /ifs/data/ - specify the location where the upgrade files were placed
运行以下命令时的各项检查和使用的名称的表:
--run=CHECK
提醒:IOCA 脚本会频繁更新。如果您想要查看新的检查完整列表,请确保在 Isilon 群集上更新到最新的 IOCA 版本,然后运行以下命令以获取完整列表。
perl
onefs94-a-1# perl IOCA --run=CHECK
Isilon On-Cluster Analysis 0.1541
未识别到所请求的检查。
可用检查包括:
checkA100Root 检查是否需要将 A100 节点根镜像的大小调整为 2 GB
checkAPIAuth 检查从 8.1.2.0 升级到 9.2 或更高版本时,API 身份验证是否设置为基本
checkAccessZones 检查是否为 7.1.1 中的升级配置了多个访问分区。检查是否有嵌套或重叠的 SMB 共享。发现任何非系统访问分区池时添加警告,仅适用于 OneFS 7.1.1 中的升级
checkAggregationMode 对于到 OneFS 8+ 的升级,检查聚合模式是否不是传统 FEC 模式
checkAspera 检查是否已启用任何 aspera 服务。如果执行 OneFS 升级,则必须在升级后重新安装
checkAuthStatus 检查每个节点上的身份验证状态。如果任何身份验证提供程序未联机或处于活动状态,则发出警告。 检查是否有 RFC2307 以及 GID/UID 自动定位,并指向 KB 000028577
checkBBUDegCap 检查 Gen6 节点上的 BBU 降级的级别,如有过度降级则进行提示,因为这会增加节点进入 RO 状态的风险。
checkBMCandCMC 检查是否有 BMC/CMC 相关问题
checkBXENodes 检查是否存在具有 BXE 接口的节点,并检查是否有 KB 000048172 和 KB 000064027 已知问题
checkBootDisks 检查启动磁盘的剩余损耗期限、固件级别和历史错误数量
checkCM6FWBug 检查驱动器固件版本是否符合 FCO F022318EE 的标准
checkCMOSTimeCentury 检查 CMOS 时间中配置的世纪是否是当前世纪
checkCapacity 根据《升级规划和进度指南》中记录的数字验证群集容量。如果接近,则发出警告
checkCloudPools 检查是否有 CloudPools 相关问题
checkConfCmtSyntax 检查 sysctl.conf 中是否有不带前导 # 符号的备注,因为这在解析 conf 文件时会导致问题。
checkContact 使用 --extra 参数运行时,展示 CELog 中配置的联系信息
checkCoreDumps 检查 /var/log/messages 中报告的最近意外进程重启
checkDTA000194434 检查是否符合 KB 000194434 中的标准
checkDestinationOneFS 检查目标 OneFS 版本
checkDiskpools 检查 OneFS 7.0 升级的磁盘池和类对等性
checkDriveFirmware 检查是否有过时的驱动器固件并调用其他相关的驱动器固件检查
checkDriveLoad 检查驱动器上的当前负载
checkDriveStallTimeout 检查当前的 Drive Stall Timeout 设置,建议值为 3.5 秒(3500000 微秒)或更高
checkDriveSupportPackage 检查驱动器支持包中是否有可用的驱动器固件更新
checkDrivesHealth 检查驱动器的运行状况以及 sysctl 中的驱动器停止超时设置
checkET004252 检查是否有 ET004252 标准
checkETAs 检查是否有技术公告
checkEmailSettings 使用 --extra 参数运行时,展示 CELog 中配置的电子邮件设置
checkEncoding 检查导出和群集配置是否为 utf-8/默认编码
checkEvents 检查所有节点上的事件和失败(如果存在任何严重事件)
checkFCOF022318EE 检查驱动器固件版本是否符合 FCO F022318EE 的标准
checkFCOF031617FC 检查驱动器固件版本是否符合 KB 000024620 的标准
checkFCOF042415EE 检查群集是否符合 FCO F042415EE/KB 000051631 的标准
checkFileSharing 检查 Atime 是否已启用
checkFilepoolPolicies 检查 GNA 要求并检查文件池,了解设置的最终匹配项以及以数字开头的名称
checkFirmwarePackages 在 OneFS 9.1 及更高版本中,确认固件包可用
checkFlush 检查群集上是否有正在运行的刷新进程/活动的 pre_flush 屏幕会话
checkGatewayPriority 检查是否存在具有重复网关优先级的子网
checkGroups 检查节点以了解所有启用的协议。 如果组信息报告已启用的协议在任何节点上无法正常工作,则失败
checkHDFS 显示 HDFS 详细信息,仅在使用 --extra 运行时才有用
checkHardening 检查群集中的节点上是否启用了 FIPS,需要在升级到 9.5 或更高版本之前禁用并在升级后重新启用,以避免评估失败
checkHardwareStatus 检查电池运行状况、电源,并收集硬件详细信息以便在其他位置使用
checkHardwareUpgrade 检查是否有正在进行的硬件升级
checkHealth 验证群集运行状况和节点运行状况
checkIBInterfaces 检查 ib0/1 是否处于活动状态,检查 ETA180317 IB 交换机固件版本,并检查是否有重叠的 IB 网络
checkIBPCIeSlot 检查 InfiniBand 卡是否安装在错误的插槽中,在升级到 OneFS 9 和更高版本时,这可能会导致节点启动问题
checkIDI 检查过去 90 天内的 IDI 错误
checkISCSI 检查在 /ifs/.ifsvar/iscsi/iscsi.conf 中配置的 iSCSI LUN(仅限 8.x 之前的 OneFS)
checkIndexSnapshotCurrent 检查超过 2 周并可能导致容量问题的当前快照
checkInternalPing 执行网络 ping 操作以检查内部网络
checkJobHistory 检查作业历史记录中的问题,当前只有 MediaScan 问题
checkJobStatus 检查是否有会影响升级的正在运行的作业
checkJobs 检查作业
checkKB000066019 检查 reports.db 的大小,如超过 100 MB 则进行提示,因为这可能导致 KB 000066019 中描述的问题
checkKB000081658 检查 KB 000081658 的标准
checkKB000181818 检查 KB 000181818 的标准
checkKB000192800 检查 KB 000192800 的标准
checkKB000196175 检查 KB 000196175 的标准
checkKB000196762 检查 KB 000196762 的标准
checkKB000197850 检查 IB 队列对问题,如果 IB 队列对处于降级状态,这可能导致节点重启问题
checkKB000212387 检查身份验证提供程序 msDS-SupportedEncryptionTypes 属性,确保设置并分配了值,否则升级到 9.5 或更高版本后可能发生 DU。
checkKB000213188 检查是否有 SED 硬件当前版本低于 9.2 且目标版本为 9.5 或更高版本。
checkKB201488 检查是否所有节点都符合 KB 000201488 的标准
checkKB201666 检查是否有必要针对修补程序安装执行 KB 000201666 中的主动解决方法,以及是否满足前提条件
checkKB201933 检查 KB 000201933 的标准
checkKB203381 检查 KB 203381 的标准
checkKB220014 检查 KB 220014 的标准
checkKB462202 在第 5 代节点上检查 bios_settings.ini 中的 BootOrder,以确定是否存在 KB 000025523 中所述的风险
checkKB489473 检查是否所有节点都满足 KB 000061983 的标准
checkKB490849 检查是否存在 KB 000052089 中所述的风险
checkKB496582 检查是否是否存在 KB 000160596 中所述的身份验证规则问题
checkKB496993 检查群集是否存在 KB 000061504 中所述的风险
checkKB501267 检查 KB 000026510 的标准
checkKB507031 检查 KB 000035398 中所述的标准
checkKB516613 检查是否所有节点都满足 KB 000057267 中所述的标准
checkKB519119 检查节点是否可能受到 KB 519119 的影响
checkKB519388 进行升级前检查,以检查是否存在 KB 000162270 中所述的问题
checkKB519423 检查群集配置文件是否处于混合模式
checkKB519890 运行 OneFS 8.0.0.6、8.0.1.2、8.1.0.2 和 8.1.1.1 时,检查 LACP 模式下的 LAGG 界面已知问题
checkKB521778 检查 KB 000031948 中所述的标准
checkKB521890 检查 KB 000167681 中所述的标准
checkKB524082 检查是否已为 HTTP 客户端启用群集,并提示由 Apache 版本更改导致的兼容性问题
checkKB527312 检查 KB 000166965 的标准
checkKB530050 检查 KB 000040987 的标准
checkKB533516 检查群集是否为 AWS CloudPools 账户使用 IP,使其面临 DTA 533516 的风险
checkKB535582 检查是否存在 KB 000060471 中所述的风险
checkKB537785 检查 KB 000168829 的标准
checkKB540000 检查 KB 000058599 的标准
checkKB540071 未安装 IsiFw 软件包时,检查 /var/fw/fwpkg 下是否存在文件
checkKB540513 检查 KB 000174074 的标准
checkKB540872 从 OneFS 8.2 版本升级时,检查群集是否可能遇到 KB 000170982 中所述的问题
checkKB540901 检查启动磁盘分区是否有不匹配的 uuid,这可能导致启动失败
checkKB544401 检查 KB 000173157 的标准
checkKB544854 检查 KB 000173432 的标准
checkKB546604 检查 KB 000180866 的标准
checkKerberos8000 升级到 OneFS 8.0.0.0 时,检查 Kerberos 配置文件问题
checkLACPSFP 根据 KB 000174095 检查 cxgb 接口上的 LACP
checkLWIODLog 在 /var/log/lwiod.log 中检查过去 30 天发生的已知问题
checkLastZoneID8000 检查访问分区中是否存在升级到 OneFS 8.0.0.0 时可能会导致严重问题的差距
checkLeakFreeBlocks 检查启用 efs\.lbm\.leak_freed_blocks 的节点。
checkLegacyLDAP 检查 OneFS 6 到 OneFS 7 的升级中是否已启用传统 LDAP
checkLicense 检查许可证并根据许可的功能提供指导。 InsigntIQ 和 vCenter 许可证提供了兼容性指南中的信息。 iSCSI 指示仅同时执行 OneFS 升级,并且在 8.0 中不受支持。
checkLinMasterPadding 检查 LIN 主填补是否全为 0
checkListenQueue 检查每个节点的侦听队列溢出是否小于 50,000
checkLogLevel 检查 NFS、SMB、HDFS 和身份验证的 LWSM 日志级别
checkLogs 检查是否存在日志文件,如果列表中指定的任何日志文件不存在,则进行提示
checkMaintenanceMode 检查群集当前是否处于维护模式
checkMemory 检查每个 DIMM 以满足 KB 000041666 中列出的标准,以及预期(根据每个产品信息行)是否与报告的 RAM 非常匹配
checkMessagesLog 在 /var/log/messages.log 中检查过去 30 天发生的已知错误
checkMirrors 检查启动镜像运行状况
checkNDMP 检查是否有正在运行的 NDMP 会话
checkNDMP16GB 检查自 isi_ndmp_d 进程启动以来是否发生 LNN 改变,这可能会在 OneFS 升级的 HookDataMigrationUpgrade 阶段导致问题
checkNDMPUpgradeTimeout 检查自 isi_ndmp_d 进程启动以来是否发生 LNN 改变,这可能会在 OneFS 升级的 HookDataMigrationUpgrade 阶段导致问题
checkNFS 使用 nfsstat 识别 RPC 错误
checkNetBIOS 升级到 OneFS 8.0.1 及更高版本时,检查 Isilon NetBIOS 名称服务 (nbns) 是否已启用
checkNetstat 通过 netstat 检查特定协议的连接计数
checkNetworkParallelUpgrade 检查并行升级期间网络池无法访问的风险
checkNetworkPoolIFaces 检查每个网络池及其分配的接口,如果有任何池只配置了 1 个接口并且设置了 IP 范围,可能会导致升级前强制检查失败
checkNodeCompatibility 将节点与已知的受支持版本进行比较,以确保 OneFS 升级时的节点兼容性
checkNodeFirmware 检查节点固件是否有更新
checkNodesInstalled 检查已安装的节点,以在汇总列表中显示
checkOneFSVersions 检查正在运行的版本和目标版本是否存在任何问题。失败:所有节点之间存在任何版本不匹配
checkOpenFiles 检查每个节点,了解打开文件的数量 [sysctl kern.openfiles],并与打开文件数上限 [sysctl kern.maxfiles] 进行比较。 当超过上限的 80% 时,检查会发出警告;当超过上限的 90% 时,检查会失败
checkPSCALE136276 检查 PSCALE-136276 的标准
checkPartitions 检查系统分区空间
checkPatches 检查当前版本(如果没有目标版本)或目标版本的强烈建议的修补程序
checkPerformance 检查群集性能
checkProcesses 检查 OpenSM master、MCP、isi_mca_dump 和 isi_upgrade_d 进程相关问题
checkProtectionLevel 检查存储池保护级别
checkRealACL 检查 /ifs/.ifsvar 或 ifs/.ifsvar/patch 上是否配置/设置了 Real ACL。如果设置,可能会导致升级/安装问题,因此不应该设置
checkRemoteSupport 检查是否启用了 Restricted Shell 和 isi_supportassist,如果两者均启用并且您升级到 9.7,则会导致问题并使 SupportAssist 服务重启。
checkRoutingTables 显示每个节点的路由表
checkSBR8000 对于目标版本为 8.0.0.0/1 的 OneFS 升级,检查升级前是否启用了 SBR
checkSNMPDConfig 检查 SNMPD.config 和 isilon_serial_number,确保它们不是 0 字节
checkSPNs 显示 SPN 列表,仅在使用 --extra 运行时有用
checkSRS 检查远程连接配置问题
checkSSHDConfig 检查 /etc/mcp/templates/sshd_config 文件是否有已知问题
checkSWIFTAccounts 检查 SWIFT 账户,当 SWIFT 获得许可且正在执行到 9.5 或更高版本的升级时,它用于设置标志级别
checkServices 检查常见服务,确保它们处于预期状态
checkServicesMonitoring 检查以确保已启用的服务受到监视
checkSmartConnect 检查以确保 SmartConnect 服务 IP 均已分配并且未用于客户端连接
checkSnapshot 检查快照数量是否接近 20,000 的群集限制,以及 Autodelete 是否设置为 yes,并检查快照日志。检查快照日志,查找 EIN/EIO/EDEADLK/Failed 以创建快照
checkStaticRouteConflict 检查冲突的静态路由
checkStoragePools 检查存储池是否存在运行状况/容量/驱动器未预配问题
checkSupportability 检查群集硬件和软件可支持性
checkSwitchCompatibility 检查后端戴尔交换机以确认其版本至少为 10.5.0.6
checkSymLink 检查 /var/patch/catalog 或 /var/patch/tmp 是否为符号链接,或者目录是否为文件而不是目录。
checkSyncIQ 收集源和目标 SyncIQ 信息并报告 SyncIQ 合作伙伴。检查是否有以下问题:过多 SyncIQ 报告文件导致 tar 进程延迟其他升级进程,从而使群集长时间处于临时 DU 状态
checkSystemFlag 检查设置了系统标记的磁盘池
checkTimeDrift 检查节点之间的时间偏移
checkTimeSync 检查群集是否已启用以同步到外部服务器
checkTimeZone 检查目标 OneFS 代码级别中是否缺少时区
checkUIDGID 检查位于 / 和 /var 中的文件的 UID/GID 值是否大于 262143
checkUpgrade 检查与正在进行的升级相关的问题。如果已启用 isi_upgrade_d 服务,则发出警告。如果未处于已提交状态,则失败。如果升级活动已在进行,则失败。检查 fs_fmt_version,奇数或零 fs_fmt_version 有问题
checkUpgradeAgentPort 检查 isi_upgrade_agent_d 守护程序使用的端口,以确保它未被其他进程使用
checkUpgradePath 检查需要跳级升级的情况,并提供所需的细节
checkUptime 检查节点正常运行时间,超过 200 天时发出警告,并提示正常运行时间 ETA
checkVaultCard 检查第 6 代节点中是否存在 M.2 存储区卡并确认在该设备上未超出 SMART 状态阈值
checkZoneLocalAuth 对于到 OneFS 8.2 及更高版本的升级,检查本地提供程序是否与其他访问分区关联
以下是与此主题相关的可能有帮助的一些推荐资源: