开始新对话

未解决

此帖子已超过 5 年

1725

2012年5月23日 00:00

如何降低CLARiiON SP使用率和Navisphere/Unisphere响应时间

如何降低CLARiiON SP使用率和Navisphere/Unisphere响应时间

介绍

本文列举了造成CLARiiON SP使用率较高的一些可能的原因,并列出了对应的解决办法

症状

·         由于过高的SP使用率导致NDU (Non-disruptive Upgrade)操作失败

·         Navisphere Analyzer显示SP使用率超过50%

·         SP间歇性无法管理,执行Navisphere CLI命令会返回超时错误

原因

除了主机I/O,还有许多其他因素造成SP利用率的升高,包括:

·         强制刷新写缓存(Write Cache)

·         有大量的CLARiiON对象(LUN、磁盘和已注册的Initiator)需要管理

·         与传统的LUN相比,存储池(Storage Pool)或虚拟资源分配(Virtual Provisioning)需要更多的CPU运算周期。新增的一些Pool的功能,如Thin LUN、压缩(Compression)和全自动存储分层(FAST VP)同样会显著增加SP使用率

·         复杂(混合)MetaLUNMetaLUN中的每个组件(component) LUN都会被SP监控和管理,因此大量的LUN被串联(concatenated)和条带化(striped)在一起后会造成更多的管理开销。

·         大量被管理的主机

·         ESRS抓取存储信息

·         Navisphere CLI脚本

·         多个Navisphere Manager进程同时运行

·         正在进行LUN的扩容(expansion)或迁移(migration)

·         当创建新的PoolLUN时,后台置零(Background Zeroing, BZR)操作会对SP使用率造成较大的影响。以Pool为例,磁盘会被分割成私有private LUN以供Pool LUN使用,一旦这些磁盘被加到Pool中后,BZR进程就会启动

·         后台校验(Background Verifies, 特别是ASAP优先级)LUN捆绑(bind)或正在重建(rebuild) RAID

·         Vault磁盘上(CLARiiON0_0_00_0_4磁盘,VNX0_0_00_0_3)捆绑了用户LUN产生的大量I/O造成的高响应时间

·         复制类软件如SnapView

·         CloneSnapViewMetaLUN中的磁头竞争(linked contention)问题

·         SP使用率超过50%并不一定是问题,但如果使用率达到了100%则存储响应时间会成倍增加。必须牢记的是对一个高可用的系统来说,每个SP都要求能独自处理所有的主机I/O以应付故障发生时的情形。假如仅有一个SP在工作(同时写缓存也被禁用)会造成重要应用访问超时,那这样的配置不能被认为是一个完全冗余的系统。非中断升级(NDU)同样要求两个SP的平均使用率在50%以下,通常在系统高峰时无法完成升级。

解决方案

为了降低SP使用率并且改善Navisphere/Unisphere的影响时间,可以采取以下操作:

     

·         尽可能从Vault磁盘(0_0_00_0_4)迁出用户LUN

·         如果为了NDU升级需要临时减少SP使用率,可以关闭部分非关键业务的主机

·         CX3系列存储可以升级到Release 26 Patch 29或之后版本以支持Navisphere的差异轮询(Delta Polling)功能。由于Navisphere每次仅抓取上一次抓取后更改的数据,这将减少总的SP CPU使用率并改善系统响应时间。在存有大量LUNMetaLUN和硬盘数的配置上效果最明显

·         CX4的所有FLARE版本都带有差异轮询功能因此普遍地Navisphere/Unisphere的响应时间要比早期设备要快

·         在创建Storage PoolLUN之后,等待Background Zeroing完成后再引入I/O密集型应用到存储中

·         减少Navisphere Manager进程数量。类似EMC ControlCenterEMC Replication Manager之类的外部程序会定期抓取存储系统信息从而增加SP使用率,可以考虑在NDU 操作前关闭它们

·         如果可能,合并部分LUN以减少它们的数量。如果一个RAID group上的多个LUN被同一台主机的同一个应用使用,有可能会造成磁头竞争(linked contention)、更大的寻道距离以及更低的缓存使用率。将这些LUN迁移至数量更小、容量更大的LUN同样可以减少需要监控的统计量从而进一步降低SP使用率

·         禁用Navisphere的自动管理主机(auto-manage hosts)功能以减少Navisphere轮询次数

·         检查MetaLUN配置是否有磁头竞争(linked contention)问题。参考知识库文档emc188729: "Fixing 'linked contention' performance issues"

·         根据知识库文档emc226845: "Best practices for creating metaLUNs on VNX or CLARiiON arrays",迁移混合的MetaLUN (多个条带化的MetaLUN串联在一起哦)至单一的MetaLUN

·         确保主机、交换机和CLARiiON的网卡速率都设在了相同的速度。SP管理网口默认是自适应的,交换机最好也设为自适应

·         增加运行有Navisphere Manager的主机的Java运行内存至128MB或更多。参考知识库文档emc192269: "Slow response from Navisphere Manager GUI or Off-array Manager"

·         使用最新的存储软件版本

·         Navisphere Setup页面中增加Navisphere轮询间隔(polling interval)至最大的300

·         一旦完成SP使用率的测量和性能数据的抓取后就禁用统计日志(statistics logging)

·         确保所有的navicli/naviseccli脚本都使用了-np (No Polling功能)。尽量避免使用长队列的Navisphere CLI命令脚本

·         取消注册所有不再使用的主机。如果仍有未使用的主机initiator登入,需要更改FC交换机Zoning设定。

·         如果Connectivity Status中出现了不是为了MirrorViewSAN Copy而加入的CLARiiON initiator,应该在FC交换机上移除它们

     

如果实施了上述操作后仍然不能将平均SP使用率降到一个可接受的水平(50%左右),就可以开始考虑升级存储设备了。

变通方法

参考

参考下列EMC知识库文章:

emc207795       How to reduce CLARiiON SP utilization and Navisphere/Unisphere response times

emc186107       How to improve performance on a VNX or CLARiiON storage system that is forced flushing

emc226845       Best practices for creating metaLUNs on VNX or CLARiiON arrays

emc206697       CLARiiON: Large number of concurrent LUN creations when using FLARE Release 28.003 to 28.506 on CX4 Series may impact performance

emc188729       Fixing 'linked contention' performance issues

emc213405       Should I be concerned if SP CPU utilization is running at over 50%?

emc192269       Slow response from Navisphere Manager GUI or Off-array Manager

应用于

CLARiiON系列

没有回复!
找不到事件!

Top