开始新对话

未解决

此帖子已超过 5 年

1725

2012年5月23日 00:00

如何降低CLARiiON SP使用率和Navisphere/Unisphere响应时间

​ ​
​ ​

​如何降低​​CLARiiON SP​​使用率和​​Navisphere/Unisphere​​响应时间​

​ ​
​ ​
​ ​

​介绍​

​ ​
​ ​

​ ​

​本文列举了造成CLARiiON SP使用率较高的一些可能的原因,并列出了对应的解决办法​

​ ​
​ ​

​症状​

​ ​
​ ​

​ ​

​·​​ ​​由于过高的​​SP​​使用率导致​​NDU (Non-disruptive Upgrade)​​操作失败​

​ ​

​·​​ ​​Navisphere Analyzer​​显示​​SP​​使用率超过​​50%​

​ ​

​·​​ ​​SP​​间歇性无法管理,执行​​Navisphere CLI​​命令会返回超时错误​

​ ​
​ ​

​原因​

​ ​
​ ​

​ ​

​除了主机​​I/O​​,还有许多其他因素造成​​SP​​利用率的升高,包括:​

​ ​

​ ​

​·​​ ​​强制刷新写缓存​​(Write Cache)​

​ ​

​·​​ ​​有大量的​​CLARiiON​​对象​​(LUN​​、磁盘和已注册的​​Initiator​​等​​)​​需要管理​

​ ​

​·​​ ​​与传统的​​LUN​​相比,存储池​​(Storage Pool)​​或虚拟资源分配​​(Virtual Provisioning)​​需要更多的​​CPU​​运算周期。新增的一些​​Pool​​的功能,如​​Thin LUN​​、压缩​​(Compression)​​和全自动存储分层​​(FAST VP)​​同样会显著增加​​SP​​使用率​

​ ​

​·​​ ​​复杂​​(​​混合​​)​​的​​MetaLUN​​。​​MetaLUN​​中的每个组件​​(component) LUN​​都会被​​SP​​监控和管理,因此大量的​​LUN​​被串联​​(concatenated)​​和条带化​​(striped)​​在一起后会造成更多的管理开销。​

​ ​

​·​​ ​​大量被管理的主机​

​ ​

​·​​ ​​ESRS​​抓取存储信息​

​ ​

​·​​ ​​Navisphere CLI​​脚本​

​ ​

​·​​ ​​多个​​Navisphere Manager​​进程同时运行​

​ ​

​·​​ ​​正在进行​​LUN​​的扩容​​(expansion)​​或迁移​​(migration)​

​ ​

​·​​ ​​当创建新的​​Pool​​或​​LUN​​时,后台置零​​(Background Zeroing, BZR)​​操作会对​​SP​​使用率造成较大的影响。以​​Pool​​为例,磁盘会被分割成私有​​private LUN​​以供​​Pool LUN​​使用,一旦这些磁盘被加到​​Pool​​中后,​​BZR​​进程就会启动​

​ ​

​·​​ ​​后台校验​​(Background Verifies, ​​特别是​​ASAP​​优先级​​)​​,​​LUN​​捆绑​​(bind)​​或正在重建(rebuild) ​​RAID​

​ ​

​·​​ ​​在​​Vault​​磁盘上​​(CLARiiON​​是​​0_0_0​​至​​0_0_4​​磁盘,​​VNX​​是​​0_0_0​​至​​0_0_3)​​捆绑了用户​​LUN​​产生的大量​​I/O​​造成的高响应时间​

​ ​

​·​​ ​​复制类软件如​​SnapView​

​ ​

​·​​ ​​Clone​​、​​SnapView​​、​​MetaLUN​​中的磁头竞争​​(linked contention)​​问题​

​ ​

​·​​ ​​SP​​使用率超过​​50%​​并不一定是问题,但如果使用率达到了​​100%​​则存储响应时间会成倍增加。必须牢记的是对一个高可用的系统来说,每个​​SP​​都要求能独自处理所有的主机​​I/O​​以应付故障发生时的情形。假如仅有一个​​SP​​在工作​​(​​同时写缓存也被禁用​​)​​会造成重要应用访问超时,那这样的配置不能被认为是一个完全冗余的系统。非中断升级​​(NDU)​​同样要求两个​​SP​​的平均使用率在​​50%​​以下,通常在系统高峰时无法完成升级。​

​ ​
​ ​

​解决方案​

​ ​
​ ​

​ ​

​为了降低​​SP​​使用率并且改善​​Navisphere/Unisphere​​的影响时间,可以采取以下操作:​

​ ​

​ ​

​ ​

​ ​

​·​​ ​​尽可能从​​Vault​​磁盘​​(0_0_0​​至​​0_0_4)​​迁出用户​​LUN​

​ ​

​·​​ ​​如果为了​​NDU​​升级需要临时减少​​SP​​使用率,可以关闭部分非关键业务的主机​

​ ​

​·​​ ​​CX3​​系列存储可以升级到​​Release 26 Patch 29​​或之后版本以支持​​Navisphere​​的差异轮询​​(Delta Polling)​​功能。由于​​Navisphere​​每次仅抓取上一次抓取后更改的数据,这将减少总的​​SP CPU​​使用率并改善系统响应时间。在存有大量​​LUN​​、​​MetaLUN​​和硬盘数的配置上效果最明显​

​ ​

​·​​ ​​CX4​​的所有​​FLARE​​版本都带有差异轮询功能因此普遍地​​Navisphere/Unisphere​​的响应时间要比早期设备要快​

​ ​

​·​​ ​​在创建​​Storage Pool​​和​​LUN​​之后,等待​​Background Zeroing​​完成后再引入​​I/O​​密集型应用到存储中​

​ ​

​·​​ ​​减少​​Navisphere Manager​​进程数量。类似​​EMC ControlCenter​​、​​EMC Replication Manager​​之类的外部程序会定期抓取存储系统信息从而增加​​SP​​使用率,可以考虑在​​NDU ​​操作前关闭它们​

​ ​

​·​​ ​​如果可能,合并部分​​LUN​​以减少它们的数量。如果一个​​RAID group​​上的多个​​LUN​​被同一台主机的同一个应用使用,有可能会造成磁头竞争​​(​​linked contention)​​、更大的寻道距离以及更低的缓存使用率。将这些​​LUN​​迁移至数量更小、容量更大的​​LUN​​同样可以减少需要监控的统计量从而进一步降低​​SP​​使用率​

​ ​

​·​​ ​​禁用​​Navisphere​​的自动管理主机​​(auto-manage hosts)​​功能以减少​​Navisphere​​轮询次数​

​ ​

​·​​ ​​检查​​MetaLUN​​配置是否有磁头竞争​​(linked contention)​​问题。参考知识库文档​​emc188729: "​​Fixing 'linked contention' performance issues"​

​ ​

​·​​ ​​根据知识库文档​​emc226845: "​​Best practices for creating metaLUNs on VNX or CLARiiON arrays"​​,迁移混合的​​MetaLUN​​ (​​多个条带化的​​MetaLUN​​串联在一起哦​​)​​至单一的​​MetaLUN​

​ ​

​·​​ ​​确保主机、交换机和​​CLARiiON​​的网卡速率都设在了相同的速度。​​SP​​管理网口默认是自适应的,交换机最好也设为自适应​

​ ​

​·​​ ​​增加运行有​​Navisphere Manager​​的主机的​​Java​​运行内存至​​128MB​​或更多。参考知识库文档​​emc192269: "​​Slow response from Navisphere Manager GUI or Off-array Manager"​

​ ​

​·​​ ​​使用最新的存储软件版本​

​ ​

​·​​ ​​在​​Navisphere Setup​​页面中增加​​Navisphere​​轮询间隔​​(polling interval)​​至最大的​​300​​秒​

​ ​

​·​​ ​​一旦完成​​SP​​使用率的测量和性能数据的抓取后就禁用统计日志​​(statistics logging)​

​ ​

​·​​ ​​确保所有的​​navicli/naviseccli​​脚本都使用了​​-np (No Polling​​功能​​)​​。尽量避免使用长队列的​​Navisphere CLI​​命令脚本​

​ ​

​·​​ ​​取消注册所有不再使用的主机。如果仍有未使用的主机​​initiator​​登入,需要更改​​FC​​交换机​​Zoning​​设定。​

​ ​

​·​​ ​​如果​​Connectivity Status​​中出现了不是为了​​MirrorView​​或​​SAN Copy​​而加入的​​CLARiiON initiator​​,应该在​​FC​​交换机上移除它们​

​ ​

​ ​

​ ​

​ ​

​如果实施了上述操作后仍然不能将平均​​SP​​使用率降到一个可接受的水平​​(50%​​左右​​)​​,就可以开始考虑升级存储设备了。​

​ ​
​ ​

​变通方法​

​ ​
​ ​

​ ​

​无​

​ ​
​ ​

​参考​

​ ​
​ ​

​ ​

​参考下列​​EMC​​知识库文章:​

​ ​

​emc207795​​ ​​How to reduce CLARiiON SP utilization and Navisphere/Unisphere response times​

​ ​

​emc186107​​ ​​How to improve performance on a VNX or CLARiiON storage system that is forced flushing​

​ ​

​emc226845​​ ​​Best practices for creating metaLUNs on VNX or CLARiiON arrays​

​ ​

​emc206697​​ ​​CLARiiON: Large number of concurrent LUN creations when using FLARE Release 28.003 to 28.506 on CX4 Series may impact performance​

​ ​

​emc188729​​ ​​Fixing 'linked contention' performance issues​

​ ​

​emc213405​​ ​​Should I be concerned if SP CPU utilization is running at over 50%?​

​ ​

​emc192269​​ ​​Slow response from Navisphere Manager GUI or Off-array Manager​

​ ​
​ ​

​应用于​

​ ​
​ ​

​ ​

​CLARiiON​​系列​

​ ​

​ ​

​ ​
没有回复!
找不到事件!

Top