此帖子已超过 5 年
30 消息
0
4672
EMC CX3-40 LCC 问题
HI,大家好:
最近处理一台cx3-40 存储,该存储LCC卡上亮故障灯,在navisphere中可以看到状态为fault。
另外,该lcc所在的整个BUS中,每个DAE上显示的lcc都为fault,这个可以理解。
整套存储,每个DAE都有lcc冗余,为何一个lcc故障,导致整个bus的硬盘都无法看到(可以看见盘,但是盘空间无法显示,而且这些盘所在的lun都是fault的)。
最后处理结果,更换了LCC,该链路恢复,整个bus的盘又显示出,lun的状态才正常了。
疑问点:为什么冗余的lcc没有起的作用?哪个大侠可以详细讲解一下。
需要我提供什么信息,请及时回复。我及时更新。谢谢。
SteveZhou
2 Intern
2 Intern
•
136 消息
0
2012年8月30日 18:00
(1)CAP很早就不support了,信息不准,所以就不看了
(2)两个SPCOLLECTS分别是7/31(带故障)和8/29(已修复),缺少SPA的SPCOLLECTS,我就只看7/31的SPCOLLECT。
(3)大致看了下,故障发生时间是5/14日,当时BUS1上的所有DISK在B边都掉了,但仅有两个LUN是无法访问的状态,换句话说,其他LUN都被trespass到了A边且处于Enabled的状态,说明DISK在A边没有掉。因此,至少从存储端来讲,LCC已经起到了冗余的作用。否则你这4个柜子上的LUN就全部掉光了。
(3)至于那两个BRK的LUN,我看到它们没有被分配给任何主机,所以主机不会对它们做Trespass。
(4)至于你说的DISK容量都为0,可能是因为你从SPB访问的Naiv,也可能是因为Management Server的问题。这个我觉得没有太多可以纠结的。
Yanhong1
1.6K 消息
0
2012年8月30日 04:00
估计大侠晚上不一定上线,明天肯定有人回复
zhouzengchao
2 Intern
2 Intern
•
1.4K 消息
0
2012年8月30日 05:00
这个问题比较复杂,我想知道的是当时LUN是否还能被访问?
superreyn
30 消息
0
2012年8月30日 06:00
当时的lun都显示fault了,已经无法访问了。。在navisphere的页面中查看硬盘的大小,显示的是0GB,正常的盘硬盘显示实际的大小。。。
Jason_Zhou
2 Intern
2 Intern
•
1.2K 消息
0
2012年8月30日 06:00
注:根据所涉及的产品,将帖子从论坛首页空间移动至了“存储系统”版块,方便分类和查看。
zhouzengchao
2 Intern
2 Intern
•
1.4K 消息
1
2012年8月30日 06:00
先说明一下,这种情况下如果没有故障发生时抓的SPCOLLECTS,很难找到root cause。
(1)首先,LUN显示Fault不代表LUN就一定不能访问了,任何Navisphere树结构下的任何一块盘损坏都是使得其子对象(LUN)显示为FAULT
(2)坏一边的LCC会导致其之后的所有LCC(仅限有问题的一边)都“掉”,但你说整个BUS都掉了,难道是0号LCC?
(3)假设掉的是A边,那么I/O failure后,主机多路径软件照理应该会触发LUN Trespass到B边,从B边访问。如果LUN无法访问,那只有两种情况:
1) 没有Trespass,没有多路径、多路径配置问题等等
2) A边掉导致B边也被带下来,这是BUS结构本身的不稳定,噪音、信号干扰等都会导致这种情况。通常是会带几块盘下来,但有时候会掉一大片,促成double fault,LUN就挂了
(4)盘挂了Navisphere自然是看不到属性了,但也有可能是Management Server的问题,这个很难说,尤其对于CX3这种老机器
所以,双LCC能提供冗余,但条件是不发生以上这些情况。你有当时的SPCOLECTS的话,或许可以发上来看看。
superreyn
30 消息
0
2012年8月30日 07:00
好的。
请看如下收集的信息,还有两个用cap软件分析的excel表。
4个附件
20120829_162619.cap_CK200070600948_12-08-29_16-26-12.xls
20120829_162619.clariion_DiagnosticData_CK200070600948_08-29-2012_16-08-30.zip
20120731_164510.clariion_Healthcheck_CK200070600948_07-31-2012_16-27-09.zip
20120731_164510.cap_CK200070600948_12-07-31_16-45-03.xls
superreyn
30 消息
0
2012年8月30日 07:00
thanks,我发帖的时候,木有看见哪里选择,第一次失误,以后会多注意。。。
Jason_Zhou
2 Intern
2 Intern
•
1.2K 消息
0
2012年8月30日 08:00
呵呵,没事,我这边移动一下帖子很快的。
其实,只要在首页中间的版块导航栏(如下图)里找到相应的版块,先进入版块后,再创建帖子就ok了。
superreyn
30 消息
0
2012年8月30日 18:00
现在不实用cap软件了,你是直接看log分析,还是有其他工具来借助分析?
多谢回复,我在分析看看。
SteveZhou
2 Intern
2 Intern
•
136 消息
0
2012年8月30日 18:00
(1)用的内部工具看的
(2)对,两个SP看到的状态会不同
superreyn
30 消息
0
2012年8月30日 18:00
磁盘的状态为removed的解释有几种,在两个sp中会看到disk不同的状态?
SteveZhou
2 Intern
2 Intern
•
136 消息
0
2012年8月30日 18:00
请帮忙将此帖标记为“正确解答”,谢谢!
superreyn
30 消息
0
2012年8月30日 18:00
当时没有在两个sp中分别查看,在spb中收集的故障的包,然后在spa上收集的replace lcc之后的包。
多谢解答。