开始新对话

此帖子已超过 5 年

Solved!

Go to Solution

4672

2012年8月30日 04:00

EMC CX3-40 LCC 问题

​HI,大家好:​

​ 最近处理一台cx3-40 存储,该存储LCC卡上亮故障灯,在navisphere中可以看到状态为fault。​

​ 另外,该lcc所在的整个BUS中,每个DAE上显示的lcc都为fault,这个可以理解。​

​ 整套存储,每个DAE都有lcc冗余,为何一个lcc故障,导致整个bus的硬盘都无法看到(可以看见盘,但是盘空间无法显示,而且这些盘所在的lun都是fault的)。​

​ 最后处理结果,更换了LCC,该链路恢复,整个bus的盘又显示出,lun的状态才正常了。​

​疑问点:为什么冗余的lcc没有起的作用?哪个大侠可以详细讲解一下。​

​ 需要我提供什么信息,请及时回复。我及时更新。谢谢。​

2 Intern

 • 

136 消息

2012年8月30日 18:00

(1)CAP很早就不support了,信息不准,所以就不看了

(2)两个SPCOLLECTS分别是7/31(带故障)和8/29(已修复),缺少SPA的SPCOLLECTS,我就只看7/31的SPCOLLECT。

(3)大致看了下,故障发生时间是5/14日,当时BUS1上的所有DISK在B边都掉了,但仅有两个LUN是无法访问的状态,换句话说,其他LUN都被trespass到了A边且处于Enabled的状态,说明DISK在A边没有掉。因此,至少从存储端来讲,LCC已经起到了冗余的作用。否则你这4个柜子上的LUN就全部掉光了。

(3)至于那两个BRK的LUN,我看到它们没有被分配给任何主机,所以主机不会对它们做Trespass。

(4)至于你说的DISK容量都为0,可能是因为你从SPB访问的Naiv,也可能是因为Management Server的问题。这个我觉得没有太多可以纠结的。

1.6K 消息

2012年8月30日 04:00

估计大侠晚上不一定上线,明天肯定有人回复

2 Intern

 • 

1.4K 消息

2012年8月30日 05:00

这个问题比较复杂,我想知道的是当时LUN是否还能被访问?

30 消息

2012年8月30日 06:00

当时的lun都显示fault了,已经无法访问了。。在navisphere的页面中查看硬盘的大小,显示的是0GB,正常的盘硬盘显示实际的大小。。。

2 Intern

 • 

1.2K 消息

2012年8月30日 06:00

注:根据所涉及的产品,将帖子从论坛首页空间移动至了“存储系统”版块,方便分类和查看。

2 Intern

 • 

1.4K 消息

2012年8月30日 06:00

先说明一下,这种情况下如果没有故障发生时抓的SPCOLLECTS,很难找到root cause。

(1)首先,LUN显示Fault不代表LUN就一定不能访问了,任何Navisphere树结构下的任何一块盘损坏都是使得其子对象(LUN)显示为FAULT

(2)坏一边的LCC会导致其之后的所有LCC(仅限有问题的一边)都“掉”,但你说整个BUS都掉了,难道是0号LCC?

(3)假设掉的是A边,那么I/O failure后,主机多路径软件照理应该会触发LUN Trespass到B边,从B边访问。如果LUN无法访问,那只有两种情况:

          1) 没有Trespass,没有多路径、多路径配置问题等等

          2) A边掉导致B边也被带下来,这是BUS结构本身的不稳定,噪音、信号干扰等都会导致这种情况。通常是会带几块盘下来,但有时候会掉一大片,促成double fault,LUN就挂了

(4)盘挂了Navisphere自然是看不到属性了,但也有可能是Management Server的问题,这个很难说,尤其对于CX3这种老机器

所以,双LCC能提供冗余,但条件是不发生以上这些情况。你有当时的SPCOLECTS的话,或许可以发上来看看。

30 消息

2012年8月30日 07:00

好的。

请看如下收集的信息,还有两个用cap软件分析的excel表。

4个附件

30 消息

2012年8月30日 07:00

thanks,我发帖的时候,木有看见哪里选择,第一次失误,以后会多注意。。。

2 Intern

 • 

1.2K 消息

2012年8月30日 08:00

呵呵,没事,我这边移动一下帖子很快的。

其实,只要在首页中间的版块导航栏(如下图)里找到相应的版块,先进入版块后,再创建帖子就ok了。

navigation.jpg

30 消息

2012年8月30日 18:00

现在不实用cap软件了,你是直接看log分析,还是有其他工具来借助分析?

多谢回复,我在分析看看。

2 Intern

 • 

136 消息

2012年8月30日 18:00

(1)用的内部工具看的

(2)对,两个SP看到的状态会不同

30 消息

2012年8月30日 18:00

磁盘的状态为removed的解释有几种,在两个sp中会看到disk不同的状态?

2 Intern

 • 

136 消息

2012年8月30日 18:00

请帮忙将此帖标记为“正确解答”,谢谢!

30 消息

2012年8月30日 18:00

当时没有在两个sp中分别查看,在spb中收集的故障的包,然后在spa上收集的replace lcc之后的包。

多谢解答。

找不到事件!

Top