开始新对话

未解决

此帖子已超过 5 年

4348

2016年9月19日 00:00

EMC CX4-480一个非常奇怪的故障

​各位老大,​
​ ​
​ ​
​碰到个​​EMC CX4-480上​​奇怪的故障,一开始​​发现的表面现象是,存储最后两个盘柜(一共​​5​​个​​CX4-4PDAE​​盘柜)的各最后一块​​Hotspare​​硬盘亮黄灯。​
​ ​
​ ​
​从​​Unisphere​​管理软件进去检查后,发现故障是最后两个柜子的硬盘全掉线了,原来是​​enable​​和​​hotspare​​的硬盘变成了​​Removed​​,原来是未使用状态的硬盘,现在变成​​empty​​,对应的​​LUN​​也显示​​fault​​。​
​ ​
​ ​
​但最最奇怪的是对应的主机应用全部正常使用中,在​​Windows/AIX​​操作系统里面看到的​​powerpath​​硬盘没有掉线,数据库​​/​​应用访问也正常的。请问这可能是什么故障啊(另有一路电池坏应该不相干)?​​ ​
​ ​
​ ​
​存储信息:​
​ ​
​ ​
​Firmware Revision: 4.30.0.5.526​
​ ​
​ PROM Revision: 5.20.00​
​ ​
​ Fault Status Report​
​:​
​ ​
​FCN00111501002​
​ Bus 2 Enclosure 0 : Missing Fault reported by SP A : Missing​
​ Bus 2 Enclosure 0 Disk 0 : Removed​
​ Bus 2 Enclosure 0 Disk 1 : Removed​
​ Bus 2 Enclosure 0 Disk 2 : Removed​
​ Bus 2 Enclosure 0 Disk 3 : Removed​
​ Bus 2 Enclosure 0 Disk 4 : Removed​
​ Bus 2 Enclosure 0 Disk 5 : Removed​
​ Bus 2 Enclosure 0 Disk 6 : Removed​
​ Bus 3 Enclosure 0 : Missing Fault reported by SP A : Missing​
​ Enclosure SPE : Cabling information differs between SPs; may indicate disconnected cabinets.​
​ Enclosure SPE : Faulted​
​ Enclosure SPE SPS B : Faulted​
​ ​
​ ​

​相关日志及截图:​

​https://yunpan.cn/ckqTrzyxe23I3​​ (提取码:a732)​

​https://yunpan.cn/ckqTrzyxe23I3​


2 Intern

 • 

4K 消息

2016年9月19日 02:00

GUI界面上的信息与实际不同的话,通常先重启一下Management Server。如果重启后仍然报告DAE missing,那估计就真的掉盘了,快点趁应用都在备份一下重要数据。我个人觉得是哪里信息掌握错误吧,两边SP的日志都收集了吗?DAE missing两边SP都报了?我看你日志就SP A报了,有时候SP A、SP B对组件状态的判断会不同步。

2 Intern

 • 

4K 消息

2016年9月19日 05:00

到家后登录你的云盘看了下(公司网络不能访问任何文件分享站点......),原来SPA、SPB SPcollects都收集了。可惜最近论坛附件上传功能不能用,不然就上传一份到论坛上方便大家参考。明天到公司有环境了帮你分析下看看。

1.jpg

6.jpg

6 消息

2016年9月19日 07:00

另外还有一个小问题,在收SPB SPcollects的时候,发现SPB之前一大堆的日志都无法删掉,点Delete确认之后,文件还是都在。

6 消息

2016年9月19日 07:00

多谢啦, 请问Management Server是在GUI大概什么地方重启啊

2 Intern

 • 

416 消息

2016年9月19日 18:00

访问:https://sp地址/setup

输入用户名以及密码,在网页中间的位置有Restart ManagementServer的按钮。

重启ManagementServe不会影响到业务。

6 消息

2016年9月20日 02:00

多谢Roger兄!!

几个Fault LUN的在主机上都是能正常使用的,真心好奇怪的。 连线之前也没人动过的,有个兄弟建议逐个拔插一下3-0和2-0上的lcc模块,说很可能可以解决这个问题。

另外SPS B直接在线拔插替换就可以吧?

2 Intern

 • 

4K 消息

2016年9月20日 02:00

用TRiiAGE看了一下SPCollects,发现问题如下:

1. SPS B、SPE、DAE故障:

FRU                   SPA                        SPB

--------------------  -------------------------  -------------------------

Bus2 Enc0             Missing                   

Bus3 Enc0             Missing                   

SPE                   Faulted, Cabling information differs between SPs

                                                 Cabling information differs between SPs

SPE SPSB              Faulted            

SP日志中的具体信息:

A       09/18/16 00:57:02 Bus0 Enc0 SpsB        940 Fault reported by SPS. Replace the SPS.  0    0        104

A       09/11/16 08:03:53                      2580 Storage Array Faulted Enclosure SPE : Cabling information differs between SPs; may indicate disconnected cabinets. Bus 2 Enclosure 0 : Missing Fault reported by SP A : Missing Bus 3 Enclosure 0 : Missing Fault reported by SP A : Missing Bus 2 Enclosure 0

2. DAE missing导致几个RAID Group异常:

-------------------------------------------------------------------------------------------------------------------------------------

  MLU TPID   ALU   FLU RGRP  ENCTYPE     TYPE PRIV  LD CAPACITY CACHE DEFOWN    STATE  NAVIFRUS

-------------------------------------------------------------------------------------------------------------------------------------

    -    -  8186    12    0      ST4   RAID-5    N   -     1 MB   RW-   SP-B ENA:PEER  0.0.0  0.0.1  0.0.2  0.0.3  0.0.4  0.0.5  0.0.6 

    -    -    20     4   10      ST4   RAID-5    N   - 800.4 GB   RW-   SP-A ENA:PEER  0.1.0  0.1.1  0.1.2  0.1.3  0.1.4  0.1.5  0.1.6 

    -    -    21     5   10      ST4   RAID-5    N   - 350.0 GB   RW-   SP-A ENA:PEER  0.1.0  0.1.1  0.1.2  0.1.3  0.1.4  0.1.5  0.1.6 

    -    -    22     6   10      ST4   RAID-5    N   -  50.0 GB   RW-   SP-A ENA:PEER  0.1.0  0.1.1  0.1.2  0.1.3  0.1.4  0.1.5  0.1.6 

    -    -    23     7   10      ST4   RAID-5    N   -   100 MB   RW-   SP-A ENA:PEER  0.1.0  0.1.1  0.1.2  0.1.3  0.1.4  0.1.5  0.1.6 

    -    -    30     8   11      ST4   RAID-5    N   -  20.0 GB   RW-   SP-B ENA:PEER  0.1.7  0.1.8  0.1.9  0.1.10 0.1.11 0.1.12 0.1.13

    -    -    31     9   11      ST4   RAID-5    N   -   100 MB   RW-   SP-B ENA:PEER  0.1.7  0.1.8  0.1.9  0.1.10 0.1.11 0.1.12 0.1.13

    -    -    40    10   11      ST4   RAID-5    N   - 300.0 GB   RW-   SP-B ENA:PEER  0.1.7  0.1.8  0.1.9  0.1.10 0.1.11 0.1.12 0.1.13

    -    -    50    11   11      ST4   RAID-5    N   - 800.4 GB   RW-   SP-B ENA:PEER  0.1.7  0.1.8  0.1.9  0.1.10 0.1.11 0.1.12 0.1.13

    -    -    80    14   12      ST4   RAID-5    N   - 600.0 GB   RW-   SP-A ENA:PEER  1.0.0  1.0.1  1.0.2  1.0.3  1.0.4  1.0.5  1.0.6 

    -    -    90    15   13      ST4   RAID-5    N   -   1.2 TB   RW-   SP-B ENA:PEER  1.0.7  1.0.8  1.0.9  1.0.10 1.0.11 1.0.12 1.0.13

    -    -   100    16   14      ST4   RAID-5    N   - 800.0 GB   RW-   SP-A ENA:PEER  2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)

    -    -   120    17   14      ST4   RAID-5    N   - 100.0 GB   RW-   SP-A ENA:PEER  2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)

    -    -   121    18   14      ST4   RAID-5    N   - 100.0 GB   RW-   SP-B ENA:PEER  2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)

    -    -   122    19   14      ST4   RAID-5    N   - 100.0 GB   RW-   SP-A ENA:PEER  2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)

    -    -   123    20   14      ST4   RAID-5    N   - 100.0 GB   RW-   SP-B ENA:PEER  2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)

    -    -   124    21   14      ST4   RAID-5    N   - 100.0 GB   RW-   SP-A ENA:PEER  2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)

    -    -   125    22   14      ST4   RAID-5    N   - 100.0 GB   RW-   SP-B ENA:PEER  2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)

    -    -   126    23   14      ST4   RAID-5    N   - 100.0 GB   RW-   SP-A ENA:PEER  2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)

    -    -   127    24   14      ST4   RAID-5    N   - 100.0 GB   RW-   SP-B ENA:PEER  2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)

    -    -  8187     3  235      ST4 HotSpare    Y   - 268.4 GB   ---   SP-A     BRK*  3.0.14(DEAD)

    -    -  8188     2  236      ST4 HotSpare    Y   - 268.4 GB   ---   SP-A     BRK*  2.0.14(DEAD)

    -    -  8189     1  237      ST4 HotSpare    Y   - 268.4 GB   ---   SP-A      ENA  1.0.14

    -    -  8190     0  238      ST4 HotSpare    Y   - 268.4 GB   ---   SP-A      ENA  0.1.14

    -    -  8191    13  239      ST4 HotSpare    Y   - 268.4 GB   ---   SP-A      ENA  0.0.14

    -    -     -  8192  960      ST4   RAID-1    -   -   2.0 GB   R--   SP-B      ENA  0.0.0  0.0.1  0.0.2 

    -    -     -  8193  960      ST4   RAID-1    -   -   100 MB   R--   SP-B      ENA  0.0.0  0.0.1  0.0.2 

    -    -     -  8196  961      ST4   RAID-3    -   -  16.0 GB   ---   SP-B      ENA  0.0.0  0.0.1  0.0.2  0.0.3  0.0.4 

从主机列表里看,受影响的应该是jsArchivesData/jsArchiveData1 (10.1.6.1) 和 jsarchivessrv/jsarchivessrv  (137.1.100.109) 这两台,真的都没问题吗?

Summary Count Totals:  SG: 8  Initiator: 50  RG: 14  Lun: 21      Trespass (TR Cnt): 0

SG Initiator Check: WARNING

* = Excessive Trespassing ** = Single Physical/Logical Path = Thin Lun       = Direct LUN

======================================================================================

|SG Name/Host Name            |IP           |Port|Adapter          |Log/Reg|Failover  |Path |HLU         |ALU         |   TR|

|                             |             |    |                 |       |Mode      |Count|            |            |Count|

======================================================================================

|jsArchivesData/jsArchiveData1|10.1.6.1     |A:6 |PwrP:hdisk34     |NO/YES |PAR(3)    |4**  |0,1,2,3,4,5,|120,121,122,|    0|

|                             |             |    |                 |       |          |     |6,7         |123,124,125,|     |

|                             |             |    |                 |       |          |     |            |126,127     |     |

+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+

|                             |             |A:7 |PwrP:hdisk26     |NO/YES |PAR(3)    |     |            |            |     |

+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+

|                             |             |B:6 |PwrP:hdisk2      |YES/YES|PAR(3)    |     |            |            |     |

+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+

|                             |             |B:7 |PwrP:hdisk18     |YES/YES|PAR(3)    |     |            |            |     |

+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+

|jsArchiveData2               |10.1.6.2     |A:6 |PwrP:hdisk5      |NO/YES |PAR(3)    |4**  |            |            |     |

+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+

|                             |             |A:7 |PwrP:hdisk21     |NO/YES |PAR(3)    |     |            |            |     |

+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+

|                             |             |B:6 |PwrP:hdisk10     |YES/YES|PAR(3)    |     |            |            |     |

+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+

|                             |             |B:7 |PwrP:hdisk26     |YES/YES|PAR(3)    |     |            |            |     |

+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+

|jsarchivessrv/jsarchivessrv  |137.1.100.109|A:6 |PwrP:SCSI16:0:5:0|NO/YES |PNR(1)    |4**  |0           |100         |    0|

+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+

|                             |             |A:7 |PwrP:SCSI14:0:5:0|NO/YES |PNR(1)    |     |            |            |     |

+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+

|                             |             |B:6 |PwrP:SCSI16:0:4:0|YES/YES|PNR(1)    |     |            |            |     |

+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+

|                             |             |B:7 |PwrP:SCSI14:0:4:0|YES/YES|PNR(1)    |     |            |            |     |

+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+

总之按照系统提示的,先把SPS B修复或替换,然后确认下连线是否正确(最好同时问问之前有没有谁做过改动)。系统硬件组件都正常了后,再来看数据是否有影响。

2 Intern

 • 

4K 消息

2016年9月20日 19:00

确保另一个SPS是正常工作的情况下,可以安全的更换故障SPS,更换SPS不会引起SP重启,另外一个SPS会给两边的SP供电,直接更换故障SPS即可。

不放心的话可以下载SolVe Desktop文档生成器参考官方文档中的步骤。不过需要经销商权限才能使用SolVe Desktop。

cx4_sps.png

6 消息

2016年9月20日 19:00

多谢了,

等停机的时候,我先拔插lcc试试能不能解决这个故障。

2 Intern

 • 

4K 消息

2016年9月30日 01:00

后来问题解决了不?欢迎来分享处理心得经验。

6 消息

2016年10月2日 05:00

感谢关心!!!

问题还没有解决,只是有进展了,

一、今天先重启过SPB后,硬盘故障灯恢复正常,但是显示仍旧。

二、再重启SPA后,发现无法启动。

三、拔出SPA,只留SPB,整个CX4-480存储断电后再开机启动后,发现一切正常(除了SPA没有之外),原来掉线的4号柜(2-0)、5号柜(3-0)上的硬盘,状态都正常了,相关的LUN也都恢复正常,并在线顺利更换SPB的电池。

四、再测试,启动SPA后,连接串口,发现报“USB TI3410 component is not initialized for LCC port”错误日志后并中断,并且3号磁盘柜(1-0)连接SPA控制器LCC上的一个状态灯一直不亮,以及4号柜(2-0)、5号柜(3-0)的连接SPA控制器LCC状态问题都一样。。。另外SPA控制器上A0上BUS0的module口是蓝灯,但接BUS1的module口就一直是黄(琥珀)灯,另外A1上接BUS2和BUS3的module口灯完全不亮。(感觉像是依次自检时,到了BUS1口就中断了)

五、尝试:拔插3号柜的SPA LCC、拔插(交换A0/A1)IO module、拔插SPA控制器,整个CX4-480存储断电后再开机,故障报错信息还是完全一样。

六、准备下次更换SPA控制器测试。另外应该不会是IO module的问题吧?。

日志下载地址:

https://yunpan.cn/ckaS6v6sBwpS9 (提取码:4518)

http://https://yunpan.cn/ckaS6v6sBwpS9

(提取码:4518)

2 Intern

 • 

4K 消息

2016年10月3日 07:00

不清楚USB TI3410是啥组件,KB中也搜不到相关错误。

问题范围已经缩小不少了,一个个组件换吧。SPB正常的时候可以再收集一次SPcollects的其实,两相对比可能可以发现些问题。

找不到事件!

Top