未解决
此帖子已超过 5 年
6 消息
0
4348
EMC CX4-480一个非常奇怪的故障
各位老大,
碰到个EMC CX4-480上奇怪的故障,一开始发现的表面现象是,存储最后两个盘柜(一共5个CX4-4PDAE盘柜)的各最后一块Hotspare硬盘亮黄灯。
从Unisphere管理软件进去检查后,发现故障是最后两个柜子的硬盘全掉线了,原来是enable和hotspare的硬盘变成了Removed,原来是未使用状态的硬盘,现在变成empty,对应的LUN也显示fault。
但最最奇怪的是对应的主机应用全部正常使用中,在Windows/AIX操作系统里面看到的powerpath硬盘没有掉线,数据库/应用访问也正常的。请问这可能是什么故障啊(另有一路电池坏应该不相干)?
存储信息:
Firmware Revision: 4.30.0.5.526
PROM Revision: 5.20.00
Fault Status Report:
FCN00111501002
Bus 2 Enclosure 0 : Missing Fault reported by SP A : Missing
Bus 2 Enclosure 0 Disk 0 : Removed
Bus 2 Enclosure 0 Disk 1 : Removed
Bus 2 Enclosure 0 Disk 2 : Removed
Bus 2 Enclosure 0 Disk 3 : Removed
Bus 2 Enclosure 0 Disk 4 : Removed
Bus 2 Enclosure 0 Disk 5 : Removed
Bus 2 Enclosure 0 Disk 6 : Removed
Bus 3 Enclosure 0 : Missing Fault reported by SP A : Missing
Enclosure SPE : Cabling information differs between SPs; may indicate disconnected cabinets.
Enclosure SPE : Faulted
Enclosure SPE SPS B : Faulted
相关日志及截图:
https://yunpan.cn/ckqTrzyxe23I3 (提取码:a732)
https://yunpan.cn/ckqTrzyxe23I3
Roger_Wu
2 Intern
2 Intern
•
4K 消息
1
2016年9月19日 02:00
GUI界面上的信息与实际不同的话,通常先重启一下Management Server。如果重启后仍然报告DAE missing,那估计就真的掉盘了,快点趁应用都在备份一下重要数据。我个人觉得是哪里信息掌握错误吧,两边SP的日志都收集了吗?DAE missing两边SP都报了?我看你日志就SP A报了,有时候SP A、SP B对组件状态的判断会不同步。
Roger_Wu
2 Intern
2 Intern
•
4K 消息
0
2016年9月19日 05:00
到家后登录你的云盘看了下(公司网络不能访问任何文件分享站点......),原来SPA、SPB SPcollects都收集了。可惜最近论坛附件上传功能不能用,不然就上传一份到论坛上方便大家参考。明天到公司有环境了帮你分析下看看。
jiantao
6 消息
0
2016年9月19日 07:00
另外还有一个小问题,在收SPB SPcollects的时候,发现SPB之前一大堆的日志都无法删掉,点Delete确认之后,文件还是都在。
jiantao
6 消息
0
2016年9月19日 07:00
多谢啦, 请问Management Server是在GUI大概什么地方重启啊
Password01_
2 Intern
2 Intern
•
416 消息
0
2016年9月19日 18:00
访问:https://sp地址/setup
输入用户名以及密码,在网页中间的位置有Restart ManagementServer的按钮。
重启ManagementServe不会影响到业务。
jiantao
6 消息
0
2016年9月20日 02:00
多谢Roger兄!!
几个Fault LUN的在主机上都是能正常使用的,真心好奇怪的。 连线之前也没人动过的,有个兄弟建议逐个拔插一下3-0和2-0上的lcc模块,说很可能可以解决这个问题。
另外SPS B直接在线拔插替换就可以吧?
Roger_Wu
2 Intern
2 Intern
•
4K 消息
1
2016年9月20日 02:00
用TRiiAGE看了一下SPCollects,发现问题如下:
1. SPS B、SPE、DAE故障:
FRU SPA SPB
-------------------- ------------------------- -------------------------
Bus2 Enc0 Missing
Bus3 Enc0 Missing
SPE Faulted, Cabling information differs between SPs
Cabling information differs between SPs
SPE SPSB Faulted
SP日志中的具体信息:
A 09/18/16 00:57:02 Bus0 Enc0 SpsB 940 Fault reported by SPS. Replace the SPS. 0 0 104
A 09/11/16 08:03:53 2580 Storage Array Faulted Enclosure SPE : Cabling information differs between SPs; may indicate disconnected cabinets. Bus 2 Enclosure 0 : Missing Fault reported by SP A : Missing Bus 3 Enclosure 0 : Missing Fault reported by SP A : Missing Bus 2 Enclosure 0
2. DAE missing导致几个RAID Group异常:
-------------------------------------------------------------------------------------------------------------------------------------
MLU TPID ALU FLU RGRP ENCTYPE TYPE PRIV LD CAPACITY CACHE DEFOWN STATE NAVIFRUS
-------------------------------------------------------------------------------------------------------------------------------------
- - 8186 12 0 ST4 RAID-5 N - 1 MB RW- SP-B ENA:PEER 0.0.0 0.0.1 0.0.2 0.0.3 0.0.4 0.0.5 0.0.6
- - 20 4 10 ST4 RAID-5 N - 800.4 GB RW- SP-A ENA:PEER 0.1.0 0.1.1 0.1.2 0.1.3 0.1.4 0.1.5 0.1.6
- - 21 5 10 ST4 RAID-5 N - 350.0 GB RW- SP-A ENA:PEER 0.1.0 0.1.1 0.1.2 0.1.3 0.1.4 0.1.5 0.1.6
- - 22 6 10 ST4 RAID-5 N - 50.0 GB RW- SP-A ENA:PEER 0.1.0 0.1.1 0.1.2 0.1.3 0.1.4 0.1.5 0.1.6
- - 23 7 10 ST4 RAID-5 N - 100 MB RW- SP-A ENA:PEER 0.1.0 0.1.1 0.1.2 0.1.3 0.1.4 0.1.5 0.1.6
- - 30 8 11 ST4 RAID-5 N - 20.0 GB RW- SP-B ENA:PEER 0.1.7 0.1.8 0.1.9 0.1.10 0.1.11 0.1.12 0.1.13
- - 31 9 11 ST4 RAID-5 N - 100 MB RW- SP-B ENA:PEER 0.1.7 0.1.8 0.1.9 0.1.10 0.1.11 0.1.12 0.1.13
- - 40 10 11 ST4 RAID-5 N - 300.0 GB RW- SP-B ENA:PEER 0.1.7 0.1.8 0.1.9 0.1.10 0.1.11 0.1.12 0.1.13
- - 50 11 11 ST4 RAID-5 N - 800.4 GB RW- SP-B ENA:PEER 0.1.7 0.1.8 0.1.9 0.1.10 0.1.11 0.1.12 0.1.13
- - 80 14 12 ST4 RAID-5 N - 600.0 GB RW- SP-A ENA:PEER 1.0.0 1.0.1 1.0.2 1.0.3 1.0.4 1.0.5 1.0.6
- - 90 15 13 ST4 RAID-5 N - 1.2 TB RW- SP-B ENA:PEER 1.0.7 1.0.8 1.0.9 1.0.10 1.0.11 1.0.12 1.0.13
- - 100 16 14 ST4 RAID-5 N - 800.0 GB RW- SP-A ENA:PEER 2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)
- - 120 17 14 ST4 RAID-5 N - 100.0 GB RW- SP-A ENA:PEER 2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)
- - 121 18 14 ST4 RAID-5 N - 100.0 GB RW- SP-B ENA:PEER 2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)
- - 122 19 14 ST4 RAID-5 N - 100.0 GB RW- SP-A ENA:PEER 2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)
- - 123 20 14 ST4 RAID-5 N - 100.0 GB RW- SP-B ENA:PEER 2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)
- - 124 21 14 ST4 RAID-5 N - 100.0 GB RW- SP-A ENA:PEER 2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)
- - 125 22 14 ST4 RAID-5 N - 100.0 GB RW- SP-B ENA:PEER 2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)
- - 126 23 14 ST4 RAID-5 N - 100.0 GB RW- SP-A ENA:PEER 2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)
- - 127 24 14 ST4 RAID-5 N - 100.0 GB RW- SP-B ENA:PEER 2.0.0 (MIS) 2.0.1 (MIS) 2.0.2 (MIS) 2.0.3 (MIS) 2.0.4 (MIS) 2.0.5 (MIS) 2.0.6 (MIS)
- - 8187 3 235 ST4 HotSpare Y - 268.4 GB --- SP-A BRK* 3.0.14(DEAD)
- - 8188 2 236 ST4 HotSpare Y - 268.4 GB --- SP-A BRK* 2.0.14(DEAD)
- - 8189 1 237 ST4 HotSpare Y - 268.4 GB --- SP-A ENA 1.0.14
- - 8190 0 238 ST4 HotSpare Y - 268.4 GB --- SP-A ENA 0.1.14
- - 8191 13 239 ST4 HotSpare Y - 268.4 GB --- SP-A ENA 0.0.14
- - - 8192 960 ST4 RAID-1 - - 2.0 GB R-- SP-B ENA 0.0.0 0.0.1 0.0.2
- - - 8193 960 ST4 RAID-1 - - 100 MB R-- SP-B ENA 0.0.0 0.0.1 0.0.2
- - - 8196 961 ST4 RAID-3 - - 16.0 GB --- SP-B ENA 0.0.0 0.0.1 0.0.2 0.0.3 0.0.4
从主机列表里看,受影响的应该是jsArchivesData/jsArchiveData1 (10.1.6.1) 和 jsarchivessrv/jsarchivessrv (137.1.100.109) 这两台,真的都没问题吗?
Summary Count Totals: SG: 8 Initiator: 50 RG: 14 Lun: 21 Trespass (TR Cnt): 0
SG Initiator Check: WARNING
* = Excessive Trespassing ** = Single Physical/Logical Path = Thin Lun = Direct LUN
======================================================================================
|SG Name/Host Name |IP |Port|Adapter |Log/Reg|Failover |Path |HLU |ALU | TR|
| | | | | |Mode |Count| | |Count|
======================================================================================
|jsArchivesData/jsArchiveData1|10.1.6.1 |A:6 |PwrP:hdisk34 |NO/YES |PAR(3) |4** |0,1,2,3,4,5,|120,121,122,| 0|
| | | | | | | |6,7 |123,124,125,| |
| | | | | | | | |126,127 | |
+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+
| | |A:7 |PwrP:hdisk26 |NO/YES |PAR(3) | | | | |
+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+
| | |B:6 |PwrP:hdisk2 |YES/YES|PAR(3) | | | | |
+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+
| | |B:7 |PwrP:hdisk18 |YES/YES|PAR(3) | | | | |
+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+
|jsArchiveData2 |10.1.6.2 |A:6 |PwrP:hdisk5 |NO/YES |PAR(3) |4** | | | |
+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+
| | |A:7 |PwrP:hdisk21 |NO/YES |PAR(3) | | | | |
+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+
| | |B:6 |PwrP:hdisk10 |YES/YES|PAR(3) | | | | |
+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+
| | |B:7 |PwrP:hdisk26 |YES/YES|PAR(3) | | | | |
+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+
|jsarchivessrv/jsarchivessrv |137.1.100.109|A:6 |PwrP:SCSI16:0:5:0|NO/YES |PNR(1) |4** |0 |100 | 0|
+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+
| | |A:7 |PwrP:SCSI14:0:5:0|NO/YES |PNR(1) | | | | |
+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+
| | |B:6 |PwrP:SCSI16:0:4:0|YES/YES|PNR(1) | | | | |
+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+
| | |B:7 |PwrP:SCSI14:0:4:0|YES/YES|PNR(1) | | | | |
+-----------------------------+-------------+----+-----------------+-------+----------+-----+------------+------------+-----+
总之按照系统提示的,先把SPS B修复或替换,然后确认下连线是否正确(最好同时问问之前有没有谁做过改动)。系统硬件组件都正常了后,再来看数据是否有影响。
Roger_Wu
2 Intern
2 Intern
•
4K 消息
0
2016年9月20日 19:00
确保另一个SPS是正常工作的情况下,可以安全的更换故障SPS,更换SPS不会引起SP重启,另外一个SPS会给两边的SP供电,直接更换故障SPS即可。
不放心的话可以下载SolVe Desktop文档生成器参考官方文档中的步骤。不过需要经销商权限才能使用SolVe Desktop。
jiantao
6 消息
0
2016年9月20日 19:00
多谢了,
等停机的时候,我先拔插lcc试试能不能解决这个故障。
Roger_Wu
2 Intern
2 Intern
•
4K 消息
0
2016年9月30日 01:00
后来问题解决了不?欢迎来分享处理心得经验。
jiantao
6 消息
0
2016年10月2日 05:00
感谢关心!!!
问题还没有解决,只是有进展了,
一、今天先重启过SPB后,硬盘故障灯恢复正常,但是显示仍旧。
二、再重启SPA后,发现无法启动。
三、拔出SPA,只留SPB,整个CX4-480存储断电后再开机启动后,发现一切正常(除了SPA没有之外),原来掉线的4号柜(2-0)、5号柜(3-0)上的硬盘,状态都正常了,相关的LUN也都恢复正常,并在线顺利更换SPB的电池。
四、再测试,启动SPA后,连接串口,发现报“USB TI3410 component is not initialized for LCC port”错误日志后并中断,并且3号磁盘柜(1-0)连接SPA控制器LCC上的一个状态灯一直不亮,以及4号柜(2-0)、5号柜(3-0)的连接SPA控制器LCC状态问题都一样。。。另外SPA控制器上A0上BUS0的module口是蓝灯,但接BUS1的module口就一直是黄(琥珀)灯,另外A1上接BUS2和BUS3的module口灯完全不亮。(感觉像是依次自检时,到了BUS1口就中断了)
五、尝试:拔插3号柜的SPA LCC、拔插(交换A0/A1)IO module、拔插SPA控制器,整个CX4-480存储断电后再开机,故障报错信息还是完全一样。
六、准备下次更换SPA控制器测试。另外应该不会是IO module的问题吧?。
日志下载地址:
https://yunpan.cn/ckaS6v6sBwpS9 (提取码:4518)
http://https://yunpan.cn/ckaS6v6sBwpS9
(提取码:4518)
Roger_Wu
2 Intern
2 Intern
•
4K 消息
0
2016年10月3日 07:00
不清楚USB TI3410是啥组件,KB中也搜不到相关错误。
问题范围已经缩小不少了,一个个组件换吧。SPB正常的时候可以再收集一次SPcollects的其实,两相对比可能可以发现些问题。