开始新对话

未解决

P

1 Rookie

 • 

2 消息

92

2024年2月19日 05:27

SSD盘做的RAID1损坏更换

PowerEdge R740用两块SSD固态盘做的RAID1安装Linux操作系统,当一块SSD盘告警损坏后,进行更换时,不管是在线直接更换还是关机更换进RAID,都无法数据重构完成,无法进入系统,造成的结果都是直接崩盘,只能重新做RAID然后格式化固态盘才能继续使用。请问这种情况如何处理,能够保留系统数据。

Community Manager

 • 

6.6K 消息

2024年2月19日 09:46

重建开始进行了吗?确定是重建开始后失败了是吗?如果是这样,大概率另一个好盘之前也已经要出现问题了,所以重建的时候失败。因为,正常情况下,RAID1里面一块盘坏了,更换以后重建不会有太大的问题。有时可能会有换上去磁盘没有自动启动重建,需要把磁盘指定为热备盘,然后才会启动重建。

PowerEdge HDD:如何以物理方式更换硬盘(热插拔流程)?

https://www.dell.com/support/kbdoc/zh-cn/000143539/poweredge-hdd-%E5%A6%82%E4%BD%95-%E4%BB%A5-%E7%89%A9%E7%90%86-%E6%96%B9%E5%BC%8F-%E6%9B%B4%E6%8D%A2-%E7%A1%AC%E7%9B%98-%E7%83%AD-%E6%8F%92%E6%8B%94-%E6%B5%81%E7%A8%8B?lang=zh

 

至于磁盘里的数据,如果数据特别特别重要,可以咨询一下数据恢复公司有没有办法恢复。如果数据无所谓的话,把新盘换上去,重新组raid1,重新使用了。

1 Rookie

 • 

2 消息

2024年2月21日 10:14

确定数据已经开始重建了,在iDRAC的页面找到存储标签页下的磁盘信息,可以看到数据重建中,百分比的数字,是在慢慢的增长,但每次都是没有完成重建,就崩盘了,已经发生五六次了,不太可能每次都是好的固态盘也有问题吧。这个到底是RAID卡的问题还是固态盘的问题,都是一批服务器,时不时的出现固态盘告警,但每次更换固态盘都不成功,每次都要重新做RAID-格式化-安装系统,不能一直这样操作,当前就有重要数据的服务器出现了一块固态盘损坏的情况,数据很重要,不能再像以前那样操作了,麻烦给出一些建设性的意见,如何处理能够避免崩盘,可以同步数据成功的方案。毕竟是多次发生了,不是个例。

(已编辑)

Community Manager

 • 

6.6K 消息

2024年2月22日 02:15

@pexiu​ 

遇到这样的问题确实令人困扰,抱歉给您带来的不好的体验。您可以先进行一些排查看一下:

硬件问题

  • 固态盘兼容性:确保所使用的 SSD 与 RAID 控制器完全兼容。部分第三方 SSD 可能在特定 RAID 控制器上存在兼容性问题。
  • RAID 控制器故障:RAID 控制器本身可能存在问题。尝试更新 RAID 控制器的固件到最新版本,检查是否有已知的故障或兼容性问题。
  • 固态盘质量问题:如果所有问题都出现在同一批 SSD 上,可能是批量生产时的质量问题。检查 SSD 的固件版本,看是否有更新可以解决问题。

软件问题

  • 软件兼容性:确保 RAID 控制器,磁盘等的驱动程序兼容,驱动程序需要是最新版本。还有,BIOS和idrac的驱动程序也更新到最新版本。

排查步骤

  1. 硬件测试:使用服务器的内置诊断工具检查硬件健康状况,确认没有其他潜在的硬件问题。

    如何在PowerEdge服务器上运行硬件诊断程序

    https://www.dell.com/support/kbdoc/en-us/000132726/%E5%A6%82-%E4%BD%95-%E5%9C%A8-poweredge-%E6%9C%8D%E5%8A%A1%E5%99%A8-%E4%B8%8A-%E8%BF%90%E8%A1%8C-%E7%A1%AC%E4%BB%B6-%E8%AF%8A%E6%96%AD%E7%A8%8B%E5%BA%8F?lang=zh#2 

  2. 固件更新:更新 RAID 控制器和固态盘的固件到最新版本。同时,也更新BIOS和idrac固件到最新版本。https://www.dell.com/support/home/zh-cn/product-support/product/poweredge-r740/drivers 
  3. 监控日志:在 RAID 重建过程中密切监控 iDRAC 的日志,查找任何可能导致重建失败的错误或警告。
  4. 测试其他硬盘:如果可能,使用不同品牌或型号的 SSD 测试,以确定是否为兼容性问题。

其它预防措施

  • 定期检查:定期运行存储设备的健康检查,确保硬件始终处于良好状态。
  • 备份:定期备份系统和重要数据,以便在硬件故障时能够迅速恢复。
找不到事件!

Top