В контроллерах Dell PERC 9 (H330, H730, H730P и H830) появилась функция быстрой перестройки (Rapid Rebuild), которая при определенных условиях ускоряет перестройку данных на неисправных накопителях. Эта функция основана на применении T10 Rebuild Assist. Специалисты Dell пришли к выводу, что использование этой функции при определенных условиях может привести к проблеме целостности данных.
Содержание:
- Как работает функция
- Описание проблемы
- Как определить, что возникла эта проблема
- Решение
Как работает функция
В контроллере регистрируются все накопители, поддерживающие быструю перестройку. Эта функция поддерживается виртуальными дисками RAID с контролем четности: RAID 5, RAID 6, RAID 50 и RAID 60. Для этой функции требуется, чтобы на сервере были накопители с поддержкой этой функции, уровни RAID на основе контроля четности и был настроен диск «горячего» резерва (либо глобальный, либо выделенный для конкретного виртуального диска). Каждый поддерживающий накопитель на виртуальном диске (VD) отслеживает свои неисправные блоки/сектора. В случае выхода из строя накопитель по-прежнему может обмениваться данными с контроллером PERC и сообщает контроллеру PERC, какие сектора не повреждены. Контроллер PERC, не выполняя отнимающие много времени XOR-алгоритмы восстановления RAID для всего диска, копирует исправные сектора на диск «горячего» резерва и восстанавливает только заведомо поврежденные сектора. Контроллер PERC копирует исправные сектора на диск «горячего» резерва и должен перестраивать данные только на заведомо поврежденных секторах. Без функции быстрой перестройки контроллер PERC должен перестраивать все сектора, что для накопителей большой емкости может занимать очень много времени.
Описание проблемы
Когда контроллер PERC перестраивает данные для неисправных секторов, он ошибочно записывает данные из кэш-памяти на неисправный накопитель, а не на диск «горячего» резерва. В результате на диск «горячего» резерва не записываются данные и связанные с ними контрольные данные. В режиме сквозной записи (write-through) будут возникать ошибки в контрольных данных. В режиме обратной записи (write-back) будут возникать ошибки и в данных, и в связанных с ними контрольных данных.
Как определить, что возникла эта проблема
Примечание. Инструкции по извлечению журнала контроллера PERC см. в
статье SLN295784.
Если в журнале контроллера PERC вы увидите указанный ниже выделенный текст, значит, вы столкнулись с этой проблемой.
C0:EVT#395950-08/17/16 13:54:59: 114=State change on PD 0b(e0x20/s11) from OFFLINE(XX) to REBUILDASSIST(12)
Решение
-
Если виртуальный диск был в режиме сквозной записи (write-through), риску подвержены только контрольные данные и выполнение проверки согласованности позволяет восстановить контрольные данные. Это будет работать, если Rebuild Assist применяется только один раз. Если для одного и того же виртуального диска Rebuild Assist применяется несколько раз, следует восстановить данные из предыдущей резервной копии.
-
Если виртуальный диск был в режиме обратной записи (write-back) и вы столкнулись с этой проблемой, следует восстановить данные из резервной копии. К сожалению, другого способа восстановить потерянные данные нет. Выполните восстановление из предыдущей резервной копии.
Если вы не столкнулись с этой проблемой, то для защиты от такого сценария обновите микропрограмму контроллера PERC H730, H730p, H830 до версии 25.5.0.0018, а микропрограмму контроллера PERC H330 — до версии 25.5.0.0019 или более поздней версии, где отключена функция быстрой перестройки.
Чтобы загрузить последнюю версию микропрограммы, перейдите в раздел «Драйверы и загружаемые материалы» для сервера 13G и разверните файл меню SAS RAID.
На заводе-изготовителе устанавливается правильная версия микропрограммы, и на новых серверах эта проблема не возникает.
Примечание Dell. Непрерывно улучшая бизнес-процессы для всех ключевых функций, Dell постоянно проверяет ключевые процессы и реализует улучшения. Dell уделяет большое внимание процессам разработки, тестирования и производства для наших серверов и систем хранения. Совершенствование процессов поможет избежать будущих проблем и позволит компании Dell быстрее реагировать на потенциальные проблемы, которые могут возникнуть на местах.