Dell PERC 9コントローラー(H330、H730、H730P、およびH830)では、特定の条件で障害が発生したドライブを再構築する時間を短縮するRapid Rebuildという機能が導入されました。この機能は、T10 Rebuild Assistに基づいています。 デルは、特定の条件下で、Rapid Rebuildによりデータの整合性の問題が発生する可能性があると判断しました。
目次
- 機能の操作
- 問題の説明
- 問題の発生有無を確認する方法
- 対処方法
機能の操作:
Rapid Rebuildが可能なドライブは、この機能をコントローラーに登録します。この機能は、次のパリティRAID仮想ディスクでサポートされています。RAID 5、RAID 6、RAID 50、RAID 60。この機能には、サーバーに対応するドライブ、パリティー ベースのRAIDレベル、および設定されているホット スペア(グローバルまたは正確なVD専用)が必要です。VDの各対応ドライブは、自身の障害ブロック/セクターを追跡します。次に、ドライブは、PERCと依然として通信できるというような様式で障害が発生することがあり、PERCにどのセクターがまだ「正常」であるかを伝える場合があります。ディスク全体のRAIDリカバリーXORアルゴリズムを実行する代わりに、PERCは正常なセクターをホット スペアにコピーし、既知の不良セクターを回復する必要があります。PERCは、正常なセクターをホット スペアにコピーし、それらの既知の不良セクターを再構築する必要があります。Rapid Rebuildがないと、PERCはすべてのセクターを再構築する必要があり、大容量ドライブでは非常に時間がかかることがあります。
問題の説明
PERCが「不良」セクターのデータを再構築しているときに、ホット スペアにではなく、障害が発生したドライブにキャッシュからデータを誤って書き込みます。この結果、データおよび関連するパリティーがホット スペアに書き込まれません。ライト スルー モードでは、パリティー エラーが発生します。 ライト バック モードでは、データおよび関連するパリティーの両方でエラーが発生します。
問題の発生有無を確認する方法
注:PERCコントローラー ログを抽出する方法については、
記事SLN295784に記載されています。
PERCコントローラー ログで、以下の強調表示されたテキストが表示された場合は、問題が発生していることを意味します。
C0:EVT#395950-08/17/16 13:54:59: 114=State change on PD 0b(e0x20/s11) from OFFLINE(XX) to REBUILDASSIST(12)
対処方法
-
VDがライト スルー モードの場合、パリティー データのみが危険にさらされ、CC(コンシステンシー チェック)が実行されている場合は、パリティーが復元されます。これは、Rebuild Assistが1回だけ発生した場合にのみ機能します。同じVDに複数のRebuild Assistがある場合は、以前のバックアップからデータを復元する必要があります。
-
VDがライト バック モードで問題が発生した場合は、バックアップからデータを復元する必要があります。残念ながら、失われたデータを回復する方法はありません。以前のバックアップから復元してください。
この問題が発生していない場合は、このシナリオから保護するために、お使いのPERC H730、H730p、H830コントローラーのファームウェアを25.5.0.0018に、PERC H330コントローラーのファームウェアをRapid Rebuild機能を無効にする25.5.0.0019以降のファームウェアにアップデートしてください。
最新のファームウェア バージョンをダウンロードするには、13Gサーバーの[Drivers and Downloads(ドライバーおよびダウンロード)]セクションに移動して、[SAS Raid]メニュー ファイルを展開してください。
新しいサーバーについては、正しいファームウェアが工場で実装されているため、この問題は発生しません。
Dellのメモ:Dellは、主要機能全般にわたる継続的なビジネス プロセス改善の一環として、主要プロセスを継続的にレビューし、改善を図っています。デルは、サーバーおよびストレージ システムの開発、テスト、および製造プロセスに重点を置いています。このようなプロセスの改善により、将来の問題が防止され、デルは導入先で起こりうる潜在的な問題に対してより迅速かつ積極的に対応できます。