Article Number: 000018989

PowerScale、Isilon、OneFS: クラスターの電源を正しく切る方法

Summary: PowerScaleクラスターを適切にシャットダウンするためのベストプラクティスと、不適切なクラスターシャットダウンに関連するリスクに関する情報が含まれています。クラスターを適切にシャットダウンするための詳細な手順。一部の手順は、スケジュールされたアップグレードの 4 週間から 8 週間前に実行する必要があります。

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Instructions

概要

この記事では、Dell Isilonクラスターを適切にシャットダウンする手順と、不適切なクラスターシャットダウンに関連するリスクについて説明します。

注意：クラスターを不適切にシャットダウンすると、データの可用性と整合性の問題につながる可能性があります。

クラスター内で不適切にシャットダウンされたノードは、NVRAMバッテリーの寿命(ノードのタイプに応じて約3〜5日)よりも長くシステムの電源が切れないようにする必要があります。データがまだノードジャーナルに保存されており、ノードがNVRAMバッテリーの寿命を超えてシステムの電源が入っていない状態が続くと、データが失われ、クラスターを再構築する必要があります。

この記事の手順や情報について質問がある場合は、Dell Isilonテクニカルサポートにお問い合わせください。

手順

クラスターのシャットダウン手順では、root認証情報と、クラスター内のノードへのシリアルコンソールアクセスが必要です。手順は5つのフェーズに分かれています。

フェーズ1：予防的メンテナンスの実行
フェーズ2：クラスター内の各ノードのシャットダウン
フェーズ3：ノードが正常にシャットダウンしたことを確認します
フェーズ 4: 電源を切断します
フェーズ 5: クラスター内の各ノードの電源を入れる
フェーズ 6: クラスターでのヘルスチェックの実行

シャットダウンプロセスを開始する前に、手順全体を読みます。これにより、各ステップを完了するためのコンテキストと順序を確実に理解できます。

注意：EOSL(サポート終了)を迎えたOneFSのバージョンを実行している場合は、サポートされているバージョンのOneFSにアップグレードします。

フェーズ1：予防メンテナンスを実行します。
これらの手順は、スケジュールされたシャットダウンの約4〜8週間前に実行されます。このフェーズの目的は、シャットダウン手順を妨げる可能性のある不明または潜在的なハードウェアまたはファームウェアの問題を特定することです。

注意：Isilonクラスターをシャットダウンする前に、フェーズ1のすべての手順に従うことを強くお勧めします。

クラスター全体を直ちにシャットダウンする必要がある場合は、OneFSコマンドラインインターフェイスまたはOneFS Web管理インターフェイスを使用して、すべてのノードを同時にシャットダウンできます。

Dellでは、緊急シャットダウン手順が発生した場合にデータの整合性を維持するために、フェーズ3 のすべての手順に従うことを強くお勧めします。

必要に応じて、履歴参照用のログをアップロードします。

# isi_gather_info

Isilonヘルスチェックを実行またはリクエストします。
- これにより、クラスターの稼働状態が評価され、クラスターが良好なサポート可能な動作状態であることを確認します。
- PowerScaleを使用して、お客様が実行できます。On-Cluster Analysisツールの実行方法
- リモートリアクティブ(カスタマーサポート)チーム。これは、サポートされているコードバージョンのクラスターに対して有効な保守契約を結んでいるすべてのお客様が利用できます。これらの要件を満たしている場合は、Dellオンラインサポートサイトで「Isilonヘルスチェック」をリクエストするサービスリクエスト(SR)を開きます。次のコマンドを実行して、ヘルスチェックの完全なログを提供します

# isi_gather_info

*ヘルスチェックは、クラスターの問題を修正したり、クラスターの構成、パフォーマンス、ワークフローを評価したりすることを目的としたものではありません。

次の手順を実行して、各ノードの「コールドリブート」を実行します。このアクティビティーには、メンテナンスウィンドウをスケジュールする必要があります。

注：このプロセスにより、ノードの電源が再びオンになったときにのみ検出されるメモリーエラーまたはドライブ障害モードを特定できます。

注：このプロセスにより、NFSv3を除くすべての接続が停止します。このメンテナンステストのためにノードが再起動されている間にクライアントアクティビティーを中断しない、より長いプロセスの手順については、Isilonサポートにお問い合わせください。

クラスター内の各ノードを一度に1つずつシャットダウンします。各ノードをシャットダウンするには、次の手順を実行します。
1. 任意のノードへのSSH接続を開きます。次のコマンドを実行して、各ノードをシャットダウンします。

isi config
shutdown <node_lnn>

ノードの背面にある緑色の電源インジケーターLEDが点灯していないことを確認して、各ノードの電源がオフになったことを確認します。
電源ボタンを押して、ノードの電源を再びオンにします。
次のコマンドを実行して、ノードがクラスターに再参加し、正常であることを確認します。 isi status -q コマンドを実行し、出力のHealth DASR列で OK を探します。
ノードで正常性DASR列に示されている問題が発生した場合、またはクラスターへの再参加に失敗した場合は、次のノードをシャットダウンする前にこれらの問題を解決します。

問題の例が選択されています。ノード1はクラスターに正常に参加しましたが、正常性DASR列は注意が必要であることを示しています。

mycluster-1# isi status -q

Cluster Name: mycluster
Cluster Health:     [ ATTN]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-A-- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

各ノードを再起動した後、クラスター全体の正常性を再確認します。任意のノードへのSSH接続を開き、次のコマンドを実行します。

 isi status -q

すべてのノードの[Health DASR]列に[ OK]が表示されていることを確認します。

注：時間的に余裕がなく、各ノードに対してコールドリブートアプローチを実行できない場合は、代わりに各ノードに対して次のコマンドを実行して、ローリングリブートまたは「ウォームリブート」を実行することで、潜在的なハードウェアの問題をプロアクティブに発見できます。

isi config
reboot <node_lnn>

ただし、潜在的なハードウェアの問題をより効果的に特定するために、コールドリブートアプローチを使用すること を強くお勧めします 。

フェーズ2：クラスター内の各ノードをシャットダウンします。
これらの手順は、Isilonクラスターをシャットダウンした日に実行する必要があります。クラスター全体のシャットダウン中に、いくつかの要因がシャットダウンプロセスに影響を与えたり、遅延したりする場合があります。たとえば、ノードへの未処理のデータ書き込みがシャットダウンに影響する場合があります。ステップ1と2の目的は、シャットダウンコマンドを実行する前に、すべてのクライアントがクラスターから切断され、ノードジャーナルからファイルシステムにデータが適切に保存されるようにすることです。iSCSIクライアントがある場合は、iSCSIサービスを無効にする前に必ずクライアントをシャットダウンしてください。

手順3では、シリアルコンソールを使用してクラスター内の各ノードを順番にシャットダウンする方法について説明します。この方法をお勧めするのは、次のノードに進む前に各ノードが適切にシャットダウンされていることを確認し、必要に応じて調整や問題を修正してクラスターを適切にシャットダウンできるようにするためです。ただし、この方法では、シャットダウンコマンドを実行するために各ノードにシリアルコンソールを接続する必要があるため、時間がかかる場合があります。「クラスター内のすべてのノードを同時にシャットダウンする」セクションでは、OneFSコマンドラインインターフェイスまたはOneFS Web管理インターフェイスを使用してクラスターをシャットダウンする方法について説明します。この方法は、手順3よりも時間はかかりませんが、シャットダウンプロセス中に問題が発生したノードを特定するのが難しくなります。

Isilonでは、書き込み負荷の高いクライアントがシャットダウン手順を妨げないように、クライアントからクラスターを分離することを推奨します。これを行うには、クラスターで実行されているクライアント向けサービスを無効にします。クライアント向けサービスを無効化するには、次の手順を実行します。
1. クライアント向けサービスごとに次のコマンドを実行して、クラスターで実行されているクライアント向けサービスまたはプロトコルを特定します。

isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd

B。各コマンドの出力に基づいて、クラスターで「有効」になっているサービスを文書化します。次の例では、SMBサービスが選択されていますが、NFSサービスは無効になっています。

mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#

クライアント向けサービスを無効にします。この手順の後、すべてのクライアントはただちにクラスターへの接続を失います。サービスを無効にするには、有効にしたサービスに関連する次のコマンドを実行します。

isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable

iSCSIクライアントがある場合は、手順2を実行する前に、iSCSIクライアントのLUNがアンマウントされていることを確認します。Dell Diagnostics（診断）プログラム isi iscsi list コマンドを使用して、すべてのiSCSIクライアントがクラスターから切断されていることを確認します。

注：iSCSIサービスを無効にする場合は、を実行する前にiSCSIクライアントをシャットダウンしていることを確認してください isi_iscsi_d disable コマンドを使用できます。マウントされたiSCSI LUNが停止すると、クライアントが損傷を受けることがあり、通常はバックアップからのリカバリーが必要になります。

次のコマンドを実行して、ノードジャーナルに格納されているデータの書き込みをファイルシステムに移動します。 isi_for_array isi_flush コマンドを使用できます。各ノードに次のような出力が表示されます。

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.

注：未処理の書き込みが多数ある大規模なクラスターでは、この手順が完了するまでに数分かかる場合があります。

ノードがデータのフラッシュに失敗した場合は、次のような出力が表示されます。この場合、ノード1とノード2はフラッシュコマンドに失敗します。

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty

Dell Diagnostics（診断）プログラム isi_for_array isi_flush コマンドを再度実行します。フラッシュに失敗したノードがある場合は、Dell Isilonテクニカルサポートにお問い合わせください。次の手順に進む前に、すべてのノードが正常にフラッシュされる必要があります。

注：ジャーナルからファイルシステムにデータをフラッシュしていないノードから電源を取り外すと、データロスのリスクが大幅に高まります。シャットダウン手順に関するサポートが必要な場合は、Dell Isilonテクニカルサポートにお問い合わせください。

クラスター内の各ノードを順番にシャットダウンし、出力を監視します。この方法をお勧めするのは、クラスター内の次のノードをシャットダウンする前に問題を特定して解決できるためです。次の手順を実行して、各ノードをシャットダウンします。

注意：実行しないでください isi_for_array shutdown -p コマンドを実行してクラスターをシャットダウンします。

このステップでパニックまたは再起動するノードは、さらに調査が必要なノードです。特に、続行する前に、すべてのノードがノードジャーナルからファイルシステムにデータをフラッシュする必要があります。

Warning: ジャーナルからファイルシステムにデータをフラッシュしていないノードから電源を取り外すと、データロスのリスクが大幅に高まります。シャットダウン手順に関するサポートが必要な場合は、Dell Isilonテクニカルサポートにお問い合わせください。

各ノードにシリアルコンソールを接続します。
次のコマンドを実行します。

isi config
shutdown

ノードが正常にシャットダウンされると、次のような出力が表示されます。

Powering the system off using ACPI

注：キーボード、ビデオ、マウス(KVM)スイッチを介してノードにアクセスできず、代わりにノートパソコンを使用する必要がある場合は、この手順が完了するまでに数時間かかることがあります。

C。コンソールを監視して、ハードウェア関連の障害イベントを探します。ノードジャーナルの正常な保存は、次のような出力バリエーションで選択されます。

2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully

2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.

An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:

ノードジャーナルが保存されなかったというエラーが表示された場合は、フェーズ3の手順を実行してジャーナルを手動で保存できます。

クラスター内のすべてのノードを同時にシャットダウンします。

非常時は、クラスター内のすべてのノードを同時にシャットダウンできます。ただし、この方法では問題が発生した場合に各ノードのステータスと出力を監視できないため、推奨されません。これらの手順に従うことを選択した場合は、以下の手順を実行した後に、フェーズ3 のすべての手順に従って、すべてのノードが適切にシャットダウンしたことを確認することを強くお勧めします。

注：このステップでパニックまたは再起動するノードは、さらに調査が必要なノードです。特に、続行する前に、すべてのノードがノードジャーナルからファイルシステムにデータをフラッシュする必要があります。

クラスター内のすべてのノードをシャットダウンするには、OneFSコマンドラインインターフェイスまたはOneFS Web管理インターフェイスを使用します。

OneFSコマンドラインインターフェイスから、次のコマンドを実行します。

# isi config shutdown all

注：実行しないでください isi_for_array shutdown -p クラスターをシャットダウンするコマンド OneFS 8.0以降のOneFS Web管理インターフェイスから。

フェーズ3：ノードが正常にシャットダウンしたことを確認します。
ノードの背面にある電源インジケーターの発光ダイオード(LED)を見て、ノードが正しくシャットダウンしていることを確認します。すべての電源インジケータLEDが暗いか、消灯しているはずです。これは、ノードが正常にシャットダウンしたことを示します。

Warning: ノードが正常にシャットダウンしていない状態でノードの電源を切断すると、データロスの可能性が大幅に高まります。データのリカバリーには時間のかかるリカバリー手順が必要であり、場合によってはクラスター全体を再構築する必要があります。

ノードがシャットダウンしない、ジャーナルが保存されていないなど、シャットダウン操作が正常に完了したかどうか疑問がある場合は、Dellテクニカルサポートにお問い合わせください。

ノードの背面にある電源インジケーターライトがまだ点灯している場合、ノードはシャットダウンされていません。ノードがシャットダウンしていない場合、または( フェーズ2のステップ3Cから)ノードジャーナルが正しく保存されなかったことを示すコンソール出力を受け取った場合は、ノードをシャットダウンする前に、ジャーナルを手動で保存して、そのデータがディスクにコミットされていることを確認する必要があります。

ジャーナルを手動で保存し、ノードをシャットダウンするには、次の手順を実行します。
1. ノードがコマンドラインインターフェイスに応答している場合は、次のコマンドを実行してノードを再起動します。

# isi config reboot

ノードがコマンドラインインターフェイスに応答しない場合は、ノードの背面にある電源ボタンを押したままにして、ノードを手動で再起動します。これにより、ノードの電源がオフになります。30秒待ってから、電源ボタンを1回押して、ノードのバックアップを再度起動します。次のステップに進みます。

Warning: この手順でのみ、ノードを手動で再起動することをお勧めします。他の状況では、ノードを手動でシャットダウンしないでください。データロスにつながる可能性があります。

ノードを再起動した後、再度ログインし、次の手順に従ってジャーナルを保存します。
1. 次のコマンドを実行して、ノードの正常なシャットダウンを再試行します。

# isi config shutdown

それでも出力にジャーナルが保存されなかったことが示されている場合は、次のコマンドを実行してジャーナルを手動で保存します。

# isi_save_journal

それでもジャーナルが保存されない場合は、ファイルシステム/ifsをアンマウントし、次のコマンドを実行してジャーナルを強制保存します。

# isi_kill_busy && umount /ifs

isi_checkjournalコマンドを実行して、ジャーナルが保存されていることを確認します。

# isi_checkjournal

ジャーナルが正常に保存されたことが出力で示されるまで、次のステップに進まないでください。

必要に応じて、Dellテクニカルサポートにお問い合わせください。

フェーズ 4: 電源を外します。
クラスターが正常にシャットダウンされ、ノードの電源がオフになって初めて、電源をクラスターから切断できます。

Warning: ノードが正常にシャットダウンされていない場合は、ノードの電源を切断しないでください。これを行うと、データが失われ、リカバリー手順に時間がかかり、場合によってはクラスター全体が再構築される可能性があります。

NVRAMバッテリー
クライアントがノードにファイルを書き込むと、その書き込みはまずノードのジャーナルカードでホストされている不揮発性RAM (NVRAM)に格納されます。しばらくすると、OneFSはそれらの書き込みをディスクにコミットします。予期しない停電が発生した場合にNVRAMに格納されているデータを保護するために、各ノードにはNVRAMバッテリーが装備されています(冗長性のために2個)。電源がオフになっていても電源に接続されたままのノードは、NVRAMバッテリーをリフレッシュし続けます。電源がノードから切断されると、NVRAMバッテリーの消耗が始まります。現行世代のノード(X200、S200、X400、NL400)のバッテリー持続時間は約5日間です。旧世代のノードでは、NVRAMのバッテリー持続時間は約3日間でした。

デル・テクノロジーズでは、停電時に長時間NVRAMバッテリーに依存しないように、ノードを適切にシャットダウンすることを推奨しています。

注：IsilonがNVRAMを使用してデータの整合性を維持する方法の詳細については、OneFS Web管理ガイドおよびCLI管理ガイドの「ファイルシステムの構造」セクションを参照してください。

ノード上のNVRAMバッテリーが完全に消耗した場合、ノードは読み取り専用モードで起動し、NVRAMバッテリーが完全に充電されるまで約30分間読み取り専用モードのままになります。バッテリが再充電されると、ノードは自動的に通常の読み取り/書き込みモードに戻ります。

Warning: 不適切なシャットダウンが原因でデータがNVRAMに保存されたままで、NVRAMのバッテリー寿命よりも長くノードに電源が供給されていない場合は、データが失われ、リカバリー手順に時間がかかり、場合によってはクラスター全体が再構築されます。

フェーズ 5: クラスター内の各ノードの電源をオンにします。
これらの手順は、Isilonクラスターを再起動する準備ができたときに実行する必要があります。

各ノードの電源をリストアします。
各ノードの前面パネルまたは背面にある電源ボタンを押して起動します。
すべてのノードの電源がオンになったら、 isi status -q コマンドを実行してクラスターの正常性を確認します。続行する前に、[Health DASR]列ですべてのノードが正常であり、読み取り専用(R)モードでないことを確認します。正常なクラスターの場合は、次のような出力が表示されます。

Cluster Name: mycluster
Cluster Health:     [ OK ]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-OK- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

フェーズ2の手順1bで作成した有効なサービスのリストを確認し、次のコマンドを1つ以上実行して無効にしたサービスを有効にします。

isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable

クライアントがクラスターに接続し、通常のワークフローを実行できることを確認します。クラスターが正常に機能している必要があります。

フェーズ 6: POST CHECK:クラスターでヘルスチェックを実行します。

完全なログ収集にアップグレードする

# isi_gather_info --esrs

リモートリアクティブ(カスタマーサポート)チームによるIsilonヘルスチェックの実行またはリクエスト。

ヘルスチェックを実行する手順。

Isilon：Isilon On-Cluster Analysisツールを実行する方法

リモートリアクティブサポートチームを使用したヘルスチェックのリクエスト

これは、サポートされているコードバージョンのクラスターに対して有効な保守契約を結んでいるすべてのお客様が利用できます。

これらの要件を満たしている場合は、Dellオンラインサポートサイトで「Isilonヘルスチェック」をリクエストするサービスリクエスト(SR)を開きます。

*ヘルスチェックは、クラスターの問題を修正したり、クラスターの構成、パフォーマンス、ワークフローを評価したりすることを目的としたものではありません。

Additional Information

ここでは、このトピックに関連する役立つ可能性のある推奨リソースをいくつか紹介します。

PowerScale、Isilon、OneFS: クラスターの電源を正しく切る方法

Article Content

Instructions

概要

手順

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

PowerScale、Isilon、OneFS: クラスターの電源を正しく切る方法

Article Content

Instructions

概要

手順

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type