前のトピック: グリッド コントローラの障害次のトピック: BFC API の使用


ストレージ デバイスの障害
概要

ストレージ デバイスでの障害発生時にデータの損失を防ぐことができるように、CA AppLogic® は、Self-Monitoring, Analysis, and Reporting Technology (S.M.A.R.T.)に対応したすべてのストレージ デバイスの稼働状態をモニタします (SMART と表記されることもあります)。 S.M.A.R.T. は、コンピュータ ハード ディスクのモニタリング システムです。障害の発生を予測できるように、信頼性に関するさまざまな兆候を検出してレポートします。

ストレージ デバイスの障害は大きく分けて以下の 2 つのタイプに分類されます。

予測可能な障害

このタイプの障害は、ストレージ表面の機械的な摩耗や段階的な劣化など、時間の経過と共に徐々に発生します。 モニタリング デバイスがあれば、このような問題は検出できます。

予測不可能な障害

このタイプの障害は、何の兆候もなく突然発生します。 電子部品の欠陥や突然の機械的な障害など、さまざまです。 機械的な障害は、ドライブに関連する全障害の約 60 パーセントを占めます。 結果として最悪の状況に至るケースはあるものの、機械的な障害の大部分は段階的な摩耗によるものです。 ただし、完全な障害が発生する前には、障害が近い将来発生することを示す何らかの兆候があるのが一般的です。 たとえば、熱出力の増加、ノイズ レベルの増加、データの読み取り時や書き込み時の問題、破損しているディスク セクタの数の増加が挙げられます。

サポートのレベル

CA AppLogic® は以下のタイプのハード ディスクについてモニタリングをサポートします。ただし、対象のディスクが S.M.A.R.T. に対応していることと、 smartctl -i に正常に応答することが前提となります。

注:

ストレージの稼働状態のモニタリングがグリッドのサーバ上でサポートされているかどうか/可能になるかどうかの確認

以下に示すアラートは、グリッド ダッシュボードのログに記録されます。アラートでは、ストレージの稼働状態のモニタリングが有効になっているかどうか、どのストレージ デバイスが CA AppLogic® によってモニタされないかが示されます(サーバ単位)。

また、ストレージの稼働状態のモニタリングがグリッド内の特定のサーバでサポートされているかどうかを確認するには、サーバに対して以下のコマンドを実行します。
3t srv info <サーバ名> --extended
次に、出力の --- Disk Check Information --- セクションを確認します。 サーバ上で 1 つ以上のストレージ デバイスをモニタできる場合、Supported の値は yes になっています。モニタできない場合は no になっています。

「発生する可能性のあるストレージ システム障害」ダッシュボード アラートがグリッドに表示される場合の対処

このセクションでは、ストレージ システム障害アラートのログがグリッド ダッシュボードに記録されたときに実行する処置について説明します。

以下のメッセージは重大なエラーであり、ストレージ障害が近い将来に発生するか、その可能性があることを示しています。

上記のアラートのいずれか 1 つがグリッド ダッシュボードに表示されている場合、データを保護するためにできることは、障害の発生したサーバ上にストリームを持つボリュームの状態によって異なります。

以下のメッセージは情報提供を目的としたものであり、ディスク障害の可能性を示すものではありません。 ただし、特定の問題の診断については、グリッド サービス プロバイダにサポートを依頼してください。

ロックされたグリッドの解除

ロックされた状態のグリッドを見つけた場合、コントロール ノード上でコマンドを実行してロックを解除できます。

グリッドがロックされた状態である場合、状態アイコン内の説明には以下の情報が含まれます。

The grid <gridname> is locked by process #13421

以下の手順に従います。

  1. ルートとして BFC コントロール ノードにログインします。
  2. 以下のコマンドを実行します。
    service bfc restart
    

    ロックが解除されます。