ストレージの稼働状態のモニタリング

CA AppLogic のインストールおよびメンテナンス › Backbone Fabric Controller （BFC）ユーザガイド › トラブルシューティング › グリッドの復旧手順 › ストレージの稼働状態のモニタリング

ストレージの稼働状態のモニタリング

概要

ストレージデバイスでの障害発生時にデータの損失を防ぐことができるように、CA AppLogic は、Self-Monitoring, Analysis, and Reporting Technology （S.M.A.R.T.）に対応したすべてのストレージデバイスの稼働状態をモニタします（SMART と表記されることもあります）。 S.M.A.R.T. は、コンピュータハードディスクのモニタリングシステムです。障害の発生を予測できるように、信頼性に関するさまざまな兆候を検出してレポートします。

ストレージデバイスの障害は大きく分けて以下の 2 つのタイプに分類されます。

予測可能な障害: このタイプの障害は、ストレージ表面の機械的な摩耗や段階的な劣化など、時間の経過と共に徐々に発生します。モニタリングデバイスがあれば、このような問題は検出できます。
予測不可能な障害: このタイプの障害は、何の兆候もなく突然発生します。電子部品の欠陥や突然の機械的な障害など、さまざまです。機械的な障害は、ドライブに関連する全障害の約 60 パーセントを占めます。結果として最悪の状況に至るケースはあるものの、機械的な障害の大部分は段階的な摩耗によるものです。ただし、完全な障害が発生する前には、障害が近い将来発生することを示す何らかの兆候があるのが一般的です。たとえば、熱出力の増加、ノイズレベルの増加、データの読み取り時や書き込み時の問題、破損しているディスクセクタの数の増加が挙げられます。

サポートのレベル

CA AppLogic は以下のタイプのハードディスクについてモニタリングをサポートします。ただし、対象のディスクが S.M.A.R.T. に対応していることと、 smartctl -i に正常に応答することが前提となります。

ATA ドライブ
SCSI ドライブ
以下の RAID コントローラに接続された ATA ドライブ
- 3Ware 6/7/8000 シリーズコントローラ
- 3Ware 9000 シリーズコントローラ
- HighPoint RocketRaid コントローラ
- MegaRaid コントローラ
- Compaq Smart Raid コントローラ
- Areca Raid コントローラ

注：

上記の RAID コントローラに接続されたディスクのサポートは、CA AppLogic がディスクのモニタリングに使用する smartmontools パッケージの制限が反映されています。
smartctl -i コマンドをサーバ上で直接使用すれば、そのサーバに接続されたストレージデバイスが CA AppLogic によってモニタリング可能かどうかを確認できます。グリッドにサーバを追加するときは、CA AppLogic でサーバのストレージデバイスをモニタできるかどうかを事前に確認することをお勧めします。

ストレージの稼働状態のモニタリングがグリッドのサーバ上でサポートされているかどうか/可能になるかどうかの確認

以下に示すアラートは、グリッドダッシュボードのログに記録されます。アラートでは、ストレージの稼働状態のモニタリングが有効になっているかどうか、どのストレージデバイスが CA AppLogic によってモニタされないかが示されます（サーバ単位）。

情報：次のハードディスクはサーバ <サーバ名> 上でモニタされません： <ストレージデバイスのリスト>
情報：ストレージ障害検出はサーバ <サーバ名> 上で無効になっています。

また、ストレージの稼働状態のモニタリングがグリッド内の特定のサーバでサポートされているかどうかを確認するには、サーバに対して以下のコマンドを実行します。
3t srv info <サーバ名> --extended
次に、出力の --- Disk Check Information --- セクションを確認します。サーバ上で 1 つ以上のストレージデバイスをモニタできる場合、Supported の値は yes になっています。モニタできない場合は no になっています。

「発生する可能性のあるストレージシステム障害」ダッシュボードアラートがグリッドに表示される場合の対処

このセクションでは、ストレージシステム障害アラートのログがグリッドダッシュボードに記録されたときに実行する処置について説明します。

以下のメッセージは重大なエラーであり、ストレージ障害が近い将来に発生するか、その可能性があることを示しています。

デバイス <デバイス名> （SMART 障害）：近い将来ハードウェア障害が発生します（一般的なハードドライブ障害）。
デバイス： <デバイス名>。SMART セルフチェックに失敗しました。ただちにデータをバックアップしてください。
デバイス： <デバイス名>。以下の SMART 使用状況属性で障害が発生しました： <属性名>
デバイス： <デバイス名>。セルフテストログのエラー数が M から N に増加しました。
デバイス： <デバイス名>。SMART セルフチェックを実行できません。
デバイス： <デバイス名>。SMART 属性の読み込みに失敗しました。
デバイス： <デバイス名>。デバイスを開くことができません。
デバイス： <デバイス名>。SMART エラーログの読み取りに失敗しました。
デバイス： <デバイス名>。SMART セルフテストログの読み取りに失敗しました。
デバイス： <デバイス名>。温度（摂氏 <数値> 度）が限界値（摂氏 <数値 2> 度）に達しました（最小/最大 M/N）。

上記のアラートのいずれか 1 つがグリッドダッシュボードに表示されている場合、データを保護するためにできることは、障害の発生したサーバ上にストリームを持つボリュームの状態によって異なります。

障害の発生したサーバ上に唯一良好なストリーム/ミラーを持つ、劣化したボリュームがないかどうかを確認します。
- vol list server=srvX を実行し、劣化したボリュームを書き留めます。
- 劣化した各ボリュームについて vol info volume-name を実行し、障害の発生したサーバ上に唯一良好なミラーを持つボリュームを書き留めます。
障害の発生したサーバ上にストリーム/ミラーを持つすべてのボリュームが OK 状態である場合（つまり、劣化していない場合）は、以下の手順に従います。
- srv disable コマンドを使ってサーバを無効にします。
- サーバ上でコンポーネントが実行中であるアプリケーションを再起動します（app restart）。
- アプリケーションが再起動したら、サービスプロバイダに連絡して、障害の発生したサーバを修復のためにオフラインにしてもらいます。
- 結果的に劣化したボリュームが発生します。ただし、それらのボリュームは CA AppLogic によってバックグラウンドで修復されます。
- 修復の完了したサーバは、オンラインに戻し、srv enable を使って再度有効にすることができます。
障害の発生したサーバ上に唯一良好なストリーム/ミラーを持つ、劣化したボリュームが 1 つ以上ある場合は、以下の手順に従います。
- ボリュームを修復する必要があります。 vol repair <ボリューム名> --force コマンドを使って、そのようなボリュームをできる限り早く修復します。データの重要度が高い順からボリュームを修復することをお勧めします（ボリュームの修復プロセス中にストレージデバイスに障害が発生した場合に備えて）。ボリュームの修復は以下の順序で行うことが推奨されます。
  - アプリケーションボリューム
  - シングルトンボリューム
  - カタログ/クラスボリューム
  - volcache ボリューム（volcache ボリュームが元のクラスから不正確に変更されている場合のみ）
  - グローバルボリューム
- これらのボリュームの修復がすべて完了したら（vol repair --status）、上記に挙げた最初のケースの手順をすべて繰り返します。

以下のメッセージは情報提供を目的としたものであり、ディスク障害の可能性を示すものではありません。ただし、特定の問題の診断については、グリッドサービスプロバイダにサポートを依頼してください。

デバイス： <デバイス名>。ATA のエラー数が M から N に増加しました。
デバイス： <デバイス名>。現在読み取り不可能（保留中）のセクタが <数値> 個あります。
デバイス： <デバイス名>。オフラインの修正不可能なセクタが <数値> 個あります。

ストレージの稼働状態のモニタリング

概要

サポートのレベル

ストレージの稼働状態のモニタリングがグリッドのサーバ上でサポートされているかどうか/可能になるかどうかの確認

「発生する可能性のあるストレージ システム障害」ダッシュボード アラートがグリッドに表示される場合の対処

「発生する可能性のあるストレージシステム障害」ダッシュボードアラートがグリッドに表示される場合の対処