CA AppLogic のインストールおよびメンテナンス › Backbone Fabric Controller (BFC)ユーザ ガイド › トラブルシューティング › グリッドの復旧手順 › ストレージの稼働状態のモニタリング
ストレージの稼働状態のモニタリング
概要
ストレージ デバイスでの障害発生時にデータの損失を防ぐことができるように、CA AppLogic は、Self-Monitoring, Analysis, and Reporting Technology (S.M.A.R.T.)に対応したすべてのストレージ デバイスの稼働状態をモニタします (SMART と表記されることもあります)。 S.M.A.R.T. は、コンピュータ ハード ディスクのモニタリング システムです。障害の発生を予測できるように、信頼性に関するさまざまな兆候を検出してレポートします。
ストレージ デバイスの障害は大きく分けて以下の 2 つのタイプに分類されます。
- 予測可能な障害
-
このタイプの障害は、ストレージ表面の機械的な摩耗や段階的な劣化など、時間の経過と共に徐々に発生します。 モニタリング デバイスがあれば、このような問題は検出できます。
- 予測不可能な障害
-
このタイプの障害は、何の兆候もなく突然発生します。 電子部品の欠陥や突然の機械的な障害など、さまざまです。 機械的な障害は、ドライブに関連する全障害の約 60 パーセントを占めます。 結果として最悪の状況に至るケースはあるものの、機械的な障害の大部分は段階的な摩耗によるものです。 ただし、完全な障害が発生する前には、障害が近い将来発生することを示す何らかの兆候があるのが一般的です。 たとえば、熱出力の増加、ノイズ レベルの増加、データの読み取り時や書き込み時の問題、破損しているディスク セクタの数の増加が挙げられます。
サポートのレベル
CA AppLogic は以下のタイプのハード ディスクについてモニタリングをサポートします。ただし、対象のディスクが S.M.A.R.T. に対応していることと、 smartctl -i に正常に応答することが前提となります。
- ATA ドライブ
- SCSI ドライブ
- 以下の RAID コントローラに接続された ATA ドライブ
- 3Ware 6/7/8000 シリーズ コントローラ
- 3Ware 9000 シリーズ コントローラ
- HighPoint RocketRaid コントローラ
- MegaRaid コントローラ
- Compaq Smart Raid コントローラ
- Areca Raid コントローラ
注:
- 上記の RAID コントローラに接続されたディスクのサポートは、CA AppLogic がディスクのモニタリングに使用する smartmontools パッケージの制限が反映されています。
- smartctl -i コマンドをサーバ上で直接使用すれば、そのサーバに接続されたストレージ デバイスが CA AppLogic によってモニタリング可能かどうかを確認できます。 グリッドにサーバを追加するときは、CA AppLogic でサーバのストレージ デバイスをモニタできるかどうかを事前に確認することをお勧めします。
ストレージの稼働状態のモニタリングがグリッドのサーバ上でサポートされているかどうか/可能になるかどうかの確認
以下に示すアラートは、グリッド ダッシュボードのログに記録されます。アラートでは、ストレージの稼働状態のモニタリングが有効になっているかどうか、どのストレージ デバイスが CA AppLogic によってモニタされないかが示されます(サーバ単位)。
- 情報: 次のハード ディスクはサーバ <サーバ名> 上でモニタされません: <ストレージ デバイスのリスト>
- 情報: ストレージ障害検出はサーバ <サーバ名> 上で無効になっています。
また、ストレージの稼働状態のモニタリングがグリッド内の特定のサーバでサポートされているかどうかを確認するには、サーバに対して以下のコマンドを実行します。
3t srv info <サーバ名> --extended
次に、出力の --- Disk Check Information --- セクションを確認します。 サーバ上で 1 つ以上のストレージ デバイスをモニタできる場合、Supported の値は yes になっています。モニタできない場合は no になっています。
「発生する可能性のあるストレージ システム障害」ダッシュボード アラートがグリッドに表示される場合の対処
このセクションでは、ストレージ システム障害アラートのログがグリッド ダッシュボードに記録されたときに実行する処置について説明します。
以下のメッセージは重大なエラーであり、ストレージ障害が近い将来に発生するか、その可能性があることを示しています。
- デバイス <デバイス名> (SMART 障害): 近い将来ハードウェア障害が発生します(一般的なハード ドライブ障害)。
- デバイス: <デバイス名>。SMART セルフチェックに失敗しました。 ただちにデータをバックアップしてください。
- デバイス: <デバイス名>。以下の SMART 使用状況属性で障害が発生しました: <属性名>
- デバイス: <デバイス名>。セルフ テスト ログのエラー数が M から N に増加しました。
- デバイス: <デバイス名>。SMART セルフ チェックを実行できません。
- デバイス: <デバイス名>。SMART 属性の読み込みに失敗しました。
- デバイス: <デバイス名>。デバイスを開くことができません。
- デバイス: <デバイス名>。SMART エラー ログの読み取りに失敗しました。
- デバイス: <デバイス名>。SMART セルフ テスト ログの読み取りに失敗しました。
- デバイス: <デバイス名>。温度(摂氏 <数値> 度)が限界値(摂氏 <数値 2> 度)に達しました(最小/最大 M/N)。
上記のアラートのいずれか 1 つがグリッド ダッシュボードに表示されている場合、データを保護するためにできることは、障害の発生したサーバ上にストリームを持つボリュームの状態によって異なります。
- 障害の発生したサーバ上に唯一良好なストリーム/ミラーを持つ、劣化したボリュームがないかどうかを確認します。
- vol list server=srvX を実行し、劣化したボリュームを書き留めます。
- 劣化した各ボリュームについて vol info volume-name を実行し、障害の発生したサーバ上に唯一良好なミラーを持つボリュームを書き留めます。
- 障害の発生したサーバ上にストリーム/ミラーを持つすべてのボリュームが OK 状態である場合(つまり、劣化していない場合)は、以下の手順に従います。
- srv disable コマンドを使ってサーバを無効にします。
- サーバ上でコンポーネントが実行中であるアプリケーションを再起動します(app restart)。
- アプリケーションが再起動したら、サービス プロバイダに連絡して、障害の発生したサーバを修復のためにオフラインにしてもらいます。
- 結果的に劣化したボリュームが発生します。ただし、それらのボリュームは CA AppLogic によってバックグラウンドで修復されます。
- 修復の完了したサーバは、オンラインに戻し、srv enable を使って再度有効にすることができます。
- 障害の発生したサーバ上に唯一良好なストリーム/ミラーを持つ、劣化したボリュームが 1 つ以上ある場合は、以下の手順に従います。
- ボリュームを修復する必要があります。 vol repair <ボリューム名> --force コマンドを使って、そのようなボリュームをできる限り早く修復します。 データの重要度が高い順からボリュームを修復することをお勧めします(ボリュームの修復プロセス中にストレージ デバイスに障害が発生した場合に備えて)。 ボリュームの修復は以下の順序で行うことが推奨されます。
- アプリケーション ボリューム
- シングルトン ボリューム
- カタログ/クラス ボリューム
- volcache ボリューム(volcache ボリュームが元のクラスから不正確に変更されている場合のみ)
- グローバル ボリューム
- これらのボリュームの修復がすべて完了したら(vol repair --status)、上記に挙げた最初のケースの手順をすべて繰り返します。
以下のメッセージは情報提供を目的としたものであり、ディスク障害の可能性を示すものではありません。 ただし、特定の問題の診断については、グリッド サービス プロバイダにサポートを依頼してください。
- デバイス: <デバイス名>。ATA のエラー数が M から N に増加しました。
- デバイス: <デバイス名>。現在読み取り不可能(保留中)のセクタが <数値> 個あります。
- デバイス: <デバイス名>。オフラインの修正不可能なセクタが <数値> 個あります。
Copyright © 2012 CA.
All rights reserved.
|
|