前のトピック: 障害が発生したドライブの復旧 - CA6300次のトピック: XFS ファイル システム破損の評価および復旧


SCSI ディスク破損の評価および復旧

CA6000 および CA6300 のアプライアンスに該当

問題: アプライアンスの再起動時に、以下のような SCSI の "sense" または "hang" エラーが表示されます。

Feb  3 04:59:20 smkong3 kernel: sd 1:0:0:0: SCSI error: return code = 0x08000002
Feb  3 04:59:20 smkong3 kernel: sdb: Current: sense key: Hardware Error
Feb  3 04:59:20 smkong3 kernel:     Add. Sense: Internal target failure
Feb  3 04:59:20 smkong3 kernel:
Feb  3 04:59:20 smkong3 kernel: Info fld=0x0
Feb  3 04:59:20 smkong3 kernel: end_request: I/O error, dev sdb, sector 34
Feb  3 04:59:20 smkong3 kernel: Device sdb1, XFS metadata write error block 0x0 in sdb1
Feb  3 05:00:21 smkong3 kernel: aacraid: Host adapter abort request (1,0,0,0)
Feb  3 05:00:21 smkong3 last message repeated 255 times
Feb  3 05:00:21 smkong3 kernel: aacraid: Host adapter reset request. SCSI hang ?
Feb  3 05:01:21 smkong3 kernel: aacraid: SCSI bus appears hung
Feb  3 05:01:41 smkong3 kernel: aacraid: Host adapter abort request (1,0,0,0)

これらのエラーは、論理または物理データの破損が発生しており、RAID コントローラによって破損が検出および修正されなかったことを示しています。

解決策: SCSI エラーは通常、物理ドライブ上で不良セクタが累積して、システムまたはデータ アレイ上でデータ破損が発生したことを示します。 アレイ ステータスが[最適]であっても、不良セクタを修復するか、または不良セクタの使用を回避するために、アレイの修復を試行してください。

アプライアンスの起動中に端末画面を確認して、SCSI の "sense" または "hang" エラーを識別します。 これらのエラーが断続的に発生しても、アプライアンスの通常動作中に明らかな障害が生じないこともあれば、断続的な Linux カーネル パニックを引き起こすこともあります。 ただし、Linux システム ファイルが破損した場合、繰り返し同じカーネル パニックが発生して、アプライアンスが起動できなくなる可能性があります。

復旧は、以下の 2 段階で試行することができます。

  1. アレイを再構築します
  2. 再構築が成功しないか、SCSI エラーが解決されない場合は、失敗ストライプからの復旧を試行します。

    復旧処理の一環として、Disk Utilities を使用してアレイ内のすべてのドライブのディスク メディアを検証し、その後にアレイを再構築してください。 各ドライブの検証には 1 時間以上かかる場合があります。

両方の手順を実行しても SCSI エラーまたはハングアップが解決されない場合、アプライアンスを運用状態に復旧するには、CentOS Linux および CA Multi-Port Monitor ソフトウェアの再インストール、またはアプライアンスの交換が必要になる場合があります。 不明な点については、CA サポートにお問い合わせください。