Speichergerätefehler

Installieren und Verwalten von CA AppLogic® › BFC-Benutzerhandbuch › Fehlerbehebung › Grid-Wiederherstellungsprozeduren › Speichergerätefehler

Speichergerätefehler

Übersicht

Um einen Datenverlust im Fall eines Speichergerätefehlers zu verhindern, überwacht CA AppLogic® den Zustand aller Speichergeräte, die die SMART-Technologie (Self-Monitoring, Analysis, and Reporting Technology) unterstützen. (manchmal nur als "SMART" bezeichnet). S.M.A.R.T. ist ein Überwachungssystem für Computerfestplatten. Es dient dazu, verschiedene zuverlässige Indikatoren zu erkennen und diese festzuhalten, um durch Antizipation, Fehler zu vermeiden.

Grundsätzlich können Speichergerätefehler in zwei Hauptklassen unterteilt werden:

Voraussagbare Fehler: Diese Fehlertypen fallen sukzessive im Laufe der Zeit an, beispielsweise maschineller Verschleiß und allmähliche Leistungsminderung von Speicheroberflächen. Eine Überwachungsgerät kann diese Probleme erkennen.
Unvorhersagbare Fehler: Diese Fehlertypen treten plötzlich und ohne Vorwarnung auf. Diese Fehler reichen von defekten elektronischen Komponenten bis hin zu einem plötzlich auftretenden mechanischen Fehler. Mechanische Fehler machen ungefähr 60 Prozent aller Laufwerkfehler aus. Die meisten mechanischen Fehler sind auf einen allmählichen Verschleiß zurückzuführen, auch wenn ein endgültiger Fehler katastrophal sein kann. Vor einem Totalausfall gibt es normalerweise gewisse Anzeichen, dass ein Fehler bevorsteht. Dazu gehören eine erhöhte Wärmeabgabe, ein erhöhter Geräuschpegel, Probleme beim Lesen und Schreiben von Daten, eine Erhöhung der Anzahl an beschädigten Datenträgersektoren usw.

Grad der Unterstützung

CA AppLogic® unterstützt die Überwachung der folgenden Datenträgertypen, vorausgesetzt, der Datenträger selbst bietet S.M.A.R.T.-Unterstützung und reagiert erfolgreich auf "smartctl -i":

ATA-Laufwerke
SCSI-Laufwerke
ATA-Laufwerke befinden sich hinter den folgenden RAID-Controllern:
- 3Ware-Controller der Reihe 6000/7000/8000
- 3Ware-Controller der Reihe 9000
- HighPoint RocketRaid-Controller
- MegaRaid-Controller
- Compaq Smart Raid-Controller
- Areca Raid-Controller

Hinweise:

Die Unterstützung für Datenträger, die sich hinter den obigen Raid-Controllern befinden, besteht in einer Begrenzung des Smartmontools-Pakets, das von CA AppLogic® für die Überwachung der Datenträger verwendet wird.
Der Befehl "smartctl -i" kann direkt auf dem Server verwendet werden, um zu bestimmen, ob seine Speichergeräte von CA AppLogic® überwacht werden können. CA empfiehlt, dass die Speichergeräte des Servers von CA AppLogic® überwacht werden, bevor der Server zu einem Grid hinzugefügt wird.

Bestimmen, ob die Überwachung der Speicherintegrität auf den Servern Ihrer Grids unterstützt/aktiviert wird

Die folgenden Alerts werden im Grid-Dashboard protokolliert, was darauf hindeutet, ob die Überwachung der Speicherintegrität aktiviert ist und welche Speichergeräte nicht von CA AppLogic® (pro Server) überwacht werden:

INFO: Die folgenden Festplatten werden nicht auf dem Server überwacht Server: Liste von Speichergeräten
INFO: Speicherfehlererkennung ist auf dem Servernamen deaktiviert

Um zusätzlich herauszufinden, ob die Überwachung der Speicherintegrität für einen bestimmten Server in einem Grid unterstützt wird, führen Sie den folgenden Befehl für den Server aus:
3t srv info name --extended
Untersuchen Sie zudem den Abschnitt --- Disk Check Information --- der Ausgabe. Wenn mindestens ein Speichergerät auf einem Server überwacht werden kann, ist der unterstützte Wert "yes" (Ja). Andernfalls ist der Wert auf "no" (Nein) festgelegt.

Vorgehensweise bei einem Dashboard-Alert im Grid über einen möglichen Speichersystemfehler

In diesem Abschnitt werden die Maßnahmen beschrieben, die getroffen werden sollten, wenn ein Alert über einen Speichersystemfehler im Grid-Dashboard protokolliert wird.

Bei den folgenden Meldungen handelt es sich um kritische Fehler. Diese deuten auf einen immanenten oder potenziellen Speicherfehler hin.

Device DEVICE, SMART Failure: HARDWARE IMPENDING FAILURE GENERAL HARD DRIVE FAILURE. (Gerät "GERÄT", SMART-Fehler: BEVORSTEHENDER HARDWAREFEHLER, ALLGEMEINER FESTPLATTENFEHLER.)
Device DEVICE, FAILED SMART self-check. BACK UP DATA NOW! (Gerät "GERÄT", FEHLER BEI DER SMART-Selbstprüfung. DATEN JETZT SICHERN!)
Device DEVICE, Failed SMART usage Attribute: ATTRIBUTE (Gerät "GERÄT", Fehler beim SMART-Verwendungsattribut: "ATTRIBUT")
Device DEVICE, Self-Test Log error count increased from M to N (Gerät "GERÄT", Selbstprüfungsprotokoll-Fehleranzahl von "M" auf "N" gestiegen)
Device DEVICE, not capable of SMART self-check (Gerät "GERÄT", SMART-Selbstprüfung nicht möglich)
Device DEVICE, failed to read SMART Attribute (Gerät "GERÄT", Fehler beim Lesen des SMART-Attributs)
Device DEVICE, unable to open device (Gerät "GERÄT", Gerät kann nicht geöffnet werden)
Device DEVICE, Read SMART Error Log Failed (Gerät "GERÄT"; Fehler beim Lesen des SMART-Fehlerprotokolls)
Device DEVICE, Read SMART Self-Test Log Failed (Gerät "GERÄT", Fehler beim Lesen des SMART-Selbstprüfungsprotokolls)
Device DEVICE, Temperature NUM Celsius reached critical limit of NUM2 Celsius (Min/Max M/N) (Gerät "GERÄT", Temperatur "NUM" Celsius hat den kritischen Grenzwert "NUM2" Celsius erreicht (Min/Max M/N))

Wenn einer der obigen Alerts im Grid-Dashboard angezeigt wird, hängt es vom Zustand der Volumes ab, die über Streams auf dem ausgefallenen Server verfügen, ob Sie Ihre Daten speichern können:

Finden Sie heraus, ob es fehlerhafte Volumes gibt, deren einziger funktionierender Stream/Mirror sich auf dem ausgefallenen Server befindet.
- Führen Sie "vol list server=srvX" aus, und notieren Sie sich alle fehlerhaften Volumes.
- Führen Sie für alle fehlerhaften Volumes "vol info volume-name" aus, und notieren Sie sich alle Volumes, deren einzige funktionierenden Mirror sich auf dem ausgefallenen Server befinden.
Verfügen alle Volumes mit Streams/Mirrors des ausgefallenen Servers über den Status "OK" (d. h., sie sind nicht fehlerhaft):
- Deaktivieren Sie den Server mithilfe des Befehls "srv disable".
- Starten Sie die Anwendungen neu, die Komponenten auf dem Server ausführen (Befehl "app restart").
- Wenden Sie sich nach dem Neustart der Anwendungen an Ihren Dienstanbieter, um den fehlerhaften Server für die Wartung abzuschalten.
- Führt dies zu fehlerhaften Volumes. Diese werden jedoch von CA AppLogic® im Hintergrund repariert.
- Ist der Server repariert, kann er wieder online geschaltet werden und mit dem Befehl "srv enable" erneut aktiviert werden.
Wenn mindestens ein fehlerhaftes Volume vorliegt, dessen einziger funktionierender Stream/Mirror sich auf dem ausgefallenen Server befindet:
- Müssen die Volumes repariert werden. Verwenden Sie dazu den Befehl "vol repair volume-name --force", um zu erzwingen, dass die Volumes durch CA AppLogic® schnellstmöglich repariert werden. Es empfiehlt sich, die Volumes nach Wichtigkeit der Daten zu reparieren (falls beim Speichergerät im Zuge des Reparaturvorgangs Fehler auftreten). Es empfiehlt sich, die Volumes in der folgenden Reihenfolge zu reparieren:
  - Anwendungs-Volumes
  - Singleton-Volumes
  - Katalog-/Klassen-Volumes
  - Volcache-Volumes (nur sofern die Volcache-Volumes von ihrer ursprünglichen Klasse falsch verändert wurden)
  - Globale Volumes
- Wenn alle Volume-Reparaturen für diese Volumes abgeschlossen (Befehl "vol repair --status") sind, wiederholen Sie alle Schritte im ersten Fall oben.

Die folgenden Meldungen dienen zu Informationszwecken und weisen nicht auf mögliche Datenträgerfehler hin. Sie sollten sich jedoch an Ihren Grid-Dienstanbieter wenden, um bei der Diagnose eines bestimmten Problems Hilfe zu erhalten.

Device DEVICE, ATA error count increased from M to N: (Gerät "GERÄT", ATA-Fehleranzahl von "M" auf "N" gestiegen
Device DEVICE, NUM Currently unreadable (pending) sectors: (Gerät "GERÄT, "NUM" – aktuell unlesbare (ausstehende) Sektoren)
Device DEVICE, NUM Offline uncorrectable sectors: (Gerät "GERÄT", "NUM" – unkorrigierbare Sektoren)

Löschen eines gesperrten Grid

Wenn sich ein Grid in einem gesperrten Status befindet, können Sie die Sperre aufheben, indem Sie einen Befehl auf dem Steuerknoten ausführen.

Wenn sich ein Grid im gesperrten Status befindet, enthält die Beschreibung im Statussymbol folgende Informationen:

Das Grid <gridname> ist durch den Prozess 13421 gesperrt

Führen Sie folgende Schritte aus:

Melden Sie sich als "root" beim BFC-Steuerknoten an.
Führen Sie den folgenden Befehl aus:
```
service bfc restart
```
Die Sperre wird aufgehoben.