Vorheriges Thema: Grid-SteuerungsfehlerNächstes Thema: Verwenden der BFC-API


Speichergerätefehler
Übersicht

Um einen Datenverlust im Fall eines Speichergerätefehlers zu verhindern, überwacht CA AppLogic® den Zustand aller Speichergeräte, die die SMART-Technologie (Self-Monitoring, Analysis, and Reporting Technology) unterstützen. (manchmal nur als "SMART" bezeichnet). S.M.A.R.T. ist ein Überwachungssystem für Computerfestplatten. Es dient dazu, verschiedene zuverlässige Indikatoren zu erkennen und diese festzuhalten, um durch Antizipation, Fehler zu vermeiden.

Grundsätzlich können Speichergerätefehler in zwei Hauptklassen unterteilt werden:

Voraussagbare Fehler

Diese Fehlertypen fallen sukzessive im Laufe der Zeit an, beispielsweise maschineller Verschleiß und allmähliche Leistungsminderung von Speicheroberflächen. Eine Überwachungsgerät kann diese Probleme erkennen.

Unvorhersagbare Fehler

Diese Fehlertypen treten plötzlich und ohne Vorwarnung auf. Diese Fehler reichen von defekten elektronischen Komponenten bis hin zu einem plötzlich auftretenden mechanischen Fehler. Mechanische Fehler machen ungefähr 60 Prozent aller Laufwerkfehler aus. Die meisten mechanischen Fehler sind auf einen allmählichen Verschleiß zurückzuführen, auch wenn ein endgültiger Fehler katastrophal sein kann. Vor einem Totalausfall gibt es normalerweise gewisse Anzeichen, dass ein Fehler bevorsteht. Dazu gehören eine erhöhte Wärmeabgabe, ein erhöhter Geräuschpegel, Probleme beim Lesen und Schreiben von Daten, eine Erhöhung der Anzahl an beschädigten Datenträgersektoren usw.

Grad der Unterstützung

CA AppLogic® unterstützt die Überwachung der folgenden Datenträgertypen, vorausgesetzt, der Datenträger selbst bietet S.M.A.R.T.-Unterstützung und reagiert erfolgreich auf "smartctl -i":

Hinweise:

Bestimmen, ob die Überwachung der Speicherintegrität auf den Servern Ihrer Grids unterstützt/aktiviert wird

Die folgenden Alerts werden im Grid-Dashboard protokolliert, was darauf hindeutet, ob die Überwachung der Speicherintegrität aktiviert ist und welche Speichergeräte nicht von CA AppLogic® (pro Server) überwacht werden:

Um zusätzlich herauszufinden, ob die Überwachung der Speicherintegrität für einen bestimmten Server in einem Grid unterstützt wird, führen Sie den folgenden Befehl für den Server aus:
3t srv info name --extended
Untersuchen Sie zudem den Abschnitt --- Disk Check Information --- der Ausgabe. Wenn mindestens ein Speichergerät auf einem Server überwacht werden kann, ist der unterstützte Wert "yes" (Ja). Andernfalls ist der Wert auf "no" (Nein) festgelegt.

Vorgehensweise bei einem Dashboard-Alert im Grid über einen möglichen Speichersystemfehler

In diesem Abschnitt werden die Maßnahmen beschrieben, die getroffen werden sollten, wenn ein Alert über einen Speichersystemfehler im Grid-Dashboard protokolliert wird.

Bei den folgenden Meldungen handelt es sich um kritische Fehler. Diese deuten auf einen immanenten oder potenziellen Speicherfehler hin.

Wenn einer der obigen Alerts im Grid-Dashboard angezeigt wird, hängt es vom Zustand der Volumes ab, die über Streams auf dem ausgefallenen Server verfügen, ob Sie Ihre Daten speichern können:

Die folgenden Meldungen dienen zu Informationszwecken und weisen nicht auf mögliche Datenträgerfehler hin. Sie sollten sich jedoch an Ihren Grid-Dienstanbieter wenden, um bei der Diagnose eines bestimmten Problems Hilfe zu erhalten.

Löschen eines gesperrten Grid

Wenn sich ein Grid in einem gesperrten Status befindet, können Sie die Sperre aufheben, indem Sie einen Befehl auf dem Steuerknoten ausführen.

Wenn sich ein Grid im gesperrten Status befindet, enthält die Beschreibung im Statussymbol folgende Informationen:

Das Grid <gridname> ist durch den Prozess 13421 gesperrt

Führen Sie folgende Schritte aus:

  1. Melden Sie sich als "root" beim BFC-Steuerknoten an.
  2. Führen Sie den folgenden Befehl aus:
    service bfc restart
    

    Die Sperre wird aufgehoben.