Vorheriges Thema: Grid-WiederherstellungsprozedurenNächstes Thema: Speichergerätefehler


Grid-Steuerungsfehler

In diesem Thema werden verschiedene Grid-Steuerungsfehler behandelt, die vom Grid-Administrator ein manuelles Eingreifen erfordern, um den Grid-Steuerungsvorgang wiederherzustellen.

Hinweis:Es wird nachdrücklich empfohlen, die Hochverfügbarkeitsreferenz von CA AppLogic® zu lesen, um sich mit den Hochverfügbarkeitsfunktionalitäten von CA AppLogic® vertraut zu machen, und zwar besonders in Bezug auf die Grid-Steuerungs-HA und die Fehler, die möglicherweise auftreten können.

Typen von Grid-Steuerungsfehlern

CA AppLogic® stellt automatisch zwei Grid-Steuerungsfehlertypen wieder her:

In bestimmten Fehlerszenarien ist es nicht möglich, auf die Grid-Steuerung zuzugreifen, und es ist auch nicht möglich, sie mithilfe von CA AppLogic® automatisch wiederherzustellen. Solche vom Benutzer beobachtete Fälle sind unten zusammengefasst:

Administratoren können die von CA AppLogic® verwalteten GUI-Zustandsinformationen zur Wiederherstellung anzeigen. Diese Informationen werden in einer Datei gespeichert, die sich in "dom0" auf dem Steuerungsserver befindet (dort wird die Grid-Steuerung gestartet). Lesen Sie das letzte Thema am Ende dieses Dokuments, um Informationen über den Ort und das Format der Wiederherstellungs-GUI-Statusdatei zu erhalten.

Vorgehensweise bei einer nicht verfügbaren Grid-Steuerung

Im Folgenden finden Sie eine Liste mit Gründen, weshalb die Grid-Steuerung nicht automatisch gestartet wurde:

Um die Grid-Steuerung wieder in Betrieb zu nehmen, gehen Sie wie folgt vor:

  1. Stellen Sie alle Primär- und Sekundärserver wieder her, die inaktiv sind. Wenn diese Server wieder in Betrieb sind, sollte die Grid-Steuerung innerhalb von ungefähr fünf Minuten wiederhergestellt werden. Wird das Problem dadurch nicht gelöst, gehen Sie zum nächsten Schritt.
  2. Führen Sie mithilfe des BFC die folgenden Schritte aus, um einen neuen Primärserver für das Grid festzulegen, und starten Sie die Grid-Steuerung auf dem neuen Primärserver.
    1. Wählen Sie im linken Menü die Option "Grid" aus.

      Die Seite "Grids" wird angezeigt. Der Status des Grid kann "Wird ausgeführt", "Angehalten", "Fehlgeschlagen", "Fehlgeschlagen, wird ausgeführt" (Grid-Erstellung fehlgeschlagen, aber die Server werden ausgeführt), "Wird ausgeführt, benötigt jedoch Überwachung" oder "Neustart erforderlich" sein.

    2. Aktivieren Sie das Kontrollkästchen neben dem Grid, mit dem Sie arbeiten möchten.
    3. Klicken Sie auf das Menü "Grid-Aktionen" und wählen Sie "Grid-Parameter bearbeiten" aus.

      Das Dialogfeld "Grid-Parameter bearbeiten" öffnet sich.

    4. Geben Sie die folgenden Grid-Parameterinformationen ein, um einen neuen Primärserver für das Grid festzulegen:

      primary=srvaddr

      Beim srvaddr-Wert handelt es sich um die Server-ID (srvNN) oder Adresse des Servers, der zum neuen Controller wird. Es muss möglich sein, auf die Adressen im Backbone-LAN zuzugreifen. Wenn ein Name angegeben wird, muss er in eine Adresse aufgelöst werden, auf die auf dem Backbone zugegriffen werden kann.

      Wenn diese Einstellung auf einem betriebsfähigen Grid verwendet wird (mit einem ausgeführten Controller), wird der Controller sofort heruntergefahren und auf dem neuen Host neu gestartet. Anwendungen auf dem Grid sollten davon nicht betroffen sein, es kann jedoch den GUI-Zugriff auf die Grid-Steuerung unterbrechen und laufende Anwendungsverwaltungsbefehle verzögern oder unterbrechen.

      Es wird zudem empfohlen, dass sich neben dem Primärserver noch mindestens zwei weitere Sekundärserver im Grid befinden. Wenn das Grid nicht über Sekundärserver verfügt oder die Sekundärserver inaktiv sind und nicht wiederhergestellt werden können, sind die folgenden Schritte erforderlich, um mindestens zwei Sekundärserver für das Grid zu konfigurieren. Wenn nicht genügend Server vorhanden sind, wird empfohlen, dem Grid für die Grid-Steuerung HA weitere Server hinzuzufügen.

    5. Geben Sie die folgenden Grid-Parameterinformationen ein, um zwei Sekundärserver für das Grid festzulegen:

      secondary=srvaddr,srvaddr,...

      Bei den srvaddr-Werten handelt es sich um die Server-IDs oder die Serveradressen, die im Falle eines Fehlers des Primärcontrollerhosts die Rolle des Controllerhosts übernehmen können. Diese Einstellung kann verwendet werden, um die automatische Zuweisung von Sekundärcontrollerhosts zu einzuschränken oder zu ändern. Bis zu sieben sekundäre Hosts können angegeben werden. Diese Einstellung kann allein oder zusammen mit der Einstellung "primary=" angegeben werden, um gleichzeitig die sekundären Hosts erneut zuzuweisen und den Controller zu einem primären Host zu verschieben. Die Einstellung "secondary=" hat keine Auswirkung auf ein deaktiviertes Grid. Um Sekundärcontrollerhosts erneut zuzuweisen, stellen Sie zuerst das Grid mithilfe des Grid-Parameters primary=srvaddr wieder her.

    6. Wählen Sie "Ja" für die Option "Neustart erforderlich".
    7. Klicken Sie im Dialogfeld "Grid-Parameter bearbeiten" auf die Schaltfläche "Speichern".

Sollte keine der oben genannten Vorschläge nicht zur Wiederherstellung der Grid-Steuerung führen, handelt es sich um ein schwerwiegendes Problem, das ein manuelles Eingreifen erfordert. Wenden Sie sich umgehend an den CA-Support. Halten Sie folgende Informationen für CA-Support bereit:

Wiederherstellungs-GUI-Statusdatei

Administratoren können die von CA AppLogic® verwalteten GUI-Zustandsinformationen zur Wiederherstellung anzeigen. Diese Informationen werden in einer Datei gespeichert, die sich auf dem Steuerungsserver in "dom0" befindet (der Server, auf dem die Grid-Steuerung gestartet wird). Die Datei heißt "/usr/local/recovery/gui/chroot/data/status" und enthält den aktuellen Status der Grid-Steuerungswiederherstellung. Die in dieser Datei gespeicherten Informationen werden von der Controller-Wiederherstellungs-GUI verwendet, um den Fortschritt/Status anzuzeigen. Diese Datei verwendet das folgende in JSON verschlüsselte Format (Beispieldaten finden Sie unten):

{
"grid_name"               : "my-grid-name",
"grid_version"            : "2.7.6",
"role"                    : "Recovery controller 2",
"status"                  : "Recovery in progress (master recovery controller is srv2)",
"recovery_start_time"     : "15:14:41 PDT (21.03.2009)",
"recovery_eta"            : "15:23:54 PDT",
"recovery_remaining_time" : 278,
"current_time"            : "15:19:12 PDT",
"stage"                   : 0,
"stage_remaining_time"    : 79,
"failure_reason"          : "srv1 down (no response for 30 sec on either network)",
"known_servers"           : "srv1:down,srv2:up",
"stages"                  : [
                            "Waiting for quorum (at least 3 of the N servers to connect)",
                            "Waiting for server with controller volumes to become available",
                            "Waiting for remaining controller volume streams",
                            "Verifying both networks are present",
                            "Sharing controller volumes",
                            "Mounting controller volumes",
                            "Starting grid controller",
                            "Grid controller started"
                            ],
"msgs"                    : [
                            {
                            "time"     : "15:15:23 PDT",
                            "severity" : "alert",
                            "text"     : "My alert message"
                            },
                            {
                            "time"     : "15:16:00 PDT",
                            "severity" : "info",
                            "text"     : "My info message"
                            }
                            ]
}

Hinweise zu den obigen Feldern:

Wenn keine Grid-Steuerungswiederherstellung in Bearbeitung ist, werden nur ein paar Felder in der Statusdatei aufgeführt:

{
"grid_name"            : "my-grid-name",
"grid_version"         : "2.7.6",
"role"                 : "Recovery controller 2",
"status"               : "Okay",
"known_servers"        : "srv2:up,srv1:up"
}