Surveillance de l'intégrité du stockage

Installation et maintenance de CA AppLogic › Manuel de l'utilisateur de Backbone Fabric Controller (BFC) › Dépannage › Procédures de récupération de grille › Surveillance de l'intégrité du stockage

Surveillance de l'intégrité du stockage

Présentation

Pour éviter toute perte de données en cas d'échec d'une unité de stockage, CA AppLogic surveille l'intégrité de toutes les unités de stockage qui prennent en charge la technologie S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology), parfois écrite SMART. S.M.A.R.T. est un système de surveillance destiné aux disques durs d'ordinateur, qui permet de détecter et d'établir un rapport sur divers indicateurs de fiabilité, dans l'espoir d'anticiper les échecs.

Fondamentalement, les échecs d'unité de stockage appartiennent à l'une de ces deux classes de base :

Echecs prévisibles: Ces types d'échecs apparaissent progressivement au fil du temps, comme l'usure mécanique et la dégradation progressive de surfaces de stockage. Un périphérique de surveillance peut détecter ces problèmes.
Echecs imprévisibles: Ces types d'échecs se produisent soudainement. Ils vont de composants électroniques défectueux à un échec mécanique soudain. Les échecs mécaniques représentent environ 60 % de l'ensemble des échecs de lecteur. La plupart des échecs mécaniques résultent de l'usure progressive, même s'ils peuvent se révéler catastrophiques. Toutefois, avant qu'un échec complet ne se produise, il y a généralement des signes avant-coureurs (p. ex. émission de chaleur plus importante, hausse du niveau de bruit, problèmes de lecture et d'écriture des données, augmentation du nombre de secteurs de disque endommagés, etc.).

Degré de prise en charge

CA AppLogic prend en charge la surveillance des types de disque dur suivants, à condition que le disque proprement dit prenne en charge S.M.A.R.T. et réponde à la commande smartctl -i :

Lecteurs ATA
Lecteurs SCSI
Lecteurs ATA se trouvant derrière les contrôleurs RAID suivants :
- Contrôleur 3Ware série 6/7/8000
- Contrôleur 3Ware série 9000
- Contrôleur HighPoint RocketRaid
- Contrôleur MegaRaid
- Contrôleur Compaq Smart Raid
- Contrôleur Areca Raid

Remarques :

La prise en charge des disques se trouvant derrière les contrôleurs RAID susmentionnés n'est qu'une partie du package smartmontools utilisé par CA AppLogic pour surveiller les disques.
Vous pouvez utiliser la commande smartctl -i directement sur le serveur pour déterminer si ses unités de stockage peuvent être surveillées par CA AppLogic. CA recommande de vérifier que CA AppLogic peut surveiller les unités de stockage d'un serveur avant de l'ajouter à une grille.

Comment vérifier si la surveillance de l'intégrité du stockage est prise en charge/activée sur les serveurs de votre grille ?

Les alertes suivantes sont consignées dans le tableau de bord de la grille et indiquent si la surveillance de l'intégrité du stockage est activée, ainsi que les unités de stockage qui ne sont pas surveillées par CA AppLogic (pour chaque serveur) :

INFO: The following hard disks are not monitored on server serveur : liste des unités de stockage.
INFO: Storage failure detection is disabled on server nom.

Pour vérifier si la surveillance de l'intégrité du stockage est prise en charge sur un serveur particulier dans une grille, vous pouvez également exécuter la commande suivante sur le serveur :
3t srv info nom --extended
et examinez la section --- Disk Check Information --- de la sortie. Si au moins une unité de stockage peut être surveillée sur un serveur, la valeur de Supported est définie sur yes ; dans le cas contraire, elle est définie sur no.

Quoi faire si l'alerte de tableau de bord "Possible storage system failure" s'affiche sur une grille ?

Cette section décrit les mesures à prendre lorsqu'une alerte d'échec de système de stockage est consignée dans le tableau de bord d'une grille.

Les messages suivants constituent des erreurs critiques et indiquent un échec de stockage immanent ou potentiel.

Device PERIPHERIQUE, SMART Failure: HARDWARE IMPENDING FAILURE GENERAL HARD DRIVE FAILURE.
Device PERIPHERIQUE, FAILED SMART self-check. BACK UP DATA NOW!
Device PERIPHERIQUE, Failed SMART usage Attribute: ATTRIBUT
Device PERIPHERIQUE, Self-Test Log error count increased from M to N
Device PERIPHERIQUE, not capable of SMART self-check
Device PERIPHERIQUE, failed to read SMART Attribute
Device PERIPHERIQUE, unable to open device
Device PERIPHERIQUE, Read SMART Error Log Failed
Device PERIPHERIQUE, Read SMART Self-Test Log Failed
Device PERIPHERIQUE, Temperature NUM Celsius reached critical limit of NUM2 Celsius (M/N Min/Max )

Si l'une des alertes ci-dessus s'affiche dans le tableau de bord de grille, la manoeuvre à effectuer pour enregistrer les données dépend de l'état des volumes qui ont des flux sur le serveur défaillant :

Vérifiez si des volumes endommagés ont leur seul bon flux/miroir sur le serveur défaillant.
- Exécutez la commande vol list server=srvX et prenez note de tous les volumes endommagés.
- Pour chaque volume endommagé, exécutez la commande vol info nom_volume et prenez note de tous les volumes dont le seul bon miroir se trouve sur le serveur défaillant.
Si l'état de tous les volumes ayant des flux/miroirs sur le serveur défaillant est OK (autrement dit, s'ils ne sont pas endommagés) :
- Désactivez le serveur à l'aide de la commande srv disable.
- Redémarrez les applications dont des composants s'exécutent sur le serveur (app restart).
- Une fois les applications redémarrées, contactez votre fournisseur de services pour qu'il déconnecte le serveur défaillant en vue de le réparer.
- Cette opération endommage des volumes. Toutefois, CA AppLogic les répare automatiquement en arrière-plan.
- Une fois le serveur réparé, il peut être remis en ligne et réactivé à l'aide de la commande srv enable.
Si au moins un volume ayant son seul bon flux/miroir sur le serveur défaillant est endommagé :
- Les volumes doivent être réparés. Utilisez la commande vol repair nom_volume --force pour forcer CA AppLogic à réparer ces volumes dès que possible. Il est recommandé de réparer les volumes dans l'ordre d'importance de leurs données (au cas où l'unité de stockage échouerait pendant le processus de réparation des volumes). Il est recommandé de réparer les volumes dans l'ordre suivant :
  - volumes virtuels d'application ;
  - volumes de singleton ;
  - volumes de catalogue/classe ;
  - volumes de cache de volume (uniquement s'ils ont été incorrectement modifiés à partir de la classe d'origine) ;
  - volumes globaux.
- Lorsque les réparations de tous ces volumes ont été effectuées (vol repair --status), répétez toutes les étapes de la première procédure ci-dessus.

Les messages suivants s'affichent à titre informatif et n'indiquent pas nécessairement un échec de disque potentiel. Toutefois, il est préférable de contacter votre fournisseur de services de grille pour qu'il vous aide à diagnostiquer le problème particulier.

Device PERIPHERIQUE, ATA error count increased from M to N:
Device PERIPHERIQUE, NUM Currently unreadable (pending) sectors:
Device PERIPHERIQUE, NUM Offline uncorrectable sectors: