Rubrique précédente: Récupération du contrôleur de grille

Rubrique suivante: Manuel de maintenance avancée


Surveillance de l'intégrité du stockage
Présentation

Pour éviter toute perte de données en cas d'échec d'une unité de stockage, CA AppLogic surveille l'intégrité de toutes les unités de stockage qui prennent en charge la technologie S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology), parfois écrite SMART. S.M.A.R.T. est un système de surveillance destiné aux disques durs d'ordinateur, qui permet de détecter et d'établir un rapport sur divers indicateurs de fiabilité, dans l'espoir d'anticiper les échecs.

Fondamentalement, les échecs d'unité de stockage appartiennent à l'une de ces deux classes de base :

Echecs prévisibles

Ces types d'échecs apparaissent progressivement au fil du temps, comme l'usure mécanique et la dégradation progressive de surfaces de stockage. Un périphérique de surveillance peut détecter ces problèmes.

Echecs imprévisibles

Ces types d'échecs se produisent soudainement. Ils vont de composants électroniques défectueux à un échec mécanique soudain. Les échecs mécaniques représentent environ 60 % de l'ensemble des échecs de lecteur. La plupart des échecs mécaniques résultent de l'usure progressive, même s'ils peuvent se révéler catastrophiques. Toutefois, avant qu'un échec complet ne se produise, il y a généralement des signes avant-coureurs (p. ex. émission de chaleur plus importante, hausse du niveau de bruit, problèmes de lecture et d'écriture des données, augmentation du nombre de secteurs de disque endommagés, etc.).

Degré de prise en charge

CA AppLogic prend en charge la surveillance des types de disque dur suivants, à condition que le disque proprement dit prenne en charge S.M.A.R.T. et réponde à la commande smartctl -i :

Remarques :

Comment vérifier si la surveillance de l'intégrité du stockage est prise en charge/activée sur les serveurs de votre grille ?

Les alertes suivantes sont consignées dans le tableau de bord de la grille et indiquent si la surveillance de l'intégrité du stockage est activée, ainsi que les unités de stockage qui ne sont pas surveillées par CA AppLogic (pour chaque serveur) :

Pour vérifier si la surveillance de l'intégrité du stockage est prise en charge sur un serveur particulier dans une grille, vous pouvez également exécuter la commande suivante sur le serveur :
3t srv info nom --extended
et examinez la section --- Disk Check Information --- de la sortie. Si au moins une unité de stockage peut être surveillée sur un serveur, la valeur de Supported est définie sur yes ; dans le cas contraire, elle est définie sur no.

Quoi faire si l'alerte de tableau de bord "Possible storage system failure" s'affiche sur une grille ?

Cette section décrit les mesures à prendre lorsqu'une alerte d'échec de système de stockage est consignée dans le tableau de bord d'une grille.

Les messages suivants constituent des erreurs critiques et indiquent un échec de stockage immanent ou potentiel.

Si l'une des alertes ci-dessus s'affiche dans le tableau de bord de grille, la manoeuvre à effectuer pour enregistrer les données dépend de l'état des volumes qui ont des flux sur le serveur défaillant :

Les messages suivants s'affichent à titre informatif et n'indiquent pas nécessairement un échec de disque potentiel. Toutefois, il est préférable de contacter votre fournisseur de services de grille pour qu'il vous aide à diagnostiquer le problème particulier.