Tema anterior: Error del controlador del gridTema siguiente: Uso de la API de BFC


Error del dispositivo de almacenamiento
Descripción general

Para evitar la pérdida de datos en caso de un error del dispositivo de almacenamiento, CA AppLogic® controla el estado de todos los dispositivos de almacenamiento que son compatibles con Self-Monitoring, Analysis, and Reporting Technology o S.M.A.R.T. (a veces escrito como SMART). S.M.A.R.T. es un sistema de control de los discos duros del equipo que permite detectar e informar sobre diversos indicadores de fiabilidad con el fin de prever los errores.

Fundamentalmente, los errores del dispositivo de almacenamiento se incluyen en una de dos clases básicas:

Errores previsibles

Este tipo de errores se produce gradualmente a lo largo del tiempo como, por ejemplo, el desgaste mecánico y la degradación gradual de las superficies de almacenamiento. Un dispositivo de control puede detectar estos problemas.

Errores imprevisibles

Este tipo de errores sucede de repente y sin ninguna advertencia. Estos errores abarcan desde componentes electrónicos defectuosos hasta un error mecánico repentino. Los errores mecánicos representan aproximadamente un 60% de todos los errores de la unidad. La mayoría de los errores mecánicos son el resultado del desgaste gradual, aunque un error eventual puede ser catastrófico. Sin embargo, antes de que tenga lugar un error total, hay algunos indicadores de que el error es inminente. Entre ellos se pueden incluir un aumento de la salida de calor, un mayor nivel de ruido, problemas con la lectura y la escritura de datos, un aumento del número de sectores del disco dañados, etc.

Grado de soporte técnico

CA AppLogic® proporciona soporte para controlar los tipos siguientes de discos duros siempre que el disco proporcione soporte S.M.A.R.T. y responda correctamente a smartctl -i:.

Notas:

Determinación de si el control del estado está activado en los servidores del grid

Las alertas siguientes se registran en el cuadro de mandos del grid que indica si el control del estado del almacenamiento está activado, así como los dispositivos de almacenamiento que no se controlan mediante CA AppLogic® (servidor por servidor):

Además, para determinar si se admite el control del estado del almacenamiento de un servidor determinado de un grid, ejecute el comando siguiente para el servidor:
3t srv info name --extended
e inspeccione la sección --- Disk Check Information --- de la salida. Si al menos se puede controlar un dispositivo de almacenamiento en un servidor, el valor Admitido será sí; de lo contrario será no.

Qué se puede hacer si aparece la alerta del cuadro de mandos "Posible error del sistema de almacenamiento" en un grid

En esta sección se describen las acciones que se deben llevar cuando se registra una alerta de error del sistema de almacenamiento en el cuadro de mandos del grid.

Los mensajes siguientes son errores graves e indicadores de un error de almacenamiento inherente o potencial.

Si una de las alertas anteriores aparece en el cuadro de mandos del grid, lo que se puede hacer para guardar los datos depende del estado de los volúmenes que tengan flujos en el servidor en el que se haya producido el error:

El mensaje siguiente es informativo y puede no indicar un posible error del disco. Sin embargo, se debe poner en contacto con su proveedor de servicios de grid para obtener ayuda en el diagnóstico de este problema en concreto.

Borrado de un grid bloqueado

Si se encuentra un grid bloqueado, se puede borrar este bloqueo mediante la ejecución de un comando en el nodo de control.

Cuando un grid está bloqueado, la descripción en el icono del estado incluye la siguiente información:

The grid <gridname> is locked by process #13421 (El proceso núm. 13421 ha bloqueado el grid <gridname>).

Siga los pasos siguientes:

  1. Inicie sesión en el nodo de control de BFC como raíz.
  2. Ejecute el siguiente comando:
    service bfc restart
    

    Se borrará el bloqueo.