Error del dispositivo de almacenamiento

Instalación y mantenimiento de CA AppLogic® › Guía del usuario Gestor del nivel de servicio (BFC) › Solución de problemas › Procedimientos de recuperación del grid › Error del dispositivo de almacenamiento

Error del dispositivo de almacenamiento

Descripción general

Para evitar la pérdida de datos en caso de un error del dispositivo de almacenamiento, CA AppLogic® controla el estado de todos los dispositivos de almacenamiento que son compatibles con Self-Monitoring, Analysis, and Reporting Technology o S.M.A.R.T. (a veces escrito como SMART). S.M.A.R.T. es un sistema de control de los discos duros del equipo que permite detectar e informar sobre diversos indicadores de fiabilidad con el fin de prever los errores.

Fundamentalmente, los errores del dispositivo de almacenamiento se incluyen en una de dos clases básicas:

Errores previsibles: Este tipo de errores se produce gradualmente a lo largo del tiempo como, por ejemplo, el desgaste mecánico y la degradación gradual de las superficies de almacenamiento. Un dispositivo de control puede detectar estos problemas.
Errores imprevisibles: Este tipo de errores sucede de repente y sin ninguna advertencia. Estos errores abarcan desde componentes electrónicos defectuosos hasta un error mecánico repentino. Los errores mecánicos representan aproximadamente un 60% de todos los errores de la unidad. La mayoría de los errores mecánicos son el resultado del desgaste gradual, aunque un error eventual puede ser catastrófico. Sin embargo, antes de que tenga lugar un error total, hay algunos indicadores de que el error es inminente. Entre ellos se pueden incluir un aumento de la salida de calor, un mayor nivel de ruido, problemas con la lectura y la escritura de datos, un aumento del número de sectores del disco dañados, etc.

Grado de soporte técnico

CA AppLogic® proporciona soporte para controlar los tipos siguientes de discos duros siempre que el disco proporcione soporte S.M.A.R.T. y responda correctamente a smartctl -i:.

Unidades ATA
Unidades SCSI
Las unidades ATA se encuentran detrás de los controladores de RAID siguientes:
- Controlador de serie 3Ware 6/7/8000
- Controlador de serie 3Ware 9000
- Controlador HighPoint RocketRaid
- Controlador MegaRaid
- Controlador Compaq Smart Raid
- Controlador Areca Raid

Notas:

El soporte técnico de los discos que se encuentran detrás de los controladores RAID anteriores es una limitación del paquete smartmontools que CA AppLogic® utiliza para controlar los discos.
El comando smartctl -i se puede utilizar directamente en el servidor para determinar si CA AppLogic® puede controlar sus dispositivos de almacenamiento. CA recomienda comprobar que CA AppLogic® puede controlar los dispositivos de almacenamiento del servidor antes de agregar el servidor a un grid.

Determinación de si el control del estado está activado en los servidores del grid

Las alertas siguientes se registran en el cuadro de mandos del grid que indica si el control del estado del almacenamiento está activado, así como los dispositivos de almacenamiento que no se controlan mediante CA AppLogic® (servidor por servidor):

INFO: Los discos duros siguientes no se controlan en el servidor servidor: lista de dispositivos de almacenamiento.
INFO: La detección de errores de almacenamiento se ha desactivado en nombre del servidor.

Además, para determinar si se admite el control del estado del almacenamiento de un servidor determinado de un grid, ejecute el comando siguiente para el servidor:
3t srv info name --extended
e inspeccione la sección --- Disk Check Information --- de la salida. Si al menos se puede controlar un dispositivo de almacenamiento en un servidor, el valor Admitido será sí; de lo contrario será no.

Qué se puede hacer si aparece la alerta del cuadro de mandos "Posible error del sistema de almacenamiento" en un grid

En esta sección se describen las acciones que se deben llevar cuando se registra una alerta de error del sistema de almacenamiento en el cuadro de mandos del grid.

Los mensajes siguientes son errores graves e indicadores de un error de almacenamiento inherente o potencial.

Dispositivo DISPOSITIVO, error de SMART: ERROR INMINENTE DEL HARDWARE, ERROR GENERAL DEL DISCO DURO.
Dispositivo DISPOSITIVO, ERROR DE comprobación automática de SMART. REALICE UNA COPIA DE SEGURIDAD DE LOS DATOS INMEDIATAMENTE.
Dispositivo DISPOSITIVO, error de uso de SMART, atributo: ATRIBUTO.
Dispositivo DISPOSITIVO, el recuento de errores del registro de prueba automática ha aumentado de M a N.
Dispositivo DISPOSITIVO, no es posible realizar la comprobación automática de SMART.
Dispositivo DISPOSITIVO, no se pudo leer el atributo de SMART.
Dispositivo DISPOSITIVO, no es posible abrir el dispositivo.
Dispositivo DISPOSITIVO, error de lectura del registro de errores de SMART.
Dispositivo DISPOSITIVO, error de lectura del registro prueba automática de SMART.
Dispositivo DISPOSITIVO, la temperatura de NÚM centígrados ha alcanzado el límite crítico de NÚM2 centígrados (Mín./Máx. M/N).

Si una de las alertas anteriores aparece en el cuadro de mandos del grid, lo que se puede hacer para guardar los datos depende del estado de los volúmenes que tengan flujos en el servidor en el que se haya producido el error:

Busque si hay volúmenes degradados que tengan su único flujo/duplicado correcto en el servidor en el que se haya producido el error.
- Ejecute vol list server=srvX y tome nota de todos los volúmenes degradados.
- Ejecute vol info volume-name para cada volumen degradado y tome nota de cualquier volumen que tenga su único duplicado correcto en el servidor en el que se haya producido el error.
Si todos los volúmenes con flujos/duplicados en el servidor en el que se ha producido el error se encuentran en estado OK (es decir, no se han degradado):
- Desactive el servidor mediante el comando srv disable.
- Reinicie las aplicaciones que tengan componentes que se estén ejecutando en el servidor (app restart).
- Una vez que las aplicaciones se hayan reiniciado, póngase en contacto con su proveedor de servicios para desconectar el servidor sin conexión en el que se haya producido el error y repararlo.
- Esto dará lugar a una degradación de los volúmenes. Sin embargo, CA AppLogic® reparará automáticamente esos volúmenes en segundo plano.
- Una vez que el servidor se haya reparado, se podrá poner en línea nuevamente y volver a activar con srv enable.
Si hay un volumen degradado como mínimo con su único flujo/duplicado correcto en el servidor en el que se haya producido el error.
- Los volúmenes se deberán reparar. Utilice el comando volume-name --force para forzar a CA AppLogic® a reparar estos volúmenes lo antes posible. Se recomienda reparar los volúmenes en orden de importancia de sus datos (en caso de que el dispositivo de almacenamiento genere un error durante el proceso de reparación de los volúmenes). Se recomienda reparar los volúmenes en el orden siguiente:
  - Volúmenes de la aplicación.
  - Volúmenes de singleton.
  - Volúmenes de catálogo/clase.
  - Volúmenes en volcache (sólo si los volúmenes en volcache se han modificado incorrectamente a partir de la clase original).
  - Volúmenes globales.
- Cuando todas las reparaciones de los volúmenes se hayan completado (vol repair --status), repita todos los pasos del primer caso descrito anteriormente.

El mensaje siguiente es informativo y puede no indicar un posible error del disco. Sin embargo, se debe poner en contacto con su proveedor de servicios de grid para obtener ayuda en el diagnóstico de este problema en concreto.

Dispositivo DISPOSITIVO, el recuento de errores de ATA ha aumentado de M a N.
Dispositivo: DISPOSITIVO, (NÚM) sectores ilegibles actualmente (pendientes).
Dispositivo: DISPOSITIVO, (NÚM) sectores imposibles de corregir sin conexión.

Borrado de un grid bloqueado

Si se encuentra un grid bloqueado, se puede borrar este bloqueo mediante la ejecución de un comando en el nodo de control.

Cuando un grid está bloqueado, la descripción en el icono del estado incluye la siguiente información:

The grid <gridname> is locked by process #13421 (El proceso núm. 13421 ha bloqueado el grid <gridname>).

Siga los pasos siguientes:

Inicie sesión en el nodo de control de BFC como raíz.
Ejecute el siguiente comando:
```
service bfc restart
```
Se borrará el bloqueo.