Errore della periferica di archiviazione

Installazione e manutenzione di CA AppLogic® › Guida per l'utente di BFC › Risoluzione dei problemi › Procedure di recupero della griglia › Errore della periferica di archiviazione

Errore della periferica di archiviazione

Introduzione

Per evitare la perdita di dati in caso di errore delle periferiche di archiviazione, CA AppLogic® controlla lo stato di tutti i dispositivi di archiviazione che supportano la tecnologia S.M.A.R.T. (o SMART, Self-Monitoring, Analysis, and Reporting Technology) . S.M.A.R.T. È un sistema di monitoraggio per dischi rigidi del computer in grado di rilevare e segnalare problemi sulla base di vari indicatori di affidabilità, nella speranza di anticipare eventuali errori.

Fondamentalmente gli errori delle periferiche di archiviazione rientrano in una delle seguenti due classi di base:

Errori prevedibili: Questi tipi di errore si verificano periodicamente. Rientrano in questa categoria l'usura meccanica e il danneggiamento graduale delle superfici di archiviazione. Una periferica di monitoraggio è in grado di rilevare questo tipo di problemi.
Errori imprevisti: Questi tipi di errore si verificano all'improvviso e senza preavviso. Rientrano in questa categoria componenti elettronici difettosi e guasti meccanici improvvisi. I guasti meccanici ammontano a circa il 60 percento di tutti gli errori delle unità. La maggior parte dei guasti meccanici sono il risultato di un'usura graduale. Ciononostante le loro conseguenze possono essere disastrose. In genere, tuttavia, prima che si verifichi un guasto totale è possibile cogliere vari segnali di errore imminente. Tali segnali possono essere, ad esempio, l'aumento del calore in uscita, l'aumento dei livelli di rumore, problemi di lettura e scrittura dei dati, l'aumento del numero di settori del disco rigido danneggiati e così via.

Livello di supporto

CA AppLogic® fornisce supporto per il monitoraggio dei seguenti tipi di dischi rigidi, se tali dischi supportano la tecnologia S.M.A.R.T. e rispondono correttamente a smartctl -i:

unità ATA
unità SCSI
unità ATA alla base dei seguenti controller RAID:
- controller serie 3Ware 6/7/8000
- controller serie 3Ware 9000
- controller HighPoint RocketRaid
- controller MegaRAID
- controller Compaq Smart Raid
- controller Areca Raid

Note:

Il supporto dei dischi che sono alla base dei controller RAID riportati sopra è un limite del pacchetto smartmontools utilizzato da CA AppLogic® per monitorare i dischi.
Il comando smartctl -i può essere utilizzato direttamente sul server per stabilire se le periferiche di archiviazione possono essere monitorate tramite CA AppLogic®. CA consiglia di verificare se CA AppLogic® è in grado di monitorare le periferiche di archiviazione di un server prima di aggiungere il server a una griglia.

Come stabilire se il monitoraggio dello stato di archiviazione è supportato/abilitato dai server della griglia

Sul dashboard della griglia vengono riportati i seguenti avvisi, che indicano se il monitoraggio dello stato di archiviazione è abilitato e quali periferiche di archiviazione non vengono controllate da CA AppLogic® (server per server):

INFO: i seguenti dischi rigidi non vengono monitorati sul server server: elenco delle periferiche di archiviazione
INFO: il rilevamento degli errori di archiviazione è disabilitato sul server nome

Inoltre, per determinare se il monitoraggio dello stato di archiviazione è supportato da un server specifico all'interno di una griglia, eseguire il seguente comando per il server:
3t srv info name --extended
e controllare la sezione dell'output --- Informazioni di verifica del disco ---. Se il server è in grado di monitorare almeno una periferica di archiviazione, il valore supportato è Sì; in caso contrario è No.

Come comportarsi quando su una griglia viene visualizzato l'avviso di dashboard Possibile errore del sistema di archiviazione

Questa sezione descrive quali azioni intraprendere quando sul dashboard della griglia viene registrato un errore del sistema di archiviazione.

I messaggi seguenti sono errori critici, che indicano un errore di archiviazione potenziale o immanente.

Periferica PERIFERICA, Errore SMART: ERRORE HARDWARE IMMANENTE ERRORE GENERALE DISCO RIGIDO.
Periferica PERIFERICA, Verifica automatica SMART non riuscita. ESEGUIRE IMMEDIATAMENTE IL BACKUP DEI DATI!
Periferica PERIFERICA, Utilizzo SMART non riuscito. Attributo: ATTRIBUTO
Periferica PERIFERICA, Il conteggio errori del log del test automatico è aumentato da M a N
Periferica PERIFERICA, Impossibile eseguire la verifica automatica SMART
Periferica PERIFERICA, Impossibile leggere l'attributo SMART
Periferica PERIFERICA, Impossibile aprire la periferica
Periferica PERIFERICA, Impossibile leggere il log degli errori SMART
Periferica PERIFERICA, Impossibile leggere il log del test automatico SMART
Periferica PERIFERICA, Temperatura NUM Celsius ha raggiunto il limite critico di NUM2 Celsius (min/max M/N)

Se uno degli avvisi riportati sopra viene visualizzato sul dashboard della griglia, le azioni da intraprendere per salvare i dati dipendono dallo stato dei volumi che hanno degli stream sul server in errore:

Scoprire se vi sono volumi danneggiati che hanno il loro unico stream o mirror valido sul server in errore.
- Eseguire vol list server=srvX e annotare tutti i volumi danneggiati
- Per ogni volume danneggiato, eseguire vol info volume-name e annotare tutti i volumi che hanno il loro unico mirror valido sul server che genera l'errore.
Se tutti i volumi che presentano stream/mirror sul server in errore sono in buono stato (ossia non sono danneggiati):
- Disattivare il server servendosi del comando srv disable.
- Riavviare le applicazioni che hanno dei componenti in esecuzione sul server (app restart).
- Dopo che le applicazioni sono state riavviate, contattare il provider di servizi per richiedere la disconnessione del server in errore per eseguire la manutenzione.
- Questa operazione provocherà un danneggiamento dei volumi; CA AppLogic® eseguirà tuttavia automaticamente un ripristino dei volumi sullo sfondo.
- Una volta che il server è stato ripristinato, può essere riportato in linea e riabilitato mediante srv enable.
Se è presente almeno un volume danneggiato che ha il suo unico stream/mirror sul server in errore:
- I volumi devono essere ripristinati. Utilizzare il comando vol repair volume-name --force per indurre CA AppLogic® a eseguire un ripristino forzato di tali volumi appena possibile. È consigliabile ripristinare i volumi in ordine di importanza dei dati (nel caso in cui la periferica di archiviazione generi un errore durante il processo di ripristino dei volumi). Si consiglia di ripristinare i volumi nell'ordine seguente:
  - volumi delle applicazioni
  - volumi singleton
  - volumi di classe/catalogo
  - volumi della cache del volume (solo se i volumi della cache del volume sono stati modificati in modo scorretto rispetto alla classe originaria)
  - volumi globali
- Quando sono state completate tutte le operazioni di ripristino di questi volumi (vol repair --status), ripetere tutti i passaggi descritti per il primo caso.

I messaggi seguenti sono puramente informativi e non indicano necessariamente un errore del disco rigido. Si consiglia tuttavia di contattare il provider di servizi della griglia e richiedere assistenza nell'eseguire una diagnosi del problema rilevato.

Periferica PERIFERICA, Il conteggio errori ATA è aumentato da M a N:
Periferica PERIFERICA, NUM settori attualmente illeggibili (in sospeso):
Periferica PERIFERICA, NUM settori non in linea non correggibili:

Cancellazione del blocco di una griglia

Se si individua una griglia in stato bloccato, è possibile cancellare il blocco eseguendo un comando sul nodo di controllo.

Quando una griglia si trova in stato bloccato, la descrizione nell'icona di stato include le informazioni seguenti:

La griglia <gridname> è bloccata dal processo #13421

Attenersi alla seguente procedura:

Accedere al nodo di controllo BFC come root.
Eseguire il seguente comando:
```
service bfc restart
```
Il blocco è stato cancellato.