上一主题: 网格控制器故障下一主题: 使用 BFC API


存储设备故障
概述

为了帮助防止存储设备发生故障时丢失数据,CA AppLogic® 会对所有支持自我监控、分析和报告技术(即 S.M.A.R.T. 有时也写成 SMART)的存储设备的运行状况进行监控。 S.M.A.R.T. 是计算机硬盘的监控系统,用来检测和报道可靠性的各项指标,以实现预测故障的目的。

基本上,存储设备故障分为两个基本类别:

可预测故障

这些类型的故障是随时间的推移逐渐产生的,例如机械磨损和存储表层的逐渐退化。 监控设备可以检测这些问题。

不可预测故障

这些类型的故障突然发生,事前毫无预兆。 这些故障可以是电子组件缺陷,也可以是突发机械故障。 机械故障大约占所有驱动器故障的 60%。 大多数机械故障是由逐渐磨损导致的,但最终故障可能是灾难性的。 不过,在整个故障发生之前,通常存在故障即将发生的某些迹象。 这些可能包括发热更多、噪音增大、数据读写出现问题、损坏的磁盘扇区数增加等。

支持的程度

CA AppLogic® 提供对监控以下硬盘类型的支持(如果磁盘本身提供 S.M.A.R.T.)。 支持并成功响应 smartctl -i:

注意:

确定网格的服务器是否支持/启用存储运行状况监控

下列报警记录到网格显示板上,指出是否已启用存储运行状况监控以及哪些存储设备未由 CA AppLogic® 监控(针对每个服务器):

此外,要确定网格内的特定服务器是否支持存储运行状况监控,请对该服务器执行下列命令:
3t srv info name --extended
然后检查 --- 磁盘检查信息 --- 输出部分。 如果在服务器上至少可以监控一个存储设备,则受支持值为“是”;否则为“否”。

网格上存在“可能的存储系统故障”显示板报警时应执行的操作

本部分介绍了网格显示板上记录存储系统故障报警时应当采取的操作。

下列消息是严重错误,表示存在内在或潜在存储故障。

如果网格显示板上存在以上报警之一,执行哪些操作可保存您的数据取决于在发生故障的服务器上具有流的卷的状态:

下列消息是信息性消息,不代表可能的磁盘故障。 但是,您应当联系您的网格服务提供商,以协助您诊断特定问题。

清除锁定的网格

如果找到处于锁定状态的网格,可以通过在控制节点上执行命令来清除锁定。

当网格处于锁定状态时,状态图标中的说明将包含以下信息:

网格 <gridname> 被进程 #13421 锁定

完成以下步骤:

  1. root 用户身份登录到 BFC 控制节点。
  2. 执行以下命令:
    service bfc restart
    

    锁定已清除。