

安装和维护 CA AppLogic® › BFC 用户指南 › 疑难解答 › 网格恢复过程 › 存储设备故障
存储设备故障
概述
为了帮助防止存储设备发生故障时丢失数据,CA AppLogic® 会对所有支持自我监控、分析和报告技术(即 S.M.A.R.T. 有时也写成 SMART)的存储设备的运行状况进行监控。 S.M.A.R.T. 是计算机硬盘的监控系统,用来检测和报道可靠性的各项指标,以实现预测故障的目的。
基本上,存储设备故障分为两个基本类别:
- 可预测故障
-
这些类型的故障是随时间的推移逐渐产生的,例如机械磨损和存储表层的逐渐退化。 监控设备可以检测这些问题。
- 不可预测故障
-
这些类型的故障突然发生,事前毫无预兆。 这些故障可以是电子组件缺陷,也可以是突发机械故障。 机械故障大约占所有驱动器故障的 60%。 大多数机械故障是由逐渐磨损导致的,但最终故障可能是灾难性的。 不过,在整个故障发生之前,通常存在故障即将发生的某些迹象。 这些可能包括发热更多、噪音增大、数据读写出现问题、损坏的磁盘扇区数增加等。
支持的程度
CA AppLogic® 提供对监控以下硬盘类型的支持(如果磁盘本身提供 S.M.A.R.T.)。 支持并成功响应 smartctl -i:
- ATA 驱动器
- SCSI 驱动器
- ATA 驱动器位于以下 RAID 控制器后面:
- 3Ware 6/7/8000 系列控制器
- 3Ware 9000 系列控制器
- HighPoint RocketRaid 控制器
- MegaRaid 控制器
- Compaq Smart Raid 控制器
- Areca Raid 控制器
注意:
- 对位于以上 RAID 控制器后面的磁盘的支持会限制 CA AppLogic® 用来监控磁盘的 smartmontools 包。
- 可直接在服务器上使用 smartctl -i 命令来确定 CA AppLogic® 是否可以监控它的存储设备。 CA 建议在将服务器添加到网格之前确认 CA AppLogic® 可以监控服务器的存储设备。
确定网格的服务器是否支持/启用存储运行状况监控
下列报警记录到网格显示板上,指出是否已启用存储运行状况监控以及哪些存储设备未由 CA AppLogic® 监控(针对每个服务器):
- INFO:在服务器 server 上未监控下列硬盘:存储设备列表
- INFO:在服务器 name 上禁用了存储故障检测
此外,要确定网格内的特定服务器是否支持存储运行状况监控,请对该服务器执行下列命令:
3t srv info name --extended
然后检查 --- 磁盘检查信息 --- 输出部分。 如果在服务器上至少可以监控一个存储设备,则受支持值为“是”;否则为“否”。
网格上存在“可能的存储系统故障”显示板报警时应执行的操作
本部分介绍了网格显示板上记录存储系统故障报警时应当采取的操作。
下列消息是严重错误,表示存在内在或潜在存储故障。
- 设备 DEVICE,SMART 故障:硬件将发生故障,一般硬盘驱动器故障。
- 设备 DEVICE,SMART 自检失败。 立即备份数据!
- 设备 DEVICE,失败的 SMART 使用属性:ATTRIBUTE
- 设备 DEVICE,自检日志错误数量从 M 增加到 N
- 设备 DEVICE,无法进行 SMART 自检
- 设备 DEVICE,无法读取 SMART 属性
- 设备 DEVICE,无法打开设备
- 设备 DEVICE,读取 SMART 错误日志失败
- 设备 DEVICE,读取 SMART 自检日志失败
- 设备 DEVICE,温度 NUM 摄氏度达到临界限制 NUM2 摄氏度(最小/最大 M/N)
如果网格显示板上存在以上报警之一,执行哪些操作可保存您的数据取决于在发生故障的服务器上具有流的卷的状态:
- 查找是否存在任何在故障服务器上具有唯一正确流/镜像的降级卷。
- 执行 vol list server=srvX 并记录所有降级卷
- 对于每个降级卷,执行 vol info volume-name 并记录所有在故障服务器上具有唯一正确镜像的卷。
- 如果在故障服务器上具有流/镜像的所有卷处于“正常”状态(即,它们没有降级):
- 使用 srv disable 命令禁用服务器。
- 重新启动在服务器上有运行的组件的应用 (app restart)。
- 在重新启动应用之后,请联系您的服务提供商,以使发生故障的服务器脱机。
- 这将产生降级卷;但 CA AppLogic® 将在后台自动修复这些卷。
- 修复服务器之后,可以使用 srv enable 将其重新联机并重新启用。
- 如果至少存在一个降级卷在故障服务器上具有唯一正确流/镜像:
- 必须修复这些卷。 使用 vol repair volume-name --force 命令强制 CA AppLogic® 尽快修复这些卷。 建议按照卷数据的重要性顺序修复这些卷(存储设备在卷修复过程期间可能出现故障)。 建议按照以下顺序修复这些卷:
- 应用卷
- 单例卷
- 目录/类卷
- volcache 卷(仅当已从原始类错误修改 volcache 卷)
- 全局卷
- 当完成所有这些卷的卷修复时 (vol repair --status),请重复以上第一种情况中的所有步骤。
下列消息是信息性消息,不代表可能的磁盘故障。 但是,您应当联系您的网格服务提供商,以协助您诊断特定问题。
- 设备 DEVICE,ATA 错误数量从 M 增加到 N:
- 设备 DEVICE,NUM 个当前无法读取的(未决)扇区:
- 设备 DEVICE,NUM 个脱机无法修复的扇区:
清除锁定的网格
如果找到处于锁定状态的网格,可以通过在控制节点上执行命令来清除锁定。
当网格处于锁定状态时,状态图标中的说明将包含以下信息:
网格 <gridname> 被进程 #13421 锁定
完成以下步骤:
- 以 root 用户身份登录到 BFC 控制节点。
- 执行以下命令:
service bfc restart
锁定已清除。
版权所有 © 2013 CA。
保留所有权利。
 
|
|