该主题介绍各种网格控制器故障类型,这些故障需要网格管理员手工干预来恢复网格控制器正常运行。
注意:强烈建议您阅读 CA AppLogic® 高可用性参考,以熟悉 CA AppLogic® 的高可用性功能;特别是与网格控制器 HA 和可能发生的故障类型相关的内容。
CA AppLogic® 可从两种网格控制器故障类型中自动恢复:
在某些故障情形中,网格控制器可能无法访问,也无法通过 CA AppLogic® 自动恢复。 下面汇总用户观察到的此类情况:
管理员可以查看恢复 GUI 状态信息,该信息由 CA AppLogic® 进行维护。 该信息存储在位于控制器服务器(网格控制器将在其上启动)上的 dom0 的文件中。 有关恢复 GUI 状态文件的位置和格式的信息,请参阅本文档底部的最后一个主题。
下面列出了网格控制器自己无法重新启动的原因:
要使网格控制器恢复正常运行,请执行以下操作:
将显示“网格”页面。 网格的状态可以为“正在运行”、“已停止”、“失败”、“失败,但仍在运行”(网格创建失败但服务器仍在运行)、“需要注意”和“需要重新启动”。
“编辑网格参数”对话框将打开。
primary=srvaddr
srvaddr 值是将成为新控制器的服务器的服务器 ID (srvNN) 或地址。 该地址必须在主干 Lan 上可访问。 如果指定了名称,它必须解析为主干上可访问的地址。
当在正常运行的网格(具有运行控制器)上使用该设置时,控制器会立即关闭并在新的主机上重新启动。 这不会影响网格上的应用,但它可能会中断对网格控制器的 GUI 访问,并延迟或中断进行中的应用管理命令。
另外建议除主服务器之外,网格中还至少具有两个备用服务器。 如果网格中没有备用服务器或者备用服务器已关闭且无法恢复,请执行以下步骤为网格至少配置两个备用服务器。 如果没有足够的服务器可用,建议将更多的服务器添加到网格,以用于网格控制器 HA。
secondary=srvaddr,srvaddr,...
srvaddr 值是在主控制器主机出现故障的情况下用来担任控制器主机角色的服务器的服务器 ID 或地址。 该设置可用于限制或更改自动分配备用控制器主机。 最多可指定 7 个备用主机。 可以单独指定该设置,或者与 primary= setting 一起指定,以便同时重新分配备用主机和将控制器移动到新主机。 secondary= setting 对禁用的网格没有影响。 要重新分配备用控制器主机,首先请使用 primary=srvaddr 网格参数恢复网格。
如果以上所有建议均无法恢复网格控制器,则该问题非常严重,需要人工干预来解决;请立即联系 CA 支持。 为 CA 支持收集以下信息:
管理员可以查看恢复 GUI 状态信息,该信息由 CA AppLogic® 进行维护。 该信息存储在位于控制器服务器(网格控制器将在其上启动的服务器)上的 dom0 的文件中。 该文件命名为 /usr/local/recovery/gui/chroot/data/status,其中包含网格控制器恢复的当前状态。 控制器恢复 GUI 使用该文件中存储的信息来显示进度/状态。 该文件采用以下格式,并以 JSON 编码(下面是所使用的示例数据):
{
"grid_name" : "my-grid-name",
"grid_version" : "2.7.6",
"role" : "恢复控制器 2",
"status" : "正在进行恢复(主恢复控制器是 srv2)",
"recovery_start_time" : "15:14:41 PDT(2009 年 3 月 21 日)",
"recovery_eta" : "15:23:54 PDT",
"recovery_remaining_time" : 278,
"current_time" : "15:19:12 PDT",
"stage" : 0,
"stage_remaining_time" : 79,
"failure_reason" : "srv1 关闭(在任何一个网络上无响应 30 秒)",
"known_servers" : "srv1:down,srv2:up",
"stages" : [
"正在等待仲裁(至少连接 N 个服务器中的 3 个)",
"正在等待具有控制器卷流的服务器可用",
"正在等待保留控制器卷流",
"正在验证两个网路是否存在",
"正在共享控制器卷",
"正在挂接控制器卷",
"正在启动网格控制器",
"已启动网格控制器"
],
"msgs" : [
{
"time" : "15:15:23 PDT",
"severity" : "报警",
"text" : "我的报警信息"
},
{
"time" : "15:16:00 PDT",
"severity" : "信息",
"text" : "我的信息消息"
}
]
}
对以上字段的一些说明:
未执行网格控制器恢复时,状态文件中仅提供以下几个字段:
{
"grid_name" : "my-grid-name",
"grid_version" : "2.7.6",
"role" : "恢复控制器 2",
"status" : "正常",
"known_servers" : "srv2:up,srv1:up"
}
|
版权所有 © 2013 CA。
保留所有权利。
|
|