使用 CA AppLogic › 网格用户指南 › 高可用性 › 应用和服务的自动恢复 › 网络故障
网络故障
本节仅适用于 CA AppLogic 2.9+。 之前的 CA AppLogic 版本无法容忍外部或主干网络的故障,这样的故障将导致网格或应用停机。
从 CA AppLogic 2.9 起,CA AppLogic 可以容忍外部(公共)或主干(专用)网络的故障,而不会导致应用停机(前提是网格的硬件设置配置了网络高可用性,并且网络尚未降级)。 通过执行 grid info 命令,用户可以知道他们网格的网络 HA 是否启用/可用。
当 CA AppLogic 检测到网络故障时,它通过将消息发布到网格显示板来向用户报告该问题。 此外,可以通过检查可从网格显示板获取的网格 HA 状态,或通过 grid info 命令来查看受影响的网络的 HA 状态。 发生下列事件之一时,CA AppLogic 将在外部或主干网络上检测到网络故障:
- 网格服务器之一上的物理 NIC 之一发生故障(硬件故障)
- NIC 之一的网络电缆被拔下、损坏、剪断等。
- 交换机之一上的端口发生故障
- 交换机之一自身彻底失败(故障、断电、冻结等)
如果在受影响的网络尚未处于降级状态时发生以上故障之一,虽然当 CA AppLogic 从故障中恢复时网络连接可能有短暂的中断(几秒钟),但是不应出现任何应用停机。 如果网络 HA 已经降级,并且有其他网络故障,则根据故障的类型,整个网格和所有应用都可能受影响。
注意:如果对 CA AppLogic 使用网络 HA 配置,并且发生外部网络故障,则使用外部接口的应用/组件可能在最多 5 分钟内不可访问。 这可能起因于缓存 MAC 地址的外部路由器。 等待路由器刷新其 ARP 缓存,或通过应用还原操作同时发送 ARP 响应和 arping。 这仅影响外部网络(主干网不受影响)。
管理员可以使用 grid info --verbose 和 srv info --extended 命令查看与网络 HA 相关的信息,包括描述网络拓扑的信息。
CA AppLogic 向网格管理员提供可以用于动态地配置网络 HA 的以下命令:
- 通过 grid set 在网格上启用/禁用网络 HA(外部和主干网络)
- 启用:grid set ha_network=1
- 禁用:grid set ha_network=0
- 通过 grid set 在网格的特定网络上启用/禁用网络 HA
- 在主干网络上启用网络 HA:grid set ha_backbone=1
- 在主干网络上禁用网络 HA:grid set ha_backbone=0
- 在外部网络上启用网络 HA:grid set ha_external=1
- 在外部网络上禁用网络 HA:grid set ha_external=0
- 通过 srv set 在服务器上启用/禁用网络 HA
- 启用:srv set ha_network=1
- 禁用:srv set ha_network=0
- 通过 srv set 在服务器的特定网络上启用/禁用网络 HA
- 在主干网络上启用网络 HA:srv set server name ha_backbone=1
- 在主干网络上禁用网络 HA:srv set server name ha_backbone=0
- 在外部网络上启用网络 HA:srv set server name ha_external=1
- 在外部网络上禁用网络 HA:srv set server name ha_external=0
- 通过 grid set 指定处于活动状态的交换机
- 对于主干网络:grid set backbone=switch ID
- 对于外部网络:grid set external=switch ID
- 通过 srv set 指定在服务器上处于活动状态的 NIC
- 对于主干网络:srv set server name backbone=switch ID
- 对于外部网络:srv set server name external=switch ID
- 启动网络拓扑发现功能
- 在网格中的所有服务器上:grid net_discover
- 在单个服务器上:srv net_discover server name
此外,CA AppLogic 提供新的服务器命令,通过让服务器上指定 NIC 的 LED 指示灯闪烁一分钟来使网格管理员能够识别服务器和 NIC。 新的服务器命令的格式是:
srv identify server name nic=NIC name
有关网格和服务器网络 HA 配置命令的各自的详细信息,请参见网格 CLI 参考和 CLI 参考。