上一主题: 服务器故障下一主题: 服务器振荡


概览

CA AppLogic® 可以从一个或多个物理的服务器的丢失中自动恢复。 作为 CA AppLogic® 网格一部分的物理服务器可能由于下列任何原因而发生故障:

为了帮助容忍服务器故障,CA AppLogic® 跨网格的服务器镜像所有卷(默认情况下所有卷以 2 倍方式镜像)。 卷镜像使组件能够在物理服务器发生故障时维持操作;当然,组件在发生故障的服务器上运行除外。

CA AppLogic® 通过服务器与网格控制器的网络连接的断开(通常在服务器故障的 3 分钟内)来检测发生故障的服务器。 检测到故障后,正在该服务器上运行的任何组件将自动安排为在网格中的其他服务器上运行。 只有当网格中有足够的可用资源时,组件才能重新启动。 如果服务器发生故障后没有足够的可用资源来重新启动组件,CA AppLogic® 将在网格显示板中显示报警。 如果该报警出现在网格显示板上,请联系您的服务提供商,以便将其他服务器添加到网格。

可用资源不足,无法重新启动在 n 台服务器 [list_of_servers] 上运行的组件。 

在服务器发生故障且组件自动重新启动后,CA AppLogic® 将恢复报警发布到网格显示板上。 例如:在 srv3 发生故障后,用户将在网格中看到以下报警(假设有组件正在 srv3 上运行,并且有足够的可用网格资源来重新启动组件):

当组件在服务器故障之后成功重新启动时,上面二条报警将不再显示,以下报警将发布在网格显示板上:

如果 CA AppLogic® 无法重新启动一个或多个组件,将为发生故障的每个组件将下列报警之一发布在网格显示板上。 使用列出日志命令来查看控制器日志,以获取有关为何无法启动组件的确切的详细信息。