

安装和维护 CA AppLogic® › 高级维护指南 › 管理和高级选项 › 如何维护网格
如何维护网格
作为主干管理员,您想在网格上执行管理任务和高级操作。 这些操作包括检索服务器信息、检查网络运行情况,以及查看网格失败情况。 BFC 维护人员可以定期地执行这些任务。
以下图表显示如何在典型环境中维护网格:

- 检索并修改服务器信息。
- 如果您有很多服务器,请从网格中删除一台服务器。
例如,由于未充分利用的资源,您打算将所需的最少服务器数量从 5 更改为 4。
- 如果您要检测网格中的问题,请检查网络运行情况。
- 如果网格失败,请完成以下步骤:
- 查看网格失败日志。
- 还原网格控制器操作。
检索并修改服务器信息
3tsrv 实用工具驻留在每个服务器的 dom0。 只有网格管理员有访问该实用工具的权限。 使用该实用工具检索和修改服务器信息,并执行各种功能,例如收集日志用于故障分析。
完成以下步骤:
- 执行以下命令:
3tsrv command [ prop[=val] ]* [ --batch ][ --force ]
- command
-
指定要执行的命令。
- prop=val
-
指定其他特定命令的参数。 如果您不指定 val,该产品则假定布尔属性值为 TRUE。
- --batch
-
指定实用工具从脚本执行且不应显示冗长的错误消息。 该变量也采用 UDL 格式显示输出。
- --force
-
强制指定的操作。
- 请考虑以下支持的命令:
- 信息
-
检索详细的服务器信息。
- set
-
设置服务器信息。
- 重新启动
-
重新启动服务器。
- shutdown
-
关闭服务器。
- applogic activate
-
激活服务器上的产品。
- applogic deactivate
-
停用服务器上的产品。
- applogic start
-
启动服务器上的产品。
- applogic stop
-
停止服务器上的产品。
- diskchk enable
-
启用服务器上的磁盘故障检测。
- diskchk disable
-
禁用服务器上的磁盘故障检测。
- bd list
-
列出由服务器上的产品使用的活动块设备
- sd get
-
显示服务器数据文件的内容
- sd set
-
更新服务器数据文件
- logs collect
-
收集服务器日志和信息
- help
-
显示实用工具的帮助。
例如,您想查看有关服务器的详细信息。
执行以下命令:
3tsrv info [ --batch ]
从网格删除服务器
您可以使用“网格属性”页面中的“服务器操作”从网格删除服务器。
如果指定的最小数值和目标数值相等,则可能需要降低最小服务器值。 例如,您的网格具有 5 个值设置为 5/5/5(最小/目标/最大)的服务器。 需要将最小值设置为 4,因为 svr5 未充分利用。
注意:如果最小服务器值小于目标值,则不需要首先调整最小值。 例如,如果指定的最小/目标/最大为 5/7/7,则可以在不调整最小值的情况下删除两个服务器。
完成以下步骤:
- 从 BFC UI 中,打开“网格属性”页面的“Xen”或“VMware”选项卡。
- 输入 4 作为最小值。
- 打开网格 shell。
- 执行以下命令:
3t srv disable srv<n>
- n
-
要从网格删除的服务器号。
注意:如果在步骤 5d 中选中“强制删除”复选框,则此步骤是可选的。
- 请完成下列步骤:
- 从 BFC UI 中,在“网格属性”页面上选择“服务器”选项卡。
- 选择要删除的服务器,然后从“服务器操作”下拉列表中单击“删除”。
- 如果不希望其他网格选择此服务器,则启用“隔离”选项。
- 要删除在 CA AppLogic® 中未禁用的服务器,请选择“强制删除”选项。
检查网络运行情况
通过 3tnetha 实用工具,您可以编写各种网络和相关选项检查的脚本。 作为定期状况检查的一部分,该产品定期调用 3tnetha 脚本。
完成以下步骤:
- 在控制器的以下目录内找到脚本:
/var/applogic/scripts
默认情况下,该脚本除退出 0 之外,不执行任何操作。
- 验证输出脚本:
查看网格失败日志
您可以根据该网格的行为进行故障排除。 将任何意外的网格失败报告给 CA 支持。 然而,在提交缺陷报告之前,请查看《版本说明》以确认您的问题是未知问题。
完成以下步骤:
- 请确认您是否经历以下任何网格行为:
- 网格无故重新启动而操作员并未发出网格重新启动命令(将会在网格的显示板上报告此问题)
- 网格服务器之一崩溃或无响应。
注意:该产品可以在网格的显示板上报告此行为。
- 产品 GUI 锁定且无响应。
- 默认产品标准组件之一由于以下任何原因而失败:
注意:该产品可以在网格的显示板上报告此行为。
- CLI 命令无故挂起或失败。
在此示例中,您无法验证您的问题是否是已知问题。 您决定提出缺陷报告。
您想从网格收集所有日志,包括备份。 例如,xxxx.1、xxxx.2 等。
网格和服务器日志需要管理员访问权限。 您将这些日志发送到 CA 支持。
注意:可以在每个服务器上使用 3tsrv 实用工具来收集服务器特定日志和信息。
- 从以下目录收集网格控制器日志:
- /var/log/messages
- /var/log/applogic
- /var/log/3tshell
- /var/log/secure
- 从以下目录收集服务器日志:
- /var/log/messages/
- /var/log/applogic
- /var/log/xen/
- /var/log/secure
- 从以下目录收集组件日志(只针对组件失败):
- /var/log/messages/
- /var/log/applogic
- /var/log/secure
- 收集以下容器和 BFC 日志:
- ContainerX_python.log.Y
-
包含 BFC 发出的任何网格命令的输出。 此日志也包含来自 BFC 采取的用户可识别操作的输出。 我们建议您考虑将此日志作为故障排除的最有用信息。
- BFCLog.X
-
在诊断发现的问题时包含有用数据。 CA 技术支持主要使用此日志。
- bfcsetup.log
-
包含 BFC 安装的输出。
- /var/log/messages 文件夹
-
包含 DHCP 请求的数据。 发现服务器时,您可以观看此日志。 如果服务器打开且您没在该日志中看到其 dhcp,那么 PXE 有可能没有正确配置。
- /var/bfcadmin/inventory
-
包含服务器的清单文件,且可以帮助诊断发现/清单问题。
- /var/bfcadmin/deployer
-
包含服务器部署到网格时所创建的日志。 如果在将服务器添加到网格时出现故障,这些文件就有可能十分有用。
- 收集网格 (dom0) 中的每个服务器的以下信息:
- lspci
- lspci -n
- lspci -v
- lsmod
- cat /proc/cpuinfo
- cat /proc/meminfo
- dmidecode
- smartctl -a(用于服务器上的所有物理磁盘)
还原网格控制器操作
如果网格控制器服务器失败,产品则会检测到网格控制器恢复问题。 这些问题可能导致网格控制器不可访问。
完成以下步骤:
- 如果由于一个或多个网格控制器服务器关闭而网格没有控制器 HA,请考虑以下信息:
- 显示板向您发出警报,网格没有控制器 HA。 Y 个控制器服务器中有 X 个已关闭。 要还原控制器 HA,以下控制器服务器中有 Z 个必须重新联机:服务器列表
- 服务器重新联机,或将新服务器添加到网格中。 请联系服务提供商寻求帮助。
- 如果没有正确配置 HA 网格控制器,请考虑以下信息:
- 显示板向您发出警报,网格未针对控制器 HA 配置。 您分配备用控制器服务器,或网格无法从网格控制器服务器失败中恢复。 要启用网格上的控制器 HA,请将运行的服务器之一作为备用控制器服务器。
- 没有将服务器分配为备用网格控制器(备份网格控制器)。 请立即联系服务提供商。
- 该产品检测到可能导致网格故障或应用停机的以下不正确网格配置:
- 如果单个服务器网格没有 HA 功能,请考虑以下信息:
- 显示板向您发出警报,HA 由于网格为单个服务器网格而不可用。
- 大部分 HA 功能需要至少二台服务器。 要充分利用在此文档中描述的 HA 功能,请联系您的服务提供商,以便至少将另一个服务器添加到您的网格中。
- 如果您没有使用适当数量的控制器内存、控制器 CPU 或服务器内存来配置网格,请考虑以下信息:
- 显示板向您发出警报,网格资源未不正确配置。 此问题可导致网格性能的降低或网格的不稳定。 在网格上更新下列网格资源或联系技术支持:控制器内存 | 控制器 CPU | 服务器内存。
- 请立即联系服务提供商。 要使用正确数量的资源,您需要重新配置网格,否则网格会变得不稳定,影响正在运行应用的运行时间。
您已成功执行网格维护。
版权所有 © 2013 CA。
保留所有权利。
 
|
|