操作场景
该任务指导用户在日常运维中完成集群进行健康检查的工作,以保证集群各项参数、配置以及监控没有异常、能够长时间稳定运行。
操作说明
集群健康检查的范围包含Manager服务级别的各个组件检查:服务级别关注组件是否能够提供正常的服务、告警情况以及各个组件差异化的检查指标。
操作步骤
集群健康检查
1. 手动执行所有服务的健康检查。
在集群详情页,单击集群服务列表右上角“更多操作 > 启动集群健康检查”。
2. 周期执行所有服务的健康检查。
在集群服务>健康检查报告>点击列表右上方设置按钮>跳出周期任务设置弹框,支持用户根据天/周/月维度进行间隔配置,支持配合具体时刻,创建成功后,对支持的组件服务会定期发起健康检查。
² 说明
• 在翼MR Manager界面,选择“集群设置 > 更多操作 > 健康检查”,可以执行集群健康检查,集群列表页面发起的健康检查针对列表中所有的组件服务。
• 点击健康检查之后页面则跳转至健康检查报告Tab页面,展示集群的健康检查列表,列表置顶为最新发起的健康检查,点开一级列表下方展示各个组件的检查详情。
• 点击一级列表操作中的导出报告,则支持导出CSV文件,用户可本地查阅健康报告。
查看并导出检查报告
操作场景
为了满足对健康检查结果的进一步具体分析,您可以在翼MR中查看以及导出健康检查的结果。
操作说明
平台健康检查的范围包含Manager服务级别的健康检查。
集群健康检查可以包含三方面检查项:各检查对象的服务状态、告警信息、以及每个组件差异化的相关指标。
前提条件
已执行健康检查。
操作步骤
1. 在集群详情页,点击健康检查报告“管理操作 > 查看集群健康检查报告”。
2. 在健康检查的报告面板上单击“导出报告”导出健康检查报告,下载后可本地查看检查项的完整信息,集群与主机健康检查报告导出格式均为CSV。
查看翼MR服务操作日志
操作日志入口
1. 在集群列表页面,在“集群名称”列下,单击需要查看日志的集群名称进入集群信息页面。
2. 进入集群信息页面后,单击如下图所示“操作日志”即可进入操作日志页面。
操作类型
目前翼MR服务操作日志,提供了筛选框帮助用户快速定位问题原因。用户在选择筛选条件后,单击“查询”按钮进行查询日志,“重置”按钮清空筛选条件。
1. 操作状态:操作状态筛选框如下图所示,单击可选择筛选条件,包括“成功”、“失败”和“进行中”三种条件。
2. 时间范围:时间范围筛选框如下图所示,单击“开始日期”和“结束日期”可筛选条件。
日志字段
日志字段参数说明。
参数 | 参数说明 |
操作名称 | 记录执行的操作名称,包括:新建集群、配置升级等。 |
状态 | 记录操作的状态,包括:成功、失败、进行中。 |
操作范围 | 记录操作的范围,包括:集群、节点、节点组等。 |
操作用户 | 记录执行操作的用户。 |
开始时间/结束时间 | 记录操作开始执行时间和执行结束时间。 |
备注 | 对操作失败的备注说明。 |