翼MapReduce服务

健康检查

2025-07-18 07:46:42
操作场景

该任务指导用户在日常运维中完成集群进行健康检查的工作,以保证集群各项参数、配置以及监控没有异常、能够长时间稳定运行。

操作说明

集群健康检查的范围包含Manager服务级别的各个组件检查:服务级别关注组件是否能够提供正常的服务、告警情况以及各个组件差异化的检查指标。

操作步骤

集群健康检查

1.       手动执行所有服务的健康检查。
在集群详情页,单击集群服务列表右上角“更多操作 > 启动集群健康检查”。

           image-12.png

2.       周期执行所有服务的健康检查。
在集群服务>健康检查报告>点击列表右上方设置按钮>跳出周期任务设置弹框,支持用户根据天/周/月维度进行间隔配置,支持配合具体时刻,创建成功后,对支持的组件服务会定期发起健康检查。

           image-14.png

²  说明

         在翼MR Manager界面,选择“集群设置 > 更多操作 > 健康检查”,可以执行集群健康检查,集群列表页面发起的健康检查针对列表中所有的组件服务。

         点击健康检查之后页面则跳转至健康检查报告Tab页面,展示集群的健康检查列表,列表置顶为最新发起的健康检查,点开一级列表下方展示各个组件的检查详情。

         点击一级列表操作中的导出报告,则支持导出CSV文件,用户可本地查阅健康报告。

查看并导出检查报告
操作场景

为了满足对健康检查结果的进一步具体分析,您可以在翼MR中查看以及导出健康检查的结果。

操作说明

平台健康检查的范围包含Manager服务级别的健康检查。

集群健康检查可以包含三方面检查项:各检查对象的服务状态、告警信息、以及每个组件差异化的相关指标。

前提条件

已执行健康检查。

操作步骤

1.       在集群详情页,点击健康检查报告“管理操作 > 查看集群健康检查报告”。

           image-13.png

2.       在健康检查的报告面板上单击“导出报告”导出健康检查报告,下载后可本地查看检查项的完整信息,集群与主机健康检查报告导出格式均为CSV。

查看翼MR服务操作日志

操作日志入口

1.       在集群列表页面,在“集群名称”列下,单击需要查看日志的集群名称进入集群信息页面。

           image-139.png

2.       进入集群信息页面后,单击如下图所示“操作日志”即可进入操作日志页面。

           image-140.png

操作类型

目前翼MR服务操作日志,提供了筛选框帮助用户快速定位问题原因。用户在选择筛选条件后,单击“查询”按钮进行查询日志,“重置”按钮清空筛选条件。
image-141.png

1.       操作状态:操作状态筛选框如下图所示,单击可选择筛选条件,包括“成功”、“失败”和“进行中”三种条件。

           image-142.png

2.       时间范围:时间范围筛选框如下图所示,单击“开始日期”和“结束日期”可筛选条件。

           image-143.png

日志字段

日志字段参数说明。

参数

参数说明

操作名称

记录执行的操作名称,包括:新建集群、配置升级等。

状态

记录操作的状态,包括:成功、失败、进行中。

操作范围

记录操作的范围,包括:集群、节点、节点组等。

操作用户

记录执行操作的用户。

开始时间/结束时间

记录操作开始执行时间和执行结束时间。

备注

对操作失败的备注说明。


ZP687pIdLcR0