告警是 KubeSphere Advanced 2.0.0 的新功能,自研的多租户告警系统支持灵活的告警策略和告警规则,目前 KubeSphere 告警系统具备以下特性:
本篇文档以创建一个节点级别的告警策略并发送邮件通知作为示例,引导集群管理员如何设置节点级别的告警策略。
管理员需预先配置邮件服务器,若还未配置可参考 邮件服务器。
cluster-admin
登录 KubeSphere,点击 「平台管理」,选择 「监控中心」。在弹窗中,参考如下提示填写基本信息,完成后点击 「下一步」。
alert-demo
;示例告警
;监控目标支持按三种指标进行排行,这里选择 按内存使用率排行,选择排行前三的三台主机,注意这三台主机的内存利用率都超过了 50%,为了演示方便,下一步告警规则中可以设置内存使用率的阈值为 > 50%。完成后点击 「下一步」。
监控目标支持按如下三种指标排行:
- 按内存使用率排行
- 按 CPU 使用率排行
- 按容器组用量排行
告警规则支持的指标、扫描周期、连续次数、告警等级非常丰富,本示例以设置内存利用率作为告警指标,内存使用率的阈值为 > 50%,级别为重要告警,设置的规则如截图所示:
说明: 节点支持的告警指标如下:
- CPU:节点 CPU 利用率、节点 CPU 1 分钟平均负载、节点 CPU 5 分钟平均负载、节点 CPU 15 分钟平均负载;
- 内存:节点可用内存、节点内存利用率;
- 磁盘:节点本地磁盘可用空间、节点本地磁盘空间利用率、节点本地磁盘读取 IOPS、节点本地磁盘写入 IOPS、本地磁盘读取吞吐量、本地磁盘写入吞吐量、inode 利用率;
- 网络:网络发送数据速率、网络接收数据速率;
- 容器组:容器组异常率、容器组利用率。
完成后点击 「保存」,然后选择 「下一步」。
通知有效时间可以设置发送通知邮件的时间范围,例如 09:00 ~ 19:00
,通知渠道目前仅支持邮箱,在通知列表中输入需要通知的成员邮箱。
重复规则设置的是告警通知的发送周期和重发频度,如果告警一直未解决,相隔一定的时间将会重复发送告警。针对不同级别的告警也可以设置不同的重复规则,由于上一步设置的告警级别是重要告警,因此选择重要告警的规则为 每 5 分钟警告一次,最多重发 3 次。参考如下截图设置通知规则:
说明:告警的等待时间 = 检测周期 x 连续次数。例如检测周期为 1 分钟/周期,连续次数为 2 次,那么需要等待 2 分钟。
告警策略创建成功后,点击进入 alert-demo
告警策略的详情页,查看告警规则当前的状态和详细信息,包括监控目标、通知规则和告警历史等。
左侧点击 「更多操作」 → 「更改状态」,支持启用或停用告警策略。