先来一个图,剩下的后面慢慢说。
Prometheus高可用(4):Alertmanager高可用
在前面的部分我们主要讨论了Prometheus Server自身的高可用问题。而接下来,重点将放在告警处理也就是Alertmanager部分。如下所示。
Prometheus高可用(3):联邦集群
单个Prometheus Server可以轻松的处理数以百万的时间序列。当然根据规模的不同的变化,Prometheus同样可以轻松的进行扩展。这部分将会介绍利用Prometheus的联邦集群特性,对Prometheus进行扩展。
Prometheus高可用(2):理解远端存储
Prometheus的本地存储设计可以减少其自身运维和管理的复杂度,同时能够满足大部分用户监控规模的需求。但是本地存储也意味着Prometheus无法持久化数据,无法存储大量历史数据,同时也无法灵活扩展。
为了保持Prometheus的简单性,Prometheus并没有尝试在自身中解决以上问题,而是通过定义两个标准接口(remote_write/remote_read),让用户可以基于这两个接口对接任意第三方的存储服务,这种方式在Promthues中成为Remote Storage。
使用Webhook扩展Alertmanager(钉钉版)
在某些情况下除了Alertmanager已经内置的集中告警通知方式以外,对于不同的用户和组织而言还需要一些自定义的告知方式支持。通过Alertmanager提供的webhook支持可以轻松实现这一类的扩展。除了用于支持额外的通知方式,webhook还可以与其他第三方系统集成实现运维自动化,或者弹性伸缩等。
监控什么?4个黄金指标/RED方法/USE方法
这里先思考一个基本的问题,在实现监控时,我们到底应该监控哪些对象以及哪些指标。本文会介绍会介绍一些通用的套路,包括Goole的”4个黄金指标”和此基础上演进出的”RED方法“,以及注重分析系统性能问题”USE方法”。
自定义Metrics:让Prometheus监控你的应用程序(Spring版)
本文将以Spring Boot/Spring Cloud为例,介绍如果使用Prometheus SDK实现自定义监控指标的定义以及暴露,并且会介绍Prometheus中四种不同指标类型(Counter, Gauge, Histogram, Summary)的实际使用场景;
关于CNCF的CKA认证考试
最近花了些时间完成了CNCF官方基金会推出的CKA(Certified Kubernetes Administrator)认证考试,这边文章就简单说一下CKA认证考试是撒,以及参加考试一些准备过程。