I'm Yunlong - DevOps, Agile, Learner

面向微服务的持续交付架构

Posted on 2018-03-15 |

先来一个图，剩下的后面慢慢说。

Read more »

Prometheus高可用(4)：Alertmanager高可用

Posted on 2018-03-12 | In Prometheus |

在前面的部分我们主要讨论了Prometheus Server自身的高可用问题。而接下来，重点将放在告警处理也就是Alertmanager部分。如下所示。

Read more »

Prometheus高可用(3)：联邦集群

Posted on 2018-03-08 | In Prometheus |

单个Prometheus Server可以轻松的处理数以百万的时间序列。当然根据规模的不同的变化，Prometheus同样可以轻松的进行扩展。这部分将会介绍利用Prometheus的联邦集群特性，对Prometheus进行扩展。

Read more »

Prometheus高可用(2)：理解远端存储

Posted on 2018-03-07 | In Prometheus |

Prometheus的本地存储设计可以减少其自身运维和管理的复杂度，同时能够满足大部分用户监控规模的需求。但是本地存储也意味着Prometheus无法持久化数据，无法存储大量历史数据，同时也无法灵活扩展。

为了保持Prometheus的简单性，Prometheus并没有尝试在自身中解决以上问题，而是通过定义两个标准接口(remote_write/remote_read)，让用户可以基于这两个接口对接任意第三方的存储服务，这种方式在Promthues中成为Remote Storage。

Read more »

Prometheus高可用(1)：理解本地存储

Posted on 2018-03-06 | In Prometheus |

在构建Prometheus高可用方案之前，我们先来了解一下Prometheus的本地存储相关的内容。

Read more »

使用Webhook扩展Alertmanager(钉钉版)

Posted on 2018-03-01 |

在某些情况下除了Alertmanager已经内置的集中告警通知方式以外，对于不同的用户和组织而言还需要一些自定义的告知方式支持。通过Alertmanager提供的webhook支持可以轻松实现这一类的扩展。除了用于支持额外的通知方式，webhook还可以与其他第三方系统集成实现运维自动化，或者弹性伸缩等。

Read more »

监控什么？4个黄金指标/RED方法/USE方法

Posted on 2018-02-02 |

这里先思考一个基本的问题，在实现监控时，我们到底应该监控哪些对象以及哪些指标。本文会介绍会介绍一些通用的套路，包括Goole的”4个黄金指标”和此基础上演进出的”RED方法“，以及注重分析系统性能问题”USE方法”。

Read more »

自定义Metrics：让Prometheus监控你的应用程序（Spring版）

Posted on 2018-01-24 |

本文将以Spring Boot/Spring Cloud为例，介绍如果使用Prometheus SDK实现自定义监控指标的定义以及暴露，并且会介绍Prometheus中四种不同指标类型(Counter, Gauge, Histogram, Summary)的实际使用场景；

Read more »

Prometheus中的服务发现和relabel

Posted on 2018-01-17 | In Prometheus |

在云平台中如果自动发现监控目标？本文将结合Consul向读者介绍Prometheus下的服务发现机制以及relabel机制。

Read more »

关于CNCF的CKA认证考试

Posted on 2017-12-13 |

最近花了些时间完成了CNCF官方基金会推出的CKA(Certified Kubernetes Administrator)认证考试，这边文章就简单说一下CKA认证考试是撒，以及参加考试一些准备过程。

Read more »