监控告警系统概述

监控系统的难点在于,存储大容量时序数据,提供高性能的查询能力;告警系统的难点在于,设计高效的告警引擎,实现灵活的告警升级机制。最近一直在跟踪监控告警系统,本篇主要是整理监控告警相关的一些概念、组件,调研方案。

1. 监控告警系统的组成

对于监控告警的定义,每个人都会有一些自己的理解。我的理解是: 监控是将发生的事情记录下来,以供事前事后分析;告警是当非预期的事情发生时,能够及时告知。如上图,一个监控告警系统会包含如下几个部分:Agent - 负责采集,并将关注的指标数据上报Storage - 负责存储 Agent 上报的数据Alarm - 负责检测上报的数据是否达到预设的阈值Notification - 负责将告警发送给指定的接收人

2. 采集

2.1 采集的数据格式