UMC

-Unified Monitor Control,集中监控系统门户,用于事件、性能数据的前端展示

UEH

-Unified Event Handler,统一事件处理程序,用于事件的后端处理

事件(Event)

-事件是监控工具对IT设备或服务状态变化的记录,如监控服务器的状态变化、网络流量的变化、服务状态的变化。例如:当服务器负载超过阈值时,系统会记录这一事件。事件没有好、也没有坏,只是客观的状态变化描述。
Event通常由监控工具和日志收集系统产生,如Zabbix、Prometheus、ELK Stack (Elasticsearch, Logstash, Kibana)。

告警(Alert)

-事件被再次加工处理后(分组、去重、抑制、资产信息丰富)成为告警,告警(Alert)是事件的子集,后续往往要有操作动作。告警通常要通知到人,以便采取相应的措施,以防止系统发生事故(Incident)。监控工具通常带有告警Alert处理的功能,比如Alertmanager:就是Prometheus生态系统的一部分,专门用于处理告警。

事故(Incident)

-服务已经中断或服务质量下降,已经影响或可能影响服务正常运行的问题。需要IT运维团队(有可能是多人、多组织参与)采取行动来解决。例如:网站无法访问、数据库崩溃、关键业务应用程序故障等。
围绕事故(Incident)的管理主要是通过流程解决IT服务中断或质量下降的问题。管理工具如ServiceNow、Jira Service Management、PagerDuty等,用于Incident响应和管理的平台

事件、告警、事故管理目标的区别

事件(Event)侧重于对系统状态的监控和记录
告警(Alert)则是对事件的进一步处理,如对事件被分组、去重、抑制、资产信息丰富、通知或者屏蔽等等。
事故(Incident)的管理,主要是要有预设的管理目标和过程管控,比如SLA、跟踪、恢复时间要求等,更偏向于IT服务流程,通过流程保障事故得到“计划时间内”的妥善处理,闭环且不会被遗漏,或者事后可进行评价、审计等。

  • Event 是最基础的,可能会触发 Alert。
  • Alert 是对 Event 的筛选和解释,可能会升级为 Incident。
  • Incident 是需要立即处理的问题,通常由一个或多个 Alert 触发。

防抖抑制

抑制抖动类指标偶发性产生的告警事件,如:CPU使用率、内存使用率、网卡流量等

依赖屏蔽

抑制由于依赖关系影响而导致的关联告警事件,如:组件安装于主机、设备通过交换机连通网络、虚拟机运行于宿主机等

时间屏蔽

抑制由于已知事件导致的产生了无需关注的告警事件,如:系统维护期内、变更时间窗口内

告警收敛主要有三种思路:

  • 抑制: 同一个问题的不同告警事件
  • 屏蔽: 可预知的不用产生的告警事件
  • 聚合: 相同特性的告警事件
作者:admin  创建时间:2024-10-24 16:57
最后编辑:admin  更新时间:2025-01-16 16:46