1 术语&定义 - 统一事件平台UEH-v4.0.0

UMC

-Unified Monitor Control，集中监控系统门户,用于事件、性能数据的前端展示

UEH

-Unified Event Handler，统一事件处理程序，用于事件的后端处理

事件（Event）

-事件是监控工具对IT设备或服务状态变化的记录，如监控服务器的状态变化、网络流量的变化、服务状态的变化。例如：当服务器负载超过阈值时，系统会记录这一事件。事件没有好、也没有坏，只是客观的状态变化描述。
Event通常由监控工具和日志收集系统产生，如Zabbix、Prometheus、ELK Stack (Elasticsearch, Logstash, Kibana)。

告警（Alert）

-事件被再次加工处理后（分组、去重、抑制、资产信息丰富）成为告警，告警（Alert）是事件的子集，后续往往要有操作动作。告警通常要通知到人，以便采取相应的措施，以防止系统发生事故（Incident）。监控工具通常带有告警Alert处理的功能，比如Alertmanager：就是Prometheus生态系统的一部分，专门用于处理告警。

事故（Incident）

-服务已经中断或服务质量下降，已经影响或可能影响服务正常运行的问题。需要IT运维团队（有可能是多人、多组织参与）采取行动来解决。例如:网站无法访问、数据库崩溃、关键业务应用程序故障等。
围绕事故（Incident）的管理主要是通过流程解决IT服务中断或质量下降的问题。管理工具如ServiceNow、Jira Service Management、PagerDuty等，用于Incident响应和管理的平台

事件、告警、事故管理目标的区别

事件（Event）侧重于对系统状态的监控和记录
告警（Alert）则是对事件的进一步处理，如对事件被分组、去重、抑制、资产信息丰富、通知或者屏蔽等等。
事故（Incident）的管理，主要是要有预设的管理目标和过程管控，比如SLA、跟踪、恢复时间要求等，更偏向于IT服务流程，通过流程保障事故得到“计划时间内”的妥善处理，闭环且不会被遗漏，或者事后可进行评价、审计等。

Event 是最基础的,可能会触发 Alert。
Alert 是对 Event 的筛选和解释,可能会升级为 Incident。
Incident 是需要立即处理的问题,通常由一个或多个 Alert 触发。

防抖抑制

抑制抖动类指标偶发性产生的告警事件，如:CPU使用率、内存使用率、网卡流量等

依赖屏蔽

抑制由于依赖关系影响而导致的关联告警事件，如:组件安装于主机、设备通过交换机连通网络、虚拟机运行于宿主机等

时间屏蔽

抑制由于已知事件导致的产生了无需关注的告警事件，如:系统维护期内、变更时间窗口内

告警收敛主要有三种思路:

抑制: 同一个问题的不同告警事件
屏蔽: 可预知的不用产生的告警事件
聚合: 相同特性的告警事件

作者：admin 创建时间：2024-10-24 16:57
最后编辑：admin 更新时间：2025-02-25 16:06