告警管理
被监控对象发生故障时,会产生告警事件,告警管理包括实时告警、历史告警和实时告警(值班),集中展示了系统接入的所有告警事件,具体接入了哪些事件源,可在告警配置的事件接入查看。告警事件发生后当务之急是将告警及时主动的推送给被监控对象对应的设备管理员,请设备管理员对故障进行处理。设备管理员可对告警事件进行查询、确认、恢复(将未恢复的告警手动设置为已恢复)和导出等操作。
实时告警
实时告警,显示所有“未恢复”告警事件,如果设置了屏蔽规则且屏蔽方式为“不展示”的“未恢复”事件会被剔除。实时告警的展示会区分用户权限,根据用户拥有的设备权限展示相关设备告警。如该用户是数据库管理员,分配了数据库相关的5台机器的权限,那么该用户只会看到与这5台数据库服务器相关的告警。
实时告警页面,提供了告警查询、告警确认、告警恢复、告警导出、确认记录查看等操作。
历史告警
历史告警是对“已恢复”告警事件的管理,也包括未恢复的被屏蔽告警。
设备故障解除之后,有的监控工具(如Zabbix)会发送恢复事件,表示故障解除。统一事件平台在收到恢复事件之后会将告警事件的恢复状态置为已恢复。并归入历史告警。
历史告警页面提供了对历史告警事件进行告警查询、告警导出、告警查看等操作。
实时告警(值班)
实时告警(值班),用于有专门安排值班人员实时观测告警的管理场景,如ECC中心,默认展示当日告警,可根据用户配置设备权限展示相关设备告警。
与其他告警页面不同的是,(值班)页面可以开启声音提示。若定时刷新和声音提示配置均为开启状态,则当有新告警产生,新告警会闪烁且伴随提示音。
开启声音提示点击右上角“”按钮,打开设置弹窗。可以在设置弹窗中配置告警页面自动刷新时间和声音的配置,声音和定时刷新默认为开启状态。
“”按钮表示开启声音提示或开启定时刷新,“”按钮表示关闭声音提示或关闭定时刷新。
配置完成后点击“”按钮,配置生效。点击“”按钮,配置不生效。
若定时刷新和声音提示配置均为开启状态,则当有新告警产生,新告警会闪烁且伴随提示音出现。
操作描述
告警查询
实时告警可以根据告警等级、处理状态、分组、来源、开始时间、设备标识和描述来检索相关的未恢复的非屏蔽告警事件。
查询条件 | 描述 | 预设默认值 |
---|---|---|
处理状态 | 事件确认状态:未确认、处理中、已完成 | 没有预设值 |
开始时间 | 事件发生时间 | 没有预设值 |
级别 | 事件级别:灾难、严重、问题、警告、通知、未知 | 灾难、严重 |
分组 | 事件设备所属类别,比如网络设备、操作系统等 | 没有预设值 |
来源 | 事件来源,告警配置中事件接入的接入名称 | 没有预设值 |
设备标识 | 设备标识、设备显示名称 | 没有预设值 |
描述 | 事件内容描述 | 没有预设值 |
**处理状态,**选择项包括未确认、处理中、已完成。
分组, 其数据来源于设备类型管理中配置的设备类型,包括Linux、Windows、存储设备、网络设备等。
来源,指该告警是从哪个工具接入进来的,其数据源是事件接入配置中的接入名称。如Zabbix事件接入、Prometheus、Skyworking、Dynetrace、Instana、天旦、科莱、云新、Splunk、ELK、动环监控等。
开始时间,事件发生时间,可以选择一个时间段。
屏蔽,不通知、不展示。
通知方式,其数据来源通知服务方式,可以查看通过不同通知方式通知确认的告警事件。
设备标识,可以填写设备标识(IP地址、或主机名)或者显示名称(资产名称、业务名称)进行检索。
**描述,**可以填写告警事件的相关描述信息进行检索。
**告警等级,**以色块的形式展示,默认查询灾难、严重等级告警,对应等级色块中的数字表示当前符合处理状态、分组、来源、开始时间、设备标识和描述检索条件的告警数量。
完成查询条件的填写和选择之后点击“”按钮,查询数据,点击“”按钮重置查询条件,点击“”将清空所有搜索条件包括默认值。
告警查看
如果告警事件还没有来得及确认,就已经恢复了,在历史告警管理中告警事件操作列是“”,如果告警已经“确认”,且“恢复”,则操作列是“”,比“未确认”的告警事件多了处理记录板块。
详情弹窗
点击“”或者双击告警事件弹出事件查看窗口
事件字段描述参考附录事件字段描述。
- 处理记录弹窗
点击“”或者双击告警事件弹出事件处理记录弹窗,处理记录弹窗有“事件”和“处理记录”、“关联策略”标签页,“事件”标签显示了事件各个字段描述,事件字段描述参考附录事件字段描述
在确认记录标签页中可以查看该事件的处理记录,确认记录包括了确认人、确认时间、备注、被通知人、通知介质等信息。默认按时间倒序展示可用通过点击“”和“”切换时间顺序。
确认人SYSTEM时,标识该事件是按通知确认策略自动确认的,否则为人工确认。通知信息按照被通知人进行展示,通知介质是可能包括邮件、微信、钉钉、等。
在关联策略标签页可用看到当前告警关联的策略。点击对应策略名称,可以下钻到策略页面。例点击“”,跳转到通知策略,并查询邮件通知策略。
告警确认
告警确认动作的目的是触发通知,让设备负责人知晓发生的告警,以便于设备负责人及时处理设备故障。
当统一事件平台收到监控工具(如Zabbix)发送的告警后,这条告警的处理状态为“未确认”,当“确认”动作即事件通知动作完成之后,处理状态变为“进行中、或已完成”。
告警确认分为自动通知确认和人工通知确认两种方式,自动通知确认动作可以通过告警处置策略设置为自动确认(具体配置方式请参考“告警配置->通知策略章节”),自动通知确认后,告警状态会变为“进行中”,确认记录中确认人为SYSTEM。
未被自动通知确认的告警事件可以在告警确认界面中进行人工通知确认。人工通知确认可以自由选择通知类型、自由选择被通知对象。
人工通知确认有两种操作方式:单条事件通知确认,多条事件批量通知确认。
- 单条事件确认
点击告警事件所在行操作列的“”按钮,或者双击告警事件,弹出事件确认弹窗。
勾选通知类型,填入通知对象,修改处理状态,填入处理状态描述、及备注,点击“”按钮提交,之后被通知对象会接收到告警事件通知。
在填入被通知对象,可以点击“”按钮,自动填充被通知对象,被填充之后也可以手工修改。被填充的被通知对象来源依据告警通知对象或告警通知组中设定的规则自动计算出来。
在事件确认窗口中,除通知类型、通知对象、处理状态描述、备注外,其他字段为事件信息,事件信息均为只读,不可修改。在处理记录中可以查看填入的信息,。
事件字段描述参考附录事件字段描述。
在事件确认窗口中可以选择通知类型,如邮件、短信、钉钉、企业微信、其他事件平台,也可以不选择通知方式。
已经被通知确认过的告警事件不需要再次做通知确认。
- 批量事件确认
点击“”对告警事件勾选,然后点击“”按钮,弹出批量确认窗口,在批量确认窗口选择通知类型、处理状态、处理状态描述,备注,然后点击“”完成批量确认,点击“”按钮取消操作。
批量事件确认不用填入被通知对象,被通知对象依据通知策略设置的通知对象进行通知确认。
- 确认记录查看
事件完成通知确认之后,操作字段按钮从“”变为 “”,点击“”或者双击告警事件弹出事件处理记录弹窗,处理记录弹窗有事件和处理记录、关联策略标签页,事件标签页显示了事件各个字段描述,事件字段描述参考附录事件字段描述,事件标签页还可以对事件的处理状态进行修改,修改完成后点击“” 完成修改,点击“”按钮取消操作。
在确认记录标签页中可以查看该事件的处理记录,确认记录包括了确认人、确认时间、备注、被通知人、通知介质等信息。默认按时间倒序展示可用通过点击“”和“”切换时间顺序。
处理人为SYSTEM时,表示该事件是按自动通知确认策略自动确认的,否则为人工确认。通知信息按照被通知人进行展示,通知介质可能包括邮件、事件总线。
告警恢复
告警恢复操作,意味着设备故障的消除
点击“”对告警事件勾选,然后点击“”按钮,弹出批量恢复确认窗口,在批量恢复窗口中点击完成批量恢复。
告警导出
导出有两种模式,一种是根据查询条件导出查询结果,另一种是根据选中的告警事件导出,导出文件格式为Excel,文件名为年月日时分秒,比如202204213512.xlsx,两种模式以选中告警事件模式优先级高。
- 根据查询条件导出
输入查询条件,点击“”,告警列表显示符合条的告警事件,然后点击“”按钮,弹出导出确认窗口,点击“”开始导出符合条件的告警事件,点击“”取消操作。
- 根据查询条件导出
点击“”对告警事件勾选,然后点击“”按钮,弹出导出窗口,点击“”开始导出选中的告警事件,点击“”取消操作。
下钻到设备详情页
点击表格区域的设备标识,可以跳转到对应的设备详情页。
告警展示字段配置
点击表格右上角“”按钮打开表格列(字段)显示配置弹窗,该功能可对告警的更多字段进行选择性展示。
点击“”勾选想要展示的表格列。“”表示展示表格列,“”表示隐藏表格列,“”表示默认选择不能去除。配置完成后点击“”保存配置,若点击“”则配置不生效。
定时刷新
页面默认每分钟刷新一次数据,可以在搜索区域通过“”按钮控制页面是否自动刷新。“”表示定时刷新,“”表示关闭刷新。
最后编辑:admin 更新时间:2025-01-16 16:46