1.3 名词释义
风险(risk)
- 可能造成伤害、损失或影响实现目标的事件
告警(alert)
- 在特定事件发生时被管对象发出的通报构成的一种事件报告,用于传递告警信息
异常(Incident)
- 服务的意外中断或质量降低
可用性(Availability)
- 服务、组件或配置项在需要时执行约定功能的能力,服务可用率
- Availability = (Agreed service time – Down time) / Agreed Service Time
故障(Fault)
- 除用户方环境或者用户自身操作引起的外,其他无论什么原因导致服务中断、服务品质下降或者用户服务体验下降。
风险管理(Risk Management)
- 围绕风险生命周期才去的一系列活动和流程,包括风险定义、风险发现、风险响应等
告警管理(Alert Management)
- 管理所有告警的生命周期。目的是尽快恢复正常的服务运行,确保保持约定的服务水平
异常管理(Incident Management)
- 管理所有异常的生命周期。目的是尽快恢复正常的服务运行,确保保持约定的服务水平
可用性管理(Availability Management)
- 确保所有IT服务符合约定的可用性目标,定义、分析、计划、度量和改进IT服务可用性的各个方面
- 服务水平管理(SLM,Service Level Management)
- 服务水平指标(SLI,Service Level Indicator)
- 服务水平目标(SLO,Service Level Objective)
- 服务水平协议(SLA,Service Level Agreement)
故障管理(Fault Management)
- 围绕故障生命周期采取的一系列活动和流程,包括故障等级定义、故障发现、故障响应、故障应急、故障恢复、故障复盘及持续改进。