Skip to main content
Version: v1.5

1.3 名词释义

风险(risk)

  • 可能造成伤害、损失或影响实现目标的事件

告警(alert)

  • 在特定事件发生时被管对象发出的通报构成的一种事件报告,用于传递告警信息

异常(Incident)

  • 服务的意外中断或质量降低

可用性(Availability)

  • 服务、组件或配置项在需要时执行约定功能的能力,服务可用率
  • Availability = (Agreed service time – Down time) / Agreed Service Time

故障(Fault)

  • 除用户方环境或者用户自身操作引起的外,其他无论什么原因导致服务中断、服务品质下降或者用户服务体验下降。

风险管理(Risk Management)

  • 围绕风险生命周期才去的一系列活动和流程,包括风险定义、风险发现、风险响应等

告警管理(Alert Management)

  • 管理所有告警的生命周期。目的是尽快恢复正常的服务运行,确保保持约定的服务水平

异常管理(Incident Management)

  • 管理所有异常的生命周期。目的是尽快恢复正常的服务运行,确保保持约定的服务水平

可用性管理(Availability Management)

  • 确保所有IT服务符合约定的可用性目标,定义、分析、计划、度量和改进IT服务可用性的各个方面
  • 服务水平管理(SLM,Service Level Management)
  • 服务水平指标(SLI,Service Level Indicator)
  • 服务水平目标(SLO,Service Level Objective)
  • 服务水平协议(SLA,Service Level Agreement)

故障管理(Fault Management)

  • 围绕故障生命周期采取的一系列活动和流程,包括故障等级定义、故障发现、故障响应、故障应急、故障恢复、故障复盘及持续改进。