--- 备用文档3.4 智能运维服务
智能运维平台依托数据平台能力,结合大数据沉淀的智能运维场景,覆盖了包括异常检测(监控管理)、时序预测(资源管理)以及聚类服务等多种智能运维场景,为企业级用户提供智能化的IT运维服务,助力企业运维进入智能化时代,为业务发展保驾护航。
1,功能简介
1.1 算法库
1.2 模型管理
1.3 智能化服务
2,核心优势
2.1 kubeflow与arena
开源工具Arena诞生于阿里云的深度学习解决方案。支持多种学习框架(如TensorFlow,Caffe,Hovorod和Pytorch等)。深度整合云资源和服务。有效利用CPU和GPU等异构资源,屏敝 Kubernetes、Tensorflow、Caffe, 用户只需要关注算法本身。<br /> Arena 负责提供业界最佳实践。Arena 是一个高效的工具,支持 AI 作业的运维,支持监控集群中GPU的分配情况以及任务使用情况、任务和训练日志的查看等。
2.2 数据平台基座
打通数据平台的数据集服务, 为智能平台提供数据支持, 以场景数据驱动智能平台的建设。
2.3 内置服务
基于Arena方案, 结合大数据沉淀的智能运维场景, SREWorks内置了部分智能化服务, 包括但不限于异常检测<br />、时序预测以及模式聚类等, 随着版本迭代, 我们会集成更多的内置智能服务。<br /> 内置智能服务,我们会提供openapi, 方便用户接入和使用
3,平台架构
4,快速入门
后续补充指标异常检测或指标时序预测的接入说明,结合页面描述
5,场景案例
5.1 预测服务
5.2 异常检测
6,二次开发
用户需要本地安装arena客户端, 参考arena的cli工具文档, 按需提交AI训练任务或者AI智能服务。
需要掌握arena-cli的使用