本文是个人学习笔记,旨在探讨技术应用的领域、特性及发展方向,以评估其在工作中的实际应用潜力,并整理自身知识体系。

在智能运维领域,理想状态是将监控、管理和故障定位通过机器学习算法有机结合。AIOPS应用广泛,包括异常检测、根因分析、故障自愈和容量预测等。360公司根据实际场景,将AIOPS细分为成本、效率和稳定性三大场景,并针对这些场景开发了相应的算法和模型。

智能运维AIOps业界方案与学习笔记精要

在容量预估方面,360公司通过分析时间序列样本,运用不同模型进行预测。京东物流则尝试了基于RSTM的算法进行预测。

主机分类是AIOPS中的关键环节,360公司利用机器学习算法对主机进行分类,以优化资源搭配。在负样本不足的情况下,360公司通过人工标注和用户标注的方式生成样本,解决了问题。

异常检测是AIOPS中最常见的应用,360公司采用了多种算法,如统计学方法、曲线拟合和隔离森林模型等,来处理复杂场景下的异常检测。美团外卖则使用了Holt-Winters预测器进行订单量预测,并采用双Filter机制提高检测准确性。微众银行则尝试了无阈值的KPI曲线异常识别。

报警收敛是减少不必要报警的关键,360公司通过分析历史报警数据,使用Apriori算法找出报警项之间的潜在关系,从而减少报警次数。美团则通过聚类算法对报警信息进行根因分析。

根因分析是定位问题的关键,360公司推出了基于事件和指标维度的模型,微众银行则运用专家系统和知识图谱进行根因推导。京东物流通过构建指标与应用的拓扑关系,并利用历史告警数据进行自学习,形成知识库。

在平台建设方面,京东物流整合了各类监控数据,实现了统一报警和分析。在APM领域,京东物流基于Pinpoint进行了二次开发,实现了分布式跟踪系统。

通过上述技术和方法,AIOPS在多个方面提高了运维效率和质量。