培训模块 |
培训内容 |
AIOPS 体系与领域最新进展 |
1. AIOps 目标
2. AIOps 能力框架
a) 开始尝试应用 AI 能力,还无较成熟单点应用
b)具备单场景的 AI 运维能力,可以初步形成供内部使用的学件
c) 有由多个单场景 AI 运维模块串联起来的流程化 AI 运维能力,可以对外提供可靠的运维 AI 学件
d) 主要运维场景均已实现流程化免干预 AI 运维能力,可以对外提供可靠的 AIOps 服务。
e) 有核心中枢 AI ,可以在成本、质量、效率间从容调整,达到业务不同生命周期对三个方面不同的指标要求,可实现多目标下的最优或按需最优
3. AIOps 平台能力体系
4. AIOps 团队角色 |
业内 AIOPS 落地的应用场景 |
1. AIOps 常见应用场景
2. 效率提升方向
a)智能变更
b) 智能问答
c) 智能决策
d)容量预测
3. 质量保障方向
a)异常检测
b)根因分析
c) 故障预测
d)故障自愈
4.成本管理方向
a)成本优化
b)资源优化
c)容量规划
|
AIOps 智能运维机器学习基础实践 |
1. 机器学习原理
2. 机器学习项目开发过程
3. 机器学习核心算法 - 分类
4. 机器学习核心算法 - 聚类
5. 机器学习核心算法 - 异常检测
6. 机器学习核心算法 - 相关性分析
7. 深度学习算法原理
8. 深度学习核心算法 - 循环神经网络
9. 深度学习核心算法 - 日志文本挖掘
10. 实操:基于 Python 机器学习算法实操
11. 实操:基于 Python 深度学习算法实操 |
|
AIOPS 核心 - 异常检测 - 时序数据异常检测 |
1. 时序数据异常检测概述
1.1 什么是时序数据异常检测
1.2 时序数据异常检测的应用场景
1.3 时序数据异常检测的基本原理
2 . 基于统计方法的时序数据异常检测技术
2.1 统计方法在时序数据异常检测中的应用
2.2 常见的统计方法及其优缺点
2.3 使用统计方法进行时序数据异常检测的流程和方法
3 . 基于机器学习方法的时序数据异常检测技术
3.1 机器学习方法在时序数据异常检测中的应用
3.2 常见的机器学习算法及其优缺点
3.3 使用机器学习算法进行时序数据异常检测的流程和方法
4 . 基于深度学习方法的时序数据异常检测技术
4.1 深度学习方法在时序数据异常检测中的应用
4.2 常见的深度学习算法及其优缺点
4.3 使用深度学习算法进行时序数据异常检测的流程和方法
|
AIOPS 核心 - 异常检测 - 时序数据异常检测 |
1 、案例名称:某 证券 公司智能运维时序数据智能异常检测实操案例
2 、案例背景:
某公司拥有大量的运维时序数据,包括服务器资源使用情况、网络流量、应用性能等。这些数据对于保障系统的稳定性和安全性非常重要,但是由于数据量庞大、多变、复杂,人工分析和诊断成本很高。因此,公司希望能够利用智能运维技术,对时序数据进行智能异常检测,以快速准确地发现和解决问题。
3 、案例目标:
通过本案例,学生将学会如何利用机器学习和深度学习算法,对某公司的运维时序数据进行智能异常检测,以实现智能运维的目标。
4 、案例内容:
4 .1 数据准备
在本案例中,我们将使用某公司的运维时序数据进行实操,包括服务器资源使用情况、网络流量、应用性能等。首先,需要对数据进行清洗、预处理和特征提取,以便于后续的模型训练和预测。
4 .2 模型选择与训练
在本案例中,我们将使用机器学习和深度学习算法,对时序数据进行异常检测。首先,需要选择合适的模型,根据数据的特点进行调参和训练。常见的模型包括基于统计方法的 ARIMA 、基于聚类的 K-means 、基于回归的 SVM 、基于深度学习的 LSTM 等。
4 .3 模型评估与优化
在本案例中,我们将使用预测误差、精度和召回率等指标,对模型的性能进行评估。根据评估结果,对模型进行优化和改进,以提高其准确性和鲁棒性。
4 .4 模型应用与实践
在本案例中,我们将使用已训练好的模型,对某公司的运维时序数据进行智能异常检测。通过对异常情况的分析和诊断,及时采取措施,保障系统的稳定性和安全性。
|
AIOPS 核心 - 异常检测 - 日志异常检测 |
1.运维日志异常检测概述
1.1 什么是运维日志异常检测
1.2 运维日志异常检测的应用场景
1.3 运维日志异常检测的基本原理
2.日志处理与特征提取
2.1 基于静态代码分析
2.2 基于频繁项集挖掘和基于聚类的日志模板挖掘技术
2.3 基于自然语言处理的日志特征提取技术
2.4 基于规则的结构化日志信息提取技术
2.5基于统计模型的日志特征提取技术
3. 常见的机器学习算法在运维日志异常检测中的应用
3.1 机器学习在运维日志异常检测中的应用
3.2 常见的机器学习算法及其优缺点
3.3 使用机器学习算法进行运维日志异常检测的流程和方法
3 .4 基于概率分析的异常检测算法
|
AIOPS 核心 - 异常检测 |
1.深度学习算法在运维日志异常检测中的应用
1.1 深度学习在运维日志异常检测中的应用
1.2 常见的深度学习算法及其优缺点
1.3 使用深度学习算法进行运维日志异常检测的流程和方法
1.4 基于 LSTM 的日志数据异常检测
1.5 DeepLog 基于 LSTM 深度模型的系统日志异常检测 |
AIOPS 核心 - 日志异常检测案例 |
1. 某公司智能运维日志智能异常检测实操案例
日志异样类型,网络异样、数据库异样、硬件异样、 I/O 异样、操作系统异样等
1.1 日志与自然语言文本的区别
日志为半结构化文本
日志中存在大量反复
日志中蕴含大量驼峰格局的连写字符串
1.2 日志的向量化
日志向量化之前须要提取日志形容字段
日志中的变量值通常为无意义的数值或者不同的 ip 、 url 、 path 等
日志非凡的写法须要制订新的规定对日志进行分词
须要联合日志数据与通用数据进行向量化训练
1.3 基于语义异样的日志剖析
数据预处理
日志起源检测
日志分类模型
异样分类模型:文件 / 文件夹操作异样、网络异样、数据库异样、硬件异样、零碎异样和其余异样 6 类 |
AIOPS 核心 - 根因分析 |
1.智能运维根因分析的概述
2 . 根因分析的基本原理和方法
3 . 基于统计方法的根因分析技术
4. 基于关联规则的通信网络告警相关性分析模型
5. 基于 NLP 等进行 工单 根因分析
6. 基于调用 链 的根因分析
7. 多层监控根因分析
8. 服务器宕机分析
9.基于数据相关性分析 |
AIOPS 核心 - 根因分析案例
|
1.案例名称:传统学习方法在证券公司时序数据分析中的应用
2 、案例概述:
一家证券公司通过交易系统对股票进行买卖,交易系统日志记录了交易时间、交易量、交易价格等数据,这些数据是时序数据。最近,该证券公司发现了一些交易异常,例如交易量突然增加或减少,交易价格异常波动等,这可能会导致交易风险和损失。为了准确地诊断异常原因,并采取相应的措施,该证券公司决定利用传统机器学习方法进行异常检测和故障诊断。
3 、案例步骤:
3.1 数据收集和预处理
3.2 特征选择和工程
3.3 模型选择和设计
3.4 模型训练和优化
3.5 异常检测和故障根因分析
3.6 异常修复和预防 |
AIOPS 核心 - 根因分析 - 深度学习 |
1.根因分析深度学习算法介绍
(1) 根因分析深度学习算法 - 循环神经网络
(2) 根因分析深度学习算法 - CNN
(3) 根因分析深度学习算法 - Transformer
2.基于深度学习进行根因分析的步骤 |
AIOPS 核心 - 根因分析 - 深度学习根因分析案例 |
1.案例名称:深度学习方法在证券公司时序数据分析中的应用
2 、案例概述:
一家证券公司通过交易系统对股票进行买卖,交易系统日志记录了交易时间、交易量、交易价格等数据,这些数据是时序数据。最近,该证券公司发现了一些交易异常,例如交易量突然增加或减少,交易价格异常波动等,这可能会导致交易风险和损失。为了准确地诊断异常原因,并采取相应的措施,该证券公司决定利用深度学习方法进行异常检测和故障诊断。
3 、案例步骤:
数据收集和预处理
特征选择和工程
模型选择和设计
模型训练和优化
异常检测和故障根因分析
异常修复和预防 |
AIOPS 核心 - 根因分析 - 日志异常根因分析 |
1.日志异常根因分析的概述
介绍日志异常根因分析的基本概念和原理
分析日志异常根因分析技术在系统运维中的应用和优势
2 . 日志分析的基本原理和方法
介绍日志分析的基本原理和方法
介绍常用的日志分析工具和技术,如 ELK 、 Splunk 等
3 . 基于统计方法的日志异常检测和根因分析技术
介绍统计学习基础
介绍基于统计方法的日志异常检测和根因分析技术,如时间序列分析、异常检测等
基于机器学习的日志异常检测和根因分析技术
4.介绍机器学习基础
介绍基于机器学习的日志异常检测和根因分析技术,如分类、聚类等
基于机器学习的根因分析技术 |
|
AIOPS 核心 - 根因分析 -
日志异常根因分析案例 |
1.基于深度学习的日志异常检测和根因分析技术
1.1 介绍深度学习基础
1.2 介绍基于深度学习的日志异常检测和根因分析技术,如自编码器、卷积神经网络等
2. 日志异常根因分析的实践和应用
2.1 结合实际应用场景,进行日志异常根因分析实践和应用案例分析
2.2 介绍日志异常根因分析技术的实际应用效果和效益,探讨如何将其应用于实际工作中
3. 日志异常根因分析的评估和优化
3.1 介绍日志异常根因分析的评估和优化方法
3.2 分析日志异常根因分析技术的性能指标和优化策略 |
|
AIOPS 核心 - 故障预测 |
1. 介绍故障预测的背景和意义,以及如何利用数据分析和机器学习技术来进行故障预测。
2. 介绍证券公司的案例,并分析故障预测的应用场景和挑战。
3. 介绍故障预测模型的基本原理和算法,包括时间序列模型、回归模型、神经网络模型和决策树模型等。
4.在证券公司案例中,通过使用 LSTM 模型和 XGBoost 模型来进行故障预测。 |
AIOPS 核心 - 故障预测案例 - 基于传统机器学习方法 |
1 、问题背景和目标
在证券公司的交易系统中,如果出现故障或异常情况,可能会导致交易延误、数据丢失、交易风险等问题。因此,该证券公司希望能够利用机器学习技术来实现故障预测,以提前发现和解决潜在的故障问题。
2 、数据收集和预处理
为了进行故障预测,该证券公司从交易系统中收集了大量的交易数据,包括交易流水、交易类型、交易量、交易时间等。在进行数据预处理时,需要对数据进行清洗、去重、缺失值处理和特征提取等。
3 、特征工程
在进行故障预测建模之前,需要对数据进行特征工程,以提取有用的特征。在本案例中,可能会提取以下特征:
交易时间:交易发生的时间和日期,可以用于检测是否存在特定时间段的交易异常。
交易类型:交易的类型和方向,可以用于检测是否存在某一种类型的交易异常。
交易量:交易的数量和金额,可以用于检测是否存在大额交易或异常交易。
市场行情:市场的行情和波动情况,可以用于检测是否存在市场异常情况。
4 、模型选择和训练
在本案例中,采用 XGBoost 模型进行故障预测。该模型是一种基于决策树的集成学习模型,具有高效性和准确性。在进行模型训练之前,需要将数据集分为训练集和测试集,并进行数据集平衡和特征缩放等操作。然后,通过调整模型超参数和交叉验证等方法,来优化模型性能。
5 、模型部署和应用
在完成模型训练之后,需要将模型部署到实时交易系统中,以实现故障预测和风险控制。当交易系统中出现异常情况时,该模型能够自动检测和报警。同时,可以通过对模型结果进行分析和解释,来发现潜在的交易风险和问题。 |
|
AIOPS 核心 - 故障预测 - 基于深度学习方法 |
1 、深度学习模型
(1) 循环神经网络 (RNN) 和长短期记忆网络 (LSTM)
(2) 卷积神经网络 (CNN)
(3) 深度信念网络 (DBN) 和深度自编码器 (DAE)
(4) 模型选择和优化方法
2 、故障预测实战
(1) 故障预测数据集的获取和处理
(2) 建立深度学习模型进行故障预测
(3) 模型训练和测试
(4) 故障预测结果分析和解释 |
AIOPS 核心 - 故障预测 - 基于深度学习方法案例 |
1 、问题背景和目标
在证券公司的交易系统中,如果出现故障或异常情况,可能会导致交易延误、数据丢失、交易风险等问题。因此,该证券公司希望能够利用深度学习技术来实现故障预测,以提前发现和解决潜在的故障问题。
2 、数据收集和预处理
为了进行故障预测,该证券公司从交易系统中收集了大量的交易数据,包括交易流水、交易类型、交易量、交易时间等。在进行数据预处理时,需要对数据进行清洗、去重、缺失值处理和特征提取等。
3 、特征工程
在进行故障预测建模之前,需要对数据进行特征工程,以提取有用的特征。在本案例中,可能会提取以下特征:
交易时间:交易发生的时间和日期,可以用于检测是否存在特定时间段的交易异常。
交易类型:交易的类型和方向,可以用于检测是否存在某一种类型的交易异常。
交易量:交易的数量和金额,可以用于检测是否存在大额交易或异常交易。
市场行情:市场的行情和波动情况,可以用于检测是否存在市场异常情况。
4 、模型选择和训练
在本案例中,采用深度学习模型进行故障预测。可以采用多种深度学习模型,如循环神经网络( RNN )、长短期记忆网络( LSTM )和卷积神经网络( CNN )等。在进行模型训练之前,需要将数据集分为训练集和测试集,并进行数据集平衡和特征缩放等操作。然后,通过调整模型超参数和交叉验证等方法,来优化模型性能。
5 、模型部署和应用
在完成模型训练之后,需要将模型部署到实时交易系统中,以实现故障预测和风险控制。当交易系统中出现异常情况时,该模型能够自动检测和报警。同时,可以通过对模型结果进行分析和解释,来发现潜在的交易风险和问题。 |
|
故障自愈 |
构建故障自愈系统
将故障自愈系统与个性化的业务结合起来
控制故障自愈系统的风险
将应急预案 |
|
服务治理 |
对技术系统做服务质量评估
评估服务稳定性、运维效率和成本的优化效果
在基础架构和应用服务层面做服务治理
通过全链路压测、混沌工程等方式挖掘技术风险 |
AIOps 智能运维架构 |
1. 云时代对传统监控带来的挑战
2 . 传统监控系统的缺陷和瓶颈
3 . 监控发展的规划路径
4 . 自动化监控体系的构成
5 . 站在巨人肩上:智能运维基础设施
a) 开源数据采集技术
b) 分布式消息队列
c) 大数据存储技术 -HDFS
d) 大数据离线计算技术 -Hadoop Hive 等
e) 大数据实时计算框架 -Flink,Storm
f) 大数据时序数据分析
g) 性能神器 ClickHouse
h) 机器学习框架 TensorFlow 等
i) 日志检索 -ElasticSearch
5.站在巨人肩上:智能运维案例分享
(1)微博智能运维系统
(2)阿里巴巴智能运维系统
(3)腾讯智能运维系统 |