求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   Code  
会员   
 
 
 
开班计划 | 技术学院 | 管理学院 | 嵌入式学院 | 机械 | 军工学院 | 定向培养 | 专家指导 | 角色培养  
 电话 English
成功案例   品质保证
成功案例  
IBM中国 DevOps与自动化运维
通用公司GE   Docker原理实践
摩托罗拉 云平台的构建与应用
某全球知名电子 云平台架构应用
相关课程  
基于ITIL的IT服务管理
ITIL认证
ITSM/ITIL基础
IT规划管理
IT外包管理
IT成本管理
 
全部课程 >IT运维管理  
AIOps智能运维大数据与智能分析一周训练营
987 次浏览  55 次
John
数据科学博士,曾就职于阿里巴巴和京东,担任大数据与AI技术专家,算法工程师。
 
地点时间:北京 、上海 、深圳 根据报名开班
课程费用:8000元/人
报公开课  
企业内训:可以根据企业需求,定制内训,详见 内训学习手册



认证方式:
培训前了解能力模型。
培训后进行能力评测:
  • 在线考试
  • 能力分析,给出学习建议
  • 合格者颁发证书,作为职业技能资格证明


    一、课程背景

      随着业务复杂度的上升和微服务架构的兴起,服务的数量越来越多、调用关系越来越复杂,依靠传统的方式去发现故障、排查和解决故障已经远远不能满足需求。通过将人工智能技术与运维业务结合起来,我们可以做到:故障时通过多维度的异常检测发现故障,告警收敛和告警合并算法会精准的发出告警,运维大脑基于知识图谱自动给出故障的根源原因分析,推荐故障处理策略和自动进行故障自愈,最后自动对故障进行影响评估。平时通过混沌工程和服务治理发现和整改系统中的风险点,有效的保障了服务稳定性 。

    二、课程优势
    内容价值定位: 课程内容采用 AIOps 研发管理的方法论,结合企业自主创新产品研发技术和应用最佳实践。
    实操性和互动性: 培训过程中通过对实际角色演练、案例研讨等方式加深学员对所学内容的理解和实际转化能力。
    讲师的专业性: AIOPs 领域的技术专家,有丰富的产品开发、架构设计及研发管理咨询经验。
    三、培训目标
    通过培训使学习者达到如下目标 :
    1. 掌握 AIOPs 的概述和设计原则
    2. 掌握 AIOPs 的组件和技术
    3. 掌握 AIOPs 的数据模型和架构设计
    4. 掌握 AIOPs 的数据管理和安全
    5.掌握 AIOPs 的部署和维护
    6. 掌握 AIOPs 实施案例
    四、培训对象:
    1 . 运维、运维自动化、智能运维相关的技术和管理人员
    2 . 数据工程师和分析师;
    3 . 企业领导和经理;
    4 . 具备一定计算机和数据处理基础的学生和专业人士。
    五、授课方式及特点:
    (一)培训方式:
       1. 讲师激情、精彩演讲占 40%
       2. 行业案例分析占 30%
       3. 互动提问:讲师现场提问,学员做答,讲师点评占 10%
       4. 作业练习:现场练习和操作、表演展示占 10%
       5. 分组讨论:各小组给出答案,讲师点评占 10%
    (二)课程特色
       1. 可操作性:聚焦于实际操作训练与实践能力提升 强互动讨论,贴近实战;
       2. 系统提高: AIOPS 的技术原理与应用系统开发方法、开发工具使用方法 ;
       3. 寓教于练:运用相关行业实际案例分析、通过类比和练习使学员掌握人脸设别深层的专业知识,获得较强的 AIOPS 应用系统的分析、设计、实现能力,让困惑得到解答。
    学员基础:具有运维系统管理和使用经验,最好有DevOps经验。
    培训内容:7天

    培训模块 培训内容
    AIOPS 体系与领域最新进展 1. AIOps 目标
    2. AIOps 能力框架
        a) 开始尝试应用 AI 能力,还无较成熟单点应用
        b)具备单场景的 AI 运维能力,可以初步形成供内部使用的学件
        c) 有由多个单场景 AI 运维模块串联起来的流程化 AI 运维能力,可以对外提供可靠的运维 AI 学件
        d) 主要运维场景均已实现流程化免干预 AI 运维能力,可以对外提供可靠的 AIOps 服务。
        e) 有核心中枢 AI ,可以在成本、质量、效率间从容调整,达到业务不同生命周期对三个方面不同的指标要求,可实现多目标下的最优或按需最优
    3. AIOps 平台能力体系
    4. AIOps 团队角色
    业内 AIOPS 落地的应用场景 1. AIOps 常见应用场景
    2. 效率提升方向
        a)智能变更
        b) 智能问答
        c) 智能决策
        d)容量预测
    3. 质量保障方向
        a)异常检测
        b)根因分析
        c) 故障预测
        d)故障自愈
    4.成本管理方向
        a)成本优化
        b)资源优化
        c)容量规划

    AIOps 智能运维机器学习基础实践
    1. 机器学习原理
    2. 机器学习项目开发过程
    3. 机器学习核心算法 - 分类
    4. 机器学习核心算法 - 聚类
    5. 机器学习核心算法 - 异常检测
    6. 机器学习核心算法 - 相关性分析
    7. 深度学习算法原理
    8. 深度学习核心算法 - 循环神经网络
    9. 深度学习核心算法 - 日志文本挖掘
    10. 实操:基于 Python 机器学习算法实操
    11. 实操:基于 Python 深度学习算法实操
    AIOPS 核心 - 异常检测 - 时序数据异常检测 1. 时序数据异常检测概述
        1.1 什么是时序数据异常检测
        1.2 时序数据异常检测的应用场景
        1.3 时序数据异常检测的基本原理
    2 . 基于统计方法的时序数据异常检测技术
        2.1 统计方法在时序数据异常检测中的应用
        2.2 常见的统计方法及其优缺点
        2.3 使用统计方法进行时序数据异常检测的流程和方法
    3 . 基于机器学习方法的时序数据异常检测技术
        3.1 机器学习方法在时序数据异常检测中的应用
        3.2 常见的机器学习算法及其优缺点
        3.3 使用机器学习算法进行时序数据异常检测的流程和方法
    4 . 基于深度学习方法的时序数据异常检测技术
        4.1 深度学习方法在时序数据异常检测中的应用
        4.2 常见的深度学习算法及其优缺点
        4.3 使用深度学习算法进行时序数据异常检测的流程和方法
    AIOPS 核心 - 异常检测 - 时序数据异常检测 1 、案例名称:某 证券 公司智能运维时序数据智能异常检测实操案例
    2 、案例背景:
    某公司拥有大量的运维时序数据,包括服务器资源使用情况、网络流量、应用性能等。这些数据对于保障系统的稳定性和安全性非常重要,但是由于数据量庞大、多变、复杂,人工分析和诊断成本很高。因此,公司希望能够利用智能运维技术,对时序数据进行智能异常检测,以快速准确地发现和解决问题。
    3 、案例目标:
    通过本案例,学生将学会如何利用机器学习和深度学习算法,对某公司的运维时序数据进行智能异常检测,以实现智能运维的目标。
    4 、案例内容:
        4 .1 数据准备
        在本案例中,我们将使用某公司的运维时序数据进行实操,包括服务器资源使用情况、网络流量、应用性能等。首先,需要对数据进行清洗、预处理和特征提取,以便于后续的模型训练和预测。
        4 .2 模型选择与训练
        在本案例中,我们将使用机器学习和深度学习算法,对时序数据进行异常检测。首先,需要选择合适的模型,根据数据的特点进行调参和训练。常见的模型包括基于统计方法的 ARIMA 、基于聚类的 K-means 、基于回归的 SVM 、基于深度学习的 LSTM 等。
        4 .3 模型评估与优化
        在本案例中,我们将使用预测误差、精度和召回率等指标,对模型的性能进行评估。根据评估结果,对模型进行优化和改进,以提高其准确性和鲁棒性。
        4 .4 模型应用与实践
        在本案例中,我们将使用已训练好的模型,对某公司的运维时序数据进行智能异常检测。通过对异常情况的分析和诊断,及时采取措施,保障系统的稳定性和安全性。
    AIOPS 核心 - 异常检测 - 日志异常检测 1.运维日志异常检测概述
        1.1 什么是运维日志异常检测
        1.2 运维日志异常检测的应用场景
        1.3 运维日志异常检测的基本原理
    2.日志处理与特征提取
        2.1 基于静态代码分析
        2.2 基于频繁项集挖掘和基于聚类的日志模板挖掘技术
        2.3 基于自然语言处理的日志特征提取技术
        2.4 基于规则的结构化日志信息提取技术
        2.5基于统计模型的日志特征提取技术
    3. 常见的机器学习算法在运维日志异常检测中的应用
        3.1 机器学习在运维日志异常检测中的应用
        3.2 常见的机器学习算法及其优缺点
        3.3 使用机器学习算法进行运维日志异常检测的流程和方法
        3 .4 基于概率分析的异常检测算法
    AIOPS 核心 - 异常检测 1.深度学习算法在运维日志异常检测中的应用
        1.1 深度学习在运维日志异常检测中的应用
        1.2 常见的深度学习算法及其优缺点
        1.3 使用深度学习算法进行运维日志异常检测的流程和方法
        1.4 基于 LSTM 的日志数据异常检测
        1.5 DeepLog 基于 LSTM 深度模型的系统日志异常检测
    AIOPS 核心 - 日志异常检测案例 1. 某公司智能运维日志智能异常检测实操案例
        •  日志异样类型,网络异样、数据库异样、硬件异样、 I/O 异样、操作系统异样等
        1.1 日志与自然语言文本的区别
        •  日志为半结构化文本
        •  日志中存在大量反复
        •  日志中蕴含大量驼峰格局的连写字符串
        1.2 日志的向量化
        •  日志向量化之前须要提取日志形容字段
        •  日志中的变量值通常为无意义的数值或者不同的 ip 、 url 、 path 等
        •  日志非凡的写法须要制订新的规定对日志进行分词
        •  须要联合日志数据与通用数据进行向量化训练
        1.3 基于语义异样的日志剖析
        •  数据预处理
        •  日志起源检测
        •  日志分类模型
        •  异样分类模型:文件 / 文件夹操作异样、网络异样、数据库异样、硬件异样、零碎异样和其余异样 6 类

    AIOPS 核心 - 根因分析 1.智能运维根因分析的概述
    2 . 根因分析的基本原理和方法
    3 . 基于统计方法的根因分析技术
    4. 基于关联规则的通信网络告警相关性分析模型
    5. 基于 NLP 等进行 工单 根因分析
    6. 基于调用 链 的根因分析
    7. 多层监控根因分析
    8. 服务器宕机分析
    9.基于数据相关性分析
    AIOPS 核心 - 根因分析案例 1.案例名称:传统学习方法在证券公司时序数据分析中的应用
    2 、案例概述:
    一家证券公司通过交易系统对股票进行买卖,交易系统日志记录了交易时间、交易量、交易价格等数据,这些数据是时序数据。最近,该证券公司发现了一些交易异常,例如交易量突然增加或减少,交易价格异常波动等,这可能会导致交易风险和损失。为了准确地诊断异常原因,并采取相应的措施,该证券公司决定利用传统机器学习方法进行异常检测和故障诊断。
    3 、案例步骤:
        3.1 数据收集和预处理
        3.2 特征选择和工程
        3.3 模型选择和设计
        3.4 模型训练和优化
        3.5 异常检测和故障根因分析
        3.6 异常修复和预防
    AIOPS 核心 - 根因分析 - 深度学习 1.根因分析深度学习算法介绍
        (1) 根因分析深度学习算法 - 循环神经网络
        (2) 根因分析深度学习算法 - CNN
        (3) 根因分析深度学习算法 - Transformer
    2.基于深度学习进行根因分析的步骤
    AIOPS 核心 - 根因分析 - 深度学习根因分析案例 1.案例名称:深度学习方法在证券公司时序数据分析中的应用
    2 、案例概述:
    一家证券公司通过交易系统对股票进行买卖,交易系统日志记录了交易时间、交易量、交易价格等数据,这些数据是时序数据。最近,该证券公司发现了一些交易异常,例如交易量突然增加或减少,交易价格异常波动等,这可能会导致交易风险和损失。为了准确地诊断异常原因,并采取相应的措施,该证券公司决定利用深度学习方法进行异常检测和故障诊断。
    3 、案例步骤:
    •  数据收集和预处理
    •  特征选择和工程
    •  模型选择和设计
    •  模型训练和优化
    •  异常检测和故障根因分析
    •  异常修复和预防
    AIOPS 核心 - 根因分析 - 日志异常根因分析
    1.日志异常根因分析的概述
        •  介绍日志异常根因分析的基本概念和原理
        •  分析日志异常根因分析技术在系统运维中的应用和优势
    2 . 日志分析的基本原理和方法
        •  介绍日志分析的基本原理和方法
        •  介绍常用的日志分析工具和技术,如 ELK 、 Splunk 等
    3 . 基于统计方法的日志异常检测和根因分析技术
        •  介绍统计学习基础
        •  介绍基于统计方法的日志异常检测和根因分析技术,如时间序列分析、异常检测等
        •  基于机器学习的日志异常检测和根因分析技术
    4.介绍机器学习基础
        •  介绍基于机器学习的日志异常检测和根因分析技术,如分类、聚类等
        •  基于机器学习的根因分析技术

    AIOPS 核心 - 根因分析 - 日志异常根因分析案例
    1.基于深度学习的日志异常检测和根因分析技术
        1.1 介绍深度学习基础
        1.2 介绍基于深度学习的日志异常检测和根因分析技术,如自编码器、卷积神经网络等
    2. 日志异常根因分析的实践和应用
        2.1 结合实际应用场景,进行日志异常根因分析实践和应用案例分析
        2.2 介绍日志异常根因分析技术的实际应用效果和效益,探讨如何将其应用于实际工作中
    3. 日志异常根因分析的评估和优化
        3.1 介绍日志异常根因分析的评估和优化方法
        3.2 分析日志异常根因分析技术的性能指标和优化策略
    AIOPS 核心 - 故障预测 1. 介绍故障预测的背景和意义,以及如何利用数据分析和机器学习技术来进行故障预测。
    2. 介绍证券公司的案例,并分析故障预测的应用场景和挑战。
    3. 介绍故障预测模型的基本原理和算法,包括时间序列模型、回归模型、神经网络模型和决策树模型等。
    4.在证券公司案例中,通过使用 LSTM 模型和 XGBoost 模型来进行故障预测。
    AIOPS 核心 - 故障预测案例 - 基于传统机器学习方法
    1 、问题背景和目标
    在证券公司的交易系统中,如果出现故障或异常情况,可能会导致交易延误、数据丢失、交易风险等问题。因此,该证券公司希望能够利用机器学习技术来实现故障预测,以提前发现和解决潜在的故障问题。
    2 、数据收集和预处理
    为了进行故障预测,该证券公司从交易系统中收集了大量的交易数据,包括交易流水、交易类型、交易量、交易时间等。在进行数据预处理时,需要对数据进行清洗、去重、缺失值处理和特征提取等。
    3 、特征工程
    在进行故障预测建模之前,需要对数据进行特征工程,以提取有用的特征。在本案例中,可能会提取以下特征:
    •  交易时间:交易发生的时间和日期,可以用于检测是否存在特定时间段的交易异常。
    •  交易类型:交易的类型和方向,可以用于检测是否存在某一种类型的交易异常。
    •  交易量:交易的数量和金额,可以用于检测是否存在大额交易或异常交易。
    •  市场行情:市场的行情和波动情况,可以用于检测是否存在市场异常情况。
    4 、模型选择和训练
    在本案例中,采用 XGBoost 模型进行故障预测。该模型是一种基于决策树的集成学习模型,具有高效性和准确性。在进行模型训练之前,需要将数据集分为训练集和测试集,并进行数据集平衡和特征缩放等操作。然后,通过调整模型超参数和交叉验证等方法,来优化模型性能。
    5 、模型部署和应用
    在完成模型训练之后,需要将模型部署到实时交易系统中,以实现故障预测和风险控制。当交易系统中出现异常情况时,该模型能够自动检测和报警。同时,可以通过对模型结果进行分析和解释,来发现潜在的交易风险和问题。

    AIOPS 核心 - 故障预测 - 基于深度学习方法 1 、深度学习模型
        (1) 循环神经网络 (RNN) 和长短期记忆网络 (LSTM)
        (2) 卷积神经网络 (CNN)
        (3) 深度信念网络 (DBN) 和深度自编码器 (DAE)
        (4) 模型选择和优化方法
    2 、故障预测实战
    (1) 故障预测数据集的获取和处理
    (2) 建立深度学习模型进行故障预测
    (3) 模型训练和测试
    (4) 故障预测结果分析和解释
    AIOPS 核心 - 故障预测 - 基于深度学习方法案例
    1 、问题背景和目标
    在证券公司的交易系统中,如果出现故障或异常情况,可能会导致交易延误、数据丢失、交易风险等问题。因此,该证券公司希望能够利用深度学习技术来实现故障预测,以提前发现和解决潜在的故障问题。
    2 、数据收集和预处理
    为了进行故障预测,该证券公司从交易系统中收集了大量的交易数据,包括交易流水、交易类型、交易量、交易时间等。在进行数据预处理时,需要对数据进行清洗、去重、缺失值处理和特征提取等。
    3 、特征工程
    在进行故障预测建模之前,需要对数据进行特征工程,以提取有用的特征。在本案例中,可能会提取以下特征:
    交易时间:交易发生的时间和日期,可以用于检测是否存在特定时间段的交易异常。
    交易类型:交易的类型和方向,可以用于检测是否存在某一种类型的交易异常。
    交易量:交易的数量和金额,可以用于检测是否存在大额交易或异常交易。
    市场行情:市场的行情和波动情况,可以用于检测是否存在市场异常情况。
    4 、模型选择和训练
    在本案例中,采用深度学习模型进行故障预测。可以采用多种深度学习模型,如循环神经网络( RNN )、长短期记忆网络( LSTM )和卷积神经网络( CNN )等。在进行模型训练之前,需要将数据集分为训练集和测试集,并进行数据集平衡和特征缩放等操作。然后,通过调整模型超参数和交叉验证等方法,来优化模型性能。
    5 、模型部署和应用
    在完成模型训练之后,需要将模型部署到实时交易系统中,以实现故障预测和风险控制。当交易系统中出现异常情况时,该模型能够自动检测和报警。同时,可以通过对模型结果进行分析和解释,来发现潜在的交易风险和问题。
    故障自愈
    构建故障自愈系统
    将故障自愈系统与个性化的业务结合起来
    控制故障自愈系统的风险
    将应急预案
    服务治理 对技术系统做服务质量评估
    评估服务稳定性、运维效率和成本的优化效果
    在基础架构和应用服务层面做服务治理
    通过全链路压测、混沌工程等方式挖掘技术风险
    AIOps 智能运维架构 1. 云时代对传统监控带来的挑战
    2 . 传统监控系统的缺陷和瓶颈
    3 . 监控发展的规划路径
    4 . 自动化监控体系的构成
    5 . 站在巨人肩上:智能运维基础设施
       a) 开源数据采集技术
       b) 分布式消息队列
       c) 大数据存储技术 -HDFS
       d) 大数据离线计算技术 -Hadoop Hive 等
       e) 大数据实时计算框架 -Flink,Storm
       f) 大数据时序数据分析
       g) 性能神器 ClickHouse
       h) 机器学习框架 TensorFlow 等
       i) 日志检索 -ElasticSearch
    5.站在巨人肩上:智能运维案例分享
       (1)微博智能运维系统
       (2)阿里巴巴智能运维系统
       (3)腾讯智能运维系统
       
    987 次浏览  55 次
    其他人还看了课程
    AIOps智能运维大数据与智能分析一周训练营   987 次浏览
    定制内训


    咨询服务:DevOps平台建设
    咨询目标 帮助客户建立开发运维一体化DevOps工具链,形成工作平台,然后建立相关的工作流程、方法和技术指南
    咨询范围 敏捷开发,自动化构建,持续集成,配置管理,自动化测试,自动化部署,运维监控。
    咨询方式 首先建立DevOps整体工作流程,然后搭建工具链,然后选择示范项目,进行实践验证,最后确定工作流程与工具用法
    成功案例 惠普,易车网,中国电信集团
    详情咨询:010-62670969, zhgx@uml.net.cn
    课程计划
    数据建模方法与工具 12-16[北京]
    基于模型系统仿真与验证 12-14 [讲座]
    白盒测试技术与工具实践 12-24[线上]
    LLM大模型应用与项目构建 12-26[特惠]
    UML和EA进行系统分析设计 12-20[线上]
    SysML建模专家 1-16[北京]