求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   Code  
会员   
 
 
 
开班计划 | 技术学院 | 管理学院 | 嵌入式学院 | 机械 | 军工学院 | 定向培养 | 专家指导  
 电话 English
成功案例   品质保证
成功案例
中航信 数据湖架构原理与应
某医疗磁 数据采集与处理
某科技公 大数据(Hadoo
诺基亚 Python基础
天津电子 Elasticse
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
全部课程 >人工智能  
大模型与人工反馈强化学习详解实战
506 次浏览  52 次
Williams
人工智能初创公司合伙人,技术负责人。
 
时间地点:北京、 深圳、上海根据报名开班
课程费用:5000元/人
报公开课  
企业内训:可以根据企业需求,定制内训,详见 内训学习手册


认证方式:
培训前了解能力模型。
培训后进行能力评测:
  • 在线考试
  • 能力分析,给出学习建议
  • 合格者颁发证书,作为职业技能资格证明


    课程简介:
    大模型的应用需要根据用户的反馈不断学习、积累,这样才能更加准确和高效。本课程讲解大模型如何结合人工反馈进行强化学习,不断提高大模型服务的准确性,课程将结合实际案例讲解如何通过人工反馈进行强化学习,优化大模型的方法。
    课程目标:
    通过本课程学习与实践,您将理解与掌握:
    1.自注意力机制和 Transformer 模型
    2.GPT1 、 GPT2 、 GPT3 、 chatGPT 原理与实践
    3.LLM 应用程序技术栈
    4.图文生成模型:扩散模型
    5.蒙特卡罗和 Q-Learning 算法
    6.深度学习与强化学习的结合
    7.AC 算法及博弈强化学习
    培训对象: AI工程师、数据分析师、1年以上工作经验的算法工程师、对技术感兴趣的IT程序员。
    学员基础: 无特定要求
    授课方式:讲师讲授+现场讨论+案例分析+模型讲解
    培训内容:2天
    主题
    课程安排
    第零节:自注意力机制和Transformer模型

    RNN-LSTM-GRU 等基本概念
    编码器、解码器
    自注意力机制详解
    Transformer
    Mask Multi-Head Attention
    位置编码
    特定于任务的输入转换
    无监督预训练、有监督 Fine-tuning
    BERT 思路的理解
    GPT 基本思想
    GPT2 :多任务系统
    GPT3 :少样本、零样本学习
    meta-learning (元学习)和 in-context learning (基于上下文的学习)
    代码和案例实践:
    基本问答系统的代码实现
    深入阅读理解的代码实现
    段落相关性代码实现
    高考作文神器
    作文生成

    第一节:GPT1、GPT2、GPT3、chatGPT原理与实战

    监督微调( SFT )模型、
    指示学习和提示学习
    简单提示、小样本提示、基于用户的提示
    指令微调
    RLLHF 技术详解(从人类的反馈中学习)
    聚合问答数据训练奖励模型( RM )
    强化学习微调、 PPO 、
     InstructGPT 遵循用户意图使用强化学习方案
    Instruct Learning vs. Prompt Learning
    ChatGPT 增加增加了 Chat 属性
    AI 系统的新范式
    GPT1-GPT2-GPT3-InstructGPT 的 -chatGPT 的技术关系
    代码和案例实践:
    使用 chatGPT 打造你的私人聊天助理
    演示提示词技巧,翻译器润色器、 JavaScript 控制台   、 Excel Sheet
    网站定制 chatgpt-web

    第二节:LLM应用程序技术栈

    设计模式:上下文学习
    数据预处理 / 嵌入
    提示构建 / 检索
    提示执行 / 推理
    数据预处理 / 嵌入
    Weaviate 、 Vespa 和 Qdrant 等开源系统
    Chroma 和 Faiss 等本地向量管理库
    pgvector 等 OLTP 扩展
    提示构建 / 检索
    提示执行 / 推理
    新兴的大语言( LLM )技术栈
    数据预处理管道( data preprocessing pipeline )
    嵌入终端( embeddings endpoint ) + 向量存储( vector store )
    LLM 终端( LLM endpoints )
    LLM 编程框架( LLM programming framework )
    LangChain 的主要功能及模块
    Prompts: 这包括提示管理、提示优化和提示序列化。
    LLMs: 这包括所有 LLMs 的通用接口,以及常用的 LLMs 工具。
    Document Loaders: 这包括加载文档的标准接口,以及与各种文本数据源的集成。
    Utils: 语言模型在与其他知识或计算源的交互
    Python REPLs 、嵌入、搜索引擎等
    LangChain 提供的常用工具
    Indexes :语言模型结合自定义文本数据
    Agents :动作执行、观测结果,
    LangChain 的代理标准接口、可供选择的代理、端到端代理示例
    Chat : Chat 模型处理消息
    代码和案例实践:
    LLM 大模型的使用
    Prompts 的设计和使用
    第三节:当前最好的图文生成模型:扩散模型

    GAN-VAE- 流模型 - 扩散模型的技术发展和变化
    CLIP 和扩散模型的结合:基于 CLIP 模型的多模态引导图像生成:图文引导
    GLIDE :文本引导
    Diffusion-CLIP 模型
    扩散和去噪 (Diffusion&Denoise)
    训练和采样 (Training&Sampling)
    离散步骤的马尔可夫链
    分子热动力学的扩散过程
    离散加噪
    DDPM- 最经典的扩散模型
    DDIM :加速采样、可控扩散
    IVLR :迭代去燥的图像编辑,低通滤波上采样
    RePaint: 被掩码的区域进行扩散生成
    代码和案例实践一:
    低质量噪声图像修复
    精确复原原图
    图像去除遮挡、图像补全
    图像生成(人物恢复青春、人物变瘦)
    思考: 知识图谱 - 图网络等 “ 边缘技术 ” 在 AIGC 中的应用

    第四节:蒙特卡罗和Q-Learning算法

    蒙特卡罗核心思想
    蒙特卡罗评估
    增量式方法
    蒙特卡罗控制
    在线策略 / 离线策略
    在线策略蒙特卡罗算法
    重要性采样离线策略蒙特卡罗算法
    加权重要性采样离线策略蒙特卡罗算法
    时序差分简介、 TD 目标值 / TD 误差
    DP/MC/TD 对比
    在线策略 TD : Sarsa 算法
    离线策略 TD : Q-learning 算法

    第五节:深度学习与强化学习的结合

    表格型强化学习 / 函数近似型强化学习
    线性逼近 / 非线性逼近
    增量法
    值函数逼近 -Sarsa 算法
    批量法
    值函数逼近 -Q-learning 算法
    人工神经网络(卷积、池化、全连接)
    DQN 方法
    Double DQN 方法
    Dueling DQN 方法
    DQN 算法运行流程
    核心代码演示
    算法小结

    第六节:AC算法及博弈强化学习

    AC 与带基线 REINFORCE 的不同
    在线策略 AC 方法
    离线策略 AC 方法
    兼容性近似函数定理
    A2C 方法
    博弈及博弈树
    极大极小搜索
    Alpha-Beta 搜 索
    蒙特卡罗树搜索
    AlphaGo 基本原理
    AlphaGo 神经网络
    AlphaGo 蒙特卡罗树搜索
    AlphaGo 的整体思路
    AlphaGo Zero 下棋原理
    AlphaGo Zero 的网络结构
    AlphaGo Zero 的蒙特卡罗树搜索
    AlphaGo Zero 总结
    AlphaZero
    五子棋
    游戏简介及环境描述
    算法运行流程( MCTS 算法和 MCTS+ 神经网络算法)
    核心代码演示
    算法小结
       
    506 次浏览  52 次
    其他人还看了课程
    深度学习模型 & Tensorflow框架实践  5311 次浏览
    人工智能与安全  305 次浏览
    人工智能与机器学习应用实战  2608 次浏览
    机器学习理论与实战  3242 次浏览
    机器学习(深度学习)算法和应用   2953 次浏览
    人工智能,机器学习和深度学习  27694 次浏览
    定制内训
    最新活动计划
    QT应用开发 9-5[北京]
    Python、数据分析与机器学习 9-20[线上]
    鸿蒙和欧拉操作系统的项目应用 9-19线上]
    UAF架构体系与实践 9-26[北京]
    MBSE(基于模型的系统工程)9-27[上海]
    嵌入式软件架构设计 10-17[线上]