求知
文章
文库
Lib
视频
iPerson
课程
认证
咨询
工具
讲座
Model Center
Code
会员
找课
开班计划
|
技术学院
|
管理学院
|
嵌入式学院
|
机械
|
军工学院
|
定向培养
|
专家指导
|
角色培养
电话
English
成功案例
品质保证
成功案例
中航信 数据湖架构原理与应
某医疗磁 数据采集与处理
某科技公 大数据(Hadoo
诺基亚 Python基础
天津电子 Elasticse
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化
更多...
相关课程
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
更多...
全部课程
>
人工智能
大模型与人工反馈强化学习详解实战
758 次浏览
53 次
Williams
人工智能初创公司合伙人,技术负责人。
时间地点:
北京、 深圳、上海根据报名开班
课程费用:
5000元/人
报公开课
要内训
企业内训:
可以根据企业需求,定制内训,详见
内训学习手册
认证方式:
培训前了解能力模型。
培训后进行能力评测:
在线考试
能力分析,给出学习建议
合格者颁发证书,作为职业技能资格证明
课程简介:
大模型的应用需要根据用户的反馈不断学习、积累,这样才能更加准确和高效。本课程讲解大模型如何结合人工反馈进行强化学习,不断提高大模型服务的准确性,课程将结合实际案例讲解如何通过人工反馈进行强化学习,优化大模型的方法。
课程目标:
通过本课程学习与实践,您将理解与掌握:
1.自注意力机制和 Transformer 模型
2.GPT1 、 GPT2 、 GPT3 、 chatGPT 原理与实践
3.LLM 应用程序技术栈
4.图文生成模型:扩散模型
5.蒙特卡罗和 Q-Learning 算法
6.深度学习与强化学习的结合
7.AC 算法及博弈强化学习
培训对象:
AI工程师、数据分析师、1年以上工作经验的算法工程师、对技术感兴趣的IT程序员。
学员基础:
无特定要求
授课方式:
讲师讲授+现场讨论+案例分析+模型讲解
培训
内容:2天
主题
课程安排
第零节:自注意力机制和Transformer模型
RNN-LSTM-GRU 等基本概念
编码器、解码器
自注意力机制详解
Transformer
Mask Multi-Head Attention
位置编码
特定于任务的输入转换
无监督预训练、有监督 Fine-tuning
BERT 思路的理解
GPT 基本思想
GPT2 :多任务系统
GPT3 :少样本、零样本学习
meta-learning (元学习)和 in-context learning (基于上下文的学习)
代码和案例实践:
基本问答系统的代码实现
深入阅读理解的代码实现
段落相关性代码实现
高考作文神器
作文生成
第一节:GPT1、GPT2、GPT3、chatGPT原理与实战
监督微调( SFT )模型、
指示学习和提示学习
简单提示、小样本提示、基于用户的提示
指令微调
RLLHF 技术详解(从人类的反馈中学习)
聚合问答数据训练奖励模型( RM )
强化学习微调、 PPO 、
InstructGPT 遵循用户意图使用强化学习方案
Instruct Learning vs. Prompt Learning
ChatGPT 增加增加了 Chat 属性
AI 系统的新范式
GPT1-GPT2-GPT3-InstructGPT 的 -chatGPT 的技术关系
代码和案例实践:
使用 chatGPT 打造你的私人聊天助理
演示提示词技巧,翻译器润色器、 JavaScript 控制台 、 Excel Sheet
网站定制 chatgpt-web
第二节:LLM应用程序技术栈
设计模式:上下文学习
数据预处理 / 嵌入
提示构建 / 检索
提示执行 / 推理
数据预处理 / 嵌入
Weaviate 、 Vespa 和 Qdrant 等开源系统
Chroma 和 Faiss 等本地向量管理库
pgvector 等 OLTP 扩展
提示构建 / 检索
提示执行 / 推理
新兴的大语言( LLM )技术栈
数据预处理管道( data preprocessing pipeline )
嵌入终端( embeddings endpoint ) + 向量存储( vector store )
LLM 终端( LLM endpoints )
LLM 编程框架( LLM programming framework )
LangChain 的主要功能及模块
Prompts: 这包括提示管理、提示优化和提示序列化。
LLMs: 这包括所有 LLMs 的通用接口,以及常用的 LLMs 工具。
Document Loaders: 这包括加载文档的标准接口,以及与各种文本数据源的集成。
Utils: 语言模型在与其他知识或计算源的交互
Python REPLs 、嵌入、搜索引擎等
LangChain 提供的常用工具
Indexes :语言模型结合自定义文本数据
Agents :动作执行、观测结果,
LangChain 的代理标准接口、可供选择的代理、端到端代理示例
Chat : Chat 模型处理消息
代码和案例实践:
LLM 大模型的使用
Prompts 的设计和使用
第三节:当前最好的图文生成模型:扩散模型
GAN-VAE- 流模型 - 扩散模型的技术发展和变化
CLIP 和扩散模型的结合:基于 CLIP 模型的多模态引导图像生成:图文引导
GLIDE :文本引导
Diffusion-CLIP 模型
扩散和去噪 (Diffusion&Denoise)
训练和采样 (Training&Sampling)
离散步骤的马尔可夫链
分子热动力学的扩散过程
离散加噪
DDPM- 最经典的扩散模型
DDIM :加速采样、可控扩散
IVLR :迭代去燥的图像编辑,低通滤波上采样
RePaint: 被掩码的区域进行扩散生成
代码和案例实践一:
低质量噪声图像修复
精确复原原图
图像去除遮挡、图像补全
图像生成(人物恢复青春、人物变瘦)
思考:
知识图谱 - 图网络等 “ 边缘技术 ” 在 AIGC 中的应用
第四节:蒙特卡罗和Q-Learning算法
蒙特卡罗核心思想
蒙特卡罗评估
增量式方法
蒙特卡罗控制
在线策略 / 离线策略
在线策略蒙特卡罗算法
重要性采样离线策略蒙特卡罗算法
加权重要性采样离线策略蒙特卡罗算法
时序差分简介、 TD 目标值 / TD 误差
DP/MC/TD 对比
在线策略 TD : Sarsa 算法
离线策略 TD : Q-learning 算法
第五节:深度学习与强化学习的结合
表格型强化学习 / 函数近似型强化学习
线性逼近 / 非线性逼近
增量法
值函数逼近 -Sarsa 算法
批量法
值函数逼近 -Q-learning 算法
人工神经网络(卷积、池化、全连接)
DQN 方法
Double DQN 方法
Dueling DQN 方法
DQN 算法运行流程
核心代码演示
算法小结
第六节:AC算法及博弈强化学习
AC 与带基线 REINFORCE 的不同
在线策略 AC 方法
离线策略 AC 方法
兼容性近似函数定理
A2C 方法
博弈及博弈树
极大极小搜索
Alpha-Beta 搜 索
蒙特卡罗树搜索
AlphaGo 基本原理
AlphaGo 神经网络
AlphaGo 蒙特卡罗树搜索
AlphaGo 的整体思路
AlphaGo Zero 下棋原理
AlphaGo Zero 的网络结构
AlphaGo Zero 的蒙特卡罗树搜索
AlphaGo Zero 总结
AlphaZero
五子棋
游戏简介及环境描述
算法运行流程( MCTS 算法和 MCTS+ 神经网络算法)
核心代码演示
算法小结
报公开课
要内训
758 次浏览
53 次
其他人还看了课程
基于AI和大数据的知识图谱培训
4073 次浏览
人工智能-图像处理和识别
2724 次浏览
Python数据分析、机器学习与人工智能
3356 次浏览
机器学习应用实践
2956 次浏览
大模型与Sora技术应用
861 次浏览
机器学习和数据挖掘课程
2525 次浏览
最新活动计划
数据建模方法与工具 12-16[北京]
基于模型系统仿真与验证 12-14
[讲座]
白盒测试技术与工具实践 12-24[线上]
LLM大模型应用与项目构建 12-26
[特惠]
UML和EA进行系统分析设计 12-20[线上]
SysML建模专家 1-16[北京]