课程：大模型与人工反馈强化学习详解实战

求知

文章

文库

Lib

咨询

会员

成功案例

相关课程

全部课程 >人工智能

大模型与人工反馈强化学习详解实战

1468 次浏览

61 次


Williams
人工智能初创公司合伙人，技术负责人。

时间地点：北京、深圳、上海根据报名开班

课程费用：5000元/人

报公开课

要内训

企业内训：可以根据企业需求,定制内训,详见内训学习手册

认证方式：
培训前了解能力模型。
培训后进行能力评测：

在线考试

能力分析，给出学习建议

合格者颁发证书，作为职业技能资格证明

课程简介：
大模型的应用需要根据用户的反馈不断学习、积累，这样才能更加准确和高效。本课程讲解大模型如何结合人工反馈进行强化学习，不断提高大模型服务的准确性，课程将结合实际案例讲解如何通过人工反馈进行强化学习，优化大模型的方法。

课程目标：
通过本课程学习与实践，您将理解与掌握：
1.自注意力机制和 Transformer 模型
2.GPT1 、 GPT2 、 GPT3 、 chatGPT 原理与实践
3.LLM 应用程序技术栈
4.图文生成模型：扩散模型
5.蒙特卡罗和 Q-Learning 算法
6.深度学习与强化学习的结合
7.AC 算法及博弈强化学习

培训对象： AI工程师、数据分析师、1年以上工作经验的算法工程师、对技术感兴趣的IT程序员。

学员基础： 无特定要求

授课方式：讲师讲授+现场讨论+案例分析＋模型讲解

培训内容：2天

主题	课程安排
第零节：自注意力机制和Transformer模型	RNN-LSTM-GRU 等基本概念编码器、解码器自注意力机制详解 Transformer Mask Multi-Head Attention 位置编码特定于任务的输入转换无监督预训练、有监督 Fine-tuning BERT 思路的理解 GPT 基本思想 GPT2 ：多任务系统 GPT3 ：少样本、零样本学习 meta-learning （元学习）和 in-context learning （基于上下文的学习）代码和案例实践：基本问答系统的代码实现深入阅读理解的代码实现段落相关性代码实现高考作文神器作文生成
第一节：GPT1、GPT2、GPT3、chatGPT原理与实战	监督微调（ SFT ）模型、指示学习和提示学习简单提示、小样本提示、基于用户的提示指令微调 RLLHF 技术详解（从人类的反馈中学习）聚合问答数据训练奖励模型（ RM ）强化学习微调、 PPO 、 InstructGPT 遵循用户意图使用强化学习方案 Instruct Learning vs. Prompt Learning ChatGPT 增加增加了 Chat 属性 AI 系统的新范式 GPT1-GPT2-GPT3-InstructGPT 的 -chatGPT 的技术关系代码和案例实践：使用 chatGPT 打造你的私人聊天助理演示提示词技巧，翻译器润色器、 JavaScript 控制台、 Excel Sheet 网站定制 chatgpt-web
第二节：LLM应用程序技术栈	设计模式：上下文学习数据预处理 / 嵌入提示构建 / 检索提示执行 / 推理数据预处理 / 嵌入 Weaviate 、 Vespa 和 Qdrant 等开源系统 Chroma 和 Faiss 等本地向量管理库 pgvector 等 OLTP 扩展提示构建 / 检索提示执行 / 推理新兴的大语言（ LLM ）技术栈数据预处理管道（ data preprocessing pipeline ）嵌入终端（ embeddings endpoint ） + 向量存储（ vector store ） LLM 终端（ LLM endpoints ） LLM 编程框架（ LLM programming framework ） LangChain 的主要功能及模块 Prompts: 这包括提示管理、提示优化和提示序列化。 LLMs: 这包括所有 LLMs 的通用接口，以及常用的 LLMs 工具。 Document Loaders: 这包括加载文档的标准接口，以及与各种文本数据源的集成。 Utils: 语言模型在与其他知识或计算源的交互 Python REPLs 、嵌入、搜索引擎等 LangChain 提供的常用工具 Indexes ：语言模型结合自定义文本数据 Agents ：动作执行、观测结果， LangChain 的代理标准接口、可供选择的代理、端到端代理示例 Chat ： Chat 模型处理消息代码和案例实践： LLM 大模型的使用 Prompts 的设计和使用
第三节：当前最好的图文生成模型：扩散模型	GAN-VAE- 流模型 - 扩散模型的技术发展和变化 CLIP 和扩散模型的结合：基于 CLIP 模型的多模态引导图像生成：图文引导 GLIDE ：文本引导 Diffusion-CLIP 模型扩散和去噪 (Diffusion&Denoise) 训练和采样 (Training&Sampling) 离散步骤的马尔可夫链分子热动力学的扩散过程离散加噪 DDPM- 最经典的扩散模型 DDIM ：加速采样、可控扩散 IVLR ：迭代去燥的图像编辑，低通滤波上采样 RePaint: 被掩码的区域进行扩散生成代码和案例实践一：低质量噪声图像修复精确复原原图图像去除遮挡、图像补全图像生成（人物恢复青春、人物变瘦）思考：知识图谱 - 图网络等 “ 边缘技术 ” 在 AIGC 中的应用
第四节：蒙特卡罗和Q-Learning算法	蒙特卡罗核心思想蒙特卡罗评估增量式方法蒙特卡罗控制在线策略 / 离线策略在线策略蒙特卡罗算法重要性采样离线策略蒙特卡罗算法加权重要性采样离线策略蒙特卡罗算法时序差分简介、 TD 目标值 / TD 误差 DP/MC/TD 对比在线策略 TD ： Sarsa 算法离线策略 TD ： Q-learning 算法
第五节：深度学习与强化学习的结合	表格型强化学习 / 函数近似型强化学习线性逼近 / 非线性逼近增量法值函数逼近 -Sarsa 算法批量法值函数逼近 -Q-learning 算法人工神经网络（卷积、池化、全连接） DQN 方法 Double DQN 方法 Dueling DQN 方法 DQN 算法运行流程核心代码演示算法小结
第六节：AC算法及博弈强化学习	AC 与带基线 REINFORCE 的不同在线策略 AC 方法离线策略 AC 方法兼容性近似函数定理 A2C 方法博弈及博弈树极大极小搜索 Alpha-Beta 搜索蒙特卡罗树搜索 AlphaGo 基本原理 AlphaGo 神经网络 AlphaGo 蒙特卡罗树搜索 AlphaGo 的整体思路 AlphaGo Zero 下棋原理 AlphaGo Zero 的网络结构 AlphaGo Zero 的蒙特卡罗树搜索 AlphaGo Zero 总结 AlphaZero 五子棋游戏简介及环境描述算法运行流程（ MCTS 算法和 MCTS+ 神经网络算法）核心代码演示算法小结