课程：开源大模型本地推理、训练与部署实战

咨询

成功案例

相关课程

全部课程 >人工智能

开源大模型本地推理、训练与部署实战

658 次浏览

4 次


刘老师
哈佛大学人工智能方向博后/高级访问学者，德高包豪斯大学媒体学员计算机视觉方向访问学者前华为公司数据科学家，浙江大学计算机专业工学博士

时间地点：北京+在线 11月27-28日；上海、深圳根据报名开班

课程费用：5000元/人

报公开课		要内训

企业内训：可以根据企业需求,定制内训,详见内训学习手册

认证方式：
培训前了解能力模型。
培训后进行能力评测：

在线考试

能力分析，给出学习建议

合格者颁发证书，作为职业技能资格证明

本课程旨在系统性地介绍现代人工智能的核心支柱技术：深度学习、目标识别与强化学习。课程将从基础理论出发，深入探讨神经网络的工作原理，重点讲解其在计算机视觉领域最具代表性的应用——目标识别，并进一步扩展到能够让智能体通过与环境交互进行学习的强化学习范式。通过理论结合编程实践的方式，让学员能够亲手构建和训练AI模型。

课程简介：

大模型（LLM）是新一代智能应用的核心引擎，正在重塑搜索问答、文档处理、代码辅助与业务决策等场景。本课程以企业落地为导向，系统讲解大模型的原理、工程化方法与产品化路径。课程以 Hugging Face Transformers、LangChain、向量数据库与主流推理/服务框架为基础，帮助学员从 Prompt 设计、函数调用（Function Calling）与结构化输出，到工具调用（Tool/Agent）与检索增强生成（RAG）逐步建立完整能力。
课程内容涵盖：预训练与微调（全参/LoRA/Adapter/DPO）、多模态基础（文档/图像/语音）、评测与安全（对齐、审核、红蓝对抗）、性能与成本优化（并发、KV 缓存、量化）、以及 MLOps 与可观测性（日志/指标/追踪）。实践环节将同时覆盖“云端接口调用”与“本地部署”：一方面通过主流在线 API 快速搭建问答/写作/代码助手与 RAG 应用；另一方面以 vLLM/TensorRT-LLM/ONNX Runtime 为例完成本地推理、服务化与K8s部署，打通从数据到上线的全链路。

课程亮点：

  1. 多框架统一、灵活扩展：基于 Transformers、LangChain 等主流生态，兼容多家在线 API 与本地推理引擎（vLLM/TensorRT-LLM/ONNX Runtime），可插拔向量数据库（FAISS/Milvus/PGVector）与存储，支持跨云、混合云与本地环境，便于快速集成与二次开发。
  2. RAG 与 Agent 实战驱动：从企业知识库构建、检索与重排，到结构化输出、函数调用（Function Calling）与工具链编排（Agent）；覆盖文档、表格、图片等多模态场景，学员通过端到端项目练习，真正实现“会用、敢用、善用”。
  3. 部署选型与成本优化（在线 vs 本地）：提供可落地的决策准则与模板——适合在线接口：原型验证、通用问答/翻译、运营内容生成、办公与代码助手、对合规要求适中且需弹性算力的业务；需要本地部署：涉密/受监管数据（金融、政企、医疗、法务）、强数据主权与审计需求、低延迟/离线与高并发、深度定制与私有化安全策略。同步讲解量化（GPTQ/AWQ/FP8）、KV 缓存、批处理与并发调度，做到性能与成本双优化。
  4. 安全对齐、合规与可观测：系统覆盖越狱防护、内容审核、PII 脱敏、权限与审计；对齐与评测（自动评测+人工评审、arena-style 比对），上线后的可观测性（日志/指标/追踪）与风险预案，确保在企业环境中“可控、可查、可回滚”。
  5. 端到端工程化与持续迭代：贯穿数据治理→提示工程→微调（全参/LoRA/Adapter/DPO）→A/B 实验与灰度发布→MLOps（CI/CD、模型/数据版本、特征与知识库管理）→SLA/SLO 运营，帮助学员构建体系化的大模型工程能力并形成可复用的企业落地方法论。

培训目标：

  1. 掌握大模型开发环境搭建方法：能够独立完成 Python、Transformers、LangChain、向量数据库（FAISS/Milvus/PGVector）等组件的安装与配置，熟悉 GPU 驱动与推理引擎（vLLM/TensorRT-LLM/ONNX Runtime），可在云端与本地快速拉起推理与服务化环境。
  2. 理解大模型核心概念与原理：系统把握预训练与指令对齐（SFT/DPO/RLHF）、分词与上下文窗口、注意力与 KV 缓存、提示工程与函数调用（Function Calling）、对齐与安全治理等关键机制，夯实工程化理论基础。
  3. 熟练运用主流大模型与生态能力：既能调用在线 API（如通用闭源模型与多模态模型），也能使用开源模型（Llama/Mistral/Qwen 等）完成 RAG、工具调用/Agent、多模态处理与轻量微调（LoRA/Adapter），并掌握效果评测与迭代优化。
  4. 提升实战能力，完成端到端项目流程：围绕企业知识库应用，熟练实施“数据接入与清洗→索引与检索→重排→生成→安全合规→A/B 与灰度→监控与告警”的全链路；掌握性能与成本优化（批处理并发、量化、缓存、弹性伸缩）。
  5. 解决实际业务问题并完成部署选型：面向客服问答、文档自动化、代码辅助、合规审查等场景，能给出可落地方案并判断部署策略——何时使用在线接口（弹性算力、快速迭代、通用能力），何时选择本地/私有化部署（敏感数据、严格合规、低延迟/离线、高并发与可控成本），形成技术选型与 SLA/SLO 承诺。

培训对象：

大模型平台架构师，大模型应用开发工程师

学员基础：

了解大模型技术和典型开源大模型平台

课程安排：2天

大模型基本原理
预训练与指令对齐概览	• 预训练语料与目标：自回归/填空任务与规模化趋势 • 分布外泛化：从统计共现到可迁移能力边界 • 指令微调 SFT：对齐人类意图的标准流程 • 偏好优化 DPO/RLHF：人类偏好驱动的训练闭环 • 系统提示（System Prompt）：全局约束与风格控制 • 上下文学习（ICL）：零/少样本示例的引导作用 • 工具使用（Tool Use）：模型与外部函数协作范式 • 多模态扩展：文本/图像/语音联合建模思路 • 能力边界：算力、数据覆盖与上下文限制 • 评测维度：知识、推理、稳健性与安全性
分词、上下文与注意力机制	• 分词策略：BPE/WordPiece 与中文粒度处理 • 上下文窗口：长度、滑窗与长文本策略 • 自注意力：QKV 与多头注意力直觉解释 • 位置编码：绝对/相对/旋转（RoPE）差异 • KV 缓存：解码复用提升吞吐的原理 • 稀疏/低秩：高效注意力的常见思路 • 解码策略：温度、Top-k/p、惩罚项配置 • 幻觉成因：训练目标与检索缺失导致编造 • 指令遵循：对齐后格式与遵从性提高 • 失败模式：重复、偏见、越狱典型表现
生成控制与提示工程	模板化提示：角色-任务-示例三段式 • 结构化输出：JSON/Schema 与校验回退 • CoT/思维链：中间推理与使用注意 • ReAct/计划-执行：检索+行动提示套路 • 多轮状态：会话记忆与摘要压缩策略 • 约束解码：词汇/语法约束与后处理 • 安全提示：红线声明与拒答模板 • 评估提示：自动评审与对比指令设计 • Prompt 调参：温度/惩罚/停用词实验 • 失败恢复：重试、重写、少样本切换
能力边界、风险与合规	• 数据主权：跨境流动与存储合规要点 • PII/敏感信息：脱敏、最小化与审计 • 模型偏见：来源、识别与缓解 • 版权与溯源：训练集/输出的法律风险 • 越狱与滥用：攻击类型与拦截策略 • 可靠性：确定性需求与采样配置 • 可解释性：证据链与引用必要性 • 安全红队：对抗样例与覆盖面 • 风险登记：模型卡/数据卡与审批 • 责任分界：供应商/使用方边界
质量评测与基准	• 任务指标：准确率、F1、BLEU、Rouge • 生成评测：基于 LLM 的自动打分 • 人审流程：抽样、双盲与仲裁 • 事实性检测：检索对齐与引用校验 • 工程指标：延迟、吞吐、错误率、SLA • 线上评测：A/B、灰度、对照设计 • 评测集构建：覆盖关键意图与边界 • 回归套件：版本升级风险可控化 • 数据漂移：输入分布与主题变迁 • 决策看板：统一观测与闭环改进
本机开发环境配置
Python/包管理/版本隔离	• Conda/venv：多项目依赖隔离与复现 • Poetry/pip-tools：锁版本与可重建环境 • CUDA/显卡查询：驱动与能力检测 • cuDNN/cuBLAS：库版本与框架匹配 • PyTorch/Transformers：安装与验证脚本 • 编码规范：Black/Ruff 与 CI 格式校验 • 单元测试：pytest 最小可用样例 • 数据管理：DVC/对象存储接入 • 密钥管理：.env/密钥库与最小权限 • 性能基线：简易推理基准记录
GPU 加速与推理引擎	• 显存画像：Batch/并发占用测算 • vLLM：PagedAttention 与高并发 Serving • TensorRT-LLM：图优化与 FP8/INT8 • ONNX Runtime：跨平台推理优化器 • 量化工具链：AWQ/GPTQ/AutoGPTQ • 多卡并行：数据/张量并行取舍 • CPU 备选：MKL/LLVM+量化方案 • Profiling：nsys/nvprof/torch.profiler • 调度参数：KV 缓存与 Prefill/Decode • 吞吐/延迟：SLA 导向配置
开发工具与调试	• VS Code 调试：断点与变量检查 • Jupyter：快速实验与可视化 • 日志规范：结构化与采样比例 • 追踪链路：OpenTelemetry/Tracing • 运行诊断：OOM/死锁定位与复现 • 依赖冲突：版本矩阵与最小示例 • 数据探查：Profiling/异常样本识别 • 容量规划：QPS/并发/队列建模 • 本地 CI：pre-commit 轻量流水线 • 崩溃恢复：检查点与幂等操作
容器化与可复现	• Dockerfile：分层与缓存命中 • 基础镜像：CUDA/cuDNN 官方镜像 • 多阶段构建：体积与安全优化 • 镜像签名/扫描：供应链安全 • Compose：本地多服务编排 • K8s：请求/限制与亲和性 • Helm：参数化与环境差异最小化 • 镜像仓库：权限与审计日志 • 版本快照：镜像与模型双版本 • 灰度策略：标签/版本并行发布
本地依赖服务与数据	• 向量库：FAISS/Milvus/PGVector 接入 • 存储：Postgres/MinIO 选型 • 嵌入模型：本地向量化方案 • 文档解析：PDF/Office/表格抽取 • 索引构建：分块策略与元数据 • 缓存层：Redis/磁盘冷热分层 • 消息队列：Kafka/RabbitMQ 用途 • 访问控制：RBAC/审计与密钥轮转 • 备份恢复：快照与容灾演练 • 合规落地：数据保留/删除策略
开源大模型本地推理、训练与部署（含公域接口轻量调用）
模型选型（开源 vs 公域接口）与获取	• 开源谱系：Llama/Mistral/Qwen 等特性对比 • 许可与合规：商业/研究授权核查 • 权重获取：Hub/镜像加速与校验 • 分词一致性：Tokenizer 防漂移 • 体积与算力：参数量与显存需求估算 • 任务匹配：对话/编程/多模态适配 • 评测基线：离线集与业务样本对比 • 公域平台概览（弱化）：能力/价格/配额矩阵 • API 适配（弱化）：最小封装与可替换路由 • 选择准则：数据敏感度/成本/迭代速度
推理引擎与性能优化	• vLLM/ORT/TensorRT-LLM 取舍要点 • 图融合与算子替换：吞吐增益来源 • 量化选择：INT8/INT4/FP8 精度权衡 • KV 管理：分片/交换与超长上下文 • 并发策略：Prefill/Decode 比例优化 • 流水线并行：节点负载平衡 • 张量并行：大模型拆分与通信成本 • 观测工具：延迟树与热点识别 • 回退路径：低负载模型与降级逻辑 • 压测体系：场景化与容量边界
轻量微调与数据准备	• 数据治理：去重/净化与合规检查 • 指令数据：格式、覆盖面与难度曲线 • LoRA/QLoRA：低显存微调流程 • Adapter/Prefix：参数高效化方案 • 偏好优化：DPO/奖励模型路径 • 验证集设计：任务化与场景化指标 • 训练追踪：实验记录与复现性 • 过拟合防控：早停、混合数据策略 • 评估闭环：离线→小流量→全量 • 权重发布：模型卡与安全声明
服务化与并发调度（含接口降级路由）	• 模型服务：Triton/TorchServe/自研网关 • 批处理与优先级：队列/舱壁隔离 • 多租户：命名空间与配额 • 版本管理：蓝绿/金丝雀发布 • 认证授权：JWT/OIDC 与审计 • 资源弹性：HPA/自动扩缩容 • 冷启动优化：权重预热与固化 • 接口降级（弱化）：公域 API 作为回退通道 • 成本计费：内部核算与标签拆分 • SRE 协作：故障演练与应急预案
混合部署与成本治理	• 边缘/私有云：网络/合规前置条件 • 多云/混合云：就近路由与容错 • 数据主权：本地存储与最小外发 • 安全域隔离：VPC/零信任与审计 • 远程更新：权重分发与版本锁定 • 缓存策略：Embedding/响应缓存节费 • 供应商冗余（弱化）：API 多活与择优 • 预算看板：单位成本与峰值预警 • 资产盘点：软硬件/许可证管理 • SLA/SLO：目标与罚则机制
RAG、智能体与企业端到端工程化部署
RAG 架构与数据管道	• 数据采集：爬取/ETL 与权限校验 • 文档解析：段落/表格/图像抽取 • 分块策略：语义/结构/标题感知切分 • 嵌入模型：选择、归一化与更新周期 • 元数据：来源/权限/时效标签设计 • 索引构建：倒排+向量混合方案 • 写入流水线：增量/批量与幂等 • 质量控制：噪声抑制与去重 • 数据更新：近实时刷新与版本化 • 权限对齐：查询时行/列级控制
检索与重排优化	• 召回策略：BM25/向量/混合 • Top-k/阈值：召回-精度平衡 • 重排模型：Cross-Encoder 与替代 • 多跳检索：迭代查询与自我反思 • 证据拼接：去重、排序与压缩 • 代理提问：查询改写与澄清 • 引用生成：可点击出处与定位 • 反事实检测：事实校验与冲突消解 • 评估指标：Hit@k、nDCG、事实性 • 成本控制：缓存/摘要与冷热分层
智能体设计与工具编排	• 框架：ReAct/MRKL/Planner-Executor • 工具清单：检索/数据库/外部 API 集成 • 任务分解：计划生成与并行执行 • 记忆系统：短期/长期与检索记忆 • 自我反思：停止条件与质量提升 • 安全护栏：白名单、沙箱与配额 • 失败恢复：回滚、重试与人机协作 • 观测埋点：工具调用链追踪 • 评测沙盒：端到端任务成功率 • 业务编排：流程引擎与审批流
观测性、风控与治理	• 日志/指标/追踪：三件套统一平台 • 数据/概念漂移：报警与自动回滚 • 提示/权重版本库：溯源与对比 • 风控策略：黑白名单与限流 • 权限审计：最小权限与留痕 • 安全扫描：依赖/镜像/模型检查 • 合规报表：留档与审计接口 • 事故演练：桌面推演与 SRE 流程 • 客诉闭环：工单、复现与修复 SLA • 成本可视化：单位请求与归因
端到端上线与运维	• 参考架构：网关+服务层+检索层 • CI/CD：模型/提示/配置同步发布 • 蓝绿/金丝雀：渐进放量与门禁 • 容量规划：压测→保守系数→SLO • 高可用：多 Region/多供应商路由 • 数据留存：会话与调用记录管理 • 变更管理：变更单与回滚脚本 • 业务对接：SDK/组件化快速集成 • 培训与交付物：SOP/Runbook/应急手册 • 成功标准：业务 KPI 与技术 KPI 联动
课程总结与答疑