大模型基本原理 |
预训练与指令对齐概览 |
•
预训练语料与目标:自回归/填空任务与规模化趋势
• 分布外泛化:从统计共现到可迁移能力边界
• 指令微调 SFT:对齐人类意图的标准流程
• 偏好优化 DPO/RLHF:人类偏好驱动的训练闭环
• 系统提示(System Prompt):全局约束与风格控制
• 上下文学习(ICL):零/少样本示例的引导作用
• 工具使用(Tool Use):模型与外部函数协作范式
• 多模态扩展:文本/图像/语音联合建模思路
• 能力边界:算力、数据覆盖与上下文限制
• 评测维度:知识、推理、稳健性与安全性 |
分词、上下文与注意力机制 |
•
分词策略:BPE/WordPiece 与中文粒度处理
• 上下文窗口:长度、滑窗与长文本策略
• 自注意力:QKV 与多头注意力直觉解释
• 位置编码:绝对/相对/旋转(RoPE)差异
• KV 缓存:解码复用提升吞吐的原理
• 稀疏/低秩:高效注意力的常见思路
• 解码策略:温度、Top-k/p、惩罚项配置
• 幻觉成因:训练目标与检索缺失导致编造
• 指令遵循:对齐后格式与遵从性提高
• 失败模式:重复、偏见、越狱典型表现
|
生成控制与提示工程 |
模板化提示:角色-任务-示例三段式
• 结构化输出:JSON/Schema 与校验回退
• CoT/思维链:中间推理与使用注意
• ReAct/计划-执行:检索+行动提示套路
• 多轮状态:会话记忆与摘要压缩策略
• 约束解码:词汇/语法约束与后处理
• 安全提示:红线声明与拒答模板
• 评估提示:自动评审与对比指令设计
• Prompt 调参:温度/惩罚/停用词实验
• 失败恢复:重试、重写、少样本切换 |
能力边界、风险与合规 |
•
数据主权:跨境流动与存储合规要点
• PII/敏感信息:脱敏、最小化与审计
• 模型偏见:来源、识别与缓解
• 版权与溯源:训练集/输出的法律风险
• 越狱与滥用:攻击类型与拦截策略
• 可靠性:确定性需求与采样配置
• 可解释性:证据链与引用必要性
• 安全红队:对抗样例与覆盖面
• 风险登记:模型卡/数据卡与审批
• 责任分界:供应商/使用方边界
|
质量评测与基准 |
•
任务指标:准确率、F1、BLEU、Rouge
• 生成评测:基于 LLM 的自动打分
• 人审流程:抽样、双盲与仲裁
• 事实性检测:检索对齐与引用校验
• 工程指标:延迟、吞吐、错误率、SLA
• 线上评测:A/B、灰度、对照设计
• 评测集构建:覆盖关键意图与边界
• 回归套件:版本升级风险可控化
• 数据漂移:输入分布与主题变迁
• 决策看板:统一观测与闭环改进 |
本机开发环境配置 |
Python/包管理/版本隔离 |
•
Conda/venv:多项目依赖隔离与复现
• Poetry/pip-tools:锁版本与可重建环境
• CUDA/显卡查询:驱动与能力检测
• cuDNN/cuBLAS:库版本与框架匹配
• PyTorch/Transformers:安装与验证脚本
• 编码规范:Black/Ruff 与 CI 格式校验
• 单元测试:pytest 最小可用样例
• 数据管理:DVC/对象存储接入
• 密钥管理:.env/密钥库与最小权限
• 性能基线:简易推理基准记录 |
GPU
加速与推理引擎 |
•
显存画像:Batch/并发占用测算
• vLLM:PagedAttention 与高并发 Serving
• TensorRT-LLM:图优化与 FP8/INT8
• ONNX Runtime:跨平台推理优化器
• 量化工具链:AWQ/GPTQ/AutoGPTQ
• 多卡并行:数据/张量并行取舍
• CPU 备选:MKL/LLVM+量化方案
• Profiling:nsys/nvprof/torch.profiler
• 调度参数:KV 缓存与 Prefill/Decode
• 吞吐/延迟:SLA 导向配置 |
开发工具与调试 |
•
VS Code 调试:断点与变量检查
• Jupyter:快速实验与可视化
• 日志规范:结构化与采样比例
• 追踪链路:OpenTelemetry/Tracing
• 运行诊断:OOM/死锁定位与复现
• 依赖冲突:版本矩阵与最小示例
• 数据探查:Profiling/异常样本识别
• 容量规划:QPS/并发/队列建模
• 本地 CI:pre-commit 轻量流水线
• 崩溃恢复:检查点与幂等操作
|
容器化与可复现 |
•
Dockerfile:分层与缓存命中
• 基础镜像:CUDA/cuDNN 官方镜像
• 多阶段构建:体积与安全优化
• 镜像签名/扫描:供应链安全
• Compose:本地多服务编排
• K8s:请求/限制与亲和性
• Helm:参数化与环境差异最小化
• 镜像仓库:权限与审计日志
• 版本快照:镜像与模型双版本
• 灰度策略:标签/版本并行发布 |
本地依赖服务与数据 |
•
向量库:FAISS/Milvus/PGVector 接入
• 存储:Postgres/MinIO 选型
• 嵌入模型:本地向量化方案
• 文档解析:PDF/Office/表格抽取
• 索引构建:分块策略与元数据
• 缓存层:Redis/磁盘冷热分层
• 消息队列:Kafka/RabbitMQ 用途
• 访问控制:RBAC/审计与密钥轮转
• 备份恢复:快照与容灾演练
• 合规落地:数据保留/删除策略
|
开源大模型本地推理、训练与部署(含公域接口轻量调用) |
模型选型(开源 vs 公域接口)与获取 |
•
开源谱系:Llama/Mistral/Qwen 等特性对比
• 许可与合规:商业/研究授权核查
• 权重获取:Hub/镜像加速与校验
• 分词一致性:Tokenizer 防漂移
• 体积与算力:参数量与显存需求估算
• 任务匹配:对话/编程/多模态适配
• 评测基线:离线集与业务样本对比
• 公域平台概览(弱化):能力/价格/配额矩阵
• API 适配(弱化):最小封装与可替换路由
• 选择准则:数据敏感度/成本/迭代速度
|
推理引擎与性能优化 |
•
vLLM/ORT/TensorRT-LLM 取舍要点
• 图融合与算子替换:吞吐增益来源
• 量化选择:INT8/INT4/FP8 精度权衡
• KV 管理:分片/交换与超长上下文
• 并发策略:Prefill/Decode 比例优化
• 流水线并行:节点负载平衡
• 张量并行:大模型拆分与通信成本
• 观测工具:延迟树与热点识别
• 回退路径:低负载模型与降级逻辑
• 压测体系:场景化与容量边界
|
轻量微调与数据准备 |
•
数据治理:去重/净化与合规检查
• 指令数据:格式、覆盖面与难度曲线
• LoRA/QLoRA:低显存微调流程
• Adapter/Prefix:参数高效化方案
• 偏好优化:DPO/奖励模型路径
• 验证集设计:任务化与场景化指标
• 训练追踪:实验记录与复现性
• 过拟合防控:早停、混合数据策略
• 评估闭环:离线→小流量→全量
• 权重发布:模型卡与安全声明
|
服务化与并发调度(含接口降级路由) |
•
模型服务:Triton/TorchServe/自研网关
• 批处理与优先级:队列/舱壁隔离
• 多租户:命名空间与配额
• 版本管理:蓝绿/金丝雀发布
• 认证授权:JWT/OIDC 与审计
• 资源弹性:HPA/自动扩缩容
• 冷启动优化:权重预热与固化
• 接口降级(弱化):公域 API 作为回退通道
• 成本计费:内部核算与标签拆分
• SRE 协作:故障演练与应急预案
|
混合部署与成本治理 |
•
边缘/私有云:网络/合规前置条件
• 多云/混合云:就近路由与容错
• 数据主权:本地存储与最小外发
• 安全域隔离:VPC/零信任与审计
• 远程更新:权重分发与版本锁定
• 缓存策略:Embedding/响应缓存节费
• 供应商冗余(弱化):API 多活与择优
• 预算看板:单位成本与峰值预警
• 资产盘点:软硬件/许可证管理
• SLA/SLO:目标与罚则机制
|
RAG、智能体与企业端到端工程化部署 |
RAG 架构与数据管道 |
•
数据采集:爬取/ETL 与权限校验
• 文档解析:段落/表格/图像抽取
• 分块策略:语义/结构/标题感知切分
• 嵌入模型:选择、归一化与更新周期
• 元数据:来源/权限/时效标签设计
• 索引构建:倒排+向量混合方案
• 写入流水线:增量/批量与幂等
• 质量控制:噪声抑制与去重
• 数据更新:近实时刷新与版本化
• 权限对齐:查询时行/列级控制 |
检索与重排优化 |
•
召回策略:BM25/向量/混合
• Top-k/阈值:召回-精度平衡
• 重排模型:Cross-Encoder 与替代
• 多跳检索:迭代查询与自我反思
• 证据拼接:去重、排序与压缩
• 代理提问:查询改写与澄清
• 引用生成:可点击出处与定位
• 反事实检测:事实校验与冲突消解
• 评估指标:Hit@k、nDCG、事实性
• 成本控制:缓存/摘要与冷热分层
|
智能体设计与工具编排 |
•
框架:ReAct/MRKL/Planner-Executor
• 工具清单:检索/数据库/外部 API 集成
• 任务分解:计划生成与并行执行
• 记忆系统:短期/长期与检索记忆
• 自我反思:停止条件与质量提升
• 安全护栏:白名单、沙箱与配额
• 失败恢复:回滚、重试与人机协作
• 观测埋点:工具调用链追踪
• 评测沙盒:端到端任务成功率
• 业务编排:流程引擎与审批流
|
观测性、风控与治理 |
•
日志/指标/追踪:三件套统一平台
• 数据/概念漂移:报警与自动回滚
• 提示/权重版本库:溯源与对比
• 风控策略:黑白名单与限流
• 权限审计:最小权限与留痕
• 安全扫描:依赖/镜像/模型检查
• 合规报表:留档与审计接口
• 事故演练:桌面推演与 SRE 流程
• 客诉闭环:工单、复现与修复 SLA
• 成本可视化:单位请求与归因
|
端到端上线与运维 |
•
参考架构:网关+服务层+检索层
• CI/CD:模型/提示/配置同步发布
• 蓝绿/金丝雀:渐进放量与门禁
• 容量规划:压测→保守系数→SLO
• 高可用:多 Region/多供应商路由
• 数据留存:会话与调用记录管理
• 变更管理:变更单与回滚脚本
• 业务对接:SDK/组件化快速集成
• 培训与交付物:SOP/Runbook/应急手册
• 成功标准:业务 KPI 与技术 KPI 联动
|
课程总结与答疑 |