课程：视觉大模型和应用与微调

咨询

成功案例

相关课程

全部课程 >人工智能

视觉大模型和应用与微调

296 次浏览

6 次

Schroeder
微软人工智能认证架构师，阿里云AI人工智能训练师

时间地点：北京、上海、深圳根据报名开班

课程费用：5000元/人

报公开课		要内训

企业内训：可以根据企业需求,定制内训,详见内训学习手册

认证方式：
培训前了解能力模型。
培训后进行能力评测：

在线考试

能力分析，给出学习建议

合格者颁发证书，作为职业技能资格证明

课程简介：

随着大模型、 RAG 、多模态与智能体技术的迅速发展，人工智能应用正在从单一对话走向知识检索、文档理解、自动分析、复杂任务执行等更高层次。要真正发挥这些技术的价值，不仅需要掌握大模型的基本原理，还需要理解知识库构建、多模态处理、智能体工作流、模型微调与评测等完整体系。
本培训围绕课程大纲，从理论到实践系统讲解大模型、 RAG 、 LangChain/LlamaIndex 、多模态（ Qwen-VL ）、 Agent 工作流、插件开发、模型微调及评测优化等核心技术，帮助学员构建清晰的知识框架，掌握从模型调用到实际应用落地的完整方法，具备独立构建智能应用系统的能力。

培训收益：

1. 掌握多模态大模型、RAG 与 Agent 的核心机制。
2. 能使用 LangChain/Qwen-VL 构建图文混合知识库。
3. 具备多模态智能体的设计与应用能力。
4. 能解决票据解析、文档处理等复杂业务场景。
5. 掌握多模态模型的微调、评测与部署方法。

培训对象：

各类软件企业和研发中心的程序员、软件设计师、架构师, 项目经理，业务架构师。本课程面向零图像处理方向，计算机视觉方向，智能计算方向研发人员。

学员基础：

无特殊要求

课程安排：2天

主题	课程安排
第1部分: 图像问答（VQA – Image Understanding）大纲	1. 图像问答（VQA）任务概述与典型场景解析 2. 图像加载、预处理与区域特征解析基础 3. OCR、检测、标注等视觉能力的组合使用方法 4. VQA Prompt 模板设计：问题消解与上下文控制 5. LangChain VisionChain 构建流程与调用方式 6. 图像描述、实体识别、关系提取等核心能力拆解 7. VQA 回答生成的准确性优化与错误分析 8. VQA 模型性能评估：BLEU、ROUGE、CIDEr 9. VQA 系统API化部署：调用规范与数据返回格式 10. 实战案例：复杂图表、票据与场景图片的智能问答
第2部分: 多模态 RAG（Vision-Enhanced RAG）实现	1. 多模态 RAG 基础原理与典型应用场景 2. 图像分块、Embedding 提取与检索链路解析 3. 文本与图像混合数据格式规范与结构设计 4. 使用 Unstructured + VisionLoader 构建多模态知识库 5. 多模态向量库配置：FAISS / Chroma / Milvus 6. 检索链（Retrieval Chain）与图像跨模态召回策略 7. Vision-RAG 回答生成：上下文注入与内容融合 8. 多模态 RAG 质量评估：相关性、召回率、一致性 9. 多模态 RAG 部署：API 化、服务化与扩展能力 10. 实战案例：基于产品图片与手册构建企业视觉知识库
第3部分：Qwen-VL + LangChain 多模态应用大纲	1. Qwen-VL 多模态模型原理与适用应用场景 2. 图像、OCR、表格与文档输入的数据格式规范 3. LangChain + Qwen-VL 多模态接口配置与参数解析 4. 票据、合同、截图等文档的结构化解析流程 5. 多模态 RAG：结合 Qwen-VL 构建图文混合检索链 6. 多模态 Agent：Qwen-VL 与工具调用场景设计 7. 复杂视觉任务：表格抽取、版式理解与区域定位 8. 模型输出评估：字段准确率、版式一致性、鲁棒性 9. Qwen-VL 模型服务部署：推理优化与资源利用 10. 实战案例：凭证识别、发票解析与企业文件自动处理
第4部分: 多模态 Agent（OpenAI Multi-Modal Agent）	1. 多模态智能体原理与任务协作机制 2. 图像输入的解释、理解与结构化解析流程 3. 多模态提示词模板设计：角色、目标与上下文管理 4. Vision-Agent 工具体系：搜索、数据库、计算工具 5. ReAct / ToolCalling 模式下的图像推理链路 6. 多模态 Agent 的任务规划、分步执行与自反思能力 7. Agent 行为监控与错误恢复：日志与决策追踪 8. 多模态 Agent 的评估方法：可解释性与工具调用准确率 9. 多模态 Agent 的部署：负载、并发与连接池优化 10. 实战案例：基于图片报告自动生成分析结论与图表
第5部分: 数据工程与Qwen-VL多模态微调	1. 大模型微调基础原理与常见应用场景 2. 微调数据格式解析：ShareGPT 与 Alpaca格式规范 3. 使用 EasyData 从文档自动生成 ShareGPT 格式数据集 4. 摩搭社区（ModelScope）平台介绍与模型下载流程 5. LlamaFactory 微调框架概览与环境配置 6. LoRA/QLoRA 微调参数设置与模型训练实战 7. 模型验证与性能评估：Loss、Perplexity、F1 8. 微调模型导出与转换：从 HuggingFace 到 Safetensors 9. 将微调模型上传至摩搭平台并发布推理服务 10. 实战案例：针对企业内部知识问答场景的微调实现
第6部分: 微调后模型评测、效果对比与可视化评测报告	1. OpenCompass 框架原理与安装配置 2. Benchmark 测试体系介绍：通用任务与垂直任务集 3. 微调模型的加载与评测准备（SFT / LoRA 模型） 4. 通过 OpenCompass 执行模型评测流程（命令行 + 配置文件） 5. 常用评测指标讲解：BERTScore、BLEU、ROUGE、困惑度 (Perplexity) 6. 不同类型任务的评价策略：生成类 vs 分类类 7. 微调前后模型性能对比与结果分析 8. 结果可视化与报告生成（Precision / Recall / F1 对比） 9. 实战演示：评测 DeepSeek 微调版与原版输出效果 10. 基于评测结果优化微调与业务落地建议