求知
文章
文库
Lib
视频
iPerson
课程
认证
咨询
工具
讲座
Model Center
汽车系统工程
模型库
会员
找课
开班计划
|
认证培训
|
技术学院
|
管理学院
|
嵌入式学院
|
机械
|
军工学院
|
定向培养
|
专家指导
|
角色培养
电话
English
成功案例
品质保证
成功案例
中国电信 大模型核心技术RA
中国船舶 AI大模型辅助软件
某公募基 金融领域的AI大模
某著名通 AI大模型全栈工程
某车企 AI大模型应用实践
某石油天 Python数据挖
某证券企 知识图谱与图数据库
更多...
相关课程
开源大模型推理、训练与部署
深度学习、目标识别强化学习
(知识图谱+图数据库)*大模型
人工智能.机器学习& PyTorch
人工智能+Python+大数据
深度学习入门与实战
知识图谱建模与应用
更多...
全部课程
>
人工智能
视觉大模型和应用与微调
15 次浏览
1 次
Schroeder
微软人工智能认证架构师,阿里云AI人工智能训练师
时间地点
:北京、上海、 深圳 根据报名开班
课程费用:
5000元/人
报公开课
要内训
企业内训:
可以根据企业需求,定制内训,详见
内训学习手册
认证方式:
培训前了解能力模型。
培训后进行能力评测:
在线考试
能力分析,给出学习建议
合格者颁发证书,作为职业技能资格证明
课程简介:
随着大模型、 RAG 、多模态与智能体技术的迅速发展,人工智能应用正在从单一对话走向知识检索、文档理解、自动分析、复杂任务执行等更高层次。要真正发挥这些技术的价值,不仅需要掌握大模型的基本原理,还需要理解知识库构建、多模态处理、智能体工作流、模型微调与评测等完整体系。
本培训围绕课程大纲,从理论到实践系统讲解大模型、 RAG 、 LangChain/LlamaIndex 、多模态( Qwen-VL )、 Agent 工作流、插件开发、模型微调及评测优化等核心技术,帮助学员构建清晰的知识框架,掌握从模型调用到实际应用落地的完整方法,具备独立构建智能应用系统的能力。
培训收益:
1. 掌握多模态大模型、RAG 与 Agent 的核心机制。
2. 能使用 LangChain/Qwen-VL 构建图文混合知识库。
3. 具备多模态智能体的设计与应用能力。
4. 能解决票据解析、文档处理等复杂业务场景。
5. 掌握多模态模型的微调、评测与部署方法。
培训对象:
各类软件企业和研发中心的程序员、软件设计师、架构师, 项目经理,业务架构师。本课程面向零图像处理方向,计算机视觉方向,智能计算方向研发人员。
学员基础:
无特殊要求
课程安排:2天
主题
课程安排
第1部分: 图像问答(VQA – Image Understanding)大纲
1. 图像问答(VQA)任务概述与典型场景解析
2. 图像加载、预处理与区域特征解析基础
3. OCR、检测、标注等视觉能力的组合使用方法
4. VQA Prompt 模板设计:问题消解与上下文控制
5. LangChain VisionChain 构建流程与调用方式
6. 图像描述、实体识别、关系提取等核心能力拆解
7. VQA 回答生成的准确性优化与错误分析
8. VQA 模型性能评估:BLEU、ROUGE、CIDEr
9. VQA 系统API化部署:调用规范与数据返回格式
10. 实战案例:复杂图表、票据与场景图片的智能问答
第2部分: 多模态 RAG(Vision-Enhanced RAG)实现
1. 多模态 RAG 基础原理与典型应用场景
2. 图像分块、Embedding 提取与检索链路解析
3. 文本与图像混合数据格式规范与结构设计
4. 使用 Unstructured + VisionLoader 构建多模态知识库
5. 多模态向量库配置:FAISS / Chroma / Milvus
6. 检索链(Retrieval Chain)与图像跨模态召回策略
7. Vision-RAG 回答生成:上下文注入与内容融合
8. 多模态 RAG 质量评估:相关性、召回率、一致性
9. 多模态 RAG 部署:API 化、服务化与扩展能力
10. 实战案例:基于产品图片与手册构建企业视觉知识库
第3部分:Qwen-VL + LangChain 多模态应用大纲
1. Qwen-VL 多模态模型原理与适用应用场景
2. 图像、OCR、表格与文档输入的数据格式规范
3. LangChain + Qwen-VL 多模态接口配置与参数解析
4. 票据、合同、截图等文档的结构化解析流程
5. 多模态 RAG:结合 Qwen-VL 构建图文混合检索链
6. 多模态 Agent:Qwen-VL 与工具调用场景设计
7. 复杂视觉任务:表格抽取、版式理解与区域定位
8. 模型输出评估:字段准确率、版式一致性、鲁棒性
9. Qwen-VL 模型服务部署:推理优化与资源利用
10. 实战案例:凭证识别、发票解析与企业文件自动处理
第4部分: 多模态 Agent(OpenAI Multi-Modal Agent)
1. 多模态智能体原理与任务协作机制
2. 图像输入的解释、理解与结构化解析流程
3. 多模态提示词模板设计:角色、目标与上下文管理
4. Vision-Agent 工具体系:搜索、数据库、计算工具
5. ReAct / ToolCalling 模式下的图像推理链路
6. 多模态 Agent 的任务规划、分步执行与自反思能力
7. Agent 行为监控与错误恢复:日志与决策追踪
8. 多模态 Agent 的评估方法:可解释性与工具调用准确率
9. 多模态 Agent 的部署:负载、并发与连接池优化
10. 实战案例:基于图片报告自动生成分析结论与图表
第5部分: 数据工程与Qwen-VL多模态微调
1. 大模型微调基础原理与常见应用场景
2. 微调数据格式解析:ShareGPT 与 Alpaca格式规范
3. 使用 EasyData 从文档自动生成 ShareGPT 格式数据集
4. 摩搭社区(ModelScope)平台介绍与模型下载流程
5. LlamaFactory 微调框架概览与环境配置
6. LoRA/QLoRA 微调参数设置与模型训练实战
7. 模型验证与性能评估:Loss、Perplexity、F1
8. 微调模型导出与转换:从 HuggingFace 到 Safetensors
9. 将微调模型上传至摩搭平台并发布推理服务
10. 实战案例:针对企业内部知识问答场景的微调实现
第6部分: 微调后模型评测、效果对比与可视化评测报告
1. OpenCompass 框架原理与安装配置
2. Benchmark 测试体系介绍:通用任务与垂直任务集
3. 微调模型的加载与评测准备(SFT / LoRA 模型)
4. 通过 OpenCompass 执行模型评测流程(命令行 + 配置文件)
5. 常用评测指标讲解:BERTScore、BLEU、ROUGE、困惑度 (Perplexity)
6. 不同类型任务的评价策略:生成类 vs 分类类
7. 微调前后模型性能对比与结果分析
8. 结果可视化与报告生成(Precision / Recall / F1 对比)
9. 实战演示:评测 DeepSeek 微调版与原版输出效果
10. 基于评测结果优化微调与业务落地建议
报公开课
要内训
15 次浏览
1 次
其他人还看了课程
AI写作技术训练营
1030 次浏览
AI 助力职场效率提升
2750 次浏览
基于AI和大数据的知识图谱培训
5115 次浏览
大数据时代人工智能应用与价值创新
907 次浏览
人工智能-图像处理和识别
3978 次浏览
Python数据分析、机器学习与人工智能
4209 次浏览
机器学习应用实践
3656 次浏览
最新活动计划
基于模型的数据治理与中台 11-11[北京]
软件架构设计方法、案例实践 11-13[北京]
AI智能化软件测试方法与实践11-20[北京]
UML与面向对象分析设计 11-25[北京]
LLM大模型与智能体开发实战 11-13[在线]
配置管理方法、实践、工具 12-11[北京]