求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center 汽车系统工程   模型库  
会员   
 
 
 
  开班计划 | 认证培训 | 技术学院 | 管理学院 | 嵌入式学院 | 机械 | 军工学院 | 定向培养 | 专家指导 | 角色培养  
 电话 English
成功案例   品质保证
成功案例
中国电信 大模型核心技术RA
中国船舶 AI大模型辅助软件
某公募基 金融领域的AI大模
某著名通 AI大模型全栈工程
某车企 AI大模型应用实践
某石油天 Python数据挖
某证券企 知识图谱与图数据库

相关课程  
开源大模型推理、训练与部署
深度学习、目标识别强化学习
(知识图谱+图数据库)*大模型
人工智能.机器学习& PyTorch
人工智能+Python+大数据
深度学习入门与实战
知识图谱建模与应用
 
全部课程 >人工智能  
视觉大模型和应用与微调
15 次浏览  1 次
Schroeder
微软人工智能认证架构师,阿里云AI人工智能训练师
 
时间地点:北京、上海、 深圳 根据报名开班
课程费用:5000元/人
报公开课  
企业内训:可以根据企业需求,定制内训,详见 内训学习手册


认证方式:
培训前了解能力模型。
培训后进行能力评测:
  • 在线考试
  • 能力分析,给出学习建议
  • 合格者颁发证书,作为职业技能资格证明


    课程简介:

           随着大模型、 RAG 、多模态与智能体技术的迅速发展,人工智能应用正在从单一对话走向知识检索、文档理解、自动分析、复杂任务执行等更高层次。要真正发挥这些技术的价值,不仅需要掌握大模型的基本原理,还需要理解知识库构建、多模态处理、智能体工作流、模型微调与评测等完整体系。
           本培训围绕课程大纲,从理论到实践系统讲解大模型、 RAG 、 LangChain/LlamaIndex 、多模态( Qwen-VL )、 Agent 工作流、插件开发、模型微调及评测优化等核心技术,帮助学员构建清晰的知识框架,掌握从模型调用到实际应用落地的完整方法,具备独立构建智能应用系统的能力。

    培训收益:

    1. 掌握多模态大模型、RAG 与 Agent 的核心机制。
    2. 能使用 LangChain/Qwen-VL 构建图文混合知识库。
    3. 具备多模态智能体的设计与应用能力。
    4. 能解决票据解析、文档处理等复杂业务场景。
    5. 掌握多模态模型的微调、评测与部署方法。
    培训对象:

    各类软件企业和研发中心的程序员、软件设计师、架构师, 项目经理,业务架构师。本课程面向零图像处理方向,计算机视觉方向,智能计算方向研发人员。
    学员基础:

    无特殊要求
    课程安排:2天
    主题 课程安排
    第1部分: 图像问答(VQA – Image Understanding)大纲 1. 图像问答(VQA)任务概述与典型场景解析
    2. 图像加载、预处理与区域特征解析基础
    3. OCR、检测、标注等视觉能力的组合使用方法
    4. VQA Prompt 模板设计:问题消解与上下文控制
    5. LangChain VisionChain 构建流程与调用方式
    6. 图像描述、实体识别、关系提取等核心能力拆解
    7. VQA 回答生成的准确性优化与错误分析
    8. VQA 模型性能评估:BLEU、ROUGE、CIDEr
    9. VQA 系统API化部署:调用规范与数据返回格式
    10. 实战案例:复杂图表、票据与场景图片的智能问答
    第2部分: 多模态 RAG(Vision-Enhanced RAG)实现 1. 多模态 RAG 基础原理与典型应用场景
    2. 图像分块、Embedding 提取与检索链路解析
    3. 文本与图像混合数据格式规范与结构设计
    4. 使用 Unstructured + VisionLoader 构建多模态知识库
    5. 多模态向量库配置:FAISS / Chroma / Milvus
    6. 检索链(Retrieval Chain)与图像跨模态召回策略
    7. Vision-RAG 回答生成:上下文注入与内容融合
    8. 多模态 RAG 质量评估:相关性、召回率、一致性
    9. 多模态 RAG 部署:API 化、服务化与扩展能力
    10. 实战案例:基于产品图片与手册构建企业视觉知识库
    第3部分:Qwen-VL + LangChain 多模态应用大纲 1. Qwen-VL 多模态模型原理与适用应用场景
    2. 图像、OCR、表格与文档输入的数据格式规范
    3. LangChain + Qwen-VL 多模态接口配置与参数解析
    4. 票据、合同、截图等文档的结构化解析流程
    5. 多模态 RAG:结合 Qwen-VL 构建图文混合检索链
    6. 多模态 Agent:Qwen-VL 与工具调用场景设计
    7. 复杂视觉任务:表格抽取、版式理解与区域定位
    8. 模型输出评估:字段准确率、版式一致性、鲁棒性
    9. Qwen-VL 模型服务部署:推理优化与资源利用
    10. 实战案例:凭证识别、发票解析与企业文件自动处理
    第4部分: 多模态 Agent(OpenAI Multi-Modal Agent) 1. 多模态智能体原理与任务协作机制
    2. 图像输入的解释、理解与结构化解析流程
    3. 多模态提示词模板设计:角色、目标与上下文管理
    4. Vision-Agent 工具体系:搜索、数据库、计算工具
    5. ReAct / ToolCalling 模式下的图像推理链路
    6. 多模态 Agent 的任务规划、分步执行与自反思能力
    7. Agent 行为监控与错误恢复:日志与决策追踪
    8. 多模态 Agent 的评估方法:可解释性与工具调用准确率
    9. 多模态 Agent 的部署:负载、并发与连接池优化
    10. 实战案例:基于图片报告自动生成分析结论与图表
    第5部分: 数据工程与Qwen-VL多模态微调 1. 大模型微调基础原理与常见应用场景
    2. 微调数据格式解析:ShareGPT 与 Alpaca格式规范
    3. 使用 EasyData 从文档自动生成 ShareGPT 格式数据集
    4. 摩搭社区(ModelScope)平台介绍与模型下载流程
    5. LlamaFactory 微调框架概览与环境配置
    6. LoRA/QLoRA 微调参数设置与模型训练实战
    7. 模型验证与性能评估:Loss、Perplexity、F1
    8. 微调模型导出与转换:从 HuggingFace 到 Safetensors
    9. 将微调模型上传至摩搭平台并发布推理服务
    10. 实战案例:针对企业内部知识问答场景的微调实现
    第6部分: 微调后模型评测、效果对比与可视化评测报告 1. OpenCompass 框架原理与安装配置
    2. Benchmark 测试体系介绍:通用任务与垂直任务集
    3. 微调模型的加载与评测准备(SFT / LoRA 模型)
    4. 通过 OpenCompass 执行模型评测流程(命令行 + 配置文件)
    5. 常用评测指标讲解:BERTScore、BLEU、ROUGE、困惑度 (Perplexity)
    6. 不同类型任务的评价策略:生成类 vs 分类类
    7. 微调前后模型性能对比与结果分析
    8. 结果可视化与报告生成(Precision / Recall / F1 对比)
    9. 实战演示:评测 DeepSeek 微调版与原版输出效果
    10. 基于评测结果优化微调与业务落地建议
       
    15 次浏览  1 次
    其他人还看了课程
    AI写作技术训练营  1030 次浏览
    AI 助力职场效率提升  2750 次浏览
    基于AI和大数据的知识图谱培训  5115 次浏览
    大数据时代人工智能应用与价值创新  907 次浏览
    人工智能-图像处理和识别  3978 次浏览
    Python数据分析、机器学习与人工智能  4209 次浏览
    机器学习应用实践  3656 次浏览
    定制内训


    最新活动计划
    基于模型的数据治理与中台 11-11[北京]
    软件架构设计方法、案例实践 11-13[北京]
    AI智能化软件测试方法与实践11-20[北京]
    UML与面向对象分析设计 11-25[北京]
    LLM大模型与智能体开发实战 11-13[在线]
    配置管理方法、实践、工具 12-11[北京]