求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center 汽车系统工程   模型库  
会员   
 
 
 
  开班计划 | 认证培训 | 技术学院 | 管理学院 | 嵌入式学院 | 机械 | 军工学院 | 定向培养 | 专家指导 | 角色培养  
 电话 English
成功案例   品质保证
成功案例
某地铁控 大数据技术与实践
中航信 数据湖架构原理与应
某医疗磁 数据采集与处理
某科技公 大数据(Hadoo
诺基亚 Python基础
天津电子 Elasticse
中国电信 数据仓库与数据挖掘

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
全部课程 >人工智能  
视觉大模型及其应用
1194 次浏览  5 次
刘老师
哈佛大学人工智能方向博后/高级访问学者,德高包豪斯大学媒体学员计算机视觉方向访问学者
前华为公司数据科学家,浙江大学计算机专业工学博士
 
时间地点:北京+在线:2026年1月30-31日;上海、 深圳 根据报名开班
课程费用:特惠价:3700元/人(原价5000元/人
报公开课  
企业内训:可以根据企业需求,定制内训,详见 内训学习手册


认证方式:
培训前了解能力模型。
培训后进行能力评测:
  • 在线考试
  • 能力分析,给出学习建议
  • 合格者颁发证书,作为职业技能资格证明


       随着视觉大模型(Vision Foundation Models)的快速发展,企业在图像识别、目标检测、OCR、图像分割等领域的研发范式正在从“传统 CNN 小模型”转向“大规模预训练视觉模型 + 少量业务适配”的新模式。本培训围绕视觉大模型的核心技术、行业平台、案例实战、私有化部署与工程化落地,为企业研发团队构建系统化的视觉智能能力框架。课程为期两天,通过“理论讲解 + 平台体验 + 三大企业级视觉案例 + 模型部署 + 数据闭环”的学习路径,使学员能够在较短时间内掌握视觉大模型技术栈,并能将其应用到企业场景中,如工业质检、票据识别、文档结构化、遥感分割等。

    课程亮点:
    1. “理论 + 企业级实战”双驱动结构:课程不仅讲技术架构,也直接以三个实战案例贯穿,让学员真正能“听得懂、跑得通、带得走”。
    2. 聚焦“视觉大模型”而非传统 CNN:课程体系严格基于 Vision Foundation Model 概念,涵盖开放词汇检测、大规模预训练、自监督等前沿方向,区别于传统 CV 教程。
    3. 三大典型企业视觉案例直接可复用:目标检测、OCR、图像分割均以可复现的开源数据集为基础,适合作为企业内部 PoC 或初期产品验证。
    4. 云端平台 + 本地部署双路径教学:既让学员掌握云端视觉平台的快速开发方式,也讲解如何做离线私有化部署,满足金融/制造等行业对数据安全的要求。
    5. 强工程化落地导向:包含 API 封装、推理服务化、显卡资源评估、灰度发布与回滚等工程实践内容,让视觉模型不仅能训练,更能上线使用。
    6. 系统性的评估与数据闭环方法:教会学员打造模型评估体系、构建真实测试集、设计线上数据反馈管道,实现“视觉系统持续进化”。
    7. 面向企业自研团队的知识体系构建:课程帮助技术团队在视觉大模型时代建立统一的技术语言与工程方法,加速企业视觉能力的建设与迭代。
    培训目标:
    本课程旨在帮助企业研发人员、架构师、计算机视觉工程师达到以下目标:
    1. 了解视觉大模型的基础知识与技术架构
    2. 熟悉国内外主流视觉大模型平台与生态
    3. 快速构建企业级视觉应用 Demo
    4. 掌握本地部署与私有化视觉模型的流程
    5. 能完成三个典型企业级视觉案例落地,包括:
       1) 目标检测大模型案例(基于开源如 OWL-ViT、YOLO-World、Grounding DINO 等)
       2) 开源OCR大模型的文档/票据识别案例(基于百度Paddle OCR等)
       3) 图像分割大模型案例(基于SAM等)
    6. 掌握视觉系统工程化、评估与数据闭环方法:能建立视觉模型评估体系,设计线上监控与数据闭环机制,理解如何将视觉能力融入企业系统架构。
    培训对象: 计算机视觉应用开发工程师
    学员基础:了解计算机视觉的基础知识
    课程安排:2天

    安排
    主题
    1. 视觉大模型核心技术与发展脉络
    1.1 从经典 CNN 到 ViT:视觉模型的架构演进
    1.2 自监督与对比学习:视觉大模型的预训练范式
    1.3 视觉基础模型(Vision Foundation Model)的概念与特征
    1.4 典型开放模型谱系:CLIP / DINO / SAM / 视觉 LLaMA 等
    1.5 视觉大模型与多模态大模型的关系
    2. 国内外在线视觉大模型平台与生态格局
    2.1 国际云厂商的视觉基础能力:Vision / Rekognition / Vision AI 等
    2.2 国内云平台的视觉能力布局与产品形态
    2.3 平台能力的共性:分类、检测、分割、OCR 与向量检索
    2.4 差异化能力:视频理解、3D 视觉与行业模型
    2.5 企业选择在线视觉平台时的考量因素
    3. 在线视觉大模型平台实战:从零到第一个企业 Demo 3.1 平台账号开通与 API 凭证管理
    3.2 最小可行 Demo:一张图到一个预测结果
    3.3 通过参数与配置控制模型行为与性能
    3.4 将视觉接口嵌入现有业务系统
    3.5 常见错误与排查思路:超时、限流与异常结果
    4. 本地部署与私有化视觉大模型服务实践 4.1 何时需要本地部署:成本、安全与实时性考量
    4.2 选择合适的开源视觉大模型与框架
    4.3 从模型权重到推理服务:容器化与 REST API 封装
    4.4 资源评估与部署形态:GPU、CPU 与边缘设备
    4.5 模型更新与版本管理:灰度发布与回滚
    5. 企业级目标检测应用案例:从业务需求到模型上线 5.1 场景选择与需求定义:以工业质检等为例
    5.2 数据采集与标注规范:标框策略与类别体系设计
    5.3 基于预训练检测大模型的微调流程
    5.4 离线评估与在线 A/B 对比:精度、召回与误报
    5.5 业务集成与闭环:从检测结果到业务决策
    6. 企业级 OCR 应用案例:票据 / 文档智能识别与结构化 6.1 典型 OCR 场景梳理:票据、合同、报表与证照
    6.2 从文本检测到文本识别:OCR 技术流程拆解
    6.3 利用现成在线 OCR 接口快速搭建识别服务
    6.4 基于模板与规则的后处理与校验
    6.5 进阶:针对特定票据 / 文档格式做定制化模型与策略
    7. 企业级图像分割应用案例:缺陷 / 医疗 / 遥感等场景实践 7.1 图像分割任务类型:语义分割、实例分割与全景分割
    7.2 场景设定:以工业缺陷区域标注或医学区域分割为例
    7.3 分割数据集构建与标注工具使用
    7.4 利用预训练分割模型进行微调与推理部署
    7.5 分割结果在业务中的可视化与决策支撑
    8. 视觉大模型的效果评估、数据闭环与业务系统集成
    8.1 不同任务下的评估指标体系:分类、检测、分割与 OCR
    8.2 标准数据集与自有测试集的构建原则
    8.3 线上监控与反馈:从模型效果到用户体验
    8.4 数据闭环与持续迭代:主动学习与难例重训
    8.5 与企业架构集成:微服务、消息队列与权限管理
       
    1194 次浏览  5 次
    其他人还看了课程
    AI写作技术训练营  1162 次浏览
    AI 助力职场效率提升  2897 次浏览
    基于AI和大数据的知识图谱培训  5291 次浏览
    大数据时代人工智能应用与价值创新  1037 次浏览
    人工智能-图像处理和识别  4253 次浏览
    Python数据分析、机器学习与人工智能  4405 次浏览
    机器学习应用实践  3792 次浏览
    定制内训


    最新活动计划
    企业架构助力业务与IT协作 1-17[在线]
    LLM大模型与智能体开发实战 1-17[在线]
    AI大模型编写高质量代码 1-14[在线]
    AI原生应用的微服务架构 1-22[在线]
    需求分析与管理 1-22[北京]
    视觉大模型及其应用 1-30[在线]
    UAF与企业架构 2-3[北京]