课程：视觉大模型及其应用

咨询

成功案例

相关课程

全部课程 >人工智能

视觉大模型及其应用

56 次浏览

3 次


刘老师
哈佛大学人工智能方向博后/高级访问学者，德高包豪斯大学媒体学员计算机视觉方向访问学者前华为公司数据科学家，浙江大学计算机专业工学博士

时间地点：北京、上海、深圳根据报名开班

课程费用：5000元/人

报公开课		要内训

企业内训：可以根据企业需求,定制内训,详见内训学习手册

认证方式：
培训前了解能力模型。
培训后进行能力评测：

在线考试

能力分析，给出学习建议

合格者颁发证书，作为职业技能资格证明

随着视觉大模型（Vision Foundation Models）的快速发展，企业在图像识别、目标检测、OCR、图像分割等领域的研发范式正在从“传统 CNN 小模型”转向“大规模预训练视觉模型 + 少量业务适配”的新模式。本培训围绕视觉大模型的核心技术、行业平台、案例实战、私有化部署与工程化落地，为企业研发团队构建系统化的视觉智能能力框架。课程为期两天，通过“理论讲解 + 平台体验 + 三大企业级视觉案例 + 模型部署 + 数据闭环”的学习路径，使学员能够在较短时间内掌握视觉大模型技术栈，并能将其应用到企业场景中，如工业质检、票据识别、文档结构化、遥感分割等。

课程亮点：

1. “理论 + 企业级实战”双驱动结构：课程不仅讲技术架构，也直接以三个实战案例贯穿，让学员真正能“听得懂、跑得通、带得走”。
2. 聚焦“视觉大模型”而非传统 CNN：课程体系严格基于 Vision Foundation Model 概念，涵盖开放词汇检测、大规模预训练、自监督等前沿方向，区别于传统 CV 教程。
3. 三大典型企业视觉案例直接可复用：目标检测、OCR、图像分割均以可复现的开源数据集为基础，适合作为企业内部 PoC 或初期产品验证。
4. 云端平台 + 本地部署双路径教学：既让学员掌握云端视觉平台的快速开发方式，也讲解如何做离线私有化部署，满足金融/制造等行业对数据安全的要求。
5. 强工程化落地导向：包含 API 封装、推理服务化、显卡资源评估、灰度发布与回滚等工程实践内容，让视觉模型不仅能训练，更能上线使用。
6. 系统性的评估与数据闭环方法：教会学员打造模型评估体系、构建真实测试集、设计线上数据反馈管道，实现“视觉系统持续进化”。
7. 面向企业自研团队的知识体系构建：课程帮助技术团队在视觉大模型时代建立统一的技术语言与工程方法，加速企业视觉能力的建设与迭代。

培训目标：

本课程旨在帮助企业研发人员、架构师、计算机视觉工程师达到以下目标：
1. 了解视觉大模型的基础知识与技术架构
2. 熟悉国内外主流视觉大模型平台与生态
3. 快速构建企业级视觉应用 Demo
4. 掌握本地部署与私有化视觉模型的流程
5. 能完成三个典型企业级视觉案例落地，包括：
   1) 目标检测大模型案例（基于开源如 OWL-ViT、YOLO-World、Grounding DINO 等）
   2) 开源OCR大模型的文档/票据识别案例（基于百度Paddle OCR等）
   3) 图像分割大模型案例（基于SAM等）
6. 掌握视觉系统工程化、评估与数据闭环方法：能建立视觉模型评估体系，设计线上监控与数据闭环机制，理解如何将视觉能力融入企业系统架构。

培训对象： 计算机视觉应用开发工程师

学员基础：了解计算机视觉的基础知识

课程安排：2天

安排	主题
1. 视觉大模型核心技术与发展脉络	1.1 从经典 CNN 到 ViT：视觉模型的架构演进 1.2 自监督与对比学习：视觉大模型的预训练范式 1.3 视觉基础模型（Vision Foundation Model）的概念与特征 1.4 典型开放模型谱系：CLIP / DINO / SAM / 视觉 LLaMA 等 1.5 视觉大模型与多模态大模型的关系
2. 国内外在线视觉大模型平台与生态格局	2.1 国际云厂商的视觉基础能力：Vision / Rekognition / Vision AI 等 2.2 国内云平台的视觉能力布局与产品形态 2.3 平台能力的共性：分类、检测、分割、OCR 与向量检索 2.4 差异化能力：视频理解、3D 视觉与行业模型 2.5 企业选择在线视觉平台时的考量因素
3. 在线视觉大模型平台实战：从零到第一个企业 Demo	3.1 平台账号开通与 API 凭证管理 3.2 最小可行 Demo：一张图到一个预测结果 3.3 通过参数与配置控制模型行为与性能 3.4 将视觉接口嵌入现有业务系统 3.5 常见错误与排查思路：超时、限流与异常结果
4. 本地部署与私有化视觉大模型服务实践	4.1 何时需要本地部署：成本、安全与实时性考量 4.2 选择合适的开源视觉大模型与框架 4.3 从模型权重到推理服务：容器化与 REST API 封装 4.4 资源评估与部署形态：GPU、CPU 与边缘设备 4.5 模型更新与版本管理：灰度发布与回滚
5. 企业级目标检测应用案例：从业务需求到模型上线	5.1 场景选择与需求定义：以工业质检等为例 5.2 数据采集与标注规范：标框策略与类别体系设计 5.3 基于预训练检测大模型的微调流程 5.4 离线评估与在线 A/B 对比：精度、召回与误报 5.5 业务集成与闭环：从检测结果到业务决策
6. 企业级 OCR 应用案例：票据 / 文档智能识别与结构化	6.1 典型 OCR 场景梳理：票据、合同、报表与证照 6.2 从文本检测到文本识别：OCR 技术流程拆解 6.3 利用现成在线 OCR 接口快速搭建识别服务 6.4 基于模板与规则的后处理与校验 6.5 进阶：针对特定票据 / 文档格式做定制化模型与策略
7. 企业级图像分割应用案例：缺陷 / 医疗 / 遥感等场景实践	7.1 图像分割任务类型：语义分割、实例分割与全景分割 7.2 场景设定：以工业缺陷区域标注或医学区域分割为例 7.3 分割数据集构建与标注工具使用 7.4 利用预训练分割模型进行微调与推理部署 7.5 分割结果在业务中的可视化与决策支撑
8. 视觉大模型的效果评估、数据闭环与业务系统集成	8.1 不同任务下的评估指标体系：分类、检测、分割与 OCR 8.2 标准数据集与自有测试集的构建原则 8.3 线上监控与反馈：从模型效果到用户体验 8.4 数据闭环与持续迭代：主动学习与难例重训 8.5 与企业架构集成：微服务、消息队列与权限管理