求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center 汽车系统工程   模型库  
会员   
 
 
 
  开班计划 | 认证培训 | 技术学院 | 管理学院 | 嵌入式学院 | 机械 | 军工学院 | 定向培养 | 专家指导 | 角色培养  
 电话 English
成功案例   品质保证
成功案例
中航信 数据湖架构原理与应
某医疗磁 数据采集与处理
某科技公 大数据(Hadoo
诺基亚 Python基础
天津电子 Elasticse
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
全部课程 >人工智能  
计算机视觉应用实践
76 次浏览  1 次
刘老师
哈佛大学人工智能方向博后/高级访问学者,德高包豪斯大学媒体学员计算机视觉方向访问学者
前华为公司数据科学家,浙江大学计算机专业工学博士
 
时间地点:北京、上海、 深圳 根据报名开班
课程费用:5000元/人
报公开课  
企业内训:可以根据企业需求,定制内训,详见 内训学习手册


认证方式:
培训前了解能力模型。
培训后进行能力评测:
  • 在线考试
  • 能力分析,给出学习建议
  • 合格者颁发证书,作为职业技能资格证明


       计算机视觉是企业智能化转型的关键能力,广泛应用于质量检验、安防监控、零售识别、物流计数与文档影像解析等场景。本课程以 工程落地 为导向,采用 OpenCV + Python 为基础,结合 PyTorch 等 深度视觉方法,系统覆盖从环境搭建、图像 / 视频处理与几何变换、特征与检测 / 分割 / 跟踪,到部署与优化的完整流程。课程强调可复现与可维护 : VS Code 开发体验、 Conda/Poetry 依赖管理、 CUDA/ 驱动版本匹配、 Docker/K8s 部署,以及性能与成本权衡( ONNX/TensorRT/ 边缘设备)。

    课程亮点:
        1. 工程落地优先:以企业真实需求为牵引,按“数据→算法→评测→部署→监控”闭环设计,产出可直接复用的脚手架与SOP。
        2. 双线实战:经典CV × 深度视觉:OpenCV/dlib 完成几何与特征任务;YOLO/UNet/ViT 等完成检测、分割与跟踪,实现“能用+好用”。
        3. 环境与工具链到位:VS Code 调试、Conda/Docker 复现、CUDA/cuDNN 版本兼容矩阵,提供“一键环境检查与基准脚本”
        4. 企业级案例驱动:覆盖制造质检、零售货架识别、安防与人员行为分析、票据/表格影像解析,配合数据标注与评测方案。
        5. 部署选型与成本优化:ONNX/TensorRT 加速、批处理与并发策略、边缘/本地私有化部署与监控告警,形成可量化的 SLA/SLO。
    培训目标:
        1. 掌握环境搭建与兼容性管理:能独立完成 Python/OpenCV/PyTorch 安装配置,熟悉 GPU 驱动、依赖管理与容器化复现。
        2. 熟练进行图像/视频与几何处理:掌握像素与通道操作、阈值化、滤波与直方图、仿射/透视与形态学、轮廓/连通域等核心技能。
        3. 构建主流视觉模型并完成调优:能基于迁移学习实现分类、检测(YOLO 等)、分割(U-Net/DeepLab)、跟踪(DeepSORT/KLT)并进行评测与优化。
        4. 完成端到端项目流程:从数据采集与标注、训练与验证、A/B 与回归评测,到上线交付与运行文档,形成标准化流水线。
        5. 做出部署与运营决策:根据数据敏感度、延迟与并发、算力成本等因素,选择本地/边缘部署与加速方案,建立监控、告警与成本看板。
    培训对象: 计算机视觉应用开发工程师
    学员基础:了解计算机视觉的基础知识
    课程安排:2天

    安排
    主题
    环境配置与 OpenCV 基础操作
    Python/VS Code 与 OpenCV 环境
    • 安装 Python 3.10+ 与 VS Code,并配置基础插件
    • 创建虚拟环境(conda/venv),激活与切换
    • 安装 OpenCV/opencv-contrib 并固定版本
    • 验证导入与版本(cv2.__version__)与最小示例
    • 核对 CUDA/cuDNN/驱动 兼容矩阵
    • 协调 PyTorch 与 OpenCV 依赖,避免冲突
    • 配置 VS Code 调试(launch.json/tasks.json)
    • 使用 Jupyter/Notebook 与多内核管理
    • 项目脚手架:src/data/notebooks/tests 结构
    • 导出/锁定依赖(requirements.txt/conda env)
    图像/视频 I/O 与窗口管理
    • 读取/保存图像(imread/imwrite)与路径规范
    • 显示/交互(imshow/waitKey/destroyAllWindows)
    • 颜色空间转换(cvtColor:BGR↔RGB/GRAY/HSV)
    • 大图惰性读取与内存优化策略
    • 视频读取(VideoCapture)编解码器设置
    • 帧提取与采样,帧时间戳与丢帧处理
    • 视频写入(VideoWriter)宽高/帧率/码率设置
    • ROI 选择(selectROI)与切片操作
    • 批量文件遍历(glob/Pathlib)与过滤
    • I/O 异常与容错(try/except 与日志)
    像素处理与图像增强 • 激活函数曲线形态:饱和区与可导性影响训练
    • Dropout 机理:训练/推理时的缩放差异
    • 权重衰减与 L2:抑制过拟合的原理
    • BatchNorm/LayerNorm:归一化位置与效果
    • 数据增广与早停:提升泛化与防止过拟合
    几何变换与形态学 • 仿射变换:平移/旋转/缩放/错切(warpAffine)
    • 透视变换:四点定位与 warpPerspective
    • 结构元素:矩形/椭圆/十字的选择与构造
    • 腐蚀/膨胀:去噪与连通性调整
    • 开运算/闭运算:小目标/孔洞处理
    • 梯度/顶帽/黑帽:边缘与背景抽取
    • 轮廓查找(findContours)与多边形近似
    • 霍夫直线/圆检测:参数调优与鲁棒性
    • 连通域(connectedComponentsWithStats)统计
    • 最小外接矩形/圆/椭圆拟合与可视化
    特征与基础识别 • 角点检测(Harris/Shi-Tomasi)原理与实现
    • 关键点(ORB/AKAZE/BRISK)检测与筛选
    • 描述子匹配(BFMatcher/FLANN)与交叉验证
    • 模板匹配(matchTemplate)多方法对比
    • 颜色模型与 HSV 直方图相似度匹配
    • 边缘/形状近似与多边形拟合
    • 光流跟踪:LK 稀疏/稠密的差异与应用
    • MeanShift/CamShift 简单目标跟踪
    • OCR 接口(Tesseract)快速接入体验
    项目案例 • 实时眼镜检测
    • 耳朵检测
    • 皱纹检测
    • 缺陷检测
    • 光流法目标跟踪
    • 医学图像增强等
    OpenCV 高级操作
    人脸检测与特征点定位 • Haar/DNN/RetinaFace 人脸检测效果对比
    • dlib HOG+SVM 检测流程与参数
    • 特征点预测(68/5 点)与稳定性处理
    • 人脸对齐与归一化(仿射/相似变换)
    • 表情/姿态/遮挡的鲁棒性增强
    • 多人脸追踪与 ID 关联策略
    • 人脸质量评估:模糊/曝光/遮挡评分
    • 口罩/安全帽等扩展检测案例
    • 摄像头实时 pipeline 与延迟优化
    • 隐私与合规:人脸马赛克与脱敏处理
    相机标定与几何校正
    • 采集策略:棋盘格大小、角点数量与覆盖面
    • Zhang 法估计内参/畸变系数
    • 畸变校正与 undistortRectifyMap
    • 位姿估计(solvePnP)与坐标系定义
    • 单应矩阵与平面映射(透视矫正)
    • 鸟瞰图生成与道路/产线视角校正
    • 重投影误差与精度评估
    • 双目标定/极线校正与视差获取
    • 外参漂移与复标定策略
    • 工业场景的标定注意事项与验收
    频域分析与纹理特征 • DFT/FFT 频谱计算与可视化
    • 理想/巴特沃斯/高斯 高低通滤波器设计
    • 频域去噪与锐化的取舍
    • Gabor 滤波器在纹理响应中的作用
    • LBP/Haralick 经典纹理特征提取
    • 小波变换与多尺度表示简介
    • 频域模板匹配与相关性分析
    • 纹理分割与聚类(KMeans/分水岭)
    • 纹理+颜色联合特征工程
    • 频域运算的性能优化与精度权衡
    视频对象分析与跟踪 • 背景建模(MOG2/KNN)与前景分割
    • 形态学后处理与噪声清理
    • KLT 角点跟踪与特征更新
    • 稠密光流(Farneback)与运动场分析
    • 基于检测的跟踪(DeepSORT)管线
    • 相关滤波器跟踪(CSRT/MOSSE)对比
    • 丢失恢复与轨迹平滑方法
    • 跨帧匹配与 ID 保持策略
    • 行为/事件的简易识别思路
    • 视频 I/O 带宽与缓存优化
    特征匹配与图像融合 • SIFT/SURF/ORB 选择与场景适配
    • 尺度/旋转不变性的来源与限制
    • 匹配策略:FLANN/暴力匹配与阈值设置
    • RANSAC 外点剔除与模型稳健性
    • 估计单应/本质/基础矩阵的差别
    • 全景拼接 pipeline:检测→匹配→估计→融合
    • 曝光补偿、缝合与曲线融合技巧
    • 多视角图像注册与重采样
    • 关键点可视化与调参套路
    • 跨传感器/跨模态匹配的挑战
    项目案例 • 实时视线跟踪
    • 手部关键点实时跟踪
    深度学习(视觉方向)
    视觉深度学习与框架选型 • CNN/ViT/ConvNeXt 结构概览与适用任务
    • 数据集组织与 DataLoader 性能优化
    • 优化策略:学习率调度与权重衰减
    • 正则化/归一化:Dropout/BN/LN 对比
    • 迁移学习:冻结/解冻与层选择
    • AMP 混合精度训练与显存节省
    • 多卡分布式训练(DDP)要点
    • 实验追踪:TensorBoard/Weights&Biases
    • 可复现性:随机种子与确定性设置
    • 训练异常排查:梯度爆炸/发散/过拟合
    图像分类与检测
    • 分类基线:ResNet/EfficientNet 训练流程
    • 数据增强:RandAug/Mixup/CutMix 实效
    • 类不平衡:重采样/加权损失/焦点损失
    • 目标检测:YOLOv5/YOLOv8/RT-DETR 对比
    • 锚框与无锚框的差异与调参
    • 评估指标:mAP/PR 曲线与错误分析
    • 小目标/密集场景的召回优化
    • 半监督/伪标签的质量控制
    • 部署:导出 ONNX/TensorRT 加速
    图像分割与定位 • 任务区分:语义/实例/全景分割
    • 模型选择:U-Net/DeepLab/SegFormer
    • 标注与格式:COCO/Mask/类别权重
    • 边界误差与细粒度目标处理
    • 指标:Dice/IoU/Fβ 的选择与解读
    • 轻量分割:BiSeNet/ICNet
    • 弱监督与伪掩码生成方法
    • 后处理:CRF/形态学与连通域
    • 可视化:Grad-CAM/类激活映射
    • 上线压测:延迟/吞吐与缓存
    目标跟踪与视频分析 • SiamFC/SiamRPN/TransT 跟踪框架
    • ReID 特征用于多目标关联
    • 运动检测与跟踪融合策略
    • 时序模型:TSM/SlowFast 简介
    • 动作识别/视频分类入门
    • 数据切片与时序标注要点
    • 实时性优化:推理流水与批处理
    • 短缺帧/掉帧与同步问题处理
    • 评估:MOTA/MOTP/IDF1
    • 部署:GStreamer/DeepStream 管线
    轻量化与部署 • 压缩:剪枝/稀疏化的收益与风险
    • 蒸馏:Teacher-Student 结构设计
    • 量化:PTQ/QAT 的精度-性能权衡
    • 导出:ONNX 静态图与兼容性检查
    • 加速:TensorRT Engine 构建与调优
    • 端侧:NCNN/TFLite 在移动/边缘部署
    • 服务化:FastAPI/Triton Inference Server
    • 可观测:日志/指标/追踪一体化
    • SLA/SLO:目标设定与报警阈值
    • 成本:算力核算与弹性伸缩策略
    项目案例 • 增强现实下物体交互识别
    • 抠图处理
    • 目标去除
    • 端侧目标检测模型训练与部署
    多模态大模型(视觉聚焦)
    视觉多模态概念与价值 • 视觉-文本对齐的任务版图
    • CLIP 对比学习的核心原理
    • 图像描述与视觉问答(VQA)能力
    • 多模态检索与重排的基本流程
    • 安全/幻觉/偏见风险识别
    • 评测基准:VQAv2/COCO Caption 等
    • 企业应用映射与价值评估
    • 数据隐私与合规边界
    • 常见失败模式与兜底策略
    • 路线图:从 Demo 到生产化
    开源多模态部署(4090 环境)
    • 部署 LLaVA/Qwen-VL 的推理服务
    • BLIP-2 组件化集成与对比
    • 模型权重下载与校验(SHA/版本)
    • 图像编码器(ViT)选择与剪裁
    • 上下文长度与图片分辨率的权衡
    • 批处理 + KV 缓存的吞吐优化
    • 显存占用与 INT8/FP8 量化
    • 统一 API 封装与鉴权
    • 评测数据集与自动脚本
    • Demo 打包与演示规范
    轻量多模态实验(笔记本环境) • MiniGPT-4/BLIP-2 Tiny 的本地运行
    • CPU/GPU 切换与简易加速
    • Few-shot 小样本任务适配
    • LoRA 低资源微调实践
    • 半自动图像标注与数据扩充
    • 轻量前端(Gradio)快速交互
    • 资源监控与限速策略
    • 输出质量对标与错误分析
    • 日志采集与异常恢复
    • 教学/实验模板的沉淀
    典型视觉应用 • 商品识别与属性解析流程
    • 票据/合同 OCR + 语义理解
    • 缺陷描述生成与返工建议
    • 视觉搜索/相似检索系统
    • 摄像头画面的问答理解
    • 多模态检索增强(RAG)实践
    • 现场图像记录与审核流转
    • 资产盘点与条码/Logo 识别
    • 合规模板与提示词编写
    • 成功/失败案例复盘机制
    模型优化与扩展 • 向量库(FAISS/Milvus)接入与路由
    • 图像嵌入的存储与更新策略
    • Prompt 模板化与自动解析
    • LoRA/Adapter 训练流水线
    • 量化/蒸馏的性能提升路径
    • 检索召回与重排优化
    • 成本监控与熔断/降级策略
    • 可观测:日志/指标/追踪闭环
    • 安全红队脚本与防越狱
    • 部署 Runbook/SOP 与演练
    课程总结与答疑
       
    76 次浏览  1 次
    其他人还看了课程
    人工智能、机器学习& PyTorch框架实践  290 次浏览
    大模型核心技术RAG、MCP与智能体实践  2080 次浏览
    基于R的影响预测模型建立实战  2882 次浏览
    AI大模型应用开发实践(探索未至之镜)  2343 次浏览
    大模型与智能体应用实践  1645 次浏览
    基于AI和大数据的知识图谱培训  4870 次浏览
    大模型与Sora技术应用  1435 次浏览
    定制内训


    最新活动计划
    基于 UML 和EA进行分析设计 9-9[北京]
    软件架构设计方法、案例实践 9-24[北京]
    AI辅助软件测试方法与实践 9-26[北京]
    代码质量标准与评审方法 11-6[北京]
    OCSMP认证:OCSMP-MBF 11-18[北京]
    Web应用安全、入侵检测 12-11[北京]