安排
|
主题 |
环境配置与 OpenCV 基础操作 |
Python/VS Code 与 OpenCV 环境 |
• 安装 Python 3.10+ 与 VS Code,并配置基础插件
• 创建虚拟环境(conda/venv),激活与切换
• 安装 OpenCV/opencv-contrib 并固定版本
• 验证导入与版本(cv2.__version__)与最小示例
• 核对 CUDA/cuDNN/驱动 兼容矩阵
• 协调 PyTorch 与 OpenCV 依赖,避免冲突
• 配置 VS Code 调试(launch.json/tasks.json)
• 使用 Jupyter/Notebook 与多内核管理
• 项目脚手架:src/data/notebooks/tests 结构
• 导出/锁定依赖(requirements.txt/conda env) |
图像/视频 I/O 与窗口管理 |
• 读取/保存图像(imread/imwrite)与路径规范
• 显示/交互(imshow/waitKey/destroyAllWindows)
• 颜色空间转换(cvtColor:BGR↔RGB/GRAY/HSV)
• 大图惰性读取与内存优化策略
• 视频读取(VideoCapture)编解码器设置
• 帧提取与采样,帧时间戳与丢帧处理
• 视频写入(VideoWriter)宽高/帧率/码率设置
• ROI 选择(selectROI)与切片操作
• 批量文件遍历(glob/Pathlib)与过滤
• I/O 异常与容错(try/except 与日志) |
像素处理与图像增强 |
• 激活函数曲线形态:饱和区与可导性影响训练
• Dropout 机理:训练/推理时的缩放差异
• 权重衰减与 L2:抑制过拟合的原理
• BatchNorm/LayerNorm:归一化位置与效果
• 数据增广与早停:提升泛化与防止过拟合 |
几何变换与形态学 |
• 仿射变换:平移/旋转/缩放/错切(warpAffine)
• 透视变换:四点定位与 warpPerspective
• 结构元素:矩形/椭圆/十字的选择与构造
• 腐蚀/膨胀:去噪与连通性调整
• 开运算/闭运算:小目标/孔洞处理
• 梯度/顶帽/黑帽:边缘与背景抽取
• 轮廓查找(findContours)与多边形近似
• 霍夫直线/圆检测:参数调优与鲁棒性
• 连通域(connectedComponentsWithStats)统计
• 最小外接矩形/圆/椭圆拟合与可视化 |
特征与基础识别 |
• 角点检测(Harris/Shi-Tomasi)原理与实现
• 关键点(ORB/AKAZE/BRISK)检测与筛选
• 描述子匹配(BFMatcher/FLANN)与交叉验证
• 模板匹配(matchTemplate)多方法对比
• 颜色模型与 HSV 直方图相似度匹配
• 边缘/形状近似与多边形拟合
• 光流跟踪:LK 稀疏/稠密的差异与应用
• MeanShift/CamShift 简单目标跟踪
• OCR 接口(Tesseract)快速接入体验 |
项目案例 |
• 实时眼镜检测
• 耳朵检测
• 皱纹检测
• 缺陷检测
• 光流法目标跟踪
• 医学图像增强等 |
OpenCV 高级操作 |
人脸检测与特征点定位 |
• Haar/DNN/RetinaFace 人脸检测效果对比
• dlib HOG+SVM 检测流程与参数
• 特征点预测(68/5 点)与稳定性处理
• 人脸对齐与归一化(仿射/相似变换)
• 表情/姿态/遮挡的鲁棒性增强
• 多人脸追踪与 ID 关联策略
• 人脸质量评估:模糊/曝光/遮挡评分
• 口罩/安全帽等扩展检测案例
• 摄像头实时 pipeline 与延迟优化
• 隐私与合规:人脸马赛克与脱敏处理 |
相机标定与几何校正 |
• 采集策略:棋盘格大小、角点数量与覆盖面
• Zhang 法估计内参/畸变系数
• 畸变校正与 undistortRectifyMap
• 位姿估计(solvePnP)与坐标系定义
• 单应矩阵与平面映射(透视矫正)
• 鸟瞰图生成与道路/产线视角校正
• 重投影误差与精度评估
• 双目标定/极线校正与视差获取
• 外参漂移与复标定策略
• 工业场景的标定注意事项与验收 |
频域分析与纹理特征 |
• DFT/FFT 频谱计算与可视化
• 理想/巴特沃斯/高斯 高低通滤波器设计
• 频域去噪与锐化的取舍
• Gabor 滤波器在纹理响应中的作用
• LBP/Haralick 经典纹理特征提取
• 小波变换与多尺度表示简介
• 频域模板匹配与相关性分析
• 纹理分割与聚类(KMeans/分水岭)
• 纹理+颜色联合特征工程
• 频域运算的性能优化与精度权衡 |
视频对象分析与跟踪 |
• 背景建模(MOG2/KNN)与前景分割
• 形态学后处理与噪声清理
• KLT 角点跟踪与特征更新
• 稠密光流(Farneback)与运动场分析
• 基于检测的跟踪(DeepSORT)管线
• 相关滤波器跟踪(CSRT/MOSSE)对比
• 丢失恢复与轨迹平滑方法
• 跨帧匹配与 ID 保持策略
• 行为/事件的简易识别思路
• 视频 I/O 带宽与缓存优化 |
特征匹配与图像融合 |
• SIFT/SURF/ORB 选择与场景适配
• 尺度/旋转不变性的来源与限制
• 匹配策略:FLANN/暴力匹配与阈值设置
• RANSAC 外点剔除与模型稳健性
• 估计单应/本质/基础矩阵的差别
• 全景拼接 pipeline:检测→匹配→估计→融合
• 曝光补偿、缝合与曲线融合技巧
• 多视角图像注册与重采样
• 关键点可视化与调参套路
• 跨传感器/跨模态匹配的挑战 |
项目案例 |
• 实时视线跟踪
• 手部关键点实时跟踪 |
深度学习(视觉方向) |
视觉深度学习与框架选型 |
• CNN/ViT/ConvNeXt 结构概览与适用任务
• 数据集组织与 DataLoader 性能优化
• 优化策略:学习率调度与权重衰减
• 正则化/归一化:Dropout/BN/LN 对比
• 迁移学习:冻结/解冻与层选择
• AMP 混合精度训练与显存节省
• 多卡分布式训练(DDP)要点
• 实验追踪:TensorBoard/Weights&Biases
• 可复现性:随机种子与确定性设置
• 训练异常排查:梯度爆炸/发散/过拟合 |
图像分类与检测 |
• 分类基线:ResNet/EfficientNet 训练流程
• 数据增强:RandAug/Mixup/CutMix 实效
• 类不平衡:重采样/加权损失/焦点损失
• 目标检测:YOLOv5/YOLOv8/RT-DETR 对比
• 锚框与无锚框的差异与调参
• 评估指标:mAP/PR 曲线与错误分析
• 小目标/密集场景的召回优化
• 半监督/伪标签的质量控制
• 部署:导出 ONNX/TensorRT 加速 |
图像分割与定位 |
• 任务区分:语义/实例/全景分割
• 模型选择:U-Net/DeepLab/SegFormer
• 标注与格式:COCO/Mask/类别权重
• 边界误差与细粒度目标处理
• 指标:Dice/IoU/Fβ 的选择与解读
• 轻量分割:BiSeNet/ICNet
• 弱监督与伪掩码生成方法
• 后处理:CRF/形态学与连通域
• 可视化:Grad-CAM/类激活映射
• 上线压测:延迟/吞吐与缓存 |
目标跟踪与视频分析 |
• SiamFC/SiamRPN/TransT 跟踪框架
• ReID 特征用于多目标关联
• 运动检测与跟踪融合策略
• 时序模型:TSM/SlowFast 简介
• 动作识别/视频分类入门
• 数据切片与时序标注要点
• 实时性优化:推理流水与批处理
• 短缺帧/掉帧与同步问题处理
• 评估:MOTA/MOTP/IDF1
• 部署:GStreamer/DeepStream 管线 |
轻量化与部署 |
• 压缩:剪枝/稀疏化的收益与风险
• 蒸馏:Teacher-Student 结构设计
• 量化:PTQ/QAT 的精度-性能权衡
• 导出:ONNX 静态图与兼容性检查
• 加速:TensorRT Engine 构建与调优
• 端侧:NCNN/TFLite 在移动/边缘部署
• 服务化:FastAPI/Triton Inference Server
• 可观测:日志/指标/追踪一体化
• SLA/SLO:目标设定与报警阈值
• 成本:算力核算与弹性伸缩策略 |
项目案例 |
• 增强现实下物体交互识别
• 抠图处理
• 目标去除
• 端侧目标检测模型训练与部署 |
多模态大模型(视觉聚焦) |
视觉多模态概念与价值 |
• 视觉-文本对齐的任务版图
• CLIP 对比学习的核心原理
• 图像描述与视觉问答(VQA)能力
• 多模态检索与重排的基本流程
• 安全/幻觉/偏见风险识别
• 评测基准:VQAv2/COCO Caption 等
• 企业应用映射与价值评估
• 数据隐私与合规边界
• 常见失败模式与兜底策略
• 路线图:从 Demo 到生产化 |
开源多模态部署(4090 环境) |
• 部署 LLaVA/Qwen-VL 的推理服务
• BLIP-2 组件化集成与对比
• 模型权重下载与校验(SHA/版本)
• 图像编码器(ViT)选择与剪裁
• 上下文长度与图片分辨率的权衡
• 批处理 + KV 缓存的吞吐优化
• 显存占用与 INT8/FP8 量化
• 统一 API 封装与鉴权
• 评测数据集与自动脚本
• Demo 打包与演示规范 |
轻量多模态实验(笔记本环境) |
• MiniGPT-4/BLIP-2 Tiny 的本地运行
• CPU/GPU 切换与简易加速
• Few-shot 小样本任务适配
• LoRA 低资源微调实践
• 半自动图像标注与数据扩充
• 轻量前端(Gradio)快速交互
• 资源监控与限速策略
• 输出质量对标与错误分析
• 日志采集与异常恢复
• 教学/实验模板的沉淀 |
典型视觉应用 |
• 商品识别与属性解析流程
• 票据/合同 OCR + 语义理解
• 缺陷描述生成与返工建议
• 视觉搜索/相似检索系统
• 摄像头画面的问答理解
• 多模态检索增强(RAG)实践
• 现场图像记录与审核流转
• 资产盘点与条码/Logo 识别
• 合规模板与提示词编写
• 成功/失败案例复盘机制 |
模型优化与扩展 |
• 向量库(FAISS/Milvus)接入与路由
• 图像嵌入的存储与更新策略
• Prompt 模板化与自动解析
• LoRA/Adapter 训练流水线
• 量化/蒸馏的性能提升路径
• 检索召回与重排优化
• 成本监控与熔断/降级策略
• 可观测:日志/指标/追踪闭环
• 安全红队脚本与防越狱
• 部署 Runbook/SOP 与演练 |
课程总结与答疑 |