求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center 汽车系统工程   模型库  
会员   
 
 
 
  开班计划 | 认证培训 | 技术学院 | 管理学院 | 嵌入式学院 | 机械 | 军工学院 | 定向培养 | 专家指导 | 角色培养  
 电话 English
成功案例   品质保证
成功案例
中航信 数据湖架构原理与应
某医疗磁 数据采集与处理
某科技公 大数据(Hadoo
诺基亚 Python基础
天津电子 Elasticse
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
全部课程 >人工智能  
GPU图像处理核心技术实战
9 次浏览  1 次
章老师
图像处理专家,精通GPU编程与架构。
 
时间地点:北京、上海 深圳根据报名开班
课程费用:4800元/人
报公开课  
企业内训:可以根据企业需求,定制内训,详见 内训学习手册


认证方式:
培训前了解能力模型。
培训后进行能力评测:
  • 在线考试
  • 能力分析,给出学习建议
  • 合格者颁发证书,作为职业技能资格证明


    本课程首先讲解GPU编程基础与核心算法并行化,并进行编程实践;然后讲解性能优化与完整流程构建。

    培训目标:

    通过课程学习,可以:
    • 深入理解GPU并行计算架构与编程模型
    • 掌握CUDA(或OpenCL)编程的核心概念与流程
    • 能够将经典图像处理算法重构为并行算法,并在GPU上实现
    • 学会分析和优化GPU内核性能,规避常见陷阱
    • 了解主流GPU图像处理库(如NPP, OpenCV CUDA)的使用
    培训对象:希望将图像处理算法从CPU移植到GPU并实现加速的开发者,对高性能计算和并行计算感兴趣的技术人员
    学员基础:有一定C/C++基础
    课程特点:
    概念比喻 + 可视化演示 + 逐行代码讲解 + 指导性动手实验
    培训内容:2天

    GPU架构与CUDA编程模型 CPU与GPU架构深度对比
  • 为什么图像处理适合GPU?数据并行性
  • GPU硬件架构简析:SM、CUDA Core、内存层次(全局、共享、常量、纹理内存)
  • CUDA编程模型入门
  • 主机(Host)与设备(Device)
  • 线程层次结构:Thread, Block, Grid
  • 你的第一个CUDA程序:内存分配、数据传输、内核启动
  • 练习:
  • 配置CUDA开发环境(Nsight, VS等)
  • 编写一个简单的内核,将GPU上的数组每个元素乘以2,理解基本流程。
  • 图像处理在GPU上的实现(I) GPU上的图像表示与内存管理
  • 在GPU上存储图像数据(Pitch线性内存)
  • 使用CUDA流(Streams)实现异步传输与并发执行
  • 点操作与邻域操作的并行化
  • 点操作(如亮度调整、颜色转换):每个线程处理一个像素
  • 邻域操作(如卷积滤波):共享内存(Shared Memory)的引入与使用,解决数据复用问题
  • 实现一个高效的GPU高斯滤波器
  • 练习:
  • 实现图像反色、灰度化、对比度调整的点操作内核
  • 实现基于共享内存的3x3 Sobel边缘检测器或盒式滤波器,并与Naive版本进行性能对比
  • 图像处理在GPU上的实现(II) 全局操作的并行化
  • 并行前缀和(Scan)在直方图计算中的应用
  • 并行归约(Reduction)求图像最大值/最小值/均值
  • 纹理内存的应用
  • 纹理内存的特性:缓存、寻址模式、滤波
  • 为何纹理内存适合图像处理?在几何变换(旋转、缩放)中的应用
  • 练习:
  • 使用并行归约算法计算图像的平均亮度
  • 利用纹理内存实现一个图像旋转内核,体验其带来的便捷性与性能优势
  • 性能优化与库的使用 GPU性能分析与优化指南
  • 使用Profiler工具(如Nvidia Nsight Systems)查找性能瓶颈
  • 优化策略:最大化内存吞吐量、保证计算吞吐量、隐藏延迟
  • Occupancy(占用率)概念与优化
  • 利用现成GPU库加速开发
  • NPP:NVIDIA Performance Primitives for 图像与信号处理
  • OpenCV CUDA模块:在熟悉的OpenCV框架内调用GPU函数
  • 练习:综合实战与优化-实时图像处理管道
    多GPU与跨平台编程 多GPU计算简介
    跨平台替代方案:OpenCL
  • OpenCL与CUDA的架构与编程模型对比
  • 简介OpenCL编程流程d
  •    
    9 次浏览  1 次
    其他人还看了课程
    基于DDD领域驱动设计的AI 编程全流程演练  497 次浏览
    AI大模型核心机制原理解构与应用场景  750 次浏览
    AI驱动企业运营- AI赋能企业应用场景   1242 次浏览
    AI大模型在营销领域的应用  1498 次浏览
    AI 大模型辅助软件研发管理与效能提升  1780 次浏览
    AI工程师  5115 次浏览
    RAG与GraphRAG大模型自定义知识问答原理与实践  2833 次浏览
    定制内训


    最新活动计划
    嵌入式软件架构设计 12-11[北京]
    LLM大模型与智能体开发实战 12-18[北京]
    嵌入式软件测试 12-25[北京]
    AI原生应用的微服务架构 1-9[北京]
    AI大模型编写高质量代码 1-14[北京]
    需求分析与管理 1-22[北京]