624分钟

深度神经网络加速：cuDNN 与 TensorRT

深度学习算法商业化落地时都需要进行加速，尤其是在安防、无人驾驶环境感知等对算法速度要求较高的场景中。因此CUDA编程已成为当下AI工程师们的重要技能。尽管NVIDIA推出了CUDA，cuDNN以及Te…

登录查看更多信息

课程分类: 人工智能 | 技术开发
适用人群: 工程师, 专家, 研究员
课程标签: 深度学习,GPU加速,CUDA编程

深度学习算法商业化落地时都需要进行加速，尤其是在安防、无人驾驶环境感知等对算法速度要求较高的场景中。因此CUDA编程已成为当下AI工程师们的重要技能。尽管NVIDIA推出了CUDA，cuDNN以及TensorRT的官方文档，但对于入门者并不友好，学习效率比较低。因此，我们制作了这门课程，希望大家通过这门课程的学习，能够具备CUDA编程操作能力，使用cuDNN、TensorRT这两个当下热门的深度神经网络加速工具。

第1章 CUDA C编程及GPU基本知识 - 第1节学习认识GPU以及如何使用CUDA - 第2节 GPU编程 - 第3节 GPU编程与CUDA - 第4节 CUDA编程并行计算整体流程 - 第5节线程块：可扩展的集合体 - 第6节线程块id&线程id - 第7节并行计算实例：向量相加第2章 CUDA C编程：矩阵乘法 - 第1节为什么矩阵乘法适合GPU实现 - 第2节 sec2 矩阵乘法GPU基础实现 - 第3节矩阵乘法GPU进阶实现 - 第4节实践 - 第5节作业第3章 CUDA C编程：CUDA Stream and Envet - 第1节 sec1 CUDA Stream介绍 - 第2节 CUDA Stream为什么有效 - 第3节 CUDA Stream默认流的表现 - 第4节 CUDA Event - 第5节 CUDA 同步操作 - 第6节 NVVP 第4章 CUDA C编程：卷积实现与cudnn、cublas - 课程回顾 - 第1节 cuBLAS - 第2节 cuDNN - 第3节实践卷积神经网络第5章 TensorRT介绍 - 第1节 TensorRT是什么 - 第2节 TensorRT优化策略 - 第3节 TensorRT组成与基本使用流程 - 第4节 TensorRT Demo - 第5节编译TRT git源码sampleMNIST - 第6节 TensorRT进阶第6章 TensorRT plugin用法 - 第1节 TensorRT Plugin介绍 - 第2节 Static Shape Plugin - 第3节 Dynamic Shape Plugin - 第4节 PluginCreator注册 - 第5节 sec5 Debug Plugin 第7章 TensorRT INT8量化加速 - 第1节 TensorRT FP16优化 - 第2节 TensorRT INT8量化算法-1 - 第3节 TensorRT INT8量化算法-2 - 第4节 TensorRT大规模上线第8章 TensorRT 转换 ONNX 模型 - 第1节如何白嫖GPU服务器 - 第2节 ONNX 介绍 - 第3节背景知识 lower概念 - 第4节背景知识 Myelin - 第5节 TRT转换模型的主要痛点 - 第6节 onnx-parser & onnx-graphsurgen - 第7节实践上：Transformer模型优化解决不支持的算子 - 第8节实践下：Transformer模型优化合并LayerNorm算子 - 第9节 polygraphy 第9章模型推理经验 - 第1节转换方式比较 - 第2节 TRT如何测试并调优 - 第3节 CUDA与TRT的调试建议 - 第4节 CUDA与TRT的调试建议并行思维锻炼 - 第5节模型可以加速到什么程度测试题

深蓝学院/康博/杨伟光

专注人工智能与自动驾驶的学习平台/高级研究员/腾讯高级研究员