624分钟
深度神经网络加速:cuDNN 与 TensorRT
深度学习算法商业化落地时都需要进行加速,尤其是在安防、无人驾驶环境感知等对算法速度要求较高的场景中。因此CUDA编程已成为当下AI工程师们的重要技能。尽管NVIDIA推出了CUDA,cuDNN以及Te…
深度学习算法商业化落地时都需要进行加速,尤其是在安防、无人驾驶环境感知等对算法速度要求较高的场景中。因此CUDA编程已成为当下AI工程师们的重要技能。尽管NVIDIA推出了CUDA,cuDNN以及TensorRT的官方文档,但对于入门者并不友好,学习效率比较低。因此,我们制作了这门课程,希望大家通过这门课程的学习,能够具备CUDA编程操作能力,使用cuDNN、TensorRT这两个当下热门的深度神经网络加速工具。
第1章 CUDA C编程 及GPU基本知识
- 第1节 学习认识GPU以及如何使用CUDA
- 第2节 GPU编程
- 第3节 GPU编程与CUDA
- 第4节 CUDA编程并行计算整体流程
- 第5节 线程块:可扩展的集合体
- 第6节 线程块id&线程id
- 第7节 并行计算实例:向量相加
第2章 CUDA C编程:矩阵乘法
- 第1节 为什么矩阵乘法适合GPU实现
- 第2节 sec2 矩阵乘法GPU基础实现
- 第3节 矩阵乘法GPU进阶实现
- 第4节 实践
- 第5节 作业
第3章 CUDA C编程:CUDA Stream and Envet
- 第1节 sec1 CUDA Stream介绍
- 第2节 CUDA Stream为什么有效
- 第3节 CUDA Stream默认流的表现
- 第4节 CUDA Event
- 第5节 CUDA 同步操作
- 第6节 NVVP
第4章 CUDA C编程:卷积实现与cudnn、cublas
- 课程回顾
- 第1节 cuBLAS
- 第2节 cuDNN
- 第3节 实践卷积神经网络
第5章 TensorRT介绍
- 第1节 TensorRT是什么
- 第2节 TensorRT优化策略
- 第3节 TensorRT组成与基本使用流程
- 第4节 TensorRT Demo
- 第5节 编译TRT git源码sampleMNIST
- 第6节 TensorRT进阶
第6章 TensorRT plugin用法
- 第1节 TensorRT Plugin介绍
- 第2节 Static Shape Plugin
- 第3节 Dynamic Shape Plugin
- 第4节 PluginCreator注册
- 第5节 sec5 Debug Plugin
第7章 TensorRT INT8量化加速
- 第1节 TensorRT FP16优化
- 第2节 TensorRT INT8量化算法-1
- 第3节 TensorRT INT8量化算法-2
- 第4节 TensorRT大规模上线
第8章 TensorRT 转换 ONNX 模型
- 第1节 如何白嫖GPU服务器
- 第2节 ONNX 介绍
- 第3节 背景知识 lower概念
- 第4节 背景知识 Myelin
- 第5节 TRT转换模型的主要痛点
- 第6节 onnx-parser & onnx-graphsurgen
- 第7节 实践上:Transformer模型优化 解决不支持的算子
- 第8节 实践下:Transformer模型优化 合并LayerNorm算子
- 第9节 polygraphy
第9章 模型推理经验
- 第1节 转换方式比较
- 第2节 TRT如何测试并调优
- 第3节 CUDA与TRT的调试建议
- 第4节 CUDA与TRT的调试建议并行思维锻炼
- 第5节 模型可以加速到什么程度
测试题
深蓝学院/康博/杨伟光
专注人工智能与自动驾驶的学习平台/高级研究员/腾讯高级研究员