624分钟

深度神经网络加速:cuDNN 与 TensorRT

深度神经网络加速:cuDNN 与 TensorRT

深度学习算法商业化落地时都需要进行加速,尤其是在安防、无人驾驶环境感知等对算法速度要求较高的场景中。因此CUDA编程已成为当下AI工程师们的重要技能。尽管NVIDIA推出了CUDA,cuDNN以及Te…

课程分类
人工智能 | 技术开发
适用人群
工程师, 专家, 研究员
课程标签
深度学习,GPU加速,CUDA编程
深度学习算法商业化落地时都需要进行加速,尤其是在安防、无人驾驶环境感知等对算法速度要求较高的场景中。因此CUDA编程已成为当下AI工程师们的重要技能。尽管NVIDIA推出了CUDA,cuDNN以及TensorRT的官方文档,但对于入门者并不友好,学习效率比较低。因此,我们制作了这门课程,希望大家通过这门课程的学习,能够具备CUDA编程操作能力,使用cuDNN、TensorRT这两个当下热门的深度神经网络加速工具。
第1章 CUDA C编程 及GPU基本知识 - 第1节 学习认识GPU以及如何使用CUDA - 第2节 GPU编程 - 第3节 GPU编程与CUDA - 第4节 CUDA编程并行计算整体流程 - 第5节 线程块:可扩展的集合体 - 第6节 线程块id&线程id - 第7节 并行计算实例:向量相加 第2章 CUDA C编程:矩阵乘法 - 第1节 为什么矩阵乘法适合GPU实现 - 第2节 sec2 矩阵乘法GPU基础实现 - 第3节 矩阵乘法GPU进阶实现 - 第4节 实践 - 第5节 作业 第3章 CUDA C编程:CUDA Stream and Envet - 第1节 sec1 CUDA Stream介绍 - 第2节 CUDA Stream为什么有效 - 第3节 CUDA Stream默认流的表现 - 第4节 CUDA Event - 第5节 CUDA 同步操作 - 第6节 NVVP 第4章 CUDA C编程:卷积实现与cudnn、cublas - 课程回顾 - 第1节 cuBLAS - 第2节 cuDNN - 第3节 实践卷积神经网络 第5章 TensorRT介绍 - 第1节 TensorRT是什么 - 第2节 TensorRT优化策略 - 第3节 TensorRT组成与基本使用流程 - 第4节 TensorRT Demo - 第5节 编译TRT git源码sampleMNIST - 第6节 TensorRT进阶 第6章 TensorRT plugin用法 - 第1节 TensorRT Plugin介绍 - 第2节 Static Shape Plugin - 第3节 Dynamic Shape Plugin - 第4节 PluginCreator注册 - 第5节 sec5 Debug Plugin 第7章 TensorRT INT8量化加速 - 第1节 TensorRT FP16优化 - 第2节 TensorRT INT8量化算法-1 - 第3节 TensorRT INT8量化算法-2 - 第4节 TensorRT大规模上线 第8章 TensorRT 转换 ONNX 模型 - 第1节 如何白嫖GPU服务器 - 第2节 ONNX 介绍 - 第3节 背景知识 lower概念 - 第4节 背景知识 Myelin - 第5节 TRT转换模型的主要痛点 - 第6节 onnx-parser & onnx-graphsurgen - 第7节 实践上:Transformer模型优化 解决不支持的算子 - 第8节 实践下:Transformer模型优化 合并LayerNorm算子 - 第9节 polygraphy 第9章 模型推理经验 - 第1节 转换方式比较 - 第2节 TRT如何测试并调优 - 第3节 CUDA与TRT的调试建议 - 第4节 CUDA与TRT的调试建议并行思维锻炼 - 第5节 模型可以加速到什么程度 测试题
深蓝学院/康博/杨伟光

深蓝学院/康博/杨伟光

专注人工智能与自动驾驶的学习平台/高级研究员/腾讯高级研究员