304分钟

语音识别经典项目实战剖析

语音识别是深度学习中的经典算法项目，为此我们邀请到了在深度学习领域深耕多年的唐宇迪老师，采用通俗易懂的方式解读语音分析领域必备论文，帮助学员深入理解语音识别领域四大核心模块：语音识别、语音分离、语音转…

登录查看更多信息

课程分类: 人工智能 | 技术开发
适用人群: 工程师, 专家, 研究员
课程标签: 语音识别,深度学习,项目实战

语音识别是深度学习中的经典算法项目，为此我们邀请到了在深度学习领域深耕多年的唐宇迪老师，采用通俗易懂的方式解读语音分析领域必备论文，帮助学员深入理解语音识别领域四大核心模块：语音识别、语音分离、语音转换、语音合成。每个模块从论文原理解读、架构解析到实战演示项目实际流程细节，从零开始轻松掌握语音识别核心算法模型。本节课包括seq2seq序列网络模型、LAS模型语音识别实战、starganvc2变声器论文原理解读、变声器源码实战、语音分离ConvTasnet模型、ConvTasnet语音分离实战、语音合成tacotron最新版实战。完成之后不但可以掌握语音识别领域核心算法构建方法，还可以将学到的内容熟练应用于实际项目中。

一、seq2seq序列网络模型 - 1.序列网络模型概述分析 - 2.工作原理概述 - 3.注意力机制的作用 - 4.加入Attention的序列模型整体架构 - 5.TeacherForcing的作用与训练策略二、LAS模型语音识别实战 - 1.数据源与环境配置 - 2.语料表制作方法 - 3.制作json标注数据 - 4.声音数据处理模块解读 - 5.Pack与Pad操作解析 - 6.编码器模块整体流程 - 7.加入注意力机制 - 8.计算得到每个输出的Attention得分 - 9.解码器与训练过程演示三、starganvc2变声器论文原理解读 - 1.论文整体思路与架构解读 - 2.VCC2016输入数据 - 3.语音特征提取 - 4.生成器模型架构分析 - 5.InstanceNorm的作用解读 - 6.AdaIn的目的与效果 - 7.判别器模块分析四、starganvc2变声器源码实战 - 1.数据与项目文件解读 - 2.环境配置与工具包安装 - 3.数据预处理与声音特征提取 - 4.生成器构造模块解读 - 5.下采样与上采样操作 - 6.starganvc2版本标签输入分析 - 7.生成器前向传播维度变化 - 8.判别器模块解读 - 9.论文损失函数 - 10.源码损失计算流程 - 11.测试模块——生成转换语音五、语音分离ConvTasnet模型 - 1.语音分离任务分析 - 2.经典语音分离模型概述 - 3.DeepClustering论文解读 - 4.TasNet编码器结构分析 - 5.DW卷积的作用与效果 - 6.基于Mask得到分离结果六、ConvTasnet语音分离实战 - 1.数据准备与环境配置 - 2.训练任务所需参数介绍 - 3.DataLoader定义 - 4.采样数据特征编码 - 5.编码器特征提取 - 6.构建更大的感受区域 - 7.解码得到分离后的语音 - 8.测试模块所需参数七、语音合成技术 - 1.语音合成技术概述 - 2.网络计算流程分析八、语音合成tacotron最新版实战 - 1.语音合成项目所需环境配置 - 2.所需数据集介绍 - 3.路径配置与整体流程解读 - 4.Dataloader构建数据与标签 - 5.编码层要完成的任务 - 6.得到编码特征向量 - 7.解码器输入准备 - 8.解码器流程梳理 - 9.注意力机制应用方法 - 10.得到加权的编码向量 - 11.模型输出结果 - 12.损失函数与预测课后测试

唐宇迪

同济大学硕士，华东理工大学博士