304分钟
语音识别经典项目实战剖析
语音识别是深度学习中的经典算法项目,为此我们邀请到了在深度学习领域深耕多年的唐宇迪老师,采用通俗易懂的方式解读语音分析领域必备论文,帮助学员深入理解语音识别领域四大核心模块:语音识别、语音分离、语音转…
语音识别是深度学习中的经典算法项目,为此我们邀请到了在深度学习领域深耕多年的唐宇迪老师,采用通俗易懂的方式解读语音分析领域必备论文,帮助学员深入理解语音识别领域四大核心模块:语音识别、语音分离、语音转换、语音合成。每个模块从论文原理解读、架构解析到实战演示项目实际流程细节,从零开始轻松掌握语音识别核心算法模型。
本节课包括seq2seq序列网络模型、LAS模型语音识别实战、starganvc2变声器论文原理解读、变声器源码实战、语音分离ConvTasnet模型、ConvTasnet语音分离实战、语音合成tacotron最新版实战。完成之后不但可以掌握语音识别领域核心算法构建方法,还可以将学到的内容熟练应用于实际项目中。
一、seq2seq序列网络模型
- 1.序列网络模型概述分析
- 2.工作原理概述
- 3.注意力机制的作用
- 4.加入Attention的序列模型整体架构
- 5.TeacherForcing的作用与训练策略
二、LAS模型语音识别实战
- 1.数据源与环境配置
- 2.语料表制作方法
- 3.制作json标注数据
- 4.声音数据处理模块解读
- 5.Pack与Pad操作解析
- 6.编码器模块整体流程
- 7.加入注意力机制
- 8.计算得到每个输出的Attention得分
- 9.解码器与训练过程演示
三、starganvc2变声器论文原理解读
- 1.论文整体思路与架构解读
- 2.VCC2016输入数据
- 3.语音特征提取
- 4.生成器模型架构分析
- 5.InstanceNorm的作用解读
- 6.AdaIn的目的与效果
- 7.判别器模块分析
四、starganvc2变声器源码实战
- 1.数据与项目文件解读
- 2.环境配置与工具包安装
- 3.数据预处理与声音特征提取
- 4.生成器构造模块解读
- 5.下采样与上采样操作
- 6.starganvc2版本标签输入分析
- 7.生成器前向传播维度变化
- 8.判别器模块解读
- 9.论文损失函数
- 10.源码损失计算流程
- 11.测试模块——生成转换语音
五、语音分离ConvTasnet模型
- 1.语音分离任务分析
- 2.经典语音分离模型概述
- 3.DeepClustering论文解读
- 4.TasNet编码器结构分析
- 5.DW卷积的作用与效果
- 6.基于Mask得到分离结果
六、ConvTasnet语音分离实战
- 1.数据准备与环境配置
- 2.训练任务所需参数介绍
- 3.DataLoader定义
- 4.采样数据特征编码
- 5.编码器特征提取
- 6.构建更大的感受区域
- 7.解码得到分离后的语音
- 8.测试模块所需参数
七、语音合成技术
- 1.语音合成技术概述
- 2.网络计算流程分析
八、语音合成tacotron最新版实战
- 1.语音合成项目所需环境配置
- 2.所需数据集介绍
- 3.路径配置与整体流程解读
- 4.Dataloader构建数据与标签
- 5.编码层要完成的任务
- 6.得到编码特征向量
- 7.解码器输入准备
- 8.解码器流程梳理
- 9.注意力机制应用方法
- 10.得到加权的编码向量
- 11.模型输出结果
- 12.损失函数与预测
课后测试
唐宇迪
同济大学硕士,华东理工大学博士