136分钟
强化学习——原理与实例精讲
强化学习是一种学习如何从状态映射到行为以使得获取的奖励最大的学习机制。这样的一个agent需要不断地在环境中进行实验,通过环境给予的反馈(奖励)来不断优化状态——行为的对应关系。因此,反复实验(tri…
强化学习是一种学习如何从状态映射到行为以使得获取的奖励最大的学习机制。这样的一个agent需要不断地在环境中进行实验,通过环境给予的反馈(奖励)来不断优化状态——行为的对应关系。因此,反复实验(trial and error)和延迟奖励(delayed reward)是强化学习最重要的两个特征。
本套强化学习课程主要包括经典算法原理讲解与案例实战两大部分。通俗讲解当下主流强化学习算法思想,结合实例解读算法整理应用流程并结合案例展开代码实战。整体风格通俗易懂,适合准备入门强化学习并进阶提升的同学们。
一、强化学习简介及其应用
- 1.强化学习简介
- 2.应用领域与工作流程
- 3.计算机眼中的状态与行为
二、PPO算法与公式推导
- 1.PPO算法简介
- 2.任务概述
- 3.目标分析公式推导
- 4.baseline方法
- 5.On Policy与Off Policy策略
- 6.Importance Sampling的作用
- 7.PPO算法整体思路解析
三、PPO实战:月球登陆器训练实例
- 1.Critic的作用与效果
- 2.PPO2版本公式解读
- 3.参数与网络结构定义
- 4.得到动作结果
- 5.奖励获得与计算
- 6.参数迭代与更新
唐宇迪
同济大学硕士,华东理工大学博士