课程从强化学习的起源开始,首先介绍强化学习的特点、基本概念,以及常用的应用场景。然后重点介绍强化学习、深度强化学习的典型算法。并通过一些典型的案例进行解释和练习。
第1模块概述强化学习的基本概念,包括agent(智能体)、环境及其之间的关系,还涵盖了奖励函数、折扣奖励(discounted rewards)、价值函数和优势函数(advantage functions)、Bellman方程等内容。其中Bellman方程式整个深度强化学习的基础。
第2模块介绍时序差分、SARSA与Q-Learning等经典算法,还以经典的迷宫游戏问题为例说明。
第3模块介绍深度Q网络、深度强化学习算法DQN、经验回放(buffer replay)、Double DQN(DDQN)、竞争网络结构Dueling Network、策略网络(policy network)、actor-critic、A3C算法等基本的深度强化学习算法。
第4模块介绍TRPO、PPO等高级深度强化学习算法。
第5模块讨论新闻推荐、基金定投策略、道路裂缝检测等典型案例。
最后结课测试。