强化学习稀疏奖励算法研究—

引用本文

杨瑞, 严江鹏, 李秀. 强化学习稀疏奖励算法研究——理论与实验[J]. 智能系统学报, 2020, 15(5): 888-899. DOI: 10.11992/tis.202003031.

YANG Rui, YAN Jiangpeng, LI Xiu. Survey of sparse reward algorithms in reinforcement learning — theory and experiment[J]. CAAI Transactions on Intelligent Systems, 2020, 15(5): 888-899. DOI: 10.11992/tis.202003031.

基金项目

国家自然科学基金项目(41876098)

通信作者

李秀. E-mail：li.xiu@sz.tsinghua.edu.cn

作者简介

杨瑞，硕士研究生，主要研究方向为机器学习与强化学习;
严江鹏，博士研究生，主要研究方向为人工智能与计算机视觉;
李秀，教授，博士生导师，主要研究方向为智能系统、数据挖掘与模式识别。主持完成国家自然科学基金项目3项、深圳市基础研究项目2项、深圳市技术开发项目1项；参与完成国家863项目4项；目前在研863重大项目1项，国家自然科学基金项目1项。获得国家发明专利授权7项，国家软件著作权5项。发表学术论文100余篇

文章历史

收稿日期：2020-03-19

Contents Abstract Full text Figures/Tables PDF

强化学习稀疏奖励算法研究——理论与实验

杨瑞 ¹, 严江鹏 ¹, 李秀 ^1,2

1. 清华大学自动化系，北京 100084;
2. 清华大学深圳国际研究生院，广东深圳 518055

收稿日期：2020-03-19

基金项目：国家自然科学基金项目(41876098)

作者简介：杨瑞，硕士研究生，主要研究方向为机器学习与强化学习;
严江鹏，博士研究生，主要研究方向为人工智能与计算机视觉;
李秀，教授，博士生导师，主要研究方向为智能系统、数据挖掘与模式识别。主持完成国家自然科学基金项目3项、深圳市基础研究项目2项、深圳市技术开发项目1项；参与完成国家863项目4项；目前在研863重大项目1项，国家自然科学基金项目1项。获得国家发明专利授权7项，国家软件著作权5项。发表学术论文100余篇.

通信作者：李秀. E-mail：li.xiu@sz.tsinghua.edu.cn.

摘要：近年来，强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功，但是大量实际问题中奖励信号十分稀疏，导致智能体难以从与环境的交互中学习到最优的策略，这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应用与落地，在强化学习理论研究中具有重要意义。本文调研了稀疏奖励问题的研究现状，以外部引导信息为线索，分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法。本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法，但是后者对数据的依赖性更低，两类方法均具有重要的研究意义。最后，本文对稀疏奖励算法研究进行了总结与展望。

关键词：强化学习深度强化学习机器学习稀疏奖励神经网络人工智能深度学习

Survey of sparse reward algorithms in reinforcement learning — theory and experiment

YANG Rui ¹, YAN Jiangpeng ¹, LI Xiu ^1,2

1. Department of Automation, Tsinghua University, Beijing 100084, China;
2. Shenzhen International Graduate School, Tsinghua University, Shenzhen 518055, China

Abstract: In recent years, reinforcement learning has achieved great success in a range of sequential decision-making applications such as games and robotic control. However, the reward signals are very sparse in many real-world situations, which makes it difficult for agents to determine an optimal strategy based on interaction with the environment. This problem is called the sparse reward problem. Research on sparse reward can advance both the theory and actual applications of reinforcement learning. We investigated the current research status of the sparse reward problem and used the external information as the clue to introduce the following six classes of algorithms: reward shaping, imitation learning, curriculum learning, hindsight experience replay, curiosity-driven algorithms, and hierarchical reinforcement learning. To conduct experiments in the sparse reward environment Fetch Reach, we implemented typical algorithms from the above six classes, followed by thorough comparison and analysis of the results. Algorithms that utilize external information were found to outperform those without external information, but the latter are less dependent on data. Both methods have great research significance. At last, summarize the current sparse reward algorithms and forecast future work.

Key words: reinforcement learning deep reinforcement learning machine learning sparse reward neural networks artificial intelligence deep learning

强化学习(reinforcement learning)是一类智能体在与环境的交互中不断试错来学习最优策略的机器学习方法^[1-2]，主要用于解决序贯决策问题。在最近五年时间里，AlphaGO^[3]、AlphaStar^[4]、OpenAIFive^[5]分别在围棋、星际争霸II、Dota 2击败了人类最高水平的玩家，强化学习一度成为了人工智能最热门的研究领域之一。AlphaGo的主要作者David Silver认为^[6]，强化学习与深度学习相结合，是实现通用人工智能(general intelligence)的关键。

在强化学习中，奖励(reward)起到了引导智能体学习方向的作用^[7-8]，缺乏奖励信息将导致智能体学习缓慢甚至无法学习到最优策略，这就是稀疏奖励问题^[9](sparse reward problem)。例如，在蒙特祖玛复仇游戏中，玩家需要依次执行上百个动作才能获得奖励，这使其成为了Atari游戏中最困难的任务之一^[10]。此外，在很多实际任务中，不存在现成的奖励值，人为设计的奖励函数又常常陷入局部最优^[11]，这些问题限制了强化学习的实际应用。稀疏奖励问题的研究能够降低奖励函数的设计难度，提高学习算法的样本利用率，加速策略学习的速度，为强化学习的广泛应用与落地打下理论基础^[12]。

本文总结了当前主流的稀疏奖励算法，围绕是否引入外部引导信息，将当下主流的稀疏奖励问题解决思路分为两类，分别介绍了奖励塑造^[13](reward shaping)、模仿学习^[14](imitation learning)、课程学习^[15](curriculum learning)和事后经验回放^[11](hindsight experience replay)、好奇心驱动^[16](curiosity-driven algorithms)、分层强化学习^[17](hierarchical reinforcement learning)等6类算法，并在Mujoco的Fetch Reach环境^[18]下进行了实验验证和分析，实验代码开源在以下地址：https://github.com/YangRui2015/Sparse-Reward-Algorithms。

1 强化学习与稀疏奖励问题数学模型

当强化学习问题满足马尔可夫性时，就能将其描述为由五元组 $ (S,A,P,R,\gamma ) $ 定义的马尔可夫决策过程(MDP)^[1-2]，其中 $ S $ 为状态空间， $ A $ 为动作空间， $ P $ 为状态转移概率矩阵， $ R $ 为奖励值， $ \gamma \in \left({0,1}\right] $ 为折扣因子。智能体每个时刻观测到的状态 $ {s}_{t}\in S $ ，根据状态执行动作 $ {a}_{t}\in A $ ，环境接收到动作后转移到新的状态 $ {s}_{t+1} $ 并反馈一个数值的奖励 $ {r}_{t} $ ，如图1所示。

	Download: JPG larger image
图 1 智能体与环境交互示意图 Fig. 1 Schematic of interactions between agent and environment

强化学习的目标就是最大化累计折扣奖励值^‎[1-2]：

$ R = \sum\limits_{k = 0}^\infty {\left( {{\gamma ^k}{r_{t + k}}} \right)} . $

(1)

为了完成最大化累计折扣奖励值的目标，需要引入策略(policy)和值函数(value function)两个重要概念。策略可以描述为当前状态 $ {s}_{t} $ 下选择动作 $ {a}_{t} $ 的概率：

$ \pi \left({a}_{t}|{s}_{t}\right)=P\left({a}_{t}|{s}_{t}\right). $

值函数是指从状态 $ s $ 或状态动作对 $ (s,a) $ 出发能获得累积奖励值的期望，用于评价状态、状态动作对的好坏。状态值函数 $ V\left(s\right) $ ，动作值函数 $ Q(s,a) $ 分别为

$V\left( s \right) = E\left[ {\sum\limits_{k = 0}^\infty {\left( {{\gamma ^k}{r_{t + k}}} \right)} |{s_t} = s} \right]$

(2)

$Q\left( {s,a} \right) = E\left[ {\sum\limits_{k = 0}^\infty {\left( {{\gamma ^k}{r_{t + k}}} \right)} |{s_t} = s,\;{a_t} = a} \right]$

(3)

深度强化学习与传统强化学习的区别是使用了深度神经网络来拟合值函数、策略或环境动态模型^[8]。神经网络的引入提高了强化学习解决大规模复杂问题的能力，在众多领域取得了令人瞩目的成绩^[19]。目前的深度强化学习方法可以分为以下3类：基于值函数的方法、基于策略梯度(policy gradient)的方法以及Actor-Critic的方法^[7]。3类方法的代表分别是DQN^[20-21]、REINFORCE^[22]、Actor-Critic^[23]，从Actor-Critic还衍生出A3C^[24]、PPO^[25]、DDPG^[26]等一系列当前主流的强化学习算法。

基于值函数的方法，以DQN^‎[20-21]为例，用 $ w $ 代表神经网络的参数，其损失函数为^‎[20]

${\rm{loss}} = E\left[ {{{\left( {r + \gamma \mathop {\max }\limits_{a'} Q\left( {s',a',w} \right) - Q\left( {s,a,w} \right)} \right)}^2}} \right]$

(4)

根据式(1)、(3)、(4)，在奖励值几乎为零的稀疏奖励情况下，值函数的估计 $ Q\left(s,a\right) $ 接近零，值函数网络更新缓慢。

基于策略梯度的方法，以REINFORCE^[22]为例， $ \theta $ 代表神经网络的参数，其更新梯度为

$ {\nabla }_{\theta }\pi \left(a|s;\theta \right)={\nabla }_{\theta }{\rm{log}}\pi \left(a|s;\theta \right){R}_{t} $

(5)

根据式(1)、(5)，在稀疏奖励的条件下，累积奖励值 $ {R}_{t} $ 接近零，因此策略网络更新缓慢。

基于Actor-Critic^[23]的方法同理，Critic部分基于值函数更新，Actor部分基于策略梯度更新，稀疏奖励的条件下两部分梯度更新均接近于零。

稀疏奖励问题除了奖励的稀疏性导致学习缓慢外，还可能存在稀疏性带来的估计不可靠的问题，由于奖励样本少，值函数估计的方差较大，这会导致模型训练难以收敛。研究者们为解决以上问题，进行了一系列的研究工作。

2 稀疏奖励研究现状

目前解决稀疏奖励问题的算法主要有奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等6类算法，我们可以根据是否引入外部引导信息将算法分为两大类，如图2所示。引入外部引导信息的算法通常针对特定问题，需要相应的领域知识或数据，泛化性较差，同时也因为先验知识的引入，降低了强化学习模型的学习难度，通常具有实现简单、学习速度快的特点，这一类型算法有奖励塑造、模仿学习、课程学习。无外部引导信息的算法通过挖掘模型、数据自身的潜能，泛化性能更好，但是模型通常更为复杂，这一类型算法包括好奇心驱动、事后经验回放、分层强化学习。接下来我们将对各个方法进行展开介绍。

	Download: JPG larger image
图 2 稀疏奖励主流算法 Fig. 2 Mainstream sparse reward algorithms

2.1 奖励塑造

奖励塑造通常是利用先验知识人工设计附加奖励函数^[13]来引导智能体完成期望任务的一类方法。合适的附加奖励函数能够有效克服稀疏奖励问题中奖励的稀疏性，加快智能体学习速度。通常用 $ R(s,a,s{'}) $ 表示原MDP的奖励函数，用 $ F(s,a,s{'}) $ 表示附加奖励函数，使用奖励塑造后新MDP的奖励函数为

$ {R}'\left(s,a,{s}'\right)=R\left(s,a,{s}'\right)+ F\left(s,a,{s}'\right) $

但是在新的MDP问题中学习到的最优策略不一定是原MDP的最优策略，也就可能导致奖励塑造后学习到非理论最优的策略^‎[27-28]。Ng等^‎[27]证明了当附加奖励函数可以表示为势能函数 $ \varPhi \left(s\right) $ (potiental based funciton)的差分形式时，能够保证最优策略不变。

$ F\left(s,a,{s}'\right)=\gamma \varPhi \left(s{'}\right)-\varPhi \left(s\right) $

其中： $ s{'} $ 表示 $ s $ 的下一个状态， $ \gamma $ 是原MDP中的折扣因子，势能函数 $ \varPhi \left(s\right) $ 是状态到实数的映射。

Ng等^‎[27]使用距离、子目标来设计启发式的附加奖励函数，在表格问题中明显加速了学习过程；Jagodnik等^‎[29]使用距离信息计算和人为主观评价两种方式作为奖励函数来控制手臂仿真机器人，结果均好于优化的比例微分控制器(PD controller)；Ferreira等^‎[30]将奖励塑造的强化学习方法引入对话管理任务中，显著提高了前期训练阶段的表现。

为了克服奖励塑造泛化性较差的问题，研究者们提出了一些自动化地设计奖励函数的方法。Ng等^‎[31]提出逆强化学习(inverse reinforcement learning)的概念，将专家示例看作为最优或者次优的策略，然后从专家示例的数据中学习出奖励函数用于指导智能体训练。Marthi^[32]提出基于抽象函数(abstrcat function)的自动奖励塑造方法，通过求解抽象MDP问题的势能函数，再计算势能函数的差分就得到了附加奖励函数。

2.2 模仿学习

模仿学习是一类从示例数据中学习策略的方法^[14]。稀疏奖励问题往往具有巨大的状态动作空间，难以直接进行探索和学习，使用示例数据进行监督式的学习能够使智能体快速掌握示例策略，极大减少了训练时间。

模仿学习中如果只使用示例数据进行监督学习，难以泛化到陌生的环境中，且长时间步的决策将导致误差累积，逐渐偏离示例策略^[33]。Ross等^[33]证明了误差与时间步的平方成正比，为此提出在交互中缓慢移动策略分布的SMILe (stochastic mixing iterative learning)算法，并理论证明了其收敛性。Nair等^[34]在策略梯度算法中引入行为克隆损失(behavior clone loss)来学习示例策略，能够完成复杂的机械臂控制任务，其行动损失函数为

${L_{BC}} = \mathop \sum \limits_{i = 1}^N \left\| {\pi \left( {{s_i}{\rm{|}}{\theta _\pi }} \right) - {a_i}} \right\|_2^2$

其中： $ ({s}_{i},{a}_{i}) $ 是示例数据， $ \pi $ 和 $ {\theta }_{\pi } $ 分别是智能体的策略和策略的参数。Ho等^‎[35]将对抗生成网络的思想引入模仿学习提出生成对抗模仿学习(generative adversarial imitation learning，GAIL)，使用生成模型产生行为数据，使用判别模型区分行为数据和专家策略数据，GAIL在复杂高维环境的模仿任务中超过了现有方法，其优化目标函数为

$ {E}_{\pi }\left[{{\rm{log}}}\left(D\left(s,a\right)\right)\right]+{E}_{{\pi }_{E}}\left[{{\rm{log}}}\left(1-D\left(s,a\right)\right)\right]-\lambda H\left(\pi \right) $

式中： $ \pi $ 是生成模型的策略； $ {\pi }_{E} $ 是专家策略； $ D $ 是判别模型； $ H $ 是熵函数； $ \lambda $ 是系数。

通常模仿学习中的示例状态动作对 $ \left({s}_{t},{a}_{t}\right) $ 不容易获得，而示例状态序列 $ \left({s}_{0},{s}_{1}, \cdots ,{s}_{t}\right) $ 更容易获得，从示例状态序列进行模仿学习的任务被称为“从观测学习”(learning from observation)^‎[36]。Torabi等^‎[37]提出BCO(behavioral cloning from observation)，通过学习环境动态模型预测示例观测序列的动作，然后使用行为克隆进行模仿学习，在多个任务中的表现超过了GAIL。

2.3 课程学习

课程学习是机器学习中逐步增加任务难度以加快学习速度的方法。在强化学习中课程学习实质上在逐步调整学习的任务分布，智能体在简单任务上更容易获得奖励，将相对简单的任务上学到的策略迁移到复杂任务中，降低了在复杂任务中探索的难度，因此课程学习能够用于解决稀疏奖励问题^‎[14]。

Elman^[38]最早提出在语法学习任务中使用逐步增加训练数据复杂度的方法来训练神经网络，能够解决直接使用全部数据难以训练的问题。Bengio等^[15]认为，课程学习的本质是逐步调整学习样本的分布，在简单的样本分布上更容易学习到泛化性好的策略，并通过实验证明了课程学习能够提高训练速度和收敛到更优解。Bengio等^[15]给出了课程学习的数学定义， $ z $ 表示训练样本， $ P\left(z\right) $ 表示目标训练集分布， $ \lambda \in \left[{0,1}\right] $ 表示课程学习的阶段， $ {W}_{\lambda }\left(z\right) $ 是 $ \lambda $ 阶段样本 $ z $ 的采样权重， $ \lambda $ 阶段训练分布 $ {Q}_{\lambda }\left(z\right) $ 为

$ {Q}_{\lambda }\left(z\right)\propto {W}_{\lambda }\left(z\right)P\left(z\right), \forall z $

其中 $ {Q}_{\lambda } $ 满足：

$ \begin{array}{c} \int {Q}_{\lambda }\left(z\right){\rm{d}}z=1 \\ {Q}_{1}\left(z\right)=P\left(z\right),\forall z \end{array}$

不同课程阶段对应的分布满足熵增和权重单调增加：

$ \begin{array}{c} H\left({Q}_{\lambda }\left(z\right)\right)<H\left({Q}_{\lambda +\epsilon }\left(z\right)\right),\forall \epsilon >0 \\ {W}_{\lambda +\epsilon }\left(z\right)<{W}_{\lambda }\left(z\right),\forall z,\forall \epsilon >0 \end{array}$

课程学习的一个难点在于如何自动化地设计课程的分级，解决这个问题需要考虑训练模型时的反馈。Graves等^‎[39]提出一种自适应课程学习方法，通过预测正确率和网络复杂性的增长来自动调整课程的难度，在语言模型训练任务上显著提高了训练速度。Akkaya等^‎[40]提出ADR(automatic domain randomization)，通过设定表现阈值，当正确率高于表现阈值时就扩大训练的分布提高课程难度，反之缩小训练分布，在复杂的魔方操作任务中取得了成功。

2.4 事后经验回放

事后经验回放(HER)^‎[11]是一种从失败经历中学习的强化学习方法，通过修正失败经历的目标产生奖励信息，解决了奖励的稀疏性问题，同时对失败样本的利用极大提高了样本利用效率。 $ G $ 表示目标空间， $ g\in G $ 是实验目标， ${g'}\in G$ 是实际实现的目标，HER将经验数据中目标修改为 $g'$ ，就产生了成功的回合数据用于策略训练。HER的实现将在第3节的实验部分进行更具体的介绍。

目前对于事后经验回放算法的改进主要在于降低偏差、改进目标采样方式、适配在线策略算法等。Lanka等^[41]认为HER修改目标引入的新数据带来了偏差，提出通过调整真实奖励和HER的奖励的权重来降低偏差。Manela等^[42]指出，在目标物体未移动的情况下，采样的目标只与初始位置有关而与策略无关，这样的样本会给训练带来偏差，于是提出Filtered-HER，通过滤去该类型目标来缓解该问题。Rauber等^[43]通过重要性采样将HER运用到策略梯度方法上，实验结果表明HER明显提高了策略梯度方法的样本利用效率。

2.5 好奇心驱动

好奇心驱动是一类使用内在奖励引导智能体探索环境的方法，高效的探索能够更快地获得外在奖励^[16]，同时能够降低环境的奖励、状态转移的不确定性，平衡探索与利用^[44]，因此好奇心驱动能解决稀疏奖励问题带来的稀疏性和不可靠性问题。目前的好奇心驱动算法根据内在奖励计算方式可以分为访问计数法和预测差法^[45]。Bellemare等^[46]通过信息增益(information gain)来联系访问计数法和预测差法，证明了两者本质是相同的。

访问计数法使用访问次数定义状态的陌生程度，鼓励智能体探索更陌生的状态，以提高探索能力和降低对奖励估计的不确定性。Strehl等^[47]提出了一种基于模型的内在奖励方法，使用与状态动作对计数的平方根成反比的内部奖励，并理论证明了其最优性：

$ {r}_{{\rm{in}}}\left(s,a\right)=\beta N{\left(s,a\right)}^{-\frac{1}{2}} $

式中： $ \beta $ 是常系数； $ N(s,a) $ 是状态动作对 $ \left(s,a\right) $ 的计数值。为了将访问计数法推广到高维连续状态空间中，Tang等^[48]使用哈希函数将连续的状态空间离散化进行计数，该方法在多个连续动作控制问题中取得了成功。

预测差法通过学习环境的状态转移，使用预测误差作为内在奖励，能降低环境动态的不确定性。预测差法中使用状态 $ {s}_{t} $ 和动作 $ {a}_{t} $ 来预测新的状态 $ {s}_{t+1} $ 的方法被称作前向动态方法(forward dynamic)^[49]。Stadie等^[50]提出一种根据编码后的状态 $ \phi \left({s}_{t}\right) $ 和动作 $ {a}_{t} $ 来预测 $ \phi \left({s}_{t+1}\right) $ 的前向动态方法，使用归一化的预测误差计算内在奖励，预测误差为

$e\left( {{s_t},{a_t},{s_{t + 1}}} \right) = \left\| {\phi \left( {{s_{t + 1}}} \right) - M\left( {\phi \left( {{s_t}} \right),{a_t}} \right)} \right\|_2^2$

其中 $ M $ 表示预测网络，该方法能够有效解决大规模游戏环境的探索问题。Pathak等^[45]认为好奇心驱动存在电视噪声问题，于是提出ICM(intrinsic curiosity module)，在前向动态模型的基础上增加了使用 $ \phi \left({s}_{t+1}\right) $ 和 $ \phi \left({s}_{t}\right) $ 来预测 $ {a}_{t} $ 的逆向模型，如图3所示。逆向模型的作用是提取对智能体选择动作有影响的特征^[45]，能够缓解电视噪声问题。

	Download: JPG larger image
图 3 ICM原理图 Fig. 3 Schematic of ICM

状态编码是高维连续状态空间下的好奇心驱动算法一个重要研究内容。Burda等^[16]对比了ICM、VAE^[51]、Random Network、Pixels 4种编码方式在54个游戏中的实验结果，得出以下结论：ICM的泛化性最好，Random Network也足以在45%的游戏中超过ICM，意味着很多游戏只需使用固定的随机网络就能够提取足够的特征用于策略学习，对后续的研究具有启示作用。

2.6 分层强化学习

分层强化学习(HRL)是一类使用分层策略结构的方法，分层的结构能够学习不同层次的策略，从而有效解决维度爆炸的问题^{[16, 52]‎}。分层强化学习方法的上层策略往往能够处理更大时间尺度的决策，同时分层强化学习方法还能缩小各层策略的动作序列空间，进一步提高了解决稀疏奖励问题的能力。

目前用于稀疏奖励问题的分层强化学习算法主要有两类^‎[52]，基于选项^‎[53](option)的方法和基于子目标^‎[54](subgoal)的方法。

基于选项的方法结构简单，上层策略在多个下层策略中进行选择，被选择的下层策略输出动作，如图4所示。Sutton等^‎[53]将基于选项的分层算法表述为半马尔可夫决策过程(SMDP)，并推导出在动态规划、Q-Learning中基于选项方法的公式。Bacon等^‎[55]将基于选项的分层方法和策略梯度法结合，提出了Option-Critic算法，并通过实验验证了该方法能够学习到具有实际意义的选项策略。Frans等^‎[56]结合元学习方法来训练基于选项的分层结构，在多个连续动作控制问题中显著提高了学习速度。

	Download: JPG larger image
图 4 基于选项的分层结构示意图 Fig. 4 Schematic of option-based HRL methods

基于子目标的方法结构则是：上层策略生成子目标，下层策略输出动作去实现子目标，如图5所示。Vezhnevets等^‎[57]提出FeUdal Networks，将子目标设定为隐状态空间中的方向，在蒙特祖玛复仇等多个Atari游戏中的表现均超过基线算法。Nachum等^‎[58]认为，采用离线策略训练分层结构将因为策略的改变产生偏差，可能导致训练不稳定，因此提出了使用离线数据校正的HIRO算法，在Ant-Gather、Ant-Maze等复杂的连续动作控制环境中表现均优于FeUdal Networks。Levy等^‎[59]提出了HAC(hierarchical actor critic)，该方法在基于子目标的分层算法基础上，结合了事后经验回放算法极大提升了学习速度且表现好于HIRO。

	Download: JPG larger image
图 5 基于子目标的分层结构示意图 Fig. 5 Schematic of subgoal-based HRL methods

3 稀疏奖励算法实验

为了初步验证上述算法在稀疏奖励问题中作用，我们在MuJoCo的机器人环境Fetch Reach^[18]下分别实现了6类算法的代表性算法(实验2～7)：

1)奖励塑造：实验2实现了Ng等^[27]提出的势能函数差分形式的奖励塑造方法，记为Reward Shaping；

2)模仿学习：实验3实现了Nair等^[34]提出的行为克隆算法，记为Behavior Clone；

3)课程学习：实验4实现了符合Bengio等^[15]定义的课程学习方法，记为Curriculum Learning；

4)事后经验回放：实验5实现了事后经验回放算法^[12]，记为HER；

5)好奇心驱动：实验6实现了一种基于预测差的前向动态算法^[50]，记为Forward Dynamic；

6)分层强化学习：实验7实现了一种基于子目标的分层强化学习算法^[54]，记为HDDPG。

Fetch Reach实验环境的任务是控制机械臂到达目标位置，目标范围在空间中用小红球表示，如图6所示，当机械夹顶端碰到小红球即为达到目标。对于机器人的每步操作，完成目标获得奖励 $ +1 $ ，否则获得奖励 $ -1 $ 。实验测试中执行随机动作 $ 5\times {10}^{4} $ 步，获得正奖励的概率仅为1.5%，因此本实验环境是典型的稀疏奖励环境。

	Download: JPG larger image
图 6 Fetch Reach实验环境 Fig. 6 Fetch Reach environment

各实验均进行10次随机试验，去除最大最小值绘制成功率均值标准差曲线，1 个epoch包括100 局仿真，其余实验参数见表1。

表 1 DDPG 参数 Tab.1 DDPG Parameters

3.1 实验算法及结果 3.1.1 实验1 DDPG

本实验采用的基线算法是基于泛化值函数估计^‎[60]的深度确定性策略梯度算法(DDPG)，DDPG是代表性的基于Actor-Critic的连续动作控制方法，后续6个算法的实现均建立在其基础上。基于泛化值函数估计的方法认为智能体的策略和值函数与目标有关， $ G $ 表示目标空间， $ g\in G $ 表示目标， $ a $ 为动作， $ s $ 为状态， $ {d}^{\pi } $ 是策略 $ \pi $ 的采样分布，则DDPG with UVFA的损失函数分别为

$ \begin{array}{c} {Q}_{{\rm{target}}}={r}_{t+1}+\gamma Q\left({s}_{t+1},\pi \left({s}_{t+1},g\right),g\right) \\ {L}_{{\rm{critic}}}={{E}_{{s}_{t}\sim {d}^{\pi }}\left({Q}_{{\rm{target}}}-Q\left({s}_{t},{a}_{t},g\right)\right)}^{2} \\ {L}_{{\rm{actor}}}={-E}_{{s}_{t}\sim {d}^{\pi }}\left[Q\left({s}_{t},\pi \left({s}_{t},g\right),g\right)\right] \end{array} $

实验1比较了DDPG与随机策略(Random)的表现，实验结果如图7所示。DDPG经过370个epoch的学习平均表现才超过随机策略，在500个epoch内最高平均成功率为21%。通过实验1，我们可以验证常规的深度强化学习算法DDPG在稀疏奖励任务中学习缓慢。

	Download: JPG larger image
图 7 DDPG与随机动作成功率学习曲线 Fig. 7 Performance curve of DDPG and Random

3.1.2 实验2 Reward Shaping

实验2根据机械夹顶端到目标位置的距离设计奖励函数。 $ g $ 表示目标位置， $ \phi $ 表示状态到位置的映射， $ \phi \left({s}_{t}\right) $ 表示状态 $ {s}_{t} $ 的位置，我们设计势能函数为距离目标位置的距离：

$ {{\varPhi }}\left( {{s_t},g} \right) = - \left\| {g - \phi \left( {{s_t}} \right)} \right\|_2^2 $

根据Ng等^[27]的理论，我们设计奖励函数 $ r $ 为势能函数的差分形式：

$ \begin{array}{*{20}{c}} {r\left( {{s_t},{s_{t + 1}},g} \right) = \lambda \left( {\varPhi \left( {{s_{t + 1}},g} \right) - \varPhi \left( {{s_t},g} \right)} \right)}=\\ { \lambda (\left\| {g - \varphi \left( {{s_t}} \right)} \right\|_2^2 - \left\| {g - \phi \left( {{s_{t + 1}}} \right)} \right\|_2^2)} \end{array} $

其中 $ \lambda $ 是大于0的奖励系数。在本实验中，由于单步位移较小( $ {10}^{-3} $ 量级)，因此设置了 $ \lambda ={10}^{3} $ 。

实验2比较了奖励塑造和DDPG的表现，实验结果如图8所示。奖励塑造明显加快了学习速度，40个epoch就收敛到100%成功率，验证了按照势能函数差分形式设计奖励函数的有效性。

	Download: JPG larger image
图 8 奖励塑造与DDPG成功率学习曲线 Fig. 8 Performance curve of Reward Shaping and DDPG

3.1.3 实验3 Behavior Clone

实验3实现的是Nair等^[34]使用的行为克隆(Behavior Clone)算法，利用HER训练的成功率100%的智能体随机产生100局的交互数据作为示例数据，同时最大化累计奖励和最小化与示例策略的误差。由于示例数据有限，不一定能获得示例策略在当前状态下的决策，为此我们使用从示例数据中的采样 $ ({s}_{e},{g}_{e},{a}_{e}) $ 来计算策略误差：

$ \begin{array}{*{20}{c}} {{L_{{\rm{actor}}}} = - {E_{{s_t}\sim {d^\pi }}}\left[ {Q\left( {{s_t},\pi \left( {{s_t},g} \right),g} \right)} \right] + }\\ {\;\;\;\;\;\;\;\;\;\;\alpha {E_{{s_e}\sim {d^{{\pi _e}}}}}\left\| {{a_e} - \pi \left( {{s_e},{g_e}} \right)} \right\|_2^2} \end{array} $

式中： $ {\pi }_{e} $ 、 $ \pi $ 分别表示示例策略和实际策略； $ {s}_{t} $ 、 $ g $ 分别表示实际状态和目标； $ \alpha $ 是常系数； $ {d}^{\pi } $ 、 $ {d}^{{\pi }_{e}} $ 分别代表智能体采样数据分布和示例数据分布。

实验3比较了不同 $ \alpha $ 下行为克隆的表现，其中 $ \alpha =0 $ 即代表DDPG，实验结果如图9所示。结果显示，随着示例策略损失的系数 $ \alpha $ 增加，学习速度加快，当 $ \alpha =1 $ 时，8个epoch就收敛到100%成功率。实验结果验证了引入示例策略损失的行为克隆方法能够显著提高学习速度， $ \alpha =1 $ 时Behavior Clone在本实验实现的算法中最快收敛到100%成功率。

	Download: JPG larger image
图 9 Behavior Clone成功率学习曲线 Fig. 9 Performance curve of Behavior Clone

3.1.4 实验4 Curriculum Learning

实验4通过设计目标分布范围逐渐增大的任务序列来实现课程学习，能够证明我们的设计方式符合Bengio等^[15]对课程学习的定义。实验任务中目标位置在各维度变化范围是 $ (-{0.15,0.15}) $ ，记做 ${\rm{range}}=0.15$ ，我们设计的课程目标分布序列为

$ {\rm{range}}=0.05+i\times \frac{0.1}{c-1},\; i\in \left[0,c-1\right] $

其中 $ c $ 为课程数。我们的课程序列保证了最后阶段 $ i=c-1 $ 时目标分布范围与其余实验相同。

实验4比较了不同课程数 $ c $ 对课程学习的影响，实验结果如图10所示。当课程数 $ c=1 $ 时，课程难度较大，难以进行策略学习；当课程数 $ c=2 $ 时，在50个epoch处存在任务切换导致的断层；当课程数继续增加，课程跨度变小，策略迁移更快，学习速度进一步提高，但当课程数大于10后，提高课程数几乎不带来性能的提升。实验中 $ c=10 $ 时学习速度最快，70个epoch收敛到100%成功率。

	Download: JPG larger image
图 10 课程学习成功率学习曲线 Fig. 10 Performance curve of Curriculum Learning

3.1.5 实验5 HER

实验5实现的HER^‎[11]算法具体描述为：在每局仿真结束后，对该局的数据 $ ({s}_{t},{a}_{t},{s}_{t+1},{r}_{t},g) $ 采样多个状态 $ s\in S $ ，利用状态到目标的映射 $ \phi $ 得到该局完成的目标 $ {g}'=\phi \left(s\right) $ 。对每条数据 $ ({s}_{t},{a}_{t},{s}_{t+1},{r}_{t},g) $ 用 $ {g}' $ 计算新的奖励值 $r_t' = - (\left\| {\phi \left( {{s_{t + 1}}} \right) - g'} \right\|_2^2 > {\rm{ threshold}})$ ，完成目标奖励为0，否则奖励为 $ -1 $ 。最后将生成的新数据 $ ({s}_{t},{a}_{t},{s}_{t+1},{r}_{t}',g{'}) $ 和原数据一起存入经验池，使用DDPG进行策略更新。

本实验中，状态 $ s $ 是包括位置、速度信息的15维向量，前三维是机械夹顶端的位置，因此状态到位置的映射 $ \phi =s[0:3] $ 。本实验采用的每局采样目标数为4。

实验5比较了事后经验回放与DDPG的表现，实验结果如图11所示。HER在15个epoch左右就收敛到100%成功率，且稳定性高，在无外部引导信息算法中表现最好。

	Download: JPG larger image
图 11 HER与DDPG学习曲线 Fig. 11 Performance curve of HER and DDPG

3.1.6 实验6 Forward Dynamic

实验6实现的好奇心驱动算法是基于预测差的Forward Dynamic^‎[50]，使用前向模型 $ M $ 学习环境动态，同时使用标准化的预测误差 ${\rm{los}}{{\rm{s}}}_{{\rm{norm}}}$ 作为内在奖励 ${r}_{{\rm{in}}}$ ：

$ \begin{array}{c} {\rm{los}}{{\rm{s}}_{{\rm{forward}}}} = {E_{{s_t}\sim {d^\pi }}}\left\| {{s_{t + 1}} - M\left( {{s_t},{a_t};\theta } \right)} \right\|_2^2 \\ \;\;\;\;\;\;\;\;{\rm{los}}{{\rm{s}}}_{{\rm{forward}}}\stackrel{{\rm{update}}}{\to }\mu ,\sigma \\ \;\;\;\;{\rm{los}}{{\rm{s}}}_{{\rm{norm}}}=\dfrac{{\rm{los}}{{\rm{s}}}_{{\rm{forward}}}-\mu }{\sigma }\\ \;\;\;\;\;\;\;\;{r}_{{\rm{in}}}={\rm{los}}{{\rm{s}}}_{{\rm{norm}}} \end{array} $

其中， $\mu {\text{、}}\sigma$ 分别表示预测误差的均值和标准差。实验中使用3层64节点的神经网络来作为前向模型 $ M $ 。

实验6比较了Forward Dynamic与DDPG的表现，实验结果如图12所示。Forward Dynamic在80个epoch左右收敛到100%成功率，验证了Forward Dynamic方法对稀疏奖励问题的有效性。

	Download: JPG larger image
图 12 Forward Dynamic与DDPG成功率学习曲线 Fig. 12 Performance curve of Forward Dynamic and DDPG

3.1.7 实验7 HDDPG

实验7实现的分层强化学习算法HDDPG(Hierarchical DDPG)结构上和HAC^‎[59]相近，区别在于HDDPG不使用事后经验回放。HDDPG属于基于子目标的分层强化学习方法，假设层数为 $ H $ ，最高层策略输入状态 $ {s}_{t} $ 、系统目标 $ g $ ，输出子目标：

$ {\rm{subgoa}}{{\rm{l}}}_{H}={\pi }_{H}\left({s}_{t},g\right) $

中间层策略输入状态、子目标，输出子目标：

$ {\rm{subgoa}}{{\rm{l}}}_{h-1}={\pi }_{h}\left({s}_{t},{\rm{subgoa}}{{\rm{l}}}_{h}\right), h\in (1,H) $

最下层策略输入状态、子目标，输出动作：

$ {a}_{t}={\pi }_{1}\left({s}_{t},{\rm{subgoa}}{{\rm{l}}}_{1}\right) $

各层每一步如果完成目标获得奖励 $ +1 $ ，否则获得奖励 $ -1 $ ，如果超过最大步数未完成目标还将获得负奖励作为惩罚。

实验7比较了不同层数HDDPG的表现，其中层数为1即为DDPG，实验结果如图13所示。本实验验证了HDDPG分层的结构提高了解决稀疏奖励问题的能力，同时能够得到层数对HDDPG的影响，当层数不大于3的时候，HDDPG表现随层数增加而提高，层数为3时最高平均成功率达到66%。此外，我们也进行了层数大于3的实验，结果接近DDPG，我们认为这是因为分层的离线策略算法存在的偏差^‎[58]随着层数增加累积，当层数过大时会导致训练不稳定，甚至难以进行策略学习。

	Download: JPG larger image
图 13 不同层数HDDPG成功率学习曲线 Fig. 13 Performance curve of different layers of HDDPG

3.2 实验总结

通过表2总结了实验实现的6类算法的代表性算法在稀疏奖励问题中的表现，相比于DDPG均有显著提升。其中，使用示例策略辅助学习的Behavior Clone表现最佳，8个epoch就收敛到100%成功率，HER没有使用外部引导信息但是表现接近Behavior Clone，15个epoch收敛到100%成功率。

从表2可以看到使用外部引导信息的算法平均表现好于无外部引导信息的算法。实际上我们使用的Fetch Reach实验环境是相对简单的，容易构建可靠的外部引导信息，在更多的稀疏奖励任务中，外部引导信息是难于构建的，这就需要无外部引导信息算法的研究。在我们的实验中，HER、Forward Dynamic等算法的表现已经接近使用外部引导信息的算法，具有重要的研究价值和意义。

表 2 实验结果 Tab.2 Experiment results

4 展望

稀疏奖励算法未来的研究方向可以是根据各算法存在的问题进行改进，或对多种稀疏奖励算法进行结合。自适应课程学习是重要的研究方向，结合生成对抗思想^[61]或元学习^[62]的自动课程学习具有广阔的研究前景。好奇心驱动存在被称作“电视噪声”的问题^[45]：当环境中出现难以预测的随机噪声时，会导致智能体驻留而不去完成任务。为解决电视噪声问题，未来可以研究好奇心驱动的状态编码方式^[15]或结合注意力机制^[63]等方法，让智能体更关注与任务有关的状态和奖励信息。事后经验回放算法基于“存在状态到目标的映射”的假设，但是大量实际问题中并不容易找到这样的映射关系，比如视频游戏、机器人导航^[64]等问题，研究通用的目标映射方法有助于将HER这种高效的稀疏奖励算法应用到更多问题中。分层强化学习还需要进一步研究分层的数据矫正^[58]以及更高效的分层结构。基于目标的分层强化学习中，自动学习目标空间的表示^[65]也是重要的研究内容。最后，多种稀疏奖励算法的结合算法能够融合不同算法的优势，为稀疏奖励问题提供更加强有力的解决方案，例如Levy等^[59]提出的分层与HER结合的HAC、Lanier等^[66]提出的好奇心驱动与HER结合的算法、Nair等^[34]提出的模仿学习与HER结合的算法。

5 结束语

本文将目前主流的稀疏奖励算法按是否引入外部引导信息分为两类，分别介绍了奖励塑造、模仿学习、课程学习和事后经验回放、好奇心驱动、分层强化学习等6类算法的发展和应用。本文还通过实验验证了6种算法在稀疏奖励问题中的有效性，相比于DDPG均有显著提升，部分无外部引导信息的算法表现已经接近使用外部引导信息的算法。本文的实验比较了6种算法解决稀疏奖励问题的能力，为进一步的研究提供了实验基础。

稀疏奖励问题的研究对强化学习理论的拓展以及算法的实际落地具有重要意义，我们希望在未来看到更高效的算法用于解决复杂的稀疏奖励问题，同时也希望看到更多强化学习算法的实际落地与应用，为社会创造更多价值。

参考文献

[1]	SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge, USA: MIT Press, 1998. (3)
[2]	SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. 2nd ed. Cambridge: MIT Press, 2018. (3)
[3]	SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489. DOI:10.1038/nature16961 (1)
[4]	VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350-354. DOI:10.1038/s41586-019-1724-z (1)
[5]	BERNER C, BROCKMAN G, CHAN B, et al. Dota 2 with large scale deep reinforcement learning[EB/OL]. California, USA: arXiv, 2019. [2019-10-1] https://arxiv.org/pdf/1912.06680.pdf. (1)
[6]	SILVER D. Tutorial: Deep reinforcement learning[C]//Proc. of the 33rd Int. Conf. on Machine Learning (ICML 2016). 2016. (1)
[7]	LI Yuxi. Deep reinforcement learning: An overview[EB/OL]. Alberta, Canada: arXiv, 2017. [2019-10-2] https://arxiv.org/pdf/ 1701.07274.pdf. (2)
[8]	LI Yuxi. Deep reinforcement learning[EB/OL]. Alberta, Canada: arXiv, 2018. [2019-10-5] https://arxiv.org/pdf/1810.06339.pdf. (2)
[9]	Riedmiller M, Hafner R, Lampe T, et al. Learning by playing-solving sparse reward tasks from scratch[EB/OL]. London, UK: arXiv, 2018. [2019-10-20] https://arxiv.org/pdf/1802.10567.pdf. (1)
[10]	HOSU I A, REBEDEA T. Playing atari games with deep reinforcement learning and human checkpoint replay[EB/OL]. Bucharest, Romania: arXiv, 2016. [2019-10-21] https://arxiv.org/pdf/1607.05077.pdf. (1)
[11]	ANDRYCHOWICZ M, WOLSKI F, RAY A, et al. Hindsight experience replay[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 5048−5058. (4)
[12]	杨惟轶, 白辰甲, 蔡超, 等. 深度强化学习中稀疏奖励问题研究综述[J]. 计算机科学, 2020, 47(3): 182-191. YANG Weiyi, BAI Chenjia, CAI Chao, et al. Survey on sparse reward in deep reinforcement learning[J]. Computer science, 2020, 47(3): 182-191. DOI:10.11896/jsjkx.190200352 (2)
[13]	GULLAPALLI V, BARTO A G. Shaping as a method for accelerating reinforcement learning[C]//Proceedings of the 1992 IEEE International Symposium on Intelligent Control. Glasgow, UK, 1992: 554−559. (2)
[14]	HUSSEIN A, GABER M M, ELYAN E, et al. Imitation learning: A survey of learning methods[J]. ACM computing surveys, 2017, 50(2): 1-35. (3)
[15]	BENGIO Y, LOURADOUR J, COLLOBERT R, et al. Curriculum learning[C]//Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Quebec, Canada, 2009: 41−48. (6)
[16]	BURDA Y, EDWARDS H, PATHAK D, et al. Large-scale study of curiosity-driven learning[EB/OL]. California, USA: arXiv, 2018. [2019-10-30] https://arxiv.org/pdf/1808.04355. (4)
[17]	周文吉, 俞扬. 分层强化学习综述[J]. 智能系统学报, 2017, 12(5): 590-594. ZHOU Wenji, YU Yang. Summarize of hierarchical reinforcement learning[J]. CAAI transactions on intelligent systems, 2017, 12(5): 590-594. (1)
[18]	Plappert M, Andrychowicz M, Ray A, et al. Multi-goal reinforcement learning: Challenging robotics environments and request for research[EB/OL]. California, USA: arXiv, 2018. [2019-11-1] https://arxiv.org/pdf/1802.09464.pdf. (2)
[19]	万里鹏, 兰旭光, 张翰博, 等. 深度强化学习理论及其应用综述[J]. 模式识别与人工智能, 2019, 32(1): 67-81. WAN Lipeng, LAN Xuguang, ZHANG Hanbo, et al. A review of deep reinforcement learning theory and application[J]. Pattern recognition and artificial intelligence, 2019, 32(1): 67-81. (1)
[20]	MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[EB/OL]. London, UK: arXiv, 2013. [2019-11-1] https://arxiv.org/pdf/1312.5602.pdf. (3)
[21]	MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533. DOI:10.1038/nature14236 (2)
[22]	WILLIAMS R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine learning, 1992, 8(3/4): 229-256. DOI:10.1023/A:1022672621406 (2)
[23]	KONDA V R, TSITSIKLIS J N. Actor-critic algorithms[C]//Advances in Neural Information Processing Systems. Colorado, USA, 2000: 1008−1014. (2)
[24]	MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]//Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York, USA, 2016: 1928−1937. (1)
[25]	SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. California, USA: arXiv, 2017. [2019-11-3] https://arxiv.org/pdf/1707.06347.pdf. (1)
[26]	LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. London, UK: arXiv, 2015. [2019-12-25] https://arxiv.org/pdf/1509.02971.pdf. (1)
[27]	NG A Y, HARADA D, RUSSELL S. Policy invariance under reward transformations: Theory and application to reward shaping[C]//Proceedings of the Sixteenth International Conference on Machine Learning. Bled, Slovenia, 1999, 99: 278−287. (5)
[28]	RANDLØV J, ALSTRØM P. Learning to drive a bicycle using reinforcement learning and shaping[C]//Proceedings of the Fifteenth International Conference on Machine Learning. Madison, USA, 1998, 98: 463−471. (1)
[29]	JAGODNIK K M, THOMAS P S, VAN DEN BOGERT A J, et al. Training an actor-critic reinforcement learning controller for arm movement using human-generated rewards[J]. IEEE transactions on neural systems and rehabilitation engineering, 2017, 25(10): 1892-1905. DOI:10.1109/TNSRE.2017.2700395 (1)
[30]	FERREIRA E, LEFÈVRE F. Expert-based reward shaping and exploration scheme for boosting policy learning of dialogue management[C]//2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc, Czech Republic, 2013: 108−113. (1)
[31]	NG A Y, RUSSELL S J. Algorithms for inverse reinforcement learning[C]//Proceedings of the Seventeenth International Conference on Machine Learning. Stanford, USA, 2000, 1: 663−670. (1)
[32]	MARTHI B. Automatic shaping and decomposition of reward functions[C]//Proceedings of the 24th International Conference on Machine Learning. Corvallis, USA, 2007: 601−608. (1)
[33]	ROSS S, BAGNELL D. Efficient reductions for imitation learning[C]//Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics. Sardinia, Italy, 2010: 661−668. (2)
[34]	NAIR A, MCGREW B, ANDRYCHOWICZ M, et al. Overcoming exploration in reinforcement learning with demonstrations[C]//2018 IEEE International Conference on Robotics and Automation (ICRA). Brisbane, QLD, Australia, 2018: 6292−6299. (4)
[35]	HO J, ERMON S. Generative adversarial imitation learning[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 4565−4573. (1)
[36]	LIU Yuxuan, GUPTA A, ABBEEL P, et al. Imitation from observation: Learning to imitate behaviors from raw video via context translation[C]//2018 IEEE International Conference on Robotics and Automation (ICRA). Brisbane, Australia, 2018: 1118−1125. (1)
[37]	TORABI F, WARNELL G, STONE P. Behavioral cloning from observation[EB/OL]. Texas, USA: arXiv, 2018. [2019-11-1] https://arxiv.org/pdf/1805.01954.pdf. (1)
[38]	ELMAN J L. Learning and development in neural networks: The importance of starting small[J]. Cognition, 1993, 48(1): 71-99. DOI:10.1016/0010-0277(93)90058-4 (1)
[39]	GRAVES A, BELLEMARE M G, MENICK J, et al. Automated curriculum learning for neural networks[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. Sydney, Australia, 2017: 1311−1320. (1)
[40]	OpenAI, AKKAYA I, ANDRYCHOWICZ M, et al. Solving rubik's cube with a robot hand[EB/OL]. California, USA: arXiv, 2019. [2019-11-2] https://arxiv.org/pdf/1910.07113.pdf. (1)
[41]	LANKA S, WU Tianfu. ARCHER: aggressive rewards to counter bias in hindsight experience replay[EB/OL]. NC, USA: arXiv, 2018. [2019-12-3] https://arxiv.org/pdf/1809.02070. (1)
[42]	MANELA B, BIESS A. Bias-reduced hindsight experience replay with virtual goal prioritization[EB/OL]. BeerSheva, Israel: arXiv, 2019. [2019-12-3] https://arxiv.org/pdf/1905.05498.pdf. (1)
[43]	RAUBER P, UMMADISINGU A, MUTZ F, et al. Hindsight policy gradients[EB/OL]. London, UK: arXiv, 2017. [2019-11-2] https://arxiv.org/pdf/1711.06006.pdf. (1)
[44]	SCHMIDHUBER J. A possibility for implementing curiosity and boredom in model-building neural controllers[C]//Proceedings of the International Conference on Simulation of Adaptive Behavior: From Animals to Animats. Cambridge, USA, 1991: 222−227. (1)
[45]	PATHAK D, AGRAWAL P, EFROS A A, et al. Curiosity-driven exploration by self-supervised prediction[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA, 2017: 16−17. (4)
[46]	BELLEMARE M, SRINIVASAN S, OSTROVSKI G, et al. Unifying count-based exploration and intrinsic motivation[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 1471−1479. (1)
[47]	STREHL A L, LITTMAN M L. An analysis of model-based interval estimation for Markov decision processes[J]. Journal of computer and system sciences, 2008, 74(8): 1309-1331. DOI:10.1016/j.jcss.2007.08.009 (1)
[48]	TANG Haoran, HOUTHOOFT R, FOOTE D, et al. # exploration: A study of count-based exploration for deep reinforcement learning[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 2753−2762. (1)
[49]	BURDA Y, EDWARDS H, STORKEY A, et al. Exploration by random network distillation[EB/OL]. California, USA: arXiv, 2018. [2019-5-20] https://arxiv.org/pdf/1810.12894.pdf. (1)
[50]	STADIE B C, LEVINE S, ABBEEL P. Incentivizing exploration in reinforcement learning with deep predictive models[EB/OL]. California, USA: arXiv, 2015. [2019-5-2] https://arxiv.org/pdf/1507.00814.pdf. (3)
[51]	KINGMA D P, WELLING M. Auto-encoding variational bayes[EB/OL]. Amsterdam, Netherlands: arXiv, 2013. [2019-2-2] https://arxiv.org/pdf/1312.6114.pdf. (1)
[52]	RAFATI J, NOELLE D C. Learning representations in model-free hierarchical reinforcement learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Honolulu, USA, 2019, 33: 10009−10010. (2)
[53]	SUTTON R S, PRECUP D, SINGH S. Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning[J]. Artificial intelligence, 1999, 112(1-2): 181-211. DOI:10.1016/S0004-3702(99)00052-1 (2)
[54]	KULKARNI T D, NARASIMHAN K R, SAEEDI A, et al. Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 3675−3683. (2)
[55]	BACON P L, HARB J, PRECUP D. The option-critic architecture[C]//Thirty-First AAAI Conference on Artificial Intelligence. San Francisco, USA, 2017. (1)
[56]	FRANS K, HO J, CHEN X, et al. Meta learning shared hierarchies[EB/OL]. California, USA: arXiv, 2017. [2019-11-15] https://arxiv.org/pdf/1710.09767, 2017. (1)
[57]	VEZHNEVETS A S, OSINDERO S, SCHAUL T, et al. Feudal networks for hierarchical reinforcement learning[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. Sydney, Australia, 2017: 3540−3549. (1)
[58]	NACHUM O, GU Shixiang, LEE H, et al. Data-efficient hierarchical reinforcement learning[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada, 2018: 3303−3313. (3)
[59]	LEVY A, KONIDARIS G, PLATT R, et al. Learning multi-level hierarchies with hindsight[EB/OL]. RI, USA: arXiv, 2017. [2019-12-16] https://arxiv.org/pdf/1712.00948.pdf. (3)
[60]	SCHAUL T, HORGAN D, GREGOR K, et al. Universal value function approximators[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning. Lille, France, 2015: 1312−1320. (1)
[61]	SUKHBAATAR S, LIN Zeming, KOSTRIKOV I, et al. Intrinsic motivation and automatic curricula via asymmetric self-play[EB/OL]. NY, USA: arXiv, 2017. [2019-12-11] https://arxiv.org/pdf/1703.05407.pdf. (1)
[62]	JABRI A, HSU K, EYSENBACH B, et al. Unsupervised curricula for visual meta-reinforcement learning[EB/OL]. California, USA: arXiv, 2019. [2019-12-21] https://arxiv.org/pdf/1912.04226.pdf. (1)
[63]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 5998−6008. (1)
[64]	SAHNI H, BUCKLEY T, ABBEEL P, et al. Visual hindsight experience replay[EB/OL]. GA, USA: arXiv, 2019. [2019-10-12] https://arxiv.org/pdf/1901.11529.pdf. (1)
[65]	SUKHBAATAR S, DENTON E, SZLAM A, et al. Learning goal embeddings via self-play for hierarchical reinforcement learning[EB/OL]. NY, USA: arXiv, 2018. [2019-11-21] https://arxiv.org/pdf/1811.09083.pdf. (1)
[66]	LANIER J B, MCALEER S, BALDI P. Curiosity-driven multi-criteria hindsight experience replay[EB/OL]. California, USA: arXiv, 2019. [2019-12-13] https://arxiv.org/pdf/1906.03710.pdf. (1)

	Download: JPG larger image
图 1 智能体与环境交互示意图 Fig. 1 Schematic of interactions between agent and environment

	Download: JPG larger image
图 2 稀疏奖励主流算法 Fig. 2 Mainstream sparse reward algorithms

	Download: JPG larger image
图 3 ICM原理图 Fig. 3 Schematic of ICM

	Download: JPG larger image
图 4 基于选项的分层结构示意图 Fig. 4 Schematic of option-based HRL methods

	Download: JPG larger image
图 5 基于子目标的分层结构示意图 Fig. 5 Schematic of subgoal-based HRL methods

	Download: JPG larger image
图 6 Fetch Reach实验环境 Fig. 6 Fetch Reach environment

表 1 DDPG 参数 Tab.1 DDPG Parameters

	Download: JPG larger image
图 7 DDPG与随机动作成功率学习曲线 Fig. 7 Performance curve of DDPG and Random

	Download: JPG larger image
图 8 奖励塑造与DDPG成功率学习曲线 Fig. 8 Performance curve of Reward Shaping and DDPG

	Download: JPG larger image
图 9 Behavior Clone成功率学习曲线 Fig. 9 Performance curve of Behavior Clone

	Download: JPG larger image
图 10 课程学习成功率学习曲线 Fig. 10 Performance curve of Curriculum Learning

	Download: JPG larger image
图 11 HER与DDPG学习曲线 Fig. 11 Performance curve of HER and DDPG

	Download: JPG larger image
图 12 Forward Dynamic与DDPG成功率学习曲线 Fig. 12 Performance curve of Forward Dynamic and DDPG

	Download: JPG larger image
图 13 不同层数HDDPG成功率学习曲线 Fig. 13 Performance curve of different layers of HDDPG

表 2 实验结果 Tab.2 Experiment results

返回顶部