分层强化学习的前景

更新:J_rgen Schmidhuber对早期关于内在动机的研究提出了一些修正意见,1990年以来的亚目标发现和人工好奇,我已经合并和扩展了。

假设你的朋友刚和你烤了一块很好的蛋糕,and you would like to know its recipe.It might seem that it should be very easy for your friend to just tell you how to cook the cake — that it should be easy for him to get across the recipe.但这是一项比你想象的更微妙的任务;说明书应该有多详细?朋友是否必须详细解释要执行的每一项小任务?

大概不会。

At some point into the recipe of,让我们说,beef bourguignon,一个人需要“把4根胡萝卜切成片。”对人类来说,没必要说:“拿一把刀;in case it doesn't cut properly,磨砺它;拿一块木板,把4根胡萝卜放在上面;把刀握在支配者的手上;收缩肌肉X切开第一片胡萝卜。”

So,有一个相关的水平粒度为系统绘制动作草图时采用。这种粒度很难在数学上集成到复杂的自学习系统中。

配方中不同粒度级别的示例

此外,发展心理学中的证据是一致的。〔1〕那个新生儿,灵长类动物,孩子们,成年人的基本知识依赖于相同的认知系统。These cognitive systems include entities,代理人,行动,空间,社会结构和直觉理论。During open-ended games such as stacking up physically stable block structures,幼儿将利用这些知识来设定子目标。

通过吉菲

为了实现这些目标,幼儿似乎在他们的基本知识空间内产生了亚目标,从事时间抽象.如果我们以牛肉布吉农的配方为例,洋葱的切割过程是一个暂时的延伸动作,根据所需的切割细度,可以采取不同的步骤来完成。时间抽象的概念,一旦纳入强化学习(RL)将其转换为分级的强化学习(HRL)。

The following was motivated by a modest attempt to蒸馏对人力资源管理课题的研究。我们将首先回顾一下RL的基本原理,然后再阐述其当前的局限性。然后,我们将看到HRL是一种对抗RL限制的有吸引力的方法,包括它的动机,主要框架和自身局限性。最后,我们将讨论这方面的积极和未来研究。


“如果你知道RL你可以跳过这个”部分

强化学习(RL)方法最近取得了广泛的积极成果,包括在,学习从原始像素开始玩Atari游戏,教计算机控制机器人模拟或者在真实世界.这些成果是20世纪50年代以来在试错学习和最优控制方面的研究成果。从这两个领域诞生了RL领域,从那时起,它一直在不断发展,并且仍然令人难以置信地兴奋。

塞巴塞普斯维里在他的书中写得很好。〔2〕: "reinforcement learning refers to both a learning problem and a subfield of machine learning."

In short: the learning problem is concerned with software agents that learn goal-oriented behavior by trial and error in an environment that provides rewards in response to the agent's actions towards achieving that goal.

RL学习问题

学习问题设置非常简单。

有两个主角:一个代理人和一个环境。环境是代理“居住”的地方,也是它与之交互的地方。在每个相互作用点,the agent sees an observation of the state of the world,然后决定要采取的行动。当代理作用于环境时,环境会发生变化,但它也可以自己改变。代理人还收到环境奖励信号,数字(或分布)〔3〕)这说明行动的效果对代理的目标有多好或有多坏。

在这一点上,你可以问:为什么RL根本不直接监督学习(例如数据样本(状态,action) → reward)?亚历克斯·格雷夫斯在2018年的《神经病》杂志上指出了这一点。talkbetway牛牛关于无监督学习:

  1. 在有监督的学习环境下,我们需要大量的数据,这些数据很难获取,而且定义起来也很复杂
  2. 从我们对幼儿发现世界时学习方式的理解〔4〕〔5〕〔6〕,不依赖大量数据的学习让人感觉更人性化。
  3. RL允许在各种复杂的现实环境中使用EG进行更好的概括。intrinsic motivation and auxiliary tasks〔7〕〔8〕〔9〕〔10〕

第三个论点在考虑人力资源时更有意义,他们的野心是非常有效的,尤其是在概括和转移学习方面。


单击此处查看马尔可夫决策过程和RL的摘要

正式地说,马尔可夫决策过程(MDP)是用来描述一个强化学习的环境,环境是完全可观测的。Under the well-known Markov property "the future is independent of the past given the present" we define a finite MDP as a tuple $ $其中$s$是一组有限的状态,$A$是一组有限的动作,$p(s's,a)$是采取行动$a$时从一个状态过渡到另一个$s'$的概率,$R(S,A,S’)$是从$S$和以下州$S’$获得行动$A$时获得的奖励的分配。静态确定性策略$\pi:s\rightarrow A$将状态映射到动作。

简而言之,在传统的RL问题中,代理商的目标是最大化其预期折扣回报,$r_t=\sum_k=0 ^ \infty \gamma kr_t+k+1$,其中$r_t$是代理商在时间收到的奖励,$t$和$gamma\in[0,1)$是折扣系数。〔11〕.

在完全可见的环境中,代理程序观察环境的真实状态,并根据策略$\pi(a_s)$在$中选择操作$a_t。

解决RL问题的一种方法是定义策略的动作值函数$Q$$〔12〕:$$Q \Pi(S,A)=E[R T S T=S,A{{t}= a] $ $

Bellman最优性方程$$q ^ \ast(s,a)=r(s,a)+\gamma \sum s'\in s p(s s,a)max a q ^ \ast(s,a')。$$

递归地表示最佳Q函数$$Q^\ast(s,a)=\max \pi q^ \pi(s,a)$$作为预期立即奖励$R(s,a)$和转换函数$P(s's,a)$的函数,从而产生一个最优的贪婪策略$\pi^ \ast(s)=\arg \max a q^ \ast(s,a)$。

增强学习[12∶1 ]利用贝尔曼最优性方程的样本逼近迭代改进Q函数。Q-learning has been shown to converge in the limit,概率1,到最优值函数
$q^ \ast$在标准随机近似假设下。它是MDP的RL解决方案。

在深度Q学习中〔13〕,q函数由一个神经网络参数表示,该参数用$\theta$表示。


从上面可以看出,RL中的主要问题是什么:我们如何最大化未来的回报?

回答这个问题实际上需要回答其他子问题,包括:

  • 我们应该学习什么(模型,国家公用事业,政策,等等?
  • 我们应该如何学习(TD学习,蒙特卡洛等等?
  • 我们如何表现我们所学的(深层神经网络,大桌子,等等?
  • 如何使用我们所学的:真正需要回答的第一个问题…

So,RL中有什么困难?

通过吉菲

在这个著名的实验中,沃尼肯和托马塞罗(完整的视频在这里)一个18个月大的孩子可以理解正在发生的事情以及如何与这种情况互动,而不必事先知道该怎么做。孩子必须有一些常识才能做到这一点:理解物理,行动,约束条件,计划。如果你看着实验的结束,the child even takes a quick look at the man's hands to deduce how the plan will be completed.

我们离用现有的RL方法建立这样一个功能强大的系统还有很长的路要走。其中一个原因可能是RL存在各种各样的缺陷,这些缺陷阻碍了学习,并阻止了它被应用到更复杂的环境中。HRL旨在通过分解特定的学习部分,精确地降低这种学习复杂性。问题是,因此,这是否足够。与安德烈·库伦科夫的观点一致散文in a previous 必威棋牌betway棋牌Gradient article,the main weaknesses of RL,与人力资源部的承诺相比,can be broken down as follows.

  • 样本效率:数据生成通常是一个瓶颈,当前的RL方法是数据效率低下的。With HRL,子任务和抽象操作可用于同一域中的不同任务(转移学习)
  • 放大:经典的RL应用于具有大动作和/或状态空间的问题是不可行的(维度的诅咒)。HRL旨在将大问题分解为小问题(高效学习)
  • 泛化:训练有素的特工可以解决复杂的任务,但如果我们想让他们把经验转移到新的(甚至类似的)环境中,大多数最先进的RL算法都会失败(由于过于专业化而导致的脆弱性)
  • 抽象:状态和时间抽象允许简化问题,因为结果子任务可以通过RL方法有效地解决(更好的知识表示)

此外,强化学习的所有基本算法都是所谓的“平面”方法。他们认为国家空间是巨大的,平坦的搜索空间,这意味着从开始状态到目标状态的路径非常长。If we look at this with the example of the recipe,它会给我们一系列单独由一系列肌肉微收缩组成的动作。.此外,这些路径的长度决定了学习成本,因为关于未来奖励的信息必须沿着这些路径向后传播。简而言之,the reward signal is weak and delayed.

或许我们可以退后一步,看看迄今为止我们所学到的东西:在20世纪70年代,规划领域的研究表明,分层任务网络等分层方法〔14〕,宏观行动〔15〕和状态抽象方法〔16〕可以在计算成本上提供指数级的降低,以找到正确的计划。还有大量关于亚目标发现的文献,内在动机和人为好奇心[17]〔18〕〔19〕.尽管如此,到目前为止,我们还没有一种完全可以接受的方法将层次结构集成到有效的RL算法中。


分层强化学习

正如我们刚才看到的,the reinforcement learning problem suffers from serious scaling issues.Hierarchical reinforcement learning (HRL) is a computational approach intended to address these issues by learning to operate on different levels of temporal abstraction〔20〕.

为了真正理解学习算法中层次结构的需要,以及为了在RL和HRL之间架起桥梁,我们需要记住我们要解决的问题:MDP。hrl方法学习由多个层组成的策略,其中每一个都负责在不同的时间抽象级别上进行控制。Indeed,人力资源法的关键创新是扩展一组可用的行动,使代理人现在不仅可以选择执行基本的行动,but also macro-actions,即下级行动的顺序。因此,随着时间的推移,我们必须考虑决策时刻之间的时间间隔。Luckily,MDP规划和学习算法可以很容易地扩展以适应HRL。

为了做到这一点,让我们欢迎半马尔可夫决策过程(SMDP)。在这个设置中,$p(s's,a)$变为$p(s',\tau s,a)$的值。

分层学习动态。 来源

上面的数字清楚地说明了这个范例:$A$是一个原始动作,$\sigma$是一个子例程或宏操作,$\pi$是操作策略,$\pi\sigma$是子例程特定的操作polcy,$V$和$V_$是状态值。

人力资源部的承诺是:

  1. 长期信贷分配:更快的学习和更好的概括
  2. Structured exploration: explore with sub-policies rather than primitive actions
  3. 转移学习:不同层次的知识可以包含不同的知识,并允许更好的转移。

在以下和上述设置中,我们概述了1993年以来出现的基本方法。


但是,怎么用?

封建学习

封建等级制度。 来源

受中世纪欧洲封建制度的启发,这个HRL方法演示了如何创建一个管理学习层次结构,在这个层次结构中,领主(或经理)学习将任务(或子目标)分配给他们的SERF(或子经理),后者,反过来,学会满足他们。子经理学会在命令的上下文中最大限度地增强他们的能力,如下图中黑色圆圈所示。

说明封建制度中一个标准的迷宫任务。 来源

在实践中,封建学习〔21〕利用两个概念:

  • 信息隐藏:管理层通过不同的解决方案观察环境
  • 隐藏奖励:管理者和“工人”之间通过目标进行沟通-达到目标会得到奖励。

信息隐藏和奖励隐藏的一个显著效果是,管理者只需要在自己选择的任务的粒度上了解系统的状态。他们也不知道他们的工人为满足他们的命令做出了什么选择,因为系统设置不需要学习。

不幸的是,年引入的封建Q学习算法[21:1]is tailored to a specific kind of problem,并且不会收敛到任何定义良好的最优策略。但它为许多其他贡献铺平了道路。

期权框架

最著名的人力资源规划公式可能是期权框架。[20∶1 ]〔22〕〔23〕〔24〕.一(马尔可夫)期权是三美元的吗= 美元:

  • $I_o$:启动集
  • $\pi_o:s\乘以\rightarrow[0,1]$:选项的策略
  • $\beta\o:s\rightarrow[0,1]$:终止条件
了解基本动作和选项之间的区别。 来源

我们可以通过上面的一个不言自明的例子来理解这个框架的思想,其中的选项可以概括为“去走廊”,而行动可以概括为“去N,SW或者e.“这些选项可以被看作是更高抽象层次上的个体行为(即每个状态都可以用作子目标〔25〕〔26〕)as a result,被抽象成技能。

不像封建学问,如果动作空间同时包含基本动作和选项,然后证明了一种基于期权框架的算法。〔27〕收敛到最优策略。否则,它仍然会聚,但是对于一个分层的最优策略〔28〕.

了解SMDP上下文中的选项。 来源

由此产生的想法是,期权框架由两个层次组成:

  • 底层是一个子策略:
    • 进行环境观察
    • 输出动作
    • 运行到终止
  • 最高层是对选项的策略:
    • 进行环境观察
    • outputs sub-policies
    • 运行到终止

选项很容易实现,有效地定义高级能力,从而提高收敛速度。此外,选项本身可用于定义选项层次结构。However,自然结果是,options increase the complexity of the MDP.他们也没有明确地解决任务分割的问题。

层次抽象机

HAMs consist of non-deterministic finite state machines whose transitions may invoke lower-level machines (the optimal action is yet to be decided or learnt).机器是由有限状态自动机(FSA)表示的部分策略。有四种机器状态:

  • Action states execute an action in the environment
  • 调用状态将另一台计算机作为子例程执行
  • 选择状态不确定性地选择下一个机器状态
  • 停止状态停止执行机器并将控制返回到上一个调用状态

我们可以将政策视为计划。For HAMs,the learning occurs within machines,since machines are only partially defined.方法是将所有机器展平,并考虑问题的状态空间。$ $其中,$M$是机器状态,$S$是基础MDP的状态。

本文中使用的网格世界环境。 来源

当机器遇到呼叫状态,它以确定的方式执行它应该执行的机器。当它遇到停止状态,it simply sends the command back to the parent machine.与直接在千年发展目标上进行学习的情况不同,在每种状态下都会学习行动,在火腿框架中,学习只发生在选择状态.因此,进行学习的状态空间可能小于实际状态空间。

网格世界环境的FSA示例

在上面的例子中,每次遇到障碍物,机器进入选择状态,选择跟随墙机器(沿着墙的某个方向连续跟随墙)。或者它选择后退机器(向后移动并继续执行)。

因此,学习机器的策略是决定调用哪台机器以及使用什么概率。

出于上述原因,HAM框架为我们提供了通过限制可实现政策的类别来简化MDP的能力。与期权框架类似,它还具有最佳性的理论保证。〔29〕.主要的问题是,HAM的设计和实现非常复杂,而且没有很多重要的应用程序可用。

马克斯

MAXQ层次结构示例。 来源

MAXQ是一种分层学习算法,通过将状态动作对的Q值分解为两个分量$q(p,s,a)=v(a,s)+c(p,s,a)$之和获得任务的层次结构,其中$v(a,s)$是执行动作时收到的总预期奖励$a$状态$s$(经典$q$)和$c(p,s,a)$是预期的总奖励。从执行父任务开始,noted by $p$,在采取行动之后$A$。事实上,动作$A$不仅可以包含原始动作,还有一系列的动作。

本质上,我们可以理解MAXQ框架〔30〕将MDP的价值函数分解为较小组成MDP的价值函数组合,一组有限的子任务,其中每个子任务形式化为1。终止谓词,2。a set of actions and 3.假奖励。在这方面,the MAXQ framework is related to the Feudal Q-learning.

尽管如此,与其他框架相比,MAXQ的优势在于递归最优策略,也就是说,考虑到孩子的学习策略,家长任务的策略是最佳的。即,任务的策略是上下文无关的:每个子任务都是在不参考执行它的上下文的情况下进行优化求解的。While this does not mean it will find an optimal policy,它打开了状态抽象和更好的转移学习的大门,并且可以为许多其他任务提供通用的宏操作。

State abstraction helps to reduce memory.想一想:当你betway牛牛想去一个门的时候,不管门是什么颜色,不管是木头还是金属做的。状态抽象应该有助于表示类似的状态,并拒绝不相关的状态变量。此外,使用状态抽象,减少了必要的探索,增加了它们的可重用性(因为它们不依赖于更高的父母)。事实上,抽象状态是一种状态变量较少的状态:世界上不同的状态对应于相同的抽象状态。Therefore,如果我们可以减少一些状态变量(只有几个变量与任务相关)。然后我们可以显著减少学习时间。最终,我们将对不同的宏操作使用不同的抽象状态。

简而言之,MAXQ框架提出了任务的真正层次分解(与选项相反)。它促进了子策略的重用,并允许时间和空间抽象。尽管其中一个问题是MAXQ涉及一个非常复杂的结构,并且递归最优策略可能是非常次优的策略。


近期作品

受到这些创始元素(封建的,或可解释的)的启发。选项,火腿,HLL,Max),最近发表了一些有趣的文章,结果相当令人鼓舞。

等级强化学习的封建网络(乐趣)

FeUdal Networks〔31〕呈现模块化架构。Inspired by Dayan's seminal idea of Feudal RL,管理者选择一个方向进入一个潜在的状态空间,工人通过在环境中的行动学会了实现这个方向。这意味着乐趣将子目标表示为潜在状态空间中的方向,然后转化为有意义的行为原语。本文介绍了一种允许更好地进行长期信贷分配并使备忘更容易处理的方法。

有趣的建筑。 来源

选项批评家架构

以前的作品使用预先指定的选项策略,最近在发现像本文这样的选项方面取得了成功〔32〕它展示了一个端到端的可训练系统,通过将策略梯度定理扩展到选项,可以扩展到具有理论可能性的子策略的非常大的领域,与策略对选项的联合学习。betway棋牌必威棋牌与乐趣相反,在这里,管理者的输出通过直接来自工人的梯度进行培训,并且不使用内在奖励。betway棋牌必威棋牌

期权批评家代理通过4个选项学习终止概率。 来源

如上图所示,终止事件更可能发生在门附近,intuitively this means that reaching those doors are learnt as being meaningful sub-goals.

Hiro(数据高效分层强化学习)

主要贡献[33]由于新的非政策修正,该方法与以前的作品相比具有很高的采样效率〔34〕学习算法直接以状态观测为目标。没有目标表示,hence no goal representation training needed.这意味着,更高级别的政策从一开始就收到了任务奖励的有意义的监督信号。

Design and basic training of HIRO. 来源

HAC(事后了解多层次结构)

HAC和HIRO在3个连续任务上的比较。 来源

"We introduce a new HRL framework that can significantly accelerate learning by enabling hierarchical agents to jointly learn a hierarchy of policies.我们的框架主要由两个部分组成:(i)一个特定的层次结构;(ii)一个学习多层次策略的方法,同时给出稀疏的奖励。我们的框架生成的层次结构具有一个特定的体系结构,该体系结构由一组嵌套的目标条件策略,使用状态空间作为将任务分解为子任务的机制。[...] HIRO,它是同时独立于我们的方法开发的,使用相同的层次结构,但这两种方式都不使用事后诸葛亮,因此在稀疏的奖励任务中学习多层次政策的效率也不高。”

运动控制器

“我们研究了一种新的结构和运动任务的训练程序。一个高频,低层次的“脊柱”网络,通过简单的任务训练,获取本体感受传感器,学习感觉运动原语。该预培训模块固定并连接至低频,高级“皮质”网络,可接触到所有传感器,通过调节脊髓网络的输入来驱动行为。如果单块端到端架构完全失败,通过预先训练的脊柱模块学习,可以成功完成多个高层次的任务,并且能够有效地探索,从稀疏的奖励中学习。”

本文介绍了一种基于HRL的机车控制器培训方法,有效地提高了样本效率,实现了不同任务之间的转换。作者的想法是根据任务获得不变的低级政策。然后通过回收和重新培训超低级别政策的元政策,与从头开始的培训相比,用更少的样本可以获得不同的技能。

Screenshot of the humanoid approaching a virtual gate in the transfer task. 来源

论星际争霸全长游戏的强化学习

在本文中,作者专注于SC2LE,由DeepMind介绍的星际研究学习环境。他们开发了一种完整的游戏学习方法,控制器根据在每个相对较大的时间间隔(8秒)的当前观察结果选择子策略。然后,在每个相对较短的时间间隔(一秒钟)时,子政策选择一个宏观行动,在学习人类专家游戏的重复之前掌握。星际争霸是一个非常具有挑战性的游乐场,在那里国家和行动空间非常大。该方法利用层次结构来减少这些空间。此外,通过控制器提供的时间抽象,减小了战略运动执行步骤的规模。最后,each sub-policy can have its own specific reward function which help divide the complex problem into several easier sub-problems.

星际争霸II环境的截图。 来源

H-DQN

“我们提出分层的DQN(H-DQN),一个整合层次价值函数的框架,在不同的时间尺度下工作,具有内在动机的深层强化学习。一个顶级的价值函数学习一个超越内在目标的政策,较低级别的函数学习原子操作的策略,以满足给定的目标。H-DQN允许灵活的目标规范,例如实体和关系上的函数。这为在复杂环境中进行勘探提供了一个有效的空间。我们展示了我们在两个非常稀疏的问题上的方法的优势,延迟反馈:(1)一个复杂的离散随机决策过程,和(2)经典的阿塔里游戏“蒙特祖马的复仇”。

元控制器通过一系列低级操作来选择控制器试图满足的目标(用红色表示)。 来源

元学习共享层次结构(MLSH)

"In this work,提出了一种层次化策略的端到端元学习方法。我们提出了一个将共享信息表示为一组子策略的模型。然后,我们提供了一个框架来针对环境的分布对这些模型进行培训。即使我们没有朝着真正的目标优化,我们在学习上取得了显著的进步。此外,我们自然会发现各种各样的子政策,而不需要手工工程。”

从迷宫中学习到的下一步政策,正确的,起来。 来源

调制策略层次(MPH)

“我们引入了经过调整的策略层次结构(MPH),以解决奖励稀疏的环境,这些奖励可以分解为子任务。通过组合丰富的调制信号,时间抽象,内在动力,MPH得益于更好的探索和更稳定的训练。此外,与许多最先进的方法相比,MPH does not require pre-training,多个培训阶段或人工奖励形成。我们在两个模拟机器人操作任务上评估了MPH:推和块堆叠。在这两种情况下,MPH优于基线和最近提出的MLSH算法,这表明我们的方法可能是进一步调查的有利方向。”

叠加任务中训练选项基线和MPH的调制信号。 来源

学习宏观行为的战略专注作家

"We present a novel deep recurrent neural network architecture that learns to build implicit plans in an end-to-end manner by purely interacting with an environment in reinforcement learning setting.The network builds an internal plan,在观察到来自环境的下一个输入时会不断更新。它还可以通过学习计划可以提交多长时间来将这个内部表示划分为连续的子序列,即。没有重新规划就遵循了。结合这些特性,建议的模型,被称为战略专注作家(稻草)可以学习高水平,时间抽象的宏观行为,其长度各不相同,只从数据中学习,而没有任何先验信息。These macro-actions enable both structured exploration and economic computation.我们通过实验证明,通过采用临时扩展的计划策略(例如,太太帕克曼和冻伤)。同时,它是一种可应用于任何序列数据的通用算法。”

稻草玩迷宫导航游戏示意图。 来源

H-DRLN

“我们提出了一个终身学习系统,该系统能够在有效保留以前学习过的知识库的同时,重用和将知识从一个任务转移到另一个任务。通过学习可重复使用的技能来传递知识,以解决Minecraft中的任务。[…]这些可重用的技能,我们称之为深度技能网络,然后,我们使用两种技术将其整合到我们的新型分层深度强化学习网络(H-DRLN)体系结构中:(1)深度技能数组和(2)技能蒸馏,our novel variation of policy distillation (Rusu et.铝。2015)学习技能。”

抽象马尔可夫决策过程(AMDP)

“我们提出抽象马尔可夫决策过程(AMDP)层次结构作为一种推理子目标网络的方法。betway牛牛[…]AMDP是一个MDP,其状态是底层环境(基本MDP)状态的抽象表示。AMDP的动作要么是环境MDP的原始动作,要么是要解决的子目标。[…]MAXQ的一个主要限制是,通过在最低级别处理状态-操作空间并将值备份到抽象子任务节点(自底向上过程),可以找到层次结构上的值函数。[…]AMDPS在本地对每个子任务的转换和奖励功能进行建模,从而加快规划,因为不需要跨层次结构的多个级别进行备份。这种自上而下的计划方法决定了在计划实现子目标之前,好的子目标是什么。”

左:翻盖球的起始位置。中号:这只海龟到了街区。右图:它把木块推进球门室。 来源

针对指定错误问题的迭代层次优化(imhop)

“对于复杂的,高维马尔可夫决策过程(MDPS)可能需要用函数逼近来表示策略。任何时候,都会有一个错误的指定问题,该表示不能表示具有可接受性能的任何策略。[…]我们引入了元算法,针对指定错误问题(IHOMP)的迭代层次优化,that uses an RL algorithm as a "black box" to iteratively learn options that repair MPs.为了强制选择专业化,IHOMP使用状态空间的一个分区,并为分区中的每个类训练一个选项。”

An episodic MDP with S-shaped state-space and goal region G.(i) Flat approach,VS(ii)分级方法。 来源

热休克蛋白

“我们的方法使用无监督的非对称自我发挥[15]作为低级别政策的培训前阶段,在培训层次模型之前。在自我游戏中,代理通过嵌入目标为自己设计任务,然后尝试解决这些任务。[…]然后,高级策略可以通过生成连续的子目标向量序列来指导较低的策略。[…]然后可以在一个分层的RL框架中使用这些方法来加速对报酬稀少的复杂任务的探索。对AntGathere的实验表明,所产生的分层控制器能够将蚂蚁远距离移动以获得奖励,与非层次策略渐变方法不同。betway棋牌必威棋牌我们的自玩方法的一个限制是,选择D(用于决定是否成功完成自玩任务的距离函数)需要一些领域知识。”

HSP方法体系结构。 来源

无模型HRL中的学习表示

“我们提出并实现了一种新的无模型发现子目标的方法,该方法使用增量无监督学习,在一个小内存中存储代理的最新经验。当与内在动机学习机制相结合时,这种方法共同学习子目标和技能,基于环境经验。因此,我们提供了一种不需要获取环境模型的原始HRL方法,适用于大规模应用。We conducted experiments using our method on large-scale RL problems,比如阿塔里2600场艰难的比赛蒙特祖马的复仇。”

From left to right: A sample screen from the ATARI 2600 game Montezuma's Revenge;控制器价值功能的CNN架构;元控制器价值函数的CNN体系结构;无监督子目标发现算法的结果。 来源

人力资源部的未来

在认知科学领域,研究〔35〕〔36〕has long suggested that human and animal behaviour is based on a hierarchical structure.现实世界和复杂的环境肯定会要求我们采取一种转变。这可以在HRL的一个主要吸引人的方面找到:使用技能来降低问题的搜索复杂性。

“停止学习任务,开始学习技能。”—Satinder Singh,神经鞘2018

However,根据使用的框架,手工指定一个好的层次结构需要特定领域的知识和细致的工程设计,自动激发学习技能的需求。基本上,要选择一个合适的层次结构框架,我们需要看看领域知识的可用性(这三者的友好组合也是可以想象的〔37〕):

  • 如果行为完全指定→选项
  • 如果行为有部分规定→HAM
  • 如果可用的领域知识较少→MAXQ,学习选项[24:1][32∶1 ]

In the table below,这些专栏意味着:

  • 时间抽象允许表示有关在不同时间尺度发生的行动过程的知识。betway牛牛我们讨论暂时的延betway牛牛长行动
  • State abstraction当子任务忽略环境状态的某些方面时发生,它要求使用终止谓词来指定子任务,而不是使用选项或部分策略方法
  • “子任务:程序员提供的固定策略”意味着给定一组选项,系统对这些选项学习策略
  • “子任务:非确定性有限状态控制器”意味着给定部分策略的层次结构,系统将学习整个问题的策略
  • “子任务:终止谓词和本地奖励函数”意味着给定一组子任务,系统将学习整个问题的策略。
  • 分层最优策略是一个在给定层次结构的所有策略中都是最优的策略
  • 递归最优策略对于分解中每个子任务对应的每个smdp,策略是最优的

人力资源框架的基本特征比较

从根本上说,HRL的潜在好处-通过减少缩放问题更快地学习,通过减少维度的诅咒来解决大状态/大行动问题的强大能力,在不同的任务上使用子目标和抽象动作进行状态抽象,使用多层次的时间抽象,通过从以前的任务中转移知识,实现更真实、更好的概括——似乎触手可及,但还不完全在那里。

有很多伟大的想法和算法,但到目前为止影响不大,也不太大,而且,to be honest,RL社区仍然存在合法的怀疑。一方面,诸如通过更新层次代理的级别而产生的非平稳性等挑战需要在实现中付出更多的努力并引入额外的超参数。另一方面,我们还远没有达到合理的样品效率,作为〔38〕指出:在选项框架中,选项是相互独立的原子宏操作。Thus we lose the potential benefit of considering interactions between options,可显著提高样品效率。Furthermore,实际上,HRL可能不是解决平面RL限制的必要方法,如中所述OpenAI博客帖子:“RL研究人员(包括我们自己)普遍认为,长期视野需要从根本上取得新的进展,如分层强化学习。我们的研究结果表明,我们没有给予今天的算法足够的信任,至少在它们以足够的规模运行并以合理的探索方式运行时是如此。”

直到HRL框架受益于更好的用户友好性和更好的技术规范,HRL不会成为RL问题的标准。

这就是说,这些缺陷是已知的问题,与人力资源领域的主要研究方向完全一致。包括但不限于:

  • 更好地管理高级状态转换函数的非平稳性
  • 自动学习层次结构
  • 更有效的探索
  • 在回报稀少的环境中,通过高效分解丰富信号
  • 提高稳定性

我们已经观察到应用于感知任务的深层网络中出现的层次结构,例如计算机视觉与convnets,但从感知的角度来看,这些都是等级的。如果我们能以同样的方式在RL中构建分层的时间和行为系统,这将对Convnets产生重大影响。还有很多工作要做,乐观的基础也很强。

你能从这里做什么?

如果你走了这么远,这意味着人力资源部对你很感兴趣。本报告的目标是概述主要框架流,这些框架流对随后在人力资源部的贡献起到了启发作用,(希望)如果你不熟悉这个领域的话,你会对它产生兴趣,鼓励进一步讨论这个问题。

正如我们看到的,选项框架和MAXQ分解都为算法设计人员提供了强大的工具来按层次分解问题。如果你对这方面的研究感兴趣,你可以选择你认为对你最有希望的方法,或者你认为从改进中受益最多的一个。然后你可以开发新的假设来进行基准测试,使用开源代码(例如希罗HAC最小均方误差热休克蛋白)以新思想为基础,或者通过从上面提到的许多贡献中获得灵感,自己实现一个系统。

总而言之,如果不能正确测量,这些发展就无法量化,我觉得仍然缺乏有效衡量人力资源进步的工具,更广泛地说,在RL中。幸运的是,社区是积极地 工作在这些问题上也是如此。Of course,我们有责任认识到我们领域固有的问题,这些问题不会表现出短期的困难,但会在长期内减缓进展。我们有责任参与他们的决议,并以可复制的方式促进进展。


Special thanks to Andrey Kurenkov,Hugh ZhangEric WangSteven Ban和Florian Strub的反馈,建议,和洞察力。
封面图像源.


YannisFletBerliac是一个在里尔大学的inria续集团队的博士生。他的研究项目主要是深入强化学习,重点研究随机和非平稳环境。在开始攻读博士学位之前,他在法国和丹麦工作,主要从事对话模式,机器翻译和摄影师风格识别。找到他推特


如果你喜欢这首歌,想听到更多,betway牛牛 to the 必威棋牌betway棋牌Gradient and follow us on推特.


  1. 斯皮尔克和金兹勒。核心知识。发展科学,2007。γ

  2. 萨佩斯瓦里强化学习的算法。人工智能与机器学习综合讲座,2009。γ

  3. 贝勒马雷Dabney,and Munos.强化学习的分布观点。ICML,2017。γ

  4. 杰克逊。神经系统疾病的比较研究。英国医学杂志,1889。γ

  5. Mussa-Ivaldi and Bizzi.通过原语组合进行运动学习。伦敦皇家学会哲学汇刊B:生物科学,2000。γ

  6. 托多洛夫等人。从任务参数到电机协同:冗余机械手近似最优控制的层次框架。Journal of robotic systems,2005。γ

  7. Arulkumaran等人深度强化学习:一个简短的调查。IEEE信号处理杂志,2017。γ

  8. MNIH等。通过深度强化学习实现人的水平控制。Nature,2015。γ

  9. Schmidhuber。Formal theory of creativity,乐趣,and intrinsic motivation (1990–2010).IEEE自主精神发展汇刊,2(3):230—247,2010。γ

  10. Pathak等。好奇心驱动的探索由自我监督的预测。ICML,2017。γ

  11. 萨顿和巴托。强化学习:引言,第1卷。MIT press Cambridge,1998。γ

  12. Watkins.从延迟的奖励中学习。博士论文。University of Cambridge England,1989。γ γ

  13. MNIH等。通过深度强化学习实现人的水平控制。Nature,2015。γ

  14. 咖喱和泰特。O-Plan:开放式计划架构。Artificial Intelligence,1991。γ

  15. Fikes哈特和尼尔森。学习和执行通用机器人计划。人工智能,1972.γ

  16. 诺克洛克Learning Abstraction Hierarchies for Problem Solving.AAAI1990.γ

  17. Schmidhuber。学习为动作序列生成子目标。PROCICAN'91第965-972页1991。Based on TR FKI-129-90,1990.γ

  18. 乌德耶和卡普兰。什么是内在动机?A typology of computational approaches.前面。神经力学,2009。γ

  19. Schmidhuber。奇怪的模型建筑控制系统。在过程中国际神经网络联合会议,新加坡,第2卷,第1458-1463页。IEEE1991。γ

  20. SuttonPrecup和Singh。在MDP和半MDP之间:增强学习中时间抽象的框架。人工智能,1999。γ γ

  21. 大雁和辛顿。Feudal Reinforcement Learning.尼普1993。γ γ

  22. 培根Harb and Precup.The Option-Critic Architecture.AAAI2017。γ

  23. 水果和Lazaric。有选择的MDP勘探开发。艾斯塔斯2017。γ

  24. Stolle和Precup。强化学习中的学习选择。计算机科学讲座笔记,2002。γ γ

  25. 施瓦尔等人。通用值函数逼近器。ICML,2015。γ

  26. 威林和施密杜伯。HQ学习。Adaptive Behavior 6(2):219-246,1997。γ

  27. Puterman。马尔可夫决策过程:离散随机动态规划,第11章。约翰威利父子公司股份有限公司,1994。γ

  28. (I.学习政策将是与给定层次结构一致的最佳政策:任务的政策不仅取决于其子政策,但也在其背景下)γ

  29. 帕尔和拉塞尔。用机器的层次结构加强学习。麻省理工出版社1998。γ

  30. Dietterich。Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition.人工智能,2000。γ

  31. Vezhnevets等人封建的等级强化学习网络。ICML,2017。γ

  32. 培根Harb和预处理。选项批评家架构。AAAI2017。γ γ

  33. NACHUM等。数据高效的分层强化学习。CoRR2018.γ

  34. (非政策设置有助于提高样本效率,但处理起来很困难,因为非政策RL为更高级别的政策带来了非平稳的问题,因为较低级别的政策不断变化)γ

  35. Botvinick尼夫和巴尔托。分层组织行为及其神经基础:强化学习视角。认知,2008。γ

  36. BadreKayserand D'Esposito.额叶皮质和抽象动作规则的发现,2010。γ

  37. 蔡等。基于层次强化学习的复杂未知环境下多机器人协同目标搜索方法。IEEE2013。γ

  38. 水果,Pirotta,Lazaric布伦斯基尔。后悔在没有事先知情的情况下将MDP最小化。尼普2017。γ