AutoML.org

弗莱堡-汉诺威-图宾根

CARL:用于研究强化学习中泛化能力的基准

TL;DR:CARL 是上下文强化学习 (cRL) 的基准。在 cRL 中,我们的目标是在不同的上下文中进行泛化。在 CARL 中,我们发现如果改变上下文,学习会变得更加困难,并且使上下文显式化可以促进学习。

CARL 使定义环境行为的上下文可见和可配置。这样我们就可以训练模型,使其在同一环境的不同实例(上下文)上进行泛化。在这里,我们展示了 Brax’ Fetch 的所有上下文特征,并绘制了通过将上下文特征设置为不同的值来实现的可能实例化。Fetch 嵌入在 CARL 环境中,控制这些实例。

为了使用上下文设置研究泛化,我们需要具有上下文扩展环境的基准,以分析强化学习智能体在环境变化中的泛化能力。CARL 是一个开源基准库,它提供了这 exactly; 从而允许对强化学习智能体中的泛化进行可靠且可重复的研究。

CARL 扩展了现有的强化学习环境,使其适用于上下文设置,其中上下文明确定义了环境的行为,使其可见和可配置。这样,强化学习智能体就可以训练以在同一环境的不同实例(或上下文)上进行泛化。

CARL 包含几个众所周知的环境,例如 OpenAI 的经典控制和 box2d,Google Brax 的步行者,不同级别的超级马里奥,以及 RNA 折叠环境。用户可以选择这些环境中的任何一个,并从可更改的上下文列表中选择要更改的上下文。这组可更改的上下文通常基于与环境相关的真实物理属性。例如,在 CartPole 环境中,可更改的上下文集合可以是杆的重力、长度或质量。这些属性易于理解,并且可以单独调整它们,从而允许用户控制其采样上下文的相似性。此外,它还开启了沿组合轴研究强化学习中泛化的途径,例如,查看智能体是否可以在单独更改杆的长度和车的质量后,泛化到同时更改这两个因素的设置。

CARL 还可以让用户指定上下文特征对智能体是否可见或隐藏。在前者的情况下,上下文会附加到状态(在基于状态的环境中),而在后者情况下,智能体必须自行解耦这些特征。这还开启了研究智能体学习到的表示形式在泛化方面的作用的途径,因为真实值已经作为上下文值变化在实例中提供给用户。

最终,CARL 基准是创建通用智能体更进一步。如果您对该项目感兴趣,请参阅我们的 论文 和我们的 GitHub 页面

参考文献

  • Carolin Benjamins, Theresa Eimer, Frederik Schubert, André Biedenkapp, Bodo Rosenhahn, Frank Hutter, Marius Lindauer
    CARL:上下文和自适应强化学习的基准 [论文]
    NeurIPS 2021 强化学习生态理论研讨会,2021 年 12 月
  • Theresa Eimer, Carolin Benjamins, Marius Lindauer
    上下文强化学习中的超参数具有高度情境性 [论文]
    NeurIPS 2021 强化学习生态理论研讨会,2021 年 12 月
返回