AutoML.org

弗莱堡-汉诺威-图宾根

上下文强化学习

强化学习 (RL) 具有在机器人、自动驾驶、推荐系统等领域的诸多潜在应用,确实是一个充满希望的方向。然而,大多数标准技术对环境中的微小变化都很脆弱,这引出了强化学习中泛化能力更大的问题。在监督学习中,衡量泛化能力的一种方法是在训练数据集上训练模型,然后在从相同独立同分布 (i.i.d.) 抽取的一个独立数据集上测试它,并观察两者之间的性能差距。

上下文强化学习允许我们将这个想法扩展到强化学习设置中,通过讨论环境的多种特征和属性的分布来实现。例如,如果一个智能体使用强化学习来学习一个允许它拿起杯子的策略,那么理解这个策略泛化能力的一种方法是观察智能体是否可以拿起不同大小、不同形状的杯子,甚至其他不是杯子但具有相似物理属性的物体。上下文强化学习 (cRL) 设置通过将变化的因素(例如手柄的大小、杯子的高度等)定义为从分布中采样的上下文,并将每个上下文创建为一个单独的马尔可夫决策过程 (MDP) 来形式化这一概念。这些被称为上下文 MDP (cMDP),它们本质上都是同一个 MDP 的变体,通过变化的上下文来区分。我们可以将所有可能的上下文值集合划分为训练集和测试集,这允许我们在多个上下文特征变体上训练强化学习智能体,然后在一个一次性设置中分析其在从测试集生成的环境中泛化能力。

上下文设置对于 动态算法配置 (DAC) 也很有趣,在动态算法配置中,我们学习动态调整超参数的策略。DAC 使用 cRL 的形式化方法来模拟算法解决许多不同问题的需求。此外,在一组任务上进行训练,然后在保留的测试集上进行测试,也称为策略迁移,是测试多任务学习和元学习中算法性能的标准方法之一。

 

我们关于 cRL 的工作

CARL:用于研究强化学习中泛化能力的基准

相关主题

动态算法配置