以下关于RL流水线中可以(并且通常需要)优化的元素的简短概述,遵循我们的 AutoRL 调查。对于AutoRL问题的现有解决方案方法的简洁概述,请参阅 调查本身。
需要自动化什么?

设计任务
虽然RL不需要预先标记的训练数据集,但所有生成数据的元素都需要相应地设置。例如,当与环境交互时,RL智能体需要来自奖励信号的指导。设计一个信息丰富的奖励信号,使RL智能体能够学习期望的行为通常并非易事。
同样,设计描述智能体所处环境状态的特征通常需要仔细考虑。如果大多数单个状态实际上无法区分,即使是最好的奖励信号也无法为智能体提供良好的指导。选择智能体应该学习使用的可接受动作集合也会极大地影响智能体的学习能力。例如,具有许多无关动作的离散动作空间需要在找到最终导致大奖励的“干草堆中的一根针”动作之前进行大量的探索。
因此,在旨在自动化RL流水线时,已经必须考虑如何设置环境,甚至自动化环境的设计,以训练性能最高的智能体。我们的团队有各种工作可以自动化RL流水线的这个元素,或者提出新的基准,以便在环境设计中提供高度的自由度。
使用哪种算法
选择使用哪种算法通常是一个艰难的决定。在过去的几年里,已经提出了各种RL算法,它们具有各种优点和缺点。虽然对目标环境的简单了解已经可以帮助选择算法(例如,所有RL算法通常都针对离散或连续动作空间定制,但两者皆不),但通常不足以推断出要使用的正确算法。更糟糕的是,许多实现仅在微小的细节上有所不同,导致“相同的算法”具有截然不同的行为。因此,RL爱好者通常会采用一种RL算法,仅仅是因为它在(可能不相关的)问题上表现良好。从AutoML领域使用元学习技术可以帮助缓解这个问题,通过提供一种确定或研究为特定环境使用哪些RL算法的原则性方法。
架构的选择
选择学习算法不幸的是还不够。如今,大多数(如果不是全部)RL算法都使用深度神经网络来学习策略将要实现的预期奖励的近似值。因此,选择正确的网络架构可以对智能体的学习能力产生巨大影响。RL文献中的一个众所周知的例子将“Nature DQN”(首次展示了深度RL方法的优势)与“IMPALA-CNN”进行对比。后者逐渐取代了前者,因为它在不同的算法中表现出更好的性能,而没有出现剧烈的差异。然而,通常RL问题本身的成本阻止了研究人员评估其他替代方案。来自AutoML的方法,特别是NAS,可以帮助搜索并最终找到更适合RL的架构。这个选择甚至可以在RL智能体学习时进行或更改。
超参数
最后但并非最不重要的一点,RL智能体具有各种超参数。众所周知的超参数处理智能体的探索-利用权衡,或者网络本身是如何更新的(想想优化器的选择或批量大小)。这是迄今为止RL流水线中研究最多的元素,并产生了许多解决方案方法。AutoML社区面临的一个有趣的挑战是,RL智能体在学习过程中会改变其数据分布。因此,与大多数监督学习设置相反,很可能需要更改大部分超参数,而这些超参数会在智能体训练时发生变化。AutoML本身已经提供了许多处理静态超参数选择的方法,但只有少数处理动态变化的超参数,这些超参数在学习过程中会发生变化。为了应对RL中固有的不断变化的数据分布,还需要提出更多可以动态调整超参数的方法,并且我们研究的未来前景充满潜力。
参考文献
Jack Parker-Holder, Raghu Rajan, Xingyou Song, André Biedenkapp, Yingjie Miao, Theresa Eimer, Baohe Zhang, Vu Nguyen, Roberto Calandra, Aleksandra Faust, Frank Hutter, and Marius Lindauer
人工智能研究杂志 (JAIR),74,第517-568页,2022年
https://www.jair.org/index.php/jair/article/view/13596
