作者: Aditya Mohan, Carolin Benjamins, Konrad Wienecke, Alexander Dockhorn, 和 Marius Lindauer
要点: 我们通过构建不同训练阶段不同超参数值下的算法性能景观来研究强化学习中的超参数。利用这些景观,我们经验性地证明了在训练过程中调整超参数可以提高性能,这为构建更好的强化学习动态优化器开辟了新的途径。
强化学习在各个领域都取得了令人瞩目的性能 [1,2,3]。然而,超参数对强化学习算法成功的影响是一个主要的障碍。手动调整这些超参数既费时又并非总是最优的。 这就是自动化强化学习 (AutoRL) 发挥作用的地方,旨在自动化这个过程,超参数优化 (HPO) 是其核心支柱之一。
虽然 AutoRL 显示出潜力,但仍然缺乏对不同超参数配置如何随时间演变以及是否需要在训练过程中更改它们的理解。为了解决这个问题,我们引入了强化学习的超参数景观。
我们不将超参数视为单一快照,而是将其视为训练过程中的演化实体。
下图显示了针对三个超参数的最小示例的我们的方法的概述。

构建景观快照的方法涉及以下关键步骤
- 我们将训练分为三个阶段,在 $t_{ls(1)}, t_{ls(2)}, t_{final}$$.
- 在每个阶段,我们使用 Sobol 抽样 [4] 抽取一堆超参数配置,并运行它们直到该阶段结束,并存储其在该阶段结束时的性能值
- 我们使用每个配置的最终性能来获得可以馈送给 Sobol 抽样器的最佳配置。
为了确保充分的覆盖范围,我们为覆盖强化学习中三种非常不同的优化方式的算法构建这些景观,包括深度 Q 网络 (DQN) [5]、近端策略优化 (PPO) [6]和软演员-评论家 (SAC) [7],并在动态非常不同的环境(如 Cartpole、Bipedal Walker 和 Hopper [8])上评估这些算法。
我们的经验表明 超参数会随着训练的进行而演变和变形。
下图显示了我们为 DQN、PPO 和 SAC 构建的一些景观。



这对您的强化学习算法的性能意味着什么?
结果相当多!
- 我们的结果表明,在训练过程中动态调整超参数可以提高性能。因此,在整个学习过程中自适应优化超参数的 AutoRL 方法可能比仅考虑训练早期快照的静态方法表现更好。
- 那些试图使用早期训练点的性能估计来预测最终性能的多保真度方法呢?将它们直接应用于强化学习问题可能并非那么简单。
- 通过捕捉景观变化的性质,构建更适合强化学习的优化器可能成为可能。
我们相信我们的工作为可以对强化学习算法执行的更多有趣的分析打开了大门,研究超参数与不同强化学习算法在不同设置中从根本上学习的方式之间的相互作用。
如果您对我们的工作感兴趣并有动力查看,以下是我们的 论文和我们的 仓库的链接!
参考文献
[1] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., … & Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. nature, 529(7587), 484-489.
[2] Degrave, J., Felici, F., Buchli, J., Neunert, M., Tracey, B., Carpanese, F., … & Riedmiller, M. (2022). Magnetic control of tokamak plasmas through deep reinforcement learning. Nature, 602(7897), 414-419.
[3] Lee, J., Hwangbo, J., Wellhausen, L., Koltun, V., & Hutter, M. (2020). Learning quadrupedal locomotion over challenging terrain. Science robotics, 5(47), eabc5986.
[4] Sobol’, I. Y. M. (1967). On the distribution of points in a cube and the approximate evaluation of integrals. Zhurnal Vychislitel’noi Matematiki i Matematicheskoi Fiziki, 7(4), 784-802.
[5] Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., … & Hassabis, D. (2015). Human-level control through deep reinforcement learning. nature, 518(7540), 529-533.
[6] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
[7] Haarnoja, T., Zhou, A., Hartikainen, K., Tucker, G., Ha, S., Tan, J., … & Levine, S. (2018). Soft actor-critic algorithms and applications. arXiv preprint arXiv:1812.05905.
[8] Brockman, G., Cheung, V., Pettersson, L., Schneider, J., Schulman, J., Tang, J., & Zaremba, W. (2016). Openai gym. arXiv preprint arXiv:1606.01540.
