AutoML.org

弗莱堡-汉诺威-图宾根

最佳实践

强化学习 (RL) 研究在超参数优化 (HPO) 方面仍在探索中,许多论文仍然依赖于网格搜索,尽管已经存在专门用于辅助 RL 的 HPO 工具 [Parker-Holder et al. 2022]。我们概述了如何将现有的 HPO 最佳实践 [Bischl et al. 2022] 与 RL 社区的科学标准相结合,从而实现可复现的 RL 研究与 HPO。

1. 定义训练和测试设置

一些 RL 环境具有明确的训练和测试分布,但“设置”在这里包含更多内容:智能体的种子、初始状态分布以及环境中的非确定性都应为训练和测试设置选择。 这样我们就可以确保在训练设置上开发和调整我们的方法,同时仍然可以从测试设置中获得有效的结果,而不会过拟合。 关于种子选择的一些指导可以在 Henderson et al. 2018Agarwal et al. 2021 中找到。

2. 定义 HPO 配置空间

超参数配置空间应包含所有可能有助于训练成功的超参数以及可能包含最佳超参数值的范围。 许多超参数在 RL 算法中往往具有影响,并且它们的重要性因环境而异 [Eimer et al. 2023],因此在没有领域知识的情况下,默认选择是使用宽泛的范围优化所有超参数。

3. 选择 HPO 方法

有多种方法可用,包括基于梯度的优化方法、RL 特定的优化器和经典的黑盒方法。 这种选择取决于您的配置空间以及您的计算预算。 如果不确定,最好选择一个经过验证的优化器,该优化器具有有限的优化器设置,这些设置需要配置。 配置优化器通常需要了解优化器和问题领域,因此如果您不确定从哪里开始,则选择一个在各种领域经过良好测试且需要很少调整的优化器是一个好主意。 具有稳健默认设置的良好选择包括我们自己的优化器 DEHBSMAC

4. 定义 HPO 约束

您是否只有一定的计算预算可用? 您是否想调整到达到一定的性能阈值? 也许您有时间限制,但可以进行大量并行处理? 您应该提前定义所有这些限制,并将其应用于所有调整运行。

5. 选择成本指标

您需要判断给定配置的性能如何,因此您应该定义一个能够很好地捕捉您的用例的指标。 也许您主要关心转移到验证环境的性能,并将使用在此环境中的几个剧集评估奖励作为您的成本。 也许您对样本效率感兴趣,因此训练中回报的 AUC 会是更好的选择。 无论适合您的设置,您的成本指标都应尽可能一致,以便于进行比较。 只要有可能,您可以通过使用多个种子或剧集来提高成本指标的可靠性。

6. 为所有报告的方法运行 HPO

重要的是不仅要为单个方法调整,而要尽可能为所有方法调整 - 这样我们就可以使我们的比较尽可能公平。 因此,我们使用到目前为止概述的训练设置和 HPO 程序来调整所有基线和其他我们想要报告的方法。

7. 评估结果

HPO 完成后,我们几乎完成了 - 但最重要的部分现在来了。 使用 HPO 的结果,我们在测试设置上运行所有基线和方法 - 通常这意味着使用测试种子、环境等重新训练策略。 这些是我们报告在研究结果中的结果。 由于我们为所有方法提供了相同的预算,使用了可比较的配置空间,以及相同的调整和测试设置,因此我们应该在最后获得可靠的结果和公平的比较。

参见

Henderson, P., Islam, R., Bachman, P., Pineau, J., Precup, D., and Meger, D.: Deep reinforcement learning that matters. Proceedings of the Conference on Artificial Intelligence, AAAI’18.

Agarwal, R., Schwarzer, M., Castro, P., Courville, A., and Bellemare, M.: Deep reinforcement learning at the edge of the statistical precipice. Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems, NeurIPS’21

Eimer, T., Lindauer, M., Raileanu, R.: Hyperparameters in reinforcement learning and how to tune them. Proceedings of the Fortieth International Conference on Machine Learning, ICML’23