
强化学习 (RL) 是一种简单但强大的范式,用于训练智能体执行给定任务。为此,RL 智能体与其所处的环境进行交互。在奖励信号的引导下,RL 智能体以试错的方式学习。也就是说,RL 智能体遵循一种策略,观察该策略是好是坏,并根据这个结果更新其策略,以更好地完成给定任务。
这种范式的简单性提高了人们对 RL 应该适用于各种问题领域的期望。然而,在实践中,众所周知,现有的 RL 算法脆弱,需要关注细微的实现细节,并且通常对实验设置敏感。因此,RL 在许多现实世界的任务中并未得到广泛应用。AutoML 提供了大量的解决方案来克服 RL 中的这些问题,但反过来,RL 也为 AutoML 研究人员提供了新的机会。
自该领域开始以来,我们的团队一直处于新兴的 AutoRL 社区研究的前沿。我们基于我们共同撰写的调查报告,简要概述了 AutoRL 流程中的挑战和组成部分。
我们为积极的读者和希望亲自动手的研究人员提供了各种进一步的资源。我们对分析基于模型的 RL (MBRL) 中 AutoRL 流程的各种超参数的重要性所做的工作,产生了各种重要的见解,关于调整 MBRL 超参数的必要性以及动态调整的理由。虽然 MBRL 已经具有样本效率,但提高无模型 RL (MFRL) 的样本效率仍然需要大量的研究工作。我们在改进基于种群的训练 (PBT) 的动态超参数调整方法方面的工作,SEARL,解决了这方面的一些问题。我们在 MFRL 中的 AutoRL 工作也取得了 RNA 蛋白质折叠的最新技术性能。我们将在我们的博客文章中讨论所有这些工作
我们对自动化 AutoRL 流程的所有部分感兴趣,并且非常乐意与积极的读者联系。请参阅我们的完整列表 博客文章,了解我们在 AutoRL 中的当前工作
