AutoML.org

弗莱堡-汉诺威-图宾根

LC-PFN

使用PFN高效的贝叶斯学习曲线外推

AutoML通过自动化模型选择、超参数调整和特征工程,彻底改变了机器学习领域。它使得非专家也能更容易地利用机器学习的力量来解决实际问题。然而,AutoML面临的挑战之一是评估大量模型及其超参数配置所带来的计算成本。此外,随着深度学习和大型语言模型(LLM)的“越大越好”趋势,训练成本越来越高,使得AutoML变得难以实现。

学习曲线外推旨在根据早期训练的表现来预测机器学习训练后期模型性能。这些预测在AutoML的背景下特别有用,因为它们允许我们停止那些不会产生比当前最佳模型更好的训练过程。然而,虽然许多学习曲线表现良好(即,可预测),但有些表现出混沌行为,并且本质上难以准确预测,因此需要一种贝叶斯方法,该方法也能估计其预测的可靠性。然而,现有的学习曲线外推贝叶斯方法本身也成本高昂(例如,使用MCMC、贝叶斯神经网络)和/或不够灵活(例如,使用高斯过程),增加了显著的开销。

LC-PFN是一种新颖、高效且灵活的贝叶斯学习曲线外推方法。LC-PFN是一种Transformer,它在从先验生成的合成学习曲线数据上进行预训练,以通过单次前向传递执行近似贝叶斯学习曲线外推。在我们的论文中,我们进行了广泛的实验,表明LC-PFN可以比MCMC更准确地近似后验预测分布,同时速度提高超过10,000倍。我们还表明,相同的LC-PFN在推断来自四个学习曲线基准(LCBench、NAS-Bench-201、Taskset和PD1)的共计20,000条真实学习曲线时,取得了具有竞争力的性能,这些基准来自在53个不同的数据集上训练各种模型架构(MLP、CNN、RNN和Transformer),这些数据集具有不同的输入模态(表格、图像、文本和蛋白质数据)。

参考文献