AutoML.org

弗莱堡-汉诺威-图宾根

预训练模型时代的 AutoML

随着模型规模的不断增长,用于训练的数据大小和类型,以及对大量计算资源日益增长的需求,需要重新调整 AutoML 的视角。鉴于大型预训练模型的出色性能,缺乏易于访问的计算资源和数据来训练它们,以及为训练和微调这些预训练模型进行超参数调整的成本不可行,都需要重新调整 AutoML 的视角。

这为 AutoML 和大型模型训练的接口提供了两个广泛的方向。

用于预训练模型的 AutoML

从这个角度来看,我们着眼于利用现有或开发新的高效 HPO 方法

  • ZAP-HPO:在预训练模型及其微调超参数的元数据集上进行元学习,以实现对未见测试任务的零样本超参数预测。
  • Quick-Tune:提出了一种通过元学习的多保真度性能预测器来选择合适的模型及其微调超参数的有效方法。
  • PriorBand:允许专家先验接口与 HyperBand 集成,以在短计算预算下进行高效、稳健的多保真度 HPO。

用于 AutoML 的预训练模型

我们还着眼于利用预训练模型在 AutoML 中的各种下游应用中的强大性能

  • TabPFN:我们利用了上下文学习的力量,这是一种特定的元学习形式,来预训练一个专门为表格数据设计的基座模型。该基于 Transformer 的模型有效地处理表格训练数据集,并迅速为测试数据生成预测,所有这些都在一次前向传递中完成。值得注意的是,该模型无缝集成到熟悉的 scikit-learn 接口中,使其成为在处理表格数据时传统 AutoML 系统的便捷有效替代品。
  • PFNs4BO:我们利用预训练模型通过上下文学习表现为代理。这使我们能够为 BO 使用新的先验,并构建以前不可能实现的扩展。
  • LC-PFN:使用在合成数据上预训练的 Transformer,用于应用于多保真度 HPO 中早期停止的贝叶斯学习曲线外推。
  • CAAFE:我们使用 GPT-4 进行自动提示,以对表格数据集进行特征工程。我们告诉 GPT-4 关于一个表格数据集,并询问它在将其馈送到标准 ML 算法之前会对该数据集执行哪些操作。我们构建一个循环,将上次执行的操作的交叉验证性能变化反馈回去。CAAFE 提出了非常有趣的方法来提高性能,例如,它将字符串属性拆分为具有较低基数的多个分类特征,或将年龄划分为相关的子组。