LLM能否超越经典超参数优化算法？

查看PDF HTML（实验）摘要：autoresearch存储库使得LLM代理能够通过直接编辑训练代码来优化超参数。我们将其用作测试平台，比较经典HPO算法与基于LLM的方法在特定计算预算下调节小型语言模型的超参数的效果。在定义固定的搜索空间时，经典方法如CMA-ES和TPE始终优于基于LLM的代理，其中避免内存溢出故障比搜索多样性更为重要。允许LLM直接编辑源代码缩小了与经典方法之间的差距，但并未完全缩小，即使在撰写时有诸如Claude Opus 4.6和Gemini 3.1 Pro Preview的前沿模型可用。我们观察到LLM在跨试验跟踪优化状态方面存在困难。相比之下，经典方法缺乏对LLM的领域知识。为了结合双方的优势，我们介绍了Centaur，一种共享CMA-ES可解释内部状态的混合方法，包括均值向量、步长和协方差矩阵，与LLM共同使用。在我们的实验中，Centaur实现了最佳结果，0.8B的LLM已经足以超越所有经典和纯LLM方法。无约束的代码编辑需要更大的模型以与经典方法具有竞争力。我们进一步分析了搜索多样性、模型从0.8B到前沿模型的规模变化，以及在Centaur中LLM建议试验的比例的消融实验。总的来说，我们的结果表明，LLM作为经典优化器的补充最为有效，而非替代。代码可在此https URL获取，互动演示可在此https URL获取。主题：机器学习（cs.LG）；机器学习（stat.ML）引用为：arXiv:2603.24647 [cs.LG]（或此版本为arXiv:2603.24647v5 [cs.LG]）https://doi.org/10.48550/arXiv.2603.24647 arXiv发布的DOI通过DataCite提交历史来自：Fabio Ferreira [查看电子邮件][v1] 2026年3月25日星期三17:29:40 UTC（1,874 KB）[v2] 2026年3月29日星期日18:46:53 UTC（2,456 KB）[v3] 2026年4月4日星期六10:33:34 UTC（3,843 KB）[v4] 2026年4月13日星期一21:59:37 UTC（3,768 KB）[v5] 2026年4月17日星期五18:50:51 UTC（3,905 KB）