系统优化应该是CI/CD的一部分

这篇文章是我们人工智能驱动的系统研究（ADRS）案例研究系列的一部分，我们利用人工智能自动发现现实世界系统问题的更优算法。像OpenEvolve和GEPA这样的算法发现框架表明，人工智能驱动的系统研究（ADRS）可以产生强大的算法。但如今的框架对于ADRS的下一步发展来说成本过高。未来在于持续和定制化的优化，而不是一次性的基准结果。系统应该根据部署的实际工作负载、硬件和SLO生成量身定制的解决方案，并随之调整。当每次优化都需要高昂的成本时，这种情况就不可能实现。LEVI是一个旨在降低算法发现成本的框架。它不使用最强大、最昂贵的模型来处理每一步，而是投资于搜索装置：较小、成本更低的模型（例如QWEN 30B）处理大部分变异，而较大模型则保留用于更罕见的范式转变。这得以实现是因为LEVI在代码结构（例如循环次数）和实际行为（例如在子集x上的性能）之间保持多样性，确保搜索档案不会陷入单一解决方案族。最终结果是一个在成本上仅为主要基准比较的3-7倍的框架，能够获得更强的ADRS结果。LLM算法发现框架在为ADRS提供强大结果方面显示了希望。然而，仍然存在一个关键瓶颈：成本。本文论证了为什么成本在ADRS中扮演着重要角色，然后介绍了LEVI；这是一个在成本的很小一部分下性能优于其他框架的算法发现框架。现有框架要求使用昂贵的大型闭源LLM。这显然是有问题的。例如，它提高了进入的门槛，因为大多数研究人员无法承担这样的实验。但更重要的问题是，ADRS不应被视为一次性运行以产生单个强结果的事情。让野蛮人传播？降低成本直到数量级更小应该是ADRS的自然下一步。这是因为ADRS的结果不应被视为一次性研究成果，类似于通常的系统论文。在这些论文中，研究人员改善算法和启发式方法以获得更好的结果。工业界随后跟进，将这些算法移植并适应他们的设置。相反，我们应该朝着完全定制的解决方案迈进。每个解决方案都应该针对每个部署的精确设置和环境量身定制，榨取出最大的价值。图1：每个人都使用一次性昂贵的ADRS运行（上）与每个部署的便宜定制优化（下）。图1：每个人都使用一次性昂贵的ADRS运行（上）与每个部署的便宜定制优化（下）。推导到逻辑结论，ADRS应该被视为CI/CD的一个更复杂的形式。在这种形式中，用户定义他们的评分函数和部署设置，而不仅仅是自动修正风格和格式的lint工具或格式化程序，算法本身也是自动优化的。当资源（例如新的GPU）或优先级变化（不同的SLO）时，相应的算法会自动优化。今天，一个运行多区域云调度程序的企业使用与其他人相同的算法。通过更便宜的ADRS，他们可以根据实际流量模式、实际SLO和实际硬件组合每晚重新优化。引入LEVI：在成本的一小部分下基于LLM的优化根据以上内容，本文介绍了LEVI：一个基于LLM的进化框架，在成本的一小部分下实现ADRS问题的最先进性能。它基于一个关键洞察：过多的框架假定可以访问最大的最先进模型，并围绕它们构建它们的装置。关键洞察：投资于装置而不是模型假定可以访问最大的模型不应成为默认情况。事实上，最初的FunSearch论文报告称未能从较大模型中受益，只有在AlphaEvolve中才成功。开源社区常常忽视这一点，在每一步都抛出最强的模型。LEVI采取了一种以装置为先的方法，通过两个关键组件：分层模型分配和改进多样性维护。图2：LEVI的架构：多样化的种子初始化CVT-MAP-Elites档案；较小的模型处理大部分变异；前沿模型每K次评估注入范式转变。图2：LEVI的架构：多样化的种子初始化CVT-MAP-Elites档案；较小的模型处理大部分变异；前沿模型每K次评估注入范式转变。分层模型分配前沿模型很有帮助，但如果用于每个变异就会浪费。较小的LLM在预算紧张的情况下可能实际更受欢迎，因为它们所产生的解决方案数量可以超过质量优势。