微代理：通过模型 API 内部协作击败前沿模型

每个人都在关注下一个前沿模型。更有趣的层次可能是在它之前的那一层。路由器正在成为人工智能推理的控制平面。它们的第一个角色是实用的：将正确的请求路由到正确的模型。这一点是重要的，因为生产人工智能不再是一个模型的世界。路由器可以通过决定何时请求值得使用前沿模型，何时开放源代码或本地模型就足够来降低成本。它可以通过将敏感领域发送到更严格的模型、更严格的过滤器或更强的审核路径来执行安全政策。它可以协调云和边缘，保持私密或低延迟的意图在本地，同时将更复杂的工作提升到云端。那些都是重要的工作。但下一个路由器的工作更有趣：路由器可以让模型变得更好。不是通过更改权重。也不是要求每个应用程序构建一个定制的代理图。通过在服务层内部将一次模型 API 调用变成一个有限的协作。图 1：路由器正在从模型选择转向能力构建。这就是为什么 Sakana Fugu 的到来如此轰动：它将一个简单但强大的想法变成了一种商业产品，即“模型”可以是一个表面，而在该表面后面可以是一支团队。围绕这个想法的研究，包括 Fugu 技术报告以及像 Conductor 和 Trinity 的协调论文，提供了有用的语言来思考编排。但是，vLLM 语义路由器的愿景不同于其抽象的置放。协作不应该仅仅存在于一个商业端点或一个特定应用的代理图内部。它应该成为一个开放的服务原语。vLLM 语义路由器将这个想法引入开放服务层。用户仍然调用一个模型：{ "model" : "vllm-sr/auto" , "messages" : [{ "role" : "user" , "content" : "..." }] } 在这个稳定的模型身份后，路由器可以选择一个配方，向工作者分发请求，收集法定人数，验证不一致，合成最终答案，修复输出合同，并返回一个正常的与 OpenAI 兼容的响应。关键不是暴露复杂性。关键是让协作感觉像是一个模型。 Looper 是运行时在 vLLM 语义路由器中，Looper 是有限微代理的执行运行时。请求作为普通的聊天完成进入路由器。路由器提取信号，将其投影到任务形状或风险带，匹配一个决策，然后选择一个算法。该算法可能是一个正常的单模型路由，或者可能是一个 Looper 路由。今天，主要的 Looper 模式有：置信度：一个顺序升级循环。它首先尝试更便宜的候选者，测量置信度，并且仅在得分过低时升级。评级：一个有限的并发循环。它在严格的并发上限下运行多个候选者，并使用评级感知的权重进行聚合。ReMoM：重复的模型混合推理。它展开广度样本，等待足够的成功响应，并进行最后的合成回合。融合：一个面板评审最终模式。独立模型响应成为评审和最终决策者的证据。工作流：一个微代理工作流运行时。它支持静态角色或动态规划，执行有限的工作步骤，并合成最终响应。图 2：Looper 算法在路由器内部运行，同时保留模型 API 表面。实现细节很重要。Looper 不是“请求更多模型”的口号。它是一个具有预算、拓扑、跟踪和故障政策的小型运行时。置信度：仅在困难案例上花费升级置信度是一个成本意识的循环。它从一个较小或较便宜的候选者开始，然后评估答案是否足够自信以停止。置信度信号可以来自于标记级别的日志概率、日志概率边际、混合评分、自我验证或 AutoMix 风格的蕴含验证器。如果分数超过阈值，路由器立即返回。如果分数过低，路由将升级到下一个候选者。重要的部分不是升级的存在，而是升级变成明确的路由器策略：阈值、故障行为和停止条件是可见和可调的。图 3：置信度将升级转化为一种可度量的停止策略。评级：在严苛上限下的平行质量评级是受控的集成循环。它并行启动多个候选者，但只达到配置的 max_concurrent 上限。这使得在路由应该受益于多个模型视图而不将每个请求转化为无界的扩展时变得有用。路由器收集成功的响应，应用评级感知的聚合，并根据路由策略处理故障。在实践中，评级非常适合于 A/B 风格的评估、集成策略，以及运营者已经拥有有意义的每个候选者质量信号的路由。图 4：评级保持多候选者执行有限且感知评级。ReMoM：具有合同的广度 ReMoM 在任务具有高推理时非常有用。