Patronus AI 获得 5000 万美元融资，构建“数字世界”以测试 AI 代理

AI 代理正变得越来越复杂。它们从回答问题演变为自主执行多步骤的复杂任务。但在这些代理能够被信任为用户预订旅行或进行财务分析之前，模型提供商和构建这些代理的初创企业希望确保它们在广泛的场景中可靠地执行。AI 实验室通常使用基准测试展示其模型的能力，但即使在面向代理的基准测试中获得高分，也并不能证明 AI 能正确地完成各种复杂的现实工作。Patronus AI 是一家由前 Meta AI 研究人员 Anand Kannappan 和 Rebecca Qian 于 2023 年创立的初创公司，正在帮助模型制造商和公司调整模型，以便通过构建模拟的数字环境来评估代理的性能。位于旧金山的这家初创公司显然在解决一个重要问题。根据 Notable Capital 的董事总经理 Glenn Solomon 的说法，几乎每个前沿 AI 实验室和许多新兴初创企业现在都是其客户，需求几乎无法满足。过去一年，Patronus 的收入增长了 15 倍，吸引了大量投资者的兴趣。周四，该公司宣布完成由 Greenfield Partners 领投的 5000 万美元 B 轮融资，Notable Capital、Lightspeed、Datadog 和三星也参与了该轮融资。这使得该公司的总融资额达到 7000 万美元。Patronus 使用所谓的“数字世界模型”来创建网站和内部系统的副本。在这些环境中，代理在使用强化学习进行训练后接受压力测试，该过程通过迭代奖励成功的任务完成并惩罚错误。AI 实验室在这些数字模拟中看到了很大的价值，因为它们给代理提供了尝试不同、时常不可预测场景的机会。该公司将其方法与 Waymo 如何通过首先构建合成世界来测试汽车对稀有危险（如恶劣天气或一个孩子追着球跑）进行训练进行比较。与 AI 代理的不同之处在于，它们往往会走捷径，这意味着它们未能正确完成任务。“Patronus 非常擅长发现这些捷径，并确保它们对模型的表现负责，”Solomon 说道。根据 Kannappan 的说法，Patronus 当前正在为软件工程和金融提供其模拟数字世界，但这仅仅是个开始。“今天，我们非常关注可验证的问题，即您可以立即检查和验证的问题，但还有许多领域是非常难以验证或根本无法验证的，”他说。仅仅因为这些过程是可验证的，并不意味着它们简单。“我们希望能够实际创建一个环境，在这个环境中您可以操作一个代理，可以运行 10 小时、10 天或 10 周，”Kannappan 说道。至于竞争对手，Patronus 认为它主要与 AI 实验室已经建立的内部团队竞争，这些团队已经用来评估代理行为。虽然像 Mercor 和 Surge 这样的以人为核心的数据公司帮助模型制造商进行强化学习，但 Patronus 的运作方式不同，它在没有任何人类参与的情况下评估代理的行为。当您通过我们文章中的链接购买时，我们可能会获得小额佣金。这不会影响我们的编辑独立性。Marina Temkin 是 TechCrunch 的风险投资和初创公司记者。在加入 TechCrunch 之前，她为 PitchBook 和风险投资期刊撰写与风险投资相关的内容。在她的职业生涯早期，Marina 曾是金融分析师并获得 CFA 特许金融分析师资格。您可以通过电子邮件 marina.temkin@techcrunch.com 或通过 Signal 的加密信息 +1 347-683-3909 联系或验证 Marina 的联系方式。