返回

文章详情

我们建立了一个实验室来评估数据代理 - Hex

Hacker News2026年6月20日 00:23

数据分析是一个独特的受 curse 的领域,代理在其中操作。简单的问题看起来很难,难的问题看起来很简单。许多问题都是不可能回答的;即使尝试也是失败。错误通常是无声且微妙的。无害的假设(LLM 最喜欢的!)可能会影响分析的结果。没有类型检查工具,没有测试套件,没有正式化语言。几乎没有现实的公共数据可供训练或构建环境,剩下的都是不切实际的教程资料充斥在预训练中。每个人的数据仓库都是超出分布的。对于每一个正确答案,有十个貌似合理但微妙不正确的错误答案,且没有办法验证或确认结果。这就是 Hex 所处的复杂而令人兴奋的世界!在这个特别具有挑战性的领域,拥有良好的评估至关重要,以便了解我们是否在改善我们的代理,并为用户提供良好的体验。我们越来越意识到,在 Hex 中代理的性能更多地依赖于它们所访问的丰富背景存储,而不是它们的系统提示或驱动它们的模型,因此评估“一个代理”最终看起来更像是在用户的数据仓库的上下文中评估整个 Hex 系统和上下文飞轮。为了支持这些复杂的评估而不牺牲灵活性和速度,我们不得不构建大量的自定义基础设施,甚至创建一个完全伪造的业务!这是我们设置的样子。 Shoebox - Hex 的评估基础设施和实验台 去年,就在我们将 Notebook Agent 作为仅内部原型发布之前,我构建了一个非常简陋的工具,让我们查看代理跟踪。我称之为“Shoebox”,以纪念我们所有人都在壁橱中拥有的一盒乱七八糟的收据,并希望这只是一个临时的权宜之计,直到我们购买一些真实且可以解决我们所有问题的产品。在过去的一年里,我们没有替换它,而是将 Shoebox 发展成为一个完整的代理可观察性和评估的实验台。它为我们所有的代理提供临时和定期的评估,支持所有实验处理和成对比较的需求,甚至暴露出一组代理技能,让编码代理在一个类似自我研究的循环中针对我们的评估进行实验。Shoebox 的一切设计都旨在帮助用户将评估视为带有“候选者”和“基线”运行的成对实验,而不是独立测试。它作为本地 Hex 开发堆栈的一部分运行,以最大程度地提高灵活性,但连接到我们的共享内部 Hex 工作区,每天运行的评估集为每个人建立共享的“生产基线”。这使得大多数人能够使用一种高效的混合工作流程,将本地执行的候选者运行与远程执行的生产基线进行比较。即使有 10 个人在进行 25 个实验,基线在整个群体中保持(相对)静态,我们可以客观地讨论它们。我们非常努力确保每个人的本地环境与其他人和远程环境同步,因此我们始终在比较相同之物——特别是,这不是一个简单的问题,我们仍在努力完善。这种模型的好处在于,无论是谁都可以快速启动新的分支,进行一些代码更改,然后针对共享、一致的远程基线运行评估。测试新的模型配置或系统提示更改与测试工作区上下文、一些新的内存系统或搜索基础设施的变化同样简单……或者让我们的 PM 在睡觉前查看评估。我们的评估集与公共基准相比相对较小。好的评估很难编写,我们更喜欢艺术性地制作出强大、广泛适用的评估,使人们能够通过在其上创建新的量表获得任意信号,而不是定期制作全新的评估。为了促进这一点,我们的核心评估集配备了一组预配置的量表和真实数据,但任何人都可以配置自己的确定性、LLM 判定或混合量表——或者,如果必须的话,可以创建新的评估和评估集。我们现在拥有的大多数评估集运行着很多额外的量表,比如工具效率、语义层使用、工作区指南遵循等,都是与特定团队或产品领域相关的,并且可以轻松附加到现有的评估语料库上。为了进一步减少不必要的评估和量表的扩散,用户甚至可以创建灵活的运行范围“假设目标”量表,允许对特定实验进行更有针对性的成对评估。这些 LLM 判定的量表在判断时会并排考虑候选者和基线轨迹,甚至可以访问后运行元数据,因此您可以评估速度和成本等因素,除了行为和准确性之外。我们发现,这些明确的立场导致评估更加一致和参与。

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡