我们建立了一个实验室来评估数据代理 - Hex

数据分析是一个独特的受 curse 的领域，代理在其中操作。简单的问题看起来很难，难的问题看起来很简单。许多问题都是不可能回答的；即使尝试也是失败。错误通常是无声且微妙的。无害的假设（LLM 最喜欢的！）可能会影响分析的结果。没有类型检查工具，没有测试套件，没有正式化语言。几乎没有现实的公共数据可供训练或构建环境，剩下的都是不切实际的教程资料充斥在预训练中。每个人的数据仓库都是超出分布的。对于每一个正确答案，有十个貌似合理但微妙不正确的错误答案，且没有办法验证或确认结果。这就是 Hex 所处的复杂而令人兴奋的世界！在这个特别具有挑战性的领域，拥有良好的评估至关重要，以便了解我们是否在改善我们的代理，并为用户提供良好的体验。我们越来越意识到，在 Hex 中代理的性能更多地依赖于它们所访问的丰富背景存储，而不是它们的系统提示或驱动它们的模型，因此评估“一个代理”最终看起来更像是在用户的数据仓库的上下文中评估整个 Hex 系统和上下文飞轮。为了支持这些复杂的评估而不牺牲灵活性和速度，我们不得不构建大量的自定义基础设施，甚至创建一个完全伪造的业务！这是我们设置的样子。 Shoebox - Hex 的评估基础设施和实验台去年，就在我们将 Notebook Agent 作为仅内部原型发布之前，我构建了一个非常简陋的工具，让我们查看代理跟踪。我称之为“Shoebox”，以纪念我们所有人都在壁橱中拥有的一盒乱七八糟的收据，并希望这只是一个临时的权宜之计，直到我们购买一些真实且可以解决我们所有问题的产品。在过去的一年里，我们没有替换它，而是将 Shoebox 发展成为一个完整的代理可观察性和评估的实验台。它为我们所有的代理提供临时和定期的评估，支持所有实验处理和成对比较的需求，甚至暴露出一组代理技能，让编码代理在一个类似自我研究的循环中针对我们的评估进行实验。Shoebox 的一切设计都旨在帮助用户将评估视为带有“候选者”和“基线”运行的成对实验，而不是独立测试。它作为本地 Hex 开发堆栈的一部分运行，以最大程度地提高灵活性，但连接到我们的共享内部 Hex 工作区，每天运行的评估集为每个人建立共享的“生产基线”。这使得大多数人能够使用一种高效的混合工作流程，将本地执行的候选者运行与远程执行的生产基线进行比较。即使有 10 个人在进行 25 个实验，基线在整个群体中保持（相对）静态，我们可以客观地讨论它们。我们非常努力确保每个人的本地环境与其他人和远程环境同步，因此我们始终在比较相同之物——特别是，这不是一个简单的问题，我们仍在努力完善。这种模型的好处在于，无论是谁都可以快速启动新的分支，进行一些代码更改，然后针对共享、一致的远程基线运行评估。测试新的模型配置或系统提示更改与测试工作区上下文、一些新的内存系统或搜索基础设施的变化同样简单……或者让我们的 PM 在睡觉前查看评估。我们的评估集与公共基准相比相对较小。好的评估很难编写，我们更喜欢艺术性地制作出强大、广泛适用的评估，使人们能够通过在其上创建新的量表获得任意信号，而不是定期制作全新的评估。为了促进这一点，我们的核心评估集配备了一组预配置的量表和真实数据，但任何人都可以配置自己的确定性、LLM 判定或混合量表——或者，如果必须的话，可以创建新的评估和评估集。我们现在拥有的大多数评估集运行着很多额外的量表，比如工具效率、语义层使用、工作区指南遵循等，都是与特定团队或产品领域相关的，并且可以轻松附加到现有的评估语料库上。为了进一步减少不必要的评估和量表的扩散，用户甚至可以创建灵活的运行范围“假设目标”量表，允许对特定实验进行更有针对性的成对评估。这些 LLM 判定的量表在判断时会并排考虑候选者和基线轨迹，甚至可以访问后运行元数据，因此您可以评估速度和成本等因素，除了行为和准确性之外。我们发现，这些明确的立场导致评估更加一致和参与。