你只需要 Grep 吗？代理如何利用代理搜索

查看 PDF HTML（实验性）摘要：最近大型语言模型（LLM）代理的进展使得复杂的代理工作流程得以实现，这些模型能够自主检索信息、调用工具并在大量语料库中进行推理，以代表用户完成任务。尽管检索增强生成（RAG）在代理搜索系统中的采用日益增长，但现有文献缺乏对检索策略选择如何与代理架构和工具调用范式相互作用的系统比较。包括如何将工具输出呈现给模型，以及当搜索必须应对更多不相关的周围文本时性能如何变化等重要实际维度，在代理循环中依然未得到充分探索。本文报告了一项实证研究，分为两个实验。实验 1 比较了在 LongMemEval 中116个问题样本的grep和向量检索，使用了定制的代理工具（Chronos）和提供者原生的CLI工具（Claude Code、Codex 和 Gemini CLI），分别用于内联工具结果和模型单独读取的文件基础工具结果。实验 2 比较了仅使用grep与仅使用向量检索，同时逐步混入更多不相关的对话历史，以便每个查询都嵌入更多干扰材料中，与重要段落并列。在 Chronos 和提供者 CLI 中，实验 1 中我们的比较显示，grep 通常比向量检索具有更高的准确性；同时，即使底层对话数据相同，整体得分仍然强烈依赖于使用的工具和工具调用风格。主题：计算与语言 (cs.CL) 引用为：arXiv:2605.15184 [cs.CL]（或 arXiv:2605.15184v1 [cs.CL] 作为此版本）https://doi.org/10.48550/arXiv.2605.15184 arXiv-issued DOI 通过 DataCite 提交历史作者：Sahil Sen [查看电子邮件] [v1] 2026年5月14日星期四 17:58:41 UTC (516 KB)