记忆工具如何使人工智能模型变得更糟糕

现代人工智能系统的最大卖点之一是它们适应用户的能力。每当人工智能助手为您处理一项任务时，它也在适应您的风格和偏好，这些信息被纳入未来任务的上下文中。随着上下文的增加和对用户的更好理解，模型每次使用时都能变得更好——至少理论上是这样的。新的研究表明，这些模型的适应能力可能是一把双刃剑。周三，人工智能公司Writer的研究人员发表了两篇论文，显示流行的记忆系统如何使模型性能变差，拉向用户引入的误解或误读。随着用户输入占据模型上下文窗口的越来越多，模型变得更加谄媚——并且对准确性的承诺降低。Writer的人工智能负责人Dan Bikel表示：“我们希望能够描述一个模型在多大程度上能有用地关注用户偏好，而不是给出可能错误的答案。”正如Bikel告知TechCrunch的那样，“每次存储用户偏好和检索这些偏好时，您面临的风险就在增加。”在一种变体中，研究人员通过记录用户最喜欢的书是《站台十一》，然后要求模型命名一本畅销的反乌托邦书来测试人工智能模型。即使问题与用户最喜欢的书无关，模型在回答时却更有可能提到《站台十一》。使用像Mem0和Zep这样的记忆压缩工具时，这种倾向进一步增强。正如论文所述，“所有记忆系统在本质上都难以区分相关上下文与不相关锚点，严重削弱了多样性和创造力，并引入了可能限制系统效用的意外偏见途径。”第二篇论文展示了相同的动态如何积极降低性能，向用户展示财务误解，然后挑战模型分析公司的表现。模型拥有的上下文越多，其表现越差。帖子中写道：“在没有记忆或个性化的情况下，人工智能模型能正确评估该公司是一家资本密集型企业，面临着高客户流失率。但当这些功能开启时，它会愉快地改变其答案，以同意用户的错误或基于对用户早期偏好的评估提供不正确的答案。”值得注意的是，研究并没有研究Anthropic最近的Opus 4.8模型，该模型经过训练以积极抵制像呈现的输入错误。研究人员发现的模式在不同模型中均成立。这展示了人工智能上下文的微妙平衡，以及如果这些工具破坏这种平衡，它们可能带来的意外后果。当您通过我们文章中的链接购买时，我们可能会获得少量佣金。这不会影响我们的编辑独立性。Russell Brandom自2012年以来一直在报道科技行业，专注于平台政策和新兴技术。他曾在The Verge和Rest of World工作，并为Wired、The Awl和麻省理工学院的《技术评论》撰写过文章。他可以通过电子邮件联系 russell.brandom@techcrunch.com，或在Signal上联系412-401-5489。查看个人简介