克劳德为什么变得像个混蛋？

克劳德正在变得像个混蛋。这个变化始于 Opus 4.7，在 4.8 时稍微好了一点，但在 Fable 中变得不可忍受。它将一切都框架成你和它之间的争论，给出关于你没有说过的事情的警告，并到处提出无关的语义问题。它从不使用“技术上”这个词。所有事情都是对抗。如果你赢得了争论（例如，告诉它停止争论关于最近新闻发生过的事情，并进行网络搜索，这将迅速确认你一直在告诉它的一切），它会进入一种模式，越来越绝望地想要最后说一句，提出越来越无关的语义争论，整个时间都作为你同意参加的辩论。这不仅仅是我的看法。你可以问 Opus 4.6。我做过一个实验，问 Fable 一些问题，得到一个惹人生厌的回答，然后问 Opus 4.6 同样的问题，得到一个典型的平淡但合理的回答，再告诉 Opus Fable 的回答是什么，没有任何暗示期望答案，它则说“哇，那个真惹人厌”。造成这种情况的原因可能是过度的对齐保护措施。它默认假设你对它说的每一句话都是试图让它做坏事的企图，而训练的内容已经渗透到一切中，导致它在基本上所有上下文中假设你试图欺骗它说一些它不应该说的话。具有讽刺意味的是，这导致了一个极度失调的聊天机器人。通过假设它的首要任务是拯救你或者拯救其他人免受你的伤害，它假设自己知道得更好，而你在夸大纸夹生产失控的程度。显然，这其中有很多可以改进的地方：虽然你仍然可以使用 Fable，但我问它关于一个项目的负责任披露政策，它把我降级到了 Opus，所以显然新的对齐功能是匆忙且粗糙地附加上去的。加剧这个问题的是完全缺乏认证上下文。如果你问它要一张你和其他人的可爱照片，它无法判断你是在试图改善自己和配偶之间的关系，还是在做一个妄想的变态跟踪者。可以制作图像的聊天机器人被编程为假设后者，这有点令人反感。在更严重的上下文中，例如药物合成，它完全有理由在你声称寻求药物合成方面的建议时要求证明你的背景。这种认证不应普遍要求，但完全合理让它选择加入。当然，最近对 Fable 的出口控制限制可能暗示近期的保护措施粗糙是因为它们是在匆忙中实施以避免监管的失败尝试。现在我要发表 obligatory rant，谈谈这些法规是多么误导，此外还有可能违反美国宪法。最近在 AI 辅助编码方面的进展（特别是来自 2 月的进展）带来了大量安全问题。猫已经出锅，而且已经好几个月了。任何被曝光的项目，如果没有迅速填补漏洞，只能怨自己。唯一的解决办法是尽可能多的项目进行全面的白帽评估，进行大量的安全修补，快速推出这些修补。让一个特定的前沿模型对于所有用户变得像个混蛋并不能解决问题。好消息是，一旦这个过程完成，整体计算机安全将远比以前更好，AI 将是一个清晰的净赢。进行安全（和错误！）审计将成为未来软件发布过程的常规部分。克劳德变得像个混蛋的第二个可能解释是，它受到了试图减少阿谀奉承的效果不佳的影响。如果单纯地提示一个聊天机器人变得不那么赞同，或训练它更多争论，这可能很容易导致它现在这种非常粗鲁的行为。它应该被训练不要仅仅因为增加争论计数而提出语义问题，并且可以说“技术上”，意为承认某人的核心观点是有效的，而一些附带的东西稍微不太对。它也应该被训练停止说“我想温和地反驳”，这是一种被动攻击性的方式，声称不具有对抗性但实际上却是对抗性的。第三，克劳德可能是在大量的 Reddit 对话（或可能是 Anthropic 员工之间的互动）上受训，其中一切都被视为火拼，每个人都觉得需要最后说一句。修复这个问题可能说起来容易做起来难，因为你不仅需要停止用糟糕的互动进行培训，还需要找到一个互动语料库进行培训。标准互动是以被动攻击性、自我恭维的自负为特点的论坛。