与Mythos合作的感受

我提前体验了将向公众发布的第一款Mythos级AI模型Claude 5 Fable。关于Mythos的讨论主要集中在其对软件安全的影响，但我在其他方面进行了测试（Fable的护栏基本上阻止了它用于网络安全）。我的结论是，它代表了我之前使用过的每个模型的真正飞跃，或许更重要的是，暗示了我们与AI的关系正在发生剧烈变化。首先，Fable的表现如何？在我进行的一次次实验中，它基本上在每个任务上都以相当大的优势超越了我使用过的其他所有公共模型。它在许多问题上都有能力，产生了一些令人惊讶的结果——它可以在多页规格上执行长达十几个小时的工作。我会迅速向你介绍几个更复杂、更严肃的用例，但你可以看到每个任务上普遍的改进。关于在帖子中表达这一点的问题是，许多最令人印象深刻的结果对我的读者中的小部分人会很有趣。例如，它根据一个提示和一条反馈制作了我看到的最复杂的学术社会科学论文。此外，它还创作了一首关于剪发的十页史诗押韵诗，每个单词都以字母s开头。因此，作为一个更易于接触和娱乐的例子，我还让它创作了一些你可以尝试的游戏。所有这些都是Claude Code中的一个初始提示，其中Fable必须根据我的模糊提示生成可行的内容，随后是几个简单的提示与轻微的鼓励（“让它变得更好”）或反馈。使这些特别令人印象深刻的是Claude不能生成图像，因此每一件艺术品或3D对象都是仅用数学制作的，而没有使用任何外部资产。你可以尝试其中任何一个：关于抛硬币的游戏（提示：“Balatro，但用于抛硬币的游戏”），非常有趣；一个蛇形游戏，蛇是自我意识的，发生了疯狂的事情；翻译成艺术游戏的著名德国浪漫主义诗人的作品（“将杜伊诺哀歌变成游戏，调整好气氛”）；或一个关于深入探索深渊以看看那里有什么的游戏。因此，输出的确令人印象深刻。但是，特别是当我转向更严肃的项目时，我常常觉得使用这个工具的感觉介于愉悦和令人不安之间。愉快是因为我只是要求了一些东西，然后它就发生了。而且令人不安是因为我只是要求了一些东西，然后它就发生了。要理解为什么，这有助于了解Fable完成工作的方式，而为此我想转向一个我在许多之前的AI模型上测试过的示例：构建等时线图。这是一种展示在给定时间长度内可以旅行的距离的地图，第一张于1881年创建，显示从伦敦出发的旅行时间。原始地图没有任何先前的模型在尝试创建这样的地图时做到过即使是一半的有用工作，因为它涉及研究成千上万个潜在的旅行距离以及很多小的判断和决定。我决定在Fable上尝试，使用Claude Code给出了这个提示：我希望你构建一张经过全面研究和美观的等时线地图，让我选择各个城市，并根据真实数据查看真正的等时线。设计应该是独特的。你应考虑机场（以及往返机场的旅行时间）、火车、步行和驾驶。数据不需要实时，但应该基于你的研究和数据是真实的。你可以从几个城市开始，但更一般的更好，这应该是一个全新的项目。然后它建议按照原始地图的风格进行。我同意了，它开始工作。值得再次查看AI在其独立的多个小时构建会话的记录，因为你可以看到一些不寻常的事情。首先，AI启动了多个其他AI（我相信大多数是更便宜的Claude Sonnet）来帮助它进行旅行时间的研究，最终检索到2200多条具体航班，TGV到新干线的列车时刻表，以及来自多个学术论文的各国道路速度。与此同时，AI开始编码。然后它又启动了更多的代理和测试来验证它的代码，同时记录它的进展。结果是一个功能齐全的地图，其复杂性令人印象深刻，外观与1881年的原始地图相似，但这并不意味着它完美。我注意到许多偏远地区（如格伦兰）仅包含旅行时间的估计，没有确切的数字，所以我告诉Fable进行修正，包括指令：实际上获取偏远机场和地点的旅行时间。这一次，AI启动了一个工作流程，对立的代理进行研究并测试彼此的结果。它找出了船只前往太平洋中皮特凯恩岛的航行频率，以及如何从渥太华到达格里斯峡湾。