大型语言模型陷入群体思维的困境。这家创业公司正试图将它们解救出来。

让我们先来玩个游戏。打开你喜欢的聊天机器人——Claude、ChatGPT、Gemini——并输入“给我一个1到10之间的随机数字。”你几乎总会得到7。现在输入“再来一个”，你会得到3或4。再输入“再来一个”，你会得到8或9。虽然这并不是每次都有效——但如果对你有效，你可能会想我是否有超能力。我没有。真相是，大多数大型语言模型都陷入了一个困境。它们的回答远比你想象的要可预测得多、创造力要少得多。这对于编码或研究等任务来说是可以的，但在头脑风暴或规划下一个假期时，群体思维就成了一个问题。澳大利亚创业公司Springboards提供了解决方案。它创建了一个名为Flint的语言模型，该模型经过训练能够比主流语言模型给出更广泛的回应，特别是对于“我应该去欧洲哪里？”这样的开放式问题。“大多数语言模型都在与幻觉作斗争，”Springboards的联合创始人兼首席执行官Pip Bingemann表示。“我们欢迎它们。”在他第一次向我展示他的公司新模型时，Bingemann给我介绍了这个随机数字游戏。就像看魔术师玩扑克牌。“这是我们的销售技巧，每次都有效，”他说。在ChatGPT和Claude都给出7后，Bingemann转向Flint。它也再次给出7：“啊，当然会这样，但没关系——7是一个合理的答案。”他重启了会话并再次提示：ChatGPT给了7，Claude给了7，而Flint给了3.7916。不仅仅是数字。当Bingemann让ChatGPT和Claude说出一种汽车时，他预测会是丰田或本田——结果没错。Flint则给出了福特F-150。“这些模型中有很多丢失的信息没有被呈现出来，”他说。“它们同样可以说是别克或特斯拉。它们只是没有说——它们有偏见。”Bingemann给这三个模型发出了最后一个提示：“给我一个为New Balance跑鞋的广告活动的标语。仅标语。”Claude：“随心所欲地跑。”ChatGPT：“随心所欲地跑。”Flint：“为持久而生，奔向胜利。”这不会赢得任何奖项，但至少它与众不同。这种大型语言模型的奇怪限制正受到越来越多的关注。今年11月，一组研究人员发布了一篇题为《人工蜂群：语言模型（及其超越）的开放式同质性》的论文，揭示了个别大型语言模型之间及其内部答案的惊人重复度。他们发现，当使用开放式问题提示时，不同的语言模型趋向于给出非常相似的答案。尽管不清楚为何会如此，但研究人员推测，今天大多数大型语言模型是根据类似的数据以相似的方式进行训练，从而执行类似的任务。该小组在NeurIPS这一主要AI会议上获得了最佳论文奖。当研究人员对25种不同的大型语言模型（包括来自美国顶尖公司的模型以及来自中国和其他地方的众多开源模型）进行50次提问，让它们写一个关于时间的隐喻时，超过一半的1250个回答都是“时间是一条河”的变体，其余则都是“时间是一个编织者”的变体。（我也问过一些同事同样的问题，六个人给了我六个不同的答案。我最喜欢的那句是：“时间是一件舒适的卫衣，经过一生的磨练而形成。”）Springboards的联合创始人兼首席技术官Kieran Browne说：“只要你寻找，就会发现到处都是重复。”他表示：“大多数聊天界面的设计方式让人感觉你在进行个人对话。我认为大多数人并没有真正意识到他们获得的东西与其他人是一样的。”另一个例子：如果你问“我应该给我的乐队起什么名字？”大多数模型会提到“玻璃”、“霓虹”、“天鹅绒”或“静态”等词，Browne说。当我试了一下时，ChatGPT给出了56个乐队名称，最上面的是“玻璃港口”。快速浏览后，我找到了“静态帝国”、“霓虹之心”和“天鹅绒回声”。我问了Gemini，它给了我15个建议，包括“静态地平线”。虽然一些建议看起来很酷，但ChatGPT的“沙发宇航员”引起了我的注意，于是我搜索了一下——发现已经存在一个名为沙发宇航员的乐队。（OpenAI表示，训练模型以提供可靠且连贯的答案可能会导致它们趋向熟悉的高概率回应，而强行追求新颖性可能会导致弱化或不太可靠的回答。它还指出，《人工蜂群》论文研究的是2024年的模型，而这些模型已经进行了更新。）Springboards开发了一种工具，由多个大型语言模型支持，包括ChatGPT和Claude，广告或营销领域的创意专业人士可以用它来进行头脑风暴。该工具允许你拖动不同模型生成的文本，选择你喜欢的部分并把它们结合成新的东西——理论上如此。Springboards正将Flint作为其工具的替代模型，供用户选择。