反转诅咒：训练于“A是B”的LLMs无法学习“B是A”

查看PDF HTML（实验性）摘要：我们揭示了自回归大型语言模型（LLMs）在泛化方面的惊人失败。如果一个模型在形式为“A是B”的句子上进行训练，它不会自动泛化到反向的“B是A”。这就是反转诅咒。例如，如果一个模型在“瓦莲丁娜·谢尔什科娃是第一位进入太空的女性”上进行训练，它并不会自动能够回答“谁是第一位进入太空的女性？”这个问题。此外，正确答案（“瓦莲丁娜·谢尔什科娃”）的概率不会高于随机名字。因此，模型并没有泛化其训练集中一个普遍模式：如果“A是B”出现，那么“B是A”更可能出现。然而值得注意的是，如果“A是B”在上下文中出现，模型能够推导出反向关系。我们通过对GPT-3和Llama-1进行微调，使用如“乌里亚·霍桑是《深渊旋律》的作曲家”等虚构陈述，提供了反转诅咒的证据，并展示他们无法正确回答“谁作曲了《深渊旋律》？”反转诅咒在不同模型规模和模型家族中都是稳健的，并且通过数据增强并没有缓解。我们还评估了ChatGPT（GPT-3.5和GPT-4）在关于现实世界名人的问题上的表现，例如“汤姆·克鲁斯的母亲是谁？ [A: 玛丽·李·普费弗]”以及反向问题“玛丽·李·普费弗的儿子是谁？”。GPT-4正确回答前者的问题的概率为79%，而后者为33%。代码可访问：此HTTPS URL。评论：21页，11幅图形主题：计算与语言（cs.CL）；人工智能（cs.AI）；机器学习（cs.LG）引用为：arXiv:2309.12288 [cs.CL]（或arXiv:2309.12288v4 [cs.CL]为此版本） https://doi.org/10.48550/arXiv.2309.12288 arXiv发布的DOI通过DataCite 提交历史来自：欧恩·埃文斯 [查看电子邮件] [v1] 2023年9月21日17:52:19 UTC（1,320 KB） [v2] 2023年9月22日18:08:20 UTC（1,319 KB） [v3] 2024年4月4日21:25:17 UTC（1,336 KB） [v4] 2024年5月26日17:45:21 UTC（1,336 KB）