反转诅咒:训练于“A是B”的LLMs无法学习“B是A”
查看PDF HTML(实验性) 摘要:我们揭示了自回归大型语言模型(LLMs)在泛化方面的惊人失败。如果一个模型在形式为“A是B”的句子上进行训练,它不会自动泛化到反向的“B是A”。这就是反转诅咒。例如,如果一个模型在“瓦莲丁娜·谢尔什科娃是第一位进入太空的女性”上进行训练,它并不会自动能够回答“谁是第一位进入太空的女性?”这个问题。此外,正确答案(“瓦莲丁娜·谢尔什科娃”)的概率不会高于随机名字。因此,模型并没有泛化其训练集中一个普遍模式:如果“A是B”出现,那么“B是A”更可能出现。然而值得注意的是,如果“A是B”在上下文中出现,模型能够推导出反向关系。我们通过对GPT-3和Llama-1进行微调,使用如“乌里亚·霍桑是《深渊旋律》的作曲家”等虚构陈述,提供了反转诅咒的证据,并展示他们无法正确回答“谁作曲了《深渊旋律》?”反转诅咒在不同模型规模和模型家族中都是稳健的,并且通过数据增强并没有缓解。我们还评估了ChatGPT(GPT-3.5和GPT-4)在关于现实世界名人的问题上的表现,例如“汤姆·克鲁斯的母亲是谁? [A: 玛丽·李·普费弗]”以及反向问题“玛丽·李·普费弗的儿子是谁?”。GPT-4正确回答前者的问题的概率为79%,而后者为33%。代码可访问:此HTTPS URL。评论:21页,11幅图形 主题:计算与语言(cs.CL);人工智能(cs.AI);机器学习(cs.LG) 引用为:arXiv:2309.12288 [cs.CL](或arXiv:2309.12288v4 [cs.CL]为此版本) https://doi.org/10.48550/arXiv.2309.12288 arXiv发布的DOI通过DataCite 提交历史 来自:欧恩·埃文斯 [查看电子邮件] [v1] 2023年9月21日17:52:19 UTC(1,320 KB) [v2] 2023年9月22日18:08:20 UTC(1,319 KB) [v3] 2024年4月4日21:25:17 UTC(1,336 KB) [v4] 2024年5月26日17:45:21 UTC(1,336 KB)
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡