GPT-2: 太危险而无法发布 (2019)

GPT-2 是对 GPT-1 的直接扩展，具有更多的参数并使用更多的数据进行训练。然而，OpenAI 认为它太危险而无法发布：由于我们对该技术恶意应用的担忧，我们不会释放训练好的模型。作为负责任披露的实验，我们将发布一个更小的模型供研究人员进行实验，以及一份技术论文。OpenAI 博客 – 更好的语言模型及其影响。GPT-1 是在没有如此严重担忧的情况下发布给公众的。因此，上述声明使公众对生成类似人类撰写文本的 GPT-2 的强大能力感到好奇。此外，GPT-1 与 GPT-2 之间有什么区别？区别：GPT-1 与 GPT-2。在 GPT-1 论文中，他们在零-shot 任务转移中实验该模型，使用预训练模型与启发式解决方案执行特定任务。实验的成功表明，在没有监督微调的情况下，语言模型已经包含执行特定任务所需的信息。所有这些知识都存储在网络参数（权重和偏差）中。换句话说，更多的参数应该增加语言模型的容量，使其在这些特定任务上更稳健。从这个意义上说，微调只是在特定任务上为模型增加最后一笔，因此使 GPT-1 变得出色的主要因素是预训练。因此，使用更多参数对这样的模型进行预训练应该进一步提升模型的性能。因此，GPT-2 是对 GPT-1 的直接扩展，具有更多的参数并使用更多数据进行训练。因此，GPT-1 和 GPT-2 在架构上并没有区别。两者都是基于变压器的解码器。然而，它们的主要区别在于参数数量和用于训练的文本数量与多样性，这使得神经网络能够获取更多的语言知识和理解，并将其吸收到其参数中。GPT-2 的更大模型（在 2019 年 2 月未发布）具有 15 亿参数，是 GPT-1 的 10 倍。他们在 40GB 的网络文本上训练该模型，并在各种语言建模、阅读理解、问答和摘要基准测试中取得了最先进的结果。GPT-2: 15 亿发布。GPT-2 论文解释说，GPT-2 有四种配置。最大的 GPT-2 使用 15 亿参数，具有 48 个解码器块，d_model = 1600。考虑到原始变压器使用的六个解码器块和嵌入维度（d_model）为 512，大型 GPT-2 模型非常庞大。成功训练如此巨大的模型本身就是一项重大成就。在 GPT-2 初次宣布九个月后，OpenAI 决定发布大型 GPT-2，包含 15 亿参数，以及代码和模型权重：我们希望这个案例对未来强大模型的开发者有所帮助，我们正在与 AI 社区积极讨论负责任的发布……我们过去九个月对 GPT-2 的经验为我们提供了有关在 AI 中创建负责任出版规范的挑战和机遇的宝贵见解。OpenAI 博客 – GPT-2: 15 亿发布 – 2019 年 11 月 5 日。他们总结了九个月的发现：人类发现 GPT-2 的输出令人信服。GPT-2 可被微调以防止误用。检测是具有挑战性的（使用 RoBERTa 检测 GPT-2 生成文本的检测率约为 95%）。我们尚未见到强有力的误用证据。我们需要研究偏见的标准。所有这些观点都是有效的，OpenAI 在早期阶段识别潜在风险，特别是误用和偏见方面做得非常出色。GPT-2 与 ChatGPT 的比较。到今天（2022 年 12 月），我们已经看到了 ChatGPT 的表现。因此，GPT-2 看起来并不是那么有害。我可以看到他们将学到的知识应用到 ChatGPT 上以防止误用，例如不冒充他人。然而，许多其他误用，如学生让 ChatGPT 做家庭作业，难以预防。这些问题可能会持续存在，并在研究人员提高他们的 AI 能力时变得更加普遍。老师能否使用检测模型找出学生是否作弊？这变得越来越困难。参考文献：GPT-1：生成预训练变换器 (2018) GPT-2：更好的语言模型及其影响论文、代码 OpenAI ChatGPT：优化对话的语言模型 OpenAI