返回

文章详情

GPT-2: 太危险而无法发布 (2019)

Hacker News2026年6月9日 18:21

GPT-2 是对 GPT-1 的直接扩展,具有更多的参数并使用更多的数据进行训练。然而,OpenAI 认为它太危险而无法发布:由于我们对该技术恶意应用的担忧,我们不会释放训练好的模型。作为负责任披露的实验,我们将发布一个更小的模型供研究人员进行实验,以及一份技术论文。OpenAI 博客 – 更好的语言模型及其影响。GPT-1 是在没有如此严重担忧的情况下发布给公众的。因此,上述声明使公众对生成类似人类撰写文本的 GPT-2 的强大能力感到好奇。此外,GPT-1 与 GPT-2 之间有什么区别?区别:GPT-1 与 GPT-2。在 GPT-1 论文中,他们在零-shot 任务转移中实验该模型,使用预训练模型与启发式解决方案执行特定任务。实验的成功表明,在没有监督微调的情况下,语言模型已经包含执行特定任务所需的信息。所有这些知识都存储在网络参数(权重和偏差)中。换句话说,更多的参数应该增加语言模型的容量,使其在这些特定任务上更稳健。从这个意义上说,微调只是在特定任务上为模型增加最后一笔,因此使 GPT-1 变得出色的主要因素是预训练。因此,使用更多参数对这样的模型进行预训练应该进一步提升模型的性能。因此,GPT-2 是对 GPT-1 的直接扩展,具有更多的参数并使用更多数据进行训练。因此,GPT-1 和 GPT-2 在架构上并没有区别。两者都是基于变压器的解码器。然而,它们的主要区别在于参数数量和用于训练的文本数量与多样性,这使得神经网络能够获取更多的语言知识和理解,并将其吸收到其参数中。GPT-2 的更大模型(在 2019 年 2 月未发布)具有 15 亿参数,是 GPT-1 的 10 倍。他们在 40GB 的网络文本上训练该模型,并在各种语言建模、阅读理解、问答和摘要基准测试中取得了最先进的结果。GPT-2: 15 亿发布。GPT-2 论文解释说,GPT-2 有四种配置。最大的 GPT-2 使用 15 亿参数,具有 48 个解码器块,d_model = 1600。考虑到原始变压器使用的六个解码器块和嵌入维度(d_model)为 512,大型 GPT-2 模型非常庞大。成功训练如此巨大的模型本身就是一项重大成就。在 GPT-2 初次宣布九个月后,OpenAI 决定发布大型 GPT-2,包含 15 亿参数,以及代码和模型权重:我们希望这个案例对未来强大模型的开发者有所帮助,我们正在与 AI 社区积极讨论负责任的发布……我们过去九个月对 GPT-2 的经验为我们提供了有关在 AI 中创建负责任出版规范的挑战和机遇的宝贵见解。OpenAI 博客 – GPT-2: 15 亿发布 – 2019 年 11 月 5 日。他们总结了九个月的发现:人类发现 GPT-2 的输出令人信服。GPT-2 可被微调以防止误用。检测是具有挑战性的(使用 RoBERTa 检测 GPT-2 生成文本的检测率约为 95%)。我们尚未见到强有力的误用证据。我们需要研究偏见的标准。所有这些观点都是有效的,OpenAI 在早期阶段识别潜在风险,特别是误用和偏见方面做得非常出色。GPT-2 与 ChatGPT 的比较。到今天(2022 年 12 月),我们已经看到了 ChatGPT 的表现。因此,GPT-2 看起来并不是那么有害。我可以看到他们将学到的知识应用到 ChatGPT 上以防止误用,例如不冒充他人。然而,许多其他误用,如学生让 ChatGPT 做家庭作业,难以预防。这些问题可能会持续存在,并在研究人员提高他们的 AI 能力时变得更加普遍。老师能否使用检测模型找出学生是否作弊?这变得越来越困难。参考文献:GPT-1:生成预训练变换器 (2018) GPT-2:更好的语言模型及其影响论文、代码 OpenAI ChatGPT:优化对话的语言模型 OpenAI

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡