预览 GPT-5.6 Sol：下一代模型

我们开始对 GPT-5.6 系列进行有限预览：Sol，我们的旗舰模型；Terra，一个适合日常工作的平衡模型；以及 Luna，一个快速且经济的模型。Terra 的性能与 GPT-5.5 竞争，同时成本降低了 2 倍，而 Luna 以最低的成本带来了强大的能力。GPT-5.6 Sol 配备了迄今为止我们最强大的安全防护措施。我们加强了针对高风险活动、敏感网络请求和重复滥用的保护，花了多个星期寻找系统的弱点、进行压力测试，并增强其对现实世界攻击的抵抗能力。我们相信广泛访问，我们计划在接下来的几周内使 GPT-5.6 Sol、Terra 和 Luna 一般可用。作为我们与美国政府持续互动的一部分，我们在今天的发布之前预览了我们的计划和模型的能力。应其要求，我们首先为一小组与政府共享参与信息的可信合作伙伴开始有限的预览，然后再进行更广泛的发布。在此预览期间，我们将继续进行测试，并与合作伙伴紧密协调，以推动更广泛的可用性。我们认为这种政府访问流程不应成为长期默认，因它将最好的工具限制在需要它们的用户、开发者、企业、网络防御者和全球合作伙伴之外。我们采取这个短期步骤是因为我们相信这是在未来几周内实现更广泛可用性的最强路径，同时我们与政府合作制定网络执行命令框架和未来模型发布的可重复流程。能力 GPT-5.6 Sol 是我们迄今为止最强大的模型。为了预览模型性能，我们分享了一组评估，突出了编码、生物学和网络安全方面的代理能力提升，更多的安全性和准备评估可在我们的系统卡中查看（在新窗口中打开）。当我们使模型广泛可用时，我们将分享扩展的评估结果套件。通过 GPT-5.6，我们引入了一种新的 `max` 推理努力，给予 Sol 足够的时间进行深入推理。此外，我们引入了一种新的 `ultra` 模式，利用子代理加速复杂工作，从而超越单一代理的能力。在编码工作流方面，GPT-5.6 Sol 在 Terminal-Bench 2.1 上设定了新的行业标准，该基准测试命令行工作流，要求规划、迭代和工具协调。GPT-5.6 Sol 在生物学工作流方面也显示出广泛的改善。在 GeneBench v1 上，它在评估长时间范围的基因组学和定量生物分析时，取得的结果优于 GPT-5.5，同时使用的 token 更少。GPT-5.6 Sol 是我们迄今为止在网络安全方面最具能力的模型。它在长时间范围的安全任务（包括漏洞研究和利用）中推动了性能与效率的前沿。在 ExploitBench 中，GPT-5.6 Sol 只使用大约 1/3 的输出 token 就与 Mythos Preview 竞争。在 ExploitGym 3（在新窗口中打开）上，这是 UC Berkeley 的研究人员与 OpenAI 和其他前沿实验室合作创建的基准，GPT-5.6 Sol、Terra 和 Luna 模型在增强推理能力时都显示出网络能力的显著改善。更强的网络能力与更强的安全保障我们开发了 GPT-5.6 Sol、Terra 和 Luna，这是迄今为止我们最强大的安全保障，配置与每个模型的能力相匹配。随着模型变得更强大，我们设计防护措施以更好地承受现实世界的对抗压力，同时保留对代码审核、漏洞研究、补丁开发、调试、安全教育和防御性测试等合法工作的访问。我们的目标是使被禁止的进攻性活动变得更加困难、不确定和可检测，同时不必要地限制那些有益的用途。根据我们对模型和保障措施的评估，我们预计对合法的防御工作会有实质性好处，同时实质性约束被禁止的进攻性使用。GPT-5.6 Sol 在帮助人们发现和修复漏洞方面表现更佳，而不是可靠地执行端到端攻击。随着这些能力的持续进步，我们的优先事项是确保它们能够到达并惠及防御者，他们可以利用这些工具找到弱点、开发补丁并更广泛地增强系统。根据我们的准备框架，GPT-5.6 Sol 并未跨越网络关键阈值。在涉及 Chromium 和 Firefox 的评估中，它识别出错误和利用原语（攻击的构建模块）——但在测试条件下并没有自主生成一个功能完整的全链路利用。然而，基准阈值无法捕捉模型可能使用或与其他工具结合的每种方式。这种不确定性，以及模型在能力上的广泛跃升，正是我们将模型的增强能力与更强的保护措施和分阶段发布相结合的原因。我们将在 GPT-5.6 预览中分享更多关于我们保障措施的详细信息。