GPT-5.5 Codex 推理令牌聚类可能导致性能下降
总结 我在 Codex 的 token_count 元数据中发现了一种聚合模式:gpt-5.5 的回复不成比例地精确落在 reasoning_output_tokens = 516,另外在 1034 和 1552 附近还有额外的固定边界尖峰。这看起来是模型特有的,并且与整体推理令牌强度较低一致,这可能有助于解释在复杂/高风险 Codex 任务上的性能下降。这与 #29353 相关,该报告了一项任务级的再现,其中 gpt-5.5 以精确的 516 个推理令牌结束的运行返回了错误的答案。这个问题增加了在较大的 2026 年 2 月到 6 月窗口内的聚合证据。我并不声称这证明隐藏的思维链被截断。更狭义的说法是,Codex 遥测显示出一个 GPT-5.5 特有的固定令牌聚类异常,这看起来与阈值推理预算行为一致。环境 产品:Codex 涉及的模型:gpt-5.5 数据来源:Codex token_count 元数据 分析的时间窗口:2026 年 2 月 1 日至 6 月 27 日 UTC 相关问题:gpt-5.5 xhigh 有时短路并以 reasoning_output_tokens=516 和错误的 final_answer 结束 Codex Desktop #29353 证据指标值 响应级别的令牌记录分析 390,195 会话表示 865 精确的 reasoning_output_tokens = 516 事件 3,363 GPT-5.5 占所有响应的比例 19.3% GPT-5.5 占精确-516 事件的比例 82.0% GPT-5.5 精确-516 / >=516 比率 44.0% 非 GPT-5.5 精确-516 / >=516 比率 1.3% 模型级结果:模型 响应记录 精确 516 / >=516 gpt-5.5 75,401 44.0% gpt-5.4 25,214 19.8% gpt-5.2 247,575 0.34% gpt-5.3-codex 13,333 0.0% gpt-5.3-codex-spark 26,179 0.0% 月度精确-516 聚类 sharply 增加:月份 精确 516 / >=516 2026 年 2 月 0.11% 2026 年 3 月 2.45% 2026 年 4 月 4.25% 2026 年 5 月 53.30% 2026 年 6 月 35.84% 同时,整体推理令牌强度下降:月份 平均推理令牌 P90 推理令牌 2026 年 2 月 268.1 772 2026 年 3 月 256.8 723 2026 年 4 月 228.7 669 2026 年 5 月 106.9 344 2026 年 6 月 168.5 515 为什么这看起来可疑 异常并不仅仅是整体推理令牌使用增加。平均和 P90 推理令牌强度在 2 月至 4 月与 5 月至 6 月期间下降,而精确-516 聚类则大幅上升。聚类在模型间也并不均匀分布。gpt-5.5 仅占 19.3% 的响应,但占 82.0% 的精确-516 事件。其精确-516 / >=516 比率约为非-GPT-5.5 基线的 33.6 倍。 固定值也很显著:516、1034 和 1552 看起来像是重复的阈值边界,而不是自然变化的推理令牌分布。 预期行为 对于复杂的 Codex 任务,推理令牌的计数应随着任务复杂性自然变化,而不应在一个模型系列上不成比例地聚类在精确固定值上。 实际行为 gpt-5.5 的响应严重聚类在精确的 516 个推理令牌上,并在 1034 和 1552 附近造成相关的尖峰。这个模式在其他几个模型中要么更弱,要么根本不存在。 请求 Codex 团队能否调查 gpt-5.5 是否具有推理预算、路由、截断、回退或调度行为,导致响应在 516/1034/1552 推理令牌附近终止?如果这是预期行为,了解精确的 516 是否表示正常停止点、预算上限、降级层次或其他内部阈值将是有益的。 有用的内部验证检查: 按模型查询 reasoning_output_tokens 的 token_count 事件。 比较 0、516、1034 和 1552 的精确值计数。 按模型和日期计算 count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516)。 将 gpt-5.5 与 gpt-5.2, gpt-5.4 和 Codex 特定变体进行比较。 在 GPT-5.2 和 GPT-5.5 之间重放匹配的复杂任务并进行质量评估,尤其是将精确-516 响应与更长推理响应分开。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡