GPT-5.5 Codex 推理令牌聚类可能导致性能下降

总结我在 Codex 的 token_count 元数据中发现了一种聚合模式：gpt-5.5 的回复不成比例地精确落在 reasoning_output_tokens = 516，另外在 1034 和 1552 附近还有额外的固定边界尖峰。这看起来是模型特有的，并且与整体推理令牌强度较低一致，这可能有助于解释在复杂/高风险 Codex 任务上的性能下降。这与 #29353 相关，该报告了一项任务级的再现，其中 gpt-5.5 以精确的 516 个推理令牌结束的运行返回了错误的答案。这个问题增加了在较大的 2026 年 2 月到 6 月窗口内的聚合证据。我并不声称这证明隐藏的思维链被截断。更狭义的说法是，Codex 遥测显示出一个 GPT-5.5 特有的固定令牌聚类异常，这看起来与阈值推理预算行为一致。环境产品：Codex 涉及的模型：gpt-5.5 数据来源：Codex token_count 元数据分析的时间窗口：2026 年 2 月 1 日至 6 月 27 日 UTC 相关问题：gpt-5.5 xhigh 有时短路并以 reasoning_output_tokens=516 和错误的 final_answer 结束 Codex Desktop #29353 证据指标值响应级别的令牌记录分析 390,195 会话表示 865 精确的 reasoning_output_tokens = 516 事件 3,363 GPT-5.5 占所有响应的比例 19.3% GPT-5.5 占精确-516 事件的比例 82.0% GPT-5.5 精确-516 / >=516 比率 44.0% 非 GPT-5.5 精确-516 / >=516 比率 1.3% 模型级结果：模型响应记录精确 516 / >=516 gpt-5.5 75,401 44.0% gpt-5.4 25,214 19.8% gpt-5.2 247,575 0.34% gpt-5.3-codex 13,333 0.0% gpt-5.3-codex-spark 26,179 0.0% 月度精确-516 聚类 sharply 增加：月份精确 516 / >=516 2026 年 2 月 0.11% 2026 年 3 月 2.45% 2026 年 4 月 4.25% 2026 年 5 月 53.30% 2026 年 6 月 35.84% 同时，整体推理令牌强度下降：月份平均推理令牌 P90 推理令牌 2026 年 2 月 268.1 772 2026 年 3 月 256.8 723 2026 年 4 月 228.7 669 2026 年 5 月 106.9 344 2026 年 6 月 168.5 515 为什么这看起来可疑异常并不仅仅是整体推理令牌使用增加。平均和 P90 推理令牌强度在 2 月至 4 月与 5 月至 6 月期间下降，而精确-516 聚类则大幅上升。聚类在模型间也并不均匀分布。gpt-5.5 仅占 19.3% 的响应，但占 82.0% 的精确-516 事件。其精确-516 / >=516 比率约为非-GPT-5.5 基线的 33.6 倍。固定值也很显著：516、1034 和 1552 看起来像是重复的阈值边界，而不是自然变化的推理令牌分布。预期行为对于复杂的 Codex 任务，推理令牌的计数应随着任务复杂性自然变化，而不应在一个模型系列上不成比例地聚类在精确固定值上。实际行为 gpt-5.5 的响应严重聚类在精确的 516 个推理令牌上，并在 1034 和 1552 附近造成相关的尖峰。这个模式在其他几个模型中要么更弱，要么根本不存在。请求 Codex 团队能否调查 gpt-5.5 是否具有推理预算、路由、截断、回退或调度行为，导致响应在 516/1034/1552 推理令牌附近终止？如果这是预期行为，了解精确的 516 是否表示正常停止点、预算上限、降级层次或其他内部阈值将是有益的。有用的内部验证检查：按模型查询 reasoning_output_tokens 的 token_count 事件。比较 0、516、1034 和 1552 的精确值计数。按模型和日期计算 count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516)。将 gpt-5.5 与 gpt-5.2, gpt-5.4 和 Codex 特定变体进行比较。在 GPT-5.2 和 GPT-5.5 之间重放匹配的复杂任务并进行质量评估，尤其是将精确-516 响应与更长推理响应分开。