当推理卡在516个Token：GPT-5.5 Codex 集体翻车的真相

发表于2026 年 7 月 5 日作者 aleng

上周五，一份来自开发者社区的 bug 报告像一块石头砸进硅谷的池水里。报告人用 Codex CLI 跑了十遍同样一道逻辑谜题，结果有四次的思考过程都精确地停留在 516 个 Token——而这四次全部给出了错误答案。如果把推理预算拉到 6000 至 8000 Token，模型又会回到正常水准。这种“卡壳”现象，被技术圈称作 reasoning token clustering。

从表面看，这只是一个数据聚簇问题。但当社区把它放到显微镜下，事情开始变味：512 的整数倍——256、512、768、1024——这种过于工整的节奏，不像是模型自身推理节奏的产物，更像是某种底层批处理或推理预算系统在“凑整”。一句话总结：模型更像被某种吞吐量优化“驯服”，而不是在真正思考。

争议由此引爆。一派人坚持这是 bug，是工程上的失误，需要 OpenAI 立刻回滚。另一派人则怀疑，这正是硅谷 AI 公司近一年来的暗中伎俩：在推理成本飙升、订阅价格战白热化的当口，悄悄把模型“瘦身”以节省算力，再用一句“用户体验是主观的”把质疑者挡回去。无论真相如何，订阅用户感到被冒犯：一个他们每月付费两百美元的工具，最近三周交付的代码质量明显倒退，而厂商始终沉默。

值得玩味的是，几乎同一时间，Anthropic 的 Claude Code 也陷入了类似的信任危机。从年初到今天，两家头部公司在用户群里的口碑曲线，几乎走出了一模一样的形状：登顶时众星捧月，跌落时万人捶胸。这种交替上演的剧情让懂行的人开始思考一个更尖锐的问题：在云端 AGI 的叙事里，用户究竟买到了什么？是真正的智能，还是一份被精心打包过的“感觉”？

更深的影响在于生态。当 OpenAI 与 Anthropic 各自陷入“模型疑似被悄悄降级”的传闻漩涡，开源阵营反而成了最大受益者。Hugging Face、Pi、OpenCode 这些名字近期被反复提及，原因很简单——本地模型虽然性能参差，但你可以稳定它，不会在某一天打开电脑发现一切变了。订阅经济的脆弱性，正在被云端推理的不确定性放大。

有人会问，这背后真正的推动力是什么？答案可能并不复杂：训练阶段的算力投入已经标准化，真正的成本黑洞在推理。一份半年前泄露出来的内部说法显示，硅谷头部公司正试图将单次推理成本砍掉一半。如果数字对得上，意味着某条线被悄悄重写了——可能是量化精度，可能是投机解码，也可能是推理预算的硬性封顶。无论哪一种，结果都是用户感知到了“模型变笨”，却无法证明。

OpenAI 此前的态度耐人寻味。技术负责人公开表态时强调“持续让 Codex 更强大”，却对这次具体问题避而不答。直到 7 月 4 日晚，GitHub 上的相关 issue 才开始被官方正式追踪。无论这次事件最终如何收场，它都已经给行业留下了一道清晰的分水岭：当用户的怀疑有据可查的时候，“主观感受”这四个字就不再是挡箭牌。

也许我们正在目睹一个新阶段的开始：AI 的能力竞争之外，可验证性、可复现性、可问责性，将成为下一轮产品力的核心。谁能把“我的模型没被偷偷改过”这件事向用户证明清楚，谁就能在下一轮订阅战里笑到最后。如果做不到，那么像 GLM-5.2 这样可本地、可审计、可锁版本的开源模型，会成为开发者工作流里新的稳定锚点——不是它们更强，而是它们不会在深夜悄悄换脸。

当推理卡在516个Token：GPT-5.5 Codex 集体翻车的真相

推荐阅读

发表回复取消回复

推荐阅读

发表回复 取消回复

发表回复取消回复