当推理卡在516个Token:GPT-5.5 Codex 集体翻车的真相

上周五,一份来自开发者社区的 bug 报告像一块石头砸进硅谷的池水里。报告人用 Codex CLI 跑了十遍同样一道逻辑谜题,结果有四次的思考过程都精确地停留在 516 个 Token——而这四次全部给出了错误答案。如果把推理预算拉到 6000 至 8000 Token,模型又会回到正常水准。这种“卡壳”现象,被技术圈称作 reasoning token clustering。

从表面看,这只是一个数据聚簇问题。但当社区把它放到显微镜下,事情开始变味:512 的整数倍——256、512、768、1024——这种过于工整的节奏,不像是模型自身推理节奏的产物,更像是某种底层批处理或推理预算系统在“凑整”。一句话总结:模型更像被某种吞吐量优化“驯服”,而不是在真正思考。

争议由此引爆。一派人坚持这是 bug,是工程上的失误,需要 OpenAI 立刻回滚。另一派人则怀疑,这正是硅谷 AI 公司近一年来的暗中伎俩:在推理成本飙升、订阅价格战白热化的当口,悄悄把模型“瘦身”以节省算力,再用一句“用户体验是主观的”把质疑者挡回去。无论真相如何,订阅用户感到被冒犯:一个他们每月付费两百美元的工具,最近三周交付的代码质量明显倒退,而厂商始终沉默。

值得玩味的是,几乎同一时间,Anthropic 的 Claude Code 也陷入了类似的信任危机。从年初到今天,两家头部公司在用户群里的口碑曲线,几乎走出了一模一样的形状:登顶时众星捧月,跌落时万人捶胸。这种交替上演的剧情让懂行的人开始思考一个更尖锐的问题:在云端 AGI 的叙事里,用户究竟买到了什么?是真正的智能,还是一份被精心打包过的“感觉”?

更深的影响在于生态。当 OpenAI 与 Anthropic 各自陷入“模型疑似被悄悄降级”的传闻漩涡,开源阵营反而成了最大受益者。Hugging Face、Pi、OpenCode 这些名字近期被反复提及,原因很简单——本地模型虽然性能参差,但你可以稳定它,不会在某一天打开电脑发现一切变了。订阅经济的脆弱性,正在被云端推理的不确定性放大。

有人会问,这背后真正的推动力是什么?答案可能并不复杂:训练阶段的算力投入已经标准化,真正的成本黑洞在推理。一份半年前泄露出来的内部说法显示,硅谷头部公司正试图将单次推理成本砍掉一半。如果数字对得上,意味着某条线被悄悄重写了——可能是量化精度,可能是投机解码,也可能是推理预算的硬性封顶。无论哪一种,结果都是用户感知到了“模型变笨”,却无法证明。

OpenAI 此前的态度耐人寻味。技术负责人公开表态时强调“持续让 Codex 更强大”,却对这次具体问题避而不答。直到 7 月 4 日晚,GitHub 上的相关 issue 才开始被官方正式追踪。无论这次事件最终如何收场,它都已经给行业留下了一道清晰的分水岭:当用户的怀疑有据可查的时候,“主观感受”这四个字就不再是挡箭牌。

也许我们正在目睹一个新阶段的开始:AI 的能力竞争之外,可验证性、可复现性、可问责性,将成为下一轮产品力的核心。谁能把“我的模型没被偷偷改过”这件事向用户证明清楚,谁就能在下一轮订阅战里笑到最后。如果做不到,那么像 GLM-5.2 这样可本地、可审计、可锁版本的开源模型,会成为开发者工作流里新的稳定锚点——不是它们更强,而是它们不会在深夜悄悄换脸。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注