当所有人还在为大语言模型的参数规模争论不休时,Andrej Karpathy的2025年LLM观察,给行业浇了一盆清醒的冷水——真正的突破从来都不是堆参数,而是藏在训练逻辑、认知框架和应用模式里的深层转向。
RLVR:让大模型学会”自己找答案”
过去几年,RLHF(基于人类反馈的强化学习)一直是大模型训练的黄金标准,但这套依赖人类标注的模式,不仅成本高昂,还容易让模型陷入”讨好人类”的思维定式。2025年异军突起的RLVR(基于可验证奖励的强化学习),彻底打破了这个僵局。
不同于RLHF的主观反馈,RLVR用客观可验证的奖励信号训练模型——比如解数学题时的标准答案、写代码时的运行结果。在这种机制下,模型会自发拆解问题、试探路径,慢慢演化出类似人类”推理”的能力。更关键的是,RLVR的单位算力效率远超预训练,各大实验室已经开始把原本用于堆参数的算力,转向这个新的训练阶段。
认知重构:AI不是”动物”,是”幽灵”
Karpathy提出的”幽灵隐喻”,或许是今年最颠覆行业认知的观点。我们总习惯用生物智能的逻辑理解AI,期待它像人一样拥有稳定的认知能力,但实际上,大模型的智能是”锯齿状”的——它可能在编程上远超人类,却会在简单的常识问题上犯低级错误。
把AI看作”幽灵”,意味着我们要放弃对”通用智能”的执念,转而接受它的非生物特性:它没有意识,却能在特定领域通过数据和算法涌现出超强能力;它不需要理解世界,却能通过模式匹配完成复杂任务。这种认知转变,将直接改变我们开发和应用AI的思路。
应用层革命:从”调用模型”到”编排智能”
如果说RLVR是底层训练的革新,那应用层的变化则更贴近产业落地。以Cursor为代表的新型LLM应用,不再是简单的”提问-回答”模式,而是通过上下文工程、多模型编排和”自主性滑块”,重新定义人机协作。
比如在编程场景中,这类应用会自动拆解需求、调用代码生成模型、验证运行结果,甚至能根据错误提示自动修正代码。用户不需要懂复杂的提示词,只需要拖动”自主性滑块”,就能在”完全手动”和”全自动”之间找到平衡。这种模式下,大模型不再是工具,而是藏在应用背后的”智能助手”。
幻觉破解:用技术给大模型”装刹车”
从腾讯云的实战案例来看,大模型的”幻觉”问题已经有了可行的解法。通过思维链推理(CoT)和结构化提示工程,他们把金融对话系统的准确率从47%提升到89%,幻觉率降低了70%。
这套方案的核心,是让模型把”思考过程”写出来——比如回答复杂问题时,先拆解成几个小问题,逐个验证后再整合答案。这种”透明化推理”不仅能降低幻觉,还能让用户看到模型的决策逻辑,提升信任度。对企业级应用来说,这无疑是跨越落地门槛的关键一步。
2025年的LLM,终于从”比大小”的野蛮生长,转向了”练内功”的精耕细作。无论是RLVR的训练革命,还是”幽灵隐喻”的认知重构,本质上都是在寻找AI技术的真实价值:它不需要成为人类的替代品,只需要在特定场景下,成为人类能力的放大器。而这,或许才是AI产业真正的未来。