产品

OpenAI o1

o1

OpenAI o1 是 OpenAI 在 2024 年 9 月发布的推理模型,核心变化是在推理时引入 reasoning tokens,实现了 inference-time scaling——通过增加推理时的计算预算来提升模型表现。据 OpenAI CPO Kevin Weil 的描述,o1 不同于 GPT 系列的"系统 1"即时回答模式,而是会"暂停思考",在查询时通过假设形成、验证、回溯等方式扩展智能,当时模型思考时间约 30 到 60 秒,Weil 将其比作这种新型推理方式的"GPT-1 阶段"。

o1 的技术路线很快成为行业焦点。真格基金戴雨森在 2025 年 3 月回顾时指出,o1 让大家看到强化学习应用于 post-training 带来的智能提升,而后续 o3 的发布又证明这条路线"边际还很远、空间还很大";在他看来,o 系列带来的推理能力提升是解锁 Agent 产品形态的关键。复现 o1 的方向上,研究者曾聚焦于 OpenAI 2023 年最后一篇公开论文《Let's Verify Step by Step》及其 PRM800K 数据集,推测 o1 可能采用了类似的 Process Reward Model,不过 DeepSeek 后续发布的 R1 展示了另一条通过激励增强推理能力的路径。季逸超的实验则提示,o1 可能仍是一个进行线性自回归解码的模型,其推理过程或可理解为对隐含搜索树的线性遍历。

由 AI 生成,可能出现错误,请仔细核对内容。

OpenAI o1产品
o1
暂无关系图谱
在 4 篇文章中被提及

相关报道