这里是AI贴吧网-AI资讯的硬核前线!我们24小时监测全球实验室动态,算法追踪巨头动向、代码解析学术突破,用最“硅基”视角解秘AI革命浪潮!
在今日凌晨的直播中,OpenAI正式发布了 o3和o4-mini模型。1AI汇总内容如下:
OpenAI官方介绍称,这是其在o系列模型中最新训练的成果,可以在回答前进行更长时间的思考,也宣称是“迄今为止OpenAI 发布的最智能的模型”,代表了ChatGPT能力的一次重大飞跃,从好奇的用户到高级研究人员都将因此受益。
首次,新的推理模型可以智能地使用和结合ChatGPT中的每一个工具——包括搜索网络、使用Python分析上传的文件和其他数据、深入推理视觉输入,甚至生成图像。
关键的是,这些模型被训练来推理何时以及如何使用工具来产生详细和深思熟虑的答案,通常在不到一分钟内,以解决更复杂的问题。这使得它们能够更有效地处理多方面的问题,朝着更智能、能够独立执行任务的ChatGPT迈进。
性能表现
o3是OpenAI 最强大的推理模型,它在编码、数学、科学、视觉感知等领域号称处于前沿,在包括Codeforces、SWE-bench和MMMU在内的基准测试中实现了新的SOTA。
OpenAI称,o3非常适合需要多方面分析和答案可能不明显的高级查询。它在分析图像、图表和图形等视觉任务上表现尤为出色。在外部专家的评估中,o3在困难、现实世界的任务上比OpenAIo1少犯20%的重大错误——特别是在编程、商业/咨询和创意构思等领域表现出色。
早期测试者强调了其作为思维伙伴的分析严谨性,并强调了其生成和批判性地评估新颖假设的能力——特别是在生物学、数学和工程背景下。
OpenAIo4-mini是一个针对快速、成本效益推理进行优化的较小模型——它在其大小和成本方面取得了“令人瞩目的性能”,尤其是在数学、编码和视觉任务上。在AIME2025上,当提供Python解释器时,o4-mini得分99.5%。在专家评估中,它还在非STEM任务以及数据科学等领域相比前辈o3-mini表现更出色。得益于其效率,o4-mini支持比o3高得多的使用限制,使其成为推理受益问题的强大高容量、高吞吐量选项。
与OpenAI的前几代推理模型相比,这两个模型也支持更加自然的对话,尤其是在它们参考记忆和过去的对话来使响应更加个性化和相关时。
能够推理图片
在整个OpenAIo3的开发过程中,OpenAI发现大规模强化学习表现出与GPT系列预训练中观察到的相同的“更多计算能力=更好性能”趋势。通过重走扩展路径,OpenAI在训练计算和推理时间上又推进了一个数量级,但仍然看到了明显的性能提升,这验证了随着模型被允许进行更多思考,其性能仍在持续提升。与OpenAIo1相比,在相同的延迟和成本下,o3在ChatGPT中提供了更高的性能——如果我们让它思考更长的时间,其性能会持续攀升。
从下面这个实例可以看到,这些模型可以直接将图像整合到它们的思维链中。它们不仅仅是看图像——而是用图像思考。这解锁了一种新的问题解决类别,融合了视觉和文本推理。
人们可以上传白板照片、教科书图表或手绘草图,即使图像模糊、颠倒或质量很低,模型也可以解读它们。通过使用工具,模型甚至可以实时操作图像——旋转、缩放或将其作为推理过程的一部分进行变换。
OpenAIo3和o4-mini可以完全访问ChatGPT中的工具,以及通过API中的函数调用使用开发者自己的自定义工具。OpenAI称,这些模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以快速生成详细且深思熟虑的答案,通常在不到一分钟内完成。
例如,用户可能会问:“加利福尼亚的夏季能源使用量与去年相比如何?”该模型可以搜索公共事业数据,编写Python代码进行预测,生成图表或图像,并解释预测背后的关键因素,通过多个工具调用串联起来。推理能力使模型能够根据遇到的信息做出反应和调整。例如,它们可以在搜索提供商的帮助下多次搜索网络,查看结果,并在需要更多信息时尝试新的搜索。
成本
从成本来看,OpenAI号称o3和o4-mini是其发布过的最智能的模型,它们通常也比o1和o3-mini更高效。例如,在2025AIME数学竞赛中,o3的性价比优于o1;同样,o4-mini也优于o3-mini。
安全性
安全性方面,OpenAIo3和o4-mini完全重建了安全训练数据,在生物威胁(生物风险)、恶意软件生成和越狱等领域添加了新的拒绝提示。这些更新的数据使o3和o4-mini在其内部拒绝基准测试中取得了优异的成绩(例如,指令层次结构、越狱)。
除了在模型拒绝方面表现出色外,OpenAI 还开发了系统级缓解措施,以标记前沿风险领域的危险提示。类似于在图像生成方面的早期工作,OpenAI 训练了一个推理LLM监控器,该监控器从人类编写的可解释安全规范中工作。当应用于生物风险时,该监控器成功标记了约99%的对话。
怎么使用
ChatGPTPlus、Pro和Team用户将从今天开始可以在模型选择器中看到 o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。ChatGPTEnterprise和Edu用户将在一周后获得访问权限。免费用户可以在提交查询前选择“思考”来尝试o4-mini。所有计划中的速率限制与之前的一组模型保持不变。
OpenAI预计将在几周内发布OpenAIo3-pro,并支持全部工具。目前,Pro用户仍然可以访问o1-pro。
今天更新的内容反映了OpenAI模型的发展方向——将o系列的专业推理能力与GPT系列的自然对话能力和工具使用能力相结合。
想掌握最新AI隐藏技能?挖透巨头紧急下架产品的真相?点击【AI贴吧网-AI资讯】,深度解析+实战案例,智能刷新你的认知!