OpenAI周三发布新款AI模型o3和o4-mini,模仿人类的推理过程,解决复杂编程和视觉任务的推理。同时,该公司也发布开源AI agent CodeX CLI,用于帮助用户执行编程任务,从而改善市场竞争能力。
本文引用地址:
OpenAI此次推出的主要新型推理模型名为o3,同时还发布了一款更小型的模型,命名为o4-mini。这一发布延续了去年9月OpenAI首个推理模型o1的问世,当时o1主要专注于解决复杂问题,并通过多步骤的方式进行思考和作答。
该公司表示,新发布的o3模型在响应用户提示之前会花费更多时间进行计算,目标是解决与科学、数学和编程相关的更复杂的多步骤问题。借助o3,用户可以上传白板笔记、草图和其他图像内容,让AI进行分析与讨论。这些模型还能对图像进行旋转、缩放等编辑操作。
跑分进步 首次实现“图像思维”
据最新测试结果,o3和o4-mini(无工具版本)在AIME 2024数学竞赛题目中的准确率分别达91.6%和93.4%,远超前代模型o1的74.3%。在AIME 2025题目中,两者准确率分别达88.9%和92.7%。在Codeforces编程竞赛评分中,支持终端工具的o3和o4-mini分别取得了2706和2719的ELO分数,显著领先于o1的1891和o3-mini的2073,显示出在复杂数学与代码任务中的强大推理与执行能力。
同时,o3(无工具)在博士水平科学问答中的准确率为83.3%,高于前代模型o1的78.0%,而o4-mini(无工具)也紧随其后,达81.4%。在右图所示的“人类最后的考试”高难度跨学科题目中,开启Python与浏览工具的o3模型准确率达24.9%,显著优于o1-pro的8.12%和o3-mini的13.4%,显示出多工具组合在处理复杂问题上的巨大潜力。值得注意的是,Deep Research实验系统在该测试中表现最佳,准确率达26.6%。这进一步突显OpenAI新模型在推理链、跨模态理解和工具协同方面的持续进步。
在多模态推理方面,OpenAI新发布的o3和o4-mini模型在多项视觉推理测试中全面超越前代模型o1。在MMMU大学级视觉问题解决任务中,o3的准确率达82.9%,领先于o1的77.6%;o4-mini表现相近,为81.6%。在MathVista视觉数学推理测试中,o3取得86.8%的成绩,远高于o1的71.8%;而o4-mini则达84.3%。在CharXiv科学图表推理测试中,o3的准确率为78.6%,大幅领先o1的55.1%,o4-mini则达到72%。整体来看,o3在处理图像与文本结合任务中展现出强大能力,o4-mini则在保持高性能的同时提升了响应速度与成本效率,展现出OpenAI多模态模型在复杂视觉任务中的显著进展。
与此同时,o4-mini则提供了价格、速度和性能之间的“有竞争力的平衡”,这是开发者在选择AI模型为其应用提供支持时经常考虑的三大因素。两款模型现已向OpenAI付费用户开放。
OpenAI在公告中写道,o3和o4-mini是首批能够“”的AI模型:
“这是我们首次推出能够独立使用全部ChatGPT工具的推理模型——包括网页浏览、Python编程、图像理解和图像生成能力。这使得它们在解决复杂的多步骤问题时更加高效,并朝着自主执行任务的方向迈出了真正一步。”
该公司解释称,这意味着“它们不仅能看图,还能将视觉信息直接整合进推理链条之中”。
OpenAI表示,o3在SWE-bench verified测试中表现达到了当前最先进的水平(不使用自定义结构),该测试主要评估编程能力,o3的得分为69.1%。o4-mini的得分也相当出色,达到68.1%。作为对比,OpenAI此前最好的模型o3-mini在该测试中得分为49.3%,而Anthropic的Claude 3.7 Sonnet得分为62.3%。
DeepSeek压力下 OpenAI也想开源了?
OpenAI在2022年底推出ChatGPT,引发了生成式人工智能的热潮。当时这款产品搭载的是GPT-3.5模型。此后,该公司陆续发布了多个日益复杂的系统,包括多个推理模型。但OpenAI目前面临着来自中国新兴企业DeepSeek、Anthropic以及马斯克旗下xAI等公司的巨大压力,这些公司不断推出一系列具备类似前沿能力的AI模型。
分析认为,编程已成为生成式AI应用中增长最快的领域之一,也是OpenAI的一个关键竞争战场。Anthropic和谷歌母公司Alphabet都大力宣传其新一代AI系统的编程能力。其他创业公司,如Cursor的开发商Anysphere,也凭借面向程序员的AI工具获得了广泛关注。
为在这个竞争激烈的市场中更具优势,OpenAI周三宣布推出Codex CLI,这是一款旨在与如o3等模型协同工作的AI代理,可帮助用户完成编程任务。该产品是开源的,意味着将免费向用户开放,并可直接在用户的计算机终端程序中运行。
奥特曼此前曾表示,公司正在开发一个开源版本的推理模型,计划在未来几个月内发布,此举是为了回应DeepSeek旗下开源系统R1走红后的市场影响。
OpenAI还表示,未来几周内将推出o3-pro,这是o3的一个升级版本,使用更多计算资源生成回答,仅向ChatGPT Pro订阅用户开放。而奥特曼此前曾表示,o3和o4-mini可能是OpenAI在GPT-5发布之前推出的最后一批独立推理模型。GPT-5预计将融合传统模型(如GPT-4.1)与推理模型,实现统一发展方向。
0 条