OpenAI这次要颠覆什么？实测案例来啦！新一代AI“小专家”来了！能看图、写代码、自主决策 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

OpenAI这次要颠覆什么？实测案例来啦！新一代AI“小专家”来了！能看图、写代码、自主决策

帅森森

2025-04-17

0 评论 2231 浏览 0 收藏

5 分钟

o3以其卓越的推理性能在多个基准测试中创下新纪录，而o4-mini则以其轻量高效的特点适合大规模调用场景。本文将通过实际案例，展示这些新一代AI模型如何在图像理解、代码编写和复杂问题解决中展现出色的能力，以及它们如何为各个领域带来新的可能性。

实测案例在文末，一张图片完成推理定位，抓小三业务有了新神器😄😄

概述

OpenAI 推出了 o3 和 o4-mini 两个新一代推理模型，可以图片推理

o3（更聪明）和o4-mini（更轻快）。

它们不仅能看图、写代码、查资料，还能思考问题决定怎么解决问题，特别擅长逻辑推理和工具组合用法。

模型特性：

目前最好的多模态推理能力

完整访问 ChatGPT 所有工具（搜索、代码、图像、文件等）

深度任务思考能力（强化学习训练）

专为复杂问题设计，响应更细致、格式更合理

具备 Agent-like 智能，可以自主决定用哪些工具解决问题

多模态对比

代码能力对比

哎，谁能想到，AI的发展竟然最先被影响的高薪工作是IT工程师。

o3：顶级推理模型

性能表现：

在 Codeforces、SWE-bench、MMMU 等基准测试上创下新纪录。

相比 o1 模型，重大错误减少 20%，特别在编程、商业咨询、创意生成等任务中表现卓越。

领域表现：

在图像推理任务（如图表、手绘草图、照片分析）中精度极高。

能像思维伙伴一样提出并评估创新假设，尤其擅长生物学、数学和工程场景。

对话风格更自然：引入记忆引用，能参考上下文和过往聊天，使回答更连贯、个性化。

o4-mini：轻量高效模型

性价比极高：

小模型但性能突出，尤其适合大规模调用场景。

在 AIME 2025（数学竞赛）中使用 Python 工具后得分达 99.5%，几乎满分。

非STEM任务能力提升：

比 o3-mini 在数据科学、语言类任务上表现更好。

适合处理大批量需要推理的请求，如客户服务、教育、运营分析等。

应用特点

它们“能看、会想、懂工具”

1. 能看图理解内容

能识别图表、扫描页、截图、手绘图等复杂图像。

还可以主动放大、旋转、裁剪图像，作为思考的一部分。

2. 懂得“该用什么工具解决问题”

它们可以自己决定：

要不要搜索？

要不要写代码算一算？

要不要画张图解释一下？

实操案例

问题

分析过程

参考AI内容

OpenAI新模型，可以进行图片推理，更智能，可以规划

GPT-4.1/4.1 mini/4.1 nano全面超越前代，编程能力大幅提升！

作者：帅森森，公众号：帅森森聊AI和职场

本文由 @帅森森原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

帅森森

多年AI产品工作从业经验，公众号🔍：帅森森聊AI和职场

8篇作品 25648总阅读量

分享：轻医美行业信息整理

07-217414 浏览

分享：轻医美行业信息整理

做品牌，到底什么是好产品？

12-293991 浏览

做品牌，到底什么是好产品？

对于重启电商价格战这件事，快手也插了一脚

03-032771 浏览

对于重启电商价格战这件事，快手也插了一脚

产品周报271期 | 百度文心一言推出专业版，微信 iOS 版 8.0.43 正式版发布

11-032799 浏览

产品周报271期 | 百度文心一言推出专业版，微信 iOS 版 8.0.43 正式版发布

粉丝暴涨！微信“问一问”，2023必做的流量风口

08-115602 浏览

粉丝暴涨！微信“问一问”，2023必做的流量风口

评论

目前还没评论，等你发挥！

Systematize Design 包容性设计指南

01-104163 浏览
产业互联网重塑速冻食品行业新“格局”

03-175569 浏览
2023，消失的网红餐饮

07-193133 浏览