OpenAI这次要颠覆什么?实测案例来啦!新一代AI“小专家”来了!能看图、写代码、自主决策

帅森森
0 评论 1826 浏览 0 收藏 5 分钟
🔗 技术知识、行业知识、业务知识等,都是B端产品经理需要了解和掌握的领域相关的知识,有助于进行产品方案设计和评估

o3以其卓越的推理性能在多个基准测试中创下新纪录,而o4-mini则以其轻量高效的特点适合大规模调用场景。本文将通过实际案例,展示这些新一代AI模型如何在图像理解、代码编写和复杂问题解决中展现出色的能力,以及它们如何为各个领域带来新的可能性。

实测案例在文末,一张图片完成推理定位,抓小三业务有了新神器😄😄

概述

OpenAI 推出了 o3 和 o4-mini 两个新一代推理模型,可以图片推理

o3(更聪明)和o4-mini(更轻快)。

它们不仅能看图、写代码、查资料,还能思考问题决定怎么解决问题,特别擅长逻辑推理和工具组合用法。

模型特性:

目前最好的多模态推理能力

完整访问 ChatGPT 所有工具(搜索、代码、图像、文件等)

深度任务思考能力(强化学习训练)

专为复杂问题设计,响应更细致、格式更合理

具备 Agent-like 智能,可以自主决定用哪些工具解决问题

多模态对比

代码能力对比

哎,谁能想到,AI的发展竟然最先被影响的高薪工作是IT工程师。

o3:顶级推理模型

性能表现:

在 Codeforces、SWE-bench、MMMU 等基准测试上创下新纪录。

相比 o1 模型,重大错误减少 20%,特别在编程、商业咨询、创意生成等任务中表现卓越。

领域表现:

在图像推理任务(如图表、手绘草图、照片分析)中精度极高。

能像思维伙伴一样提出并评估创新假设,尤其擅长生物学、数学和工程场景。

对话风格更自然:引入记忆引用,能参考上下文和过往聊天,使回答更连贯、个性化。

o4-mini:轻量高效模型

性价比极高:

小模型但性能突出,尤其适合大规模调用场景。

在 AIME 2025(数学竞赛)中使用 Python 工具后得分达 99.5%,几乎满分。

非STEM任务能力提升:

比 o3-mini 在数据科学、语言类任务上表现更好。

适合处理大批量需要推理的请求,如客户服务、教育、运营分析等。

应用特点

它们“能看、会想、懂工具”

1. 能看图理解内容

能识别图表、扫描页、截图、手绘图等复杂图像。

还可以主动放大、旋转、裁剪图像,作为思考的一部分。

2. 懂得“该用什么工具解决问题”

它们可以自己决定:

要不要搜索?

要不要写代码算一算?

要不要画张图解释一下?

实操案例

问题

分析过程

参考AI内容

OpenAI新模型,可以进行图片推理,更智能,可以规划

GPT-4.1/4.1 mini/4.1 nano全面超越前代,编程能力大幅提升!​

作者:帅森森,公众号:帅森森聊AI和职场

本文由 @帅森森 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
14280人已学习12篇文章
“产品架构能力”是B2B产品经理中泛指设计产品系统架构的能力,这是产品经理非常重要的一个能力。本专题的文章分享了产品架构的设计指南。
专题
12366人已学习12篇文章
构建UGC社区是很多社区平台的必经之路,它能助力平台内容生产,为社区提供活水源泉。本专题的文章分享了如何构建UGC社区。
专题
19279人已学习5篇文章
面对经济的周期性波动,商业产品经理要如何突破商业化瓶颈,找到职业发展新机遇?
专题
12416人已学习12篇文章
LLM=Large Language Model 大语言模型,是一种基于深度学习的自然语言处理模型。它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。本专题的文章分享了大语言模型的知识。
专题
15418人已学习12篇文章
本专题的文章分享了互联网金融风控体系的设计指南。