Claude Opus 4.8 发布,模型迭代越来越快,AI产品经理到底该看什么?
Claude Opus 4.8 的快速迭代揭示了AI产品的进化方向:从'会说'到'会做'。这次更新重点优化了代码执行的可靠性,将错误率降至前代的1/4,并推出'动态工作流'功能实现复杂任务的自动拆解与验证。本文通过实测分析,揭示大模型正在从聊天工具转向真正的工作助手,为AI产品设计带来全新思考维度。

上周 Anthropic 又更新了,Claude Opus 4.8 上线了。
这也太快了吧,距离上一代 Opus 4.7,才过去 42 天。
看了下数据,模型参数几乎跟 Opus 4.7 一毛一样。价格也没变,$5/M输入,$25/M输出。
榜单方面,跑分确实涨了,但涨得不多,已经算不上特别抢眼。

作为一个天天跟模型打交道的 AI 产品经理,我发现,这次更新里有几个点,挺值得聊聊。
01 模型开始「不偷懒」了
我们平时用 AI 最恼火的场景。
你让它写段代码、干个活,它噼里啪啦一通操作,特别自信地告诉你:搞定了,完美。
结果你一跑,崩了。
你回去问它,它又特别诚恳地说:抱歉,找到问题了,这次绝对没问题。
你再一跑,又崩了。
这毛病,几乎所有大模型都有。
而这次 Opus 4.8,重点优化的就是这件事。官方把「诚实」「不偷懒」放在了最显眼的位置,根据他们自己的评测,它让自己写的代码蒙混过关的概率,只有上一代的大约 1/4。
说人话就是,它开始真正帮你把活干完,而不是嘴上说干完了。
但说实话,从 Opus 4.7 开始,我就觉得 Claude 的写作能力,不如最开始的 Opus 4.6 惊艳。这次 Opus 4.8 上线,4.6 还被直接下架了,挺舍不得的。
02 AI 正在从「会说」,走向「会做」
从 Claude 这次更新其实指了一个特别清晰的方向。
你发现没,早期我们用 AI,主要是让它「说」,陪你聊天,写文案、写文章。
而现在的模型,拼的是「做」,能不能稳定、靠谱地,把一个具体任务从头干到尾。
这次 Opus 4.8 还有个亮点,叫「动态工作流」。
简单说,就是面对一个特别大的任务,它能自己把任务拆开,一口气拉起几十、上百个「子助手」同时干,干完还会自己先验一遍,确认没问题,再把结果交给你。
如今大模型越来越强,加上 Claude Code 这类 Agent 越来越能干活,很多人觉得,工作流已经没用了。
但是,真到了公司的实际业务里,需要的是稳定、是确定、是效率。而工作流,就是保证这几样的关键。
只不过,工作流不再是以那种手动拖拽搭建的方式存在,这次 Claude 给出了一个特别好的方式「Dynamic Workflows」,模型自己来设计工作流。

这对我们做 AI 产品是个很大的启发:
别再把产品停留在「对话框」里。
用户要的从来不仅是跟 AI 聊得开心,更需要事情被办好。后面设计产品,我们得多想一步:怎么让 AI 真正帮用户、帮客户,把具体的活干完。
03 作为 AI 产品经理,到底该怎么看待这种更新?
模型 42 天就更新一次,不少朋友会焦虑:我是不是又落后了?
做了 2 年 AI 产品,我的体会是:
第一,像 Claude、GPT 这种顶级模型,更新了一定要去看。
重点不是看它分数涨了几分,而是看它「更新了什么」,也就是它的能力边界变到哪了,未来往哪个方向走。
第二,别只信榜单。
榜单离真实业务太远了,业内的评测和实测可以参考,但别全信。
第三,一定要自己上手跑一遍。
看到新模型发布,光跟它聊几句远远不够,最好拿公司里真实的业务问题去测它。比如让它写一段你们实际要用的代码,或者执行一个真实的工作任务,看看效果到底怎么样。
只有这样,你才会有最真实的体感,才能判断这个模型到底适不适合你的场景。
而这种判断力,恰恰是 AI 产品经理最值钱的能力之一:模型选型。
说回这次更新。
跑分高不高,其实没那么重要。
重要的是它告诉我们:AI,越来越能干活了。
我们能做的是,锻炼自己「上手测、做判断」的能力。
模型一直在变,但这能力,会越来越值钱。
本文由人人都是产品经理作者【AI产品经理四月】,微信公众号:【AI产品经理四月】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!

起点课堂会员权益




