AI 终于肯认怂了:Claude 4.8 不会再一本正经地骗你

0 评论 512 浏览 0 收藏 11 分钟

Claude Opus 4.8的突然更新打破了Anthropic的常规节奏,这次升级的焦点从单纯的智能提升转向了更关键的"诚实度"革命。当AI学会在不确定时主动承认"我不知道",而不是自信地输出错误答案,这才是真正改变工作流的突破。配合Fast mode的性价比提升和Dynamic Workflows的工程化能力,这次更新正在重新定义AI助手的价值标准——从追求聪明到追求可靠。

Claude 4.8 更新了。

准确说,这次落地的是 Claude Opus 4.8,不是之前传得很热的 Sonnet 4.8。Sonnet 4.8 目前还停留在泄露和猜测,真正发布的是 Anthropic 的旗舰模型 Opus 4.8。

而且这次更新有个反常的信号:它距离 Opus 4.7 发布只有 41 天,远快于 Anthropic 平时的节奏。为什么这么急,后面会说。

我先说结论:Claude 4.8 当然变强了,但它真正值得关注的,不是”又刷了几个榜”,而是 Anthropic 这次主打的关键词,从”更聪明”换成了”更诚实”——说白了,就是治 AI”一本正经胡说八道”那个老毛病:没把握的时候老实说”我不确定”,而不是硬编一个答案塞给你。

一、Opus 4.8 到底更新了什么?

官方口径里,相比 4.7,Opus 4.8 在这几个方向有提升:

Claude Opus 4.8 官方能力对比图

  • 编程能力更强
  • agent 任务表现更好(agent 指能自己连续调工具、把活干完的 AI)
  • 推理和知识工作更稳定
  • 金融分析能力提升
  • 对自己的工作和进度更诚实
  • 能更长时间独立完成复杂任务

这些话每次更新都会说。但这次不一样的地方在于:被反复强调的不是”更聪明”,而是倒数第二条——”更诚实”。

说句实话,从公开的 benchmark 看,这次纯能力的提升幅度并不大,多数指标从不到 1 个百分点到接近 9% 不等。也就是说,日常体感上,4.8 和 4.7 在单次任务里的差别,可能没你想的那么明显。

所以这次真正值得拆的,是”诚实”和几个工作流层面的变化。

二、AI 终于肯承认”我没把握”,不再一本正经地骗你

Anthropic 这次反复强调的词是”诚实”。听着虚,其实就治一个大家都领教过的毛病:AI 经常一本正经地给你一个错答案,语气笃定到你根本看不出它在编。4.8 想改的就是这个。

具体说,官方和早期测试者反馈:4.8 更愿意主动标记自己不确定的地方,更少做没有依据的断言;在写代码时,放过错误而不吭声的概率,大约降到了原来的四分之一。

这件事看起来不性感,但对真正用 AI 干活的人,价值可能比”多刷几个榜”大得多。

因为用 AI 最怕的,从来不是它”不够聪明”,而是它”自信地错”——一本正经地给你一个错误答案,语气还特别笃定,让你看不出破绽。

你让它跑一个长任务、改一个大项目、做一份分析,它一路顺顺当当地给你结果,看起来很完整——但中间某一步它其实没把握,却没告诉你。等你发现的时候,错误已经被它”自信”地带到了最后。

所以这次想补的,落到实处就是:它更可能在没把握时停下来跟你说一声,而不是硬着头皮往下编。

这恰恰是长任务、agent 任务最致命的隐患。Anthropic 这次先去补这个洞,方向我是认可的。

三、Fast mode:不是”贵但快”,是”又快又便宜”

除了诚实,这次还有几个工作流层面的变化值得一提。先说 Fast mode。

这次 Opus 4.8 支持 Fast mode,简单说就是让模型更快出结果。

这里要纠正一个很多人会有的误解:Fast mode 不是”花更高的价钱换速度”。恰恰相反,这次 4.8 的 fast mode,速度比之前快了大约 2.5 倍,价格还比之前的模型便宜了大约三倍。

又快又便宜,这才是这次 fast mode 的真正卖点。

这件事对普通用户可能没感觉,但对把 AI 放进工作流的人很关键。

因为 AI 工具最怕的不是”偶尔不够聪明”,而是你在干活时等它太久。写代码、查资料、批量分析、跑长任务,只要每一步都慢,整个流程就会断掉。

更快、更便宜,意味着你可以更没负担地把它接进真实的生产流程,而不是只在偶尔需要时点开聊两句。

以前我们看模型,常常只问它聪不聪明;现在更该问的是:它能不能在合理的时间和成本内,把事情连续做完。

四、Claude Code 的 Dynamic Workflows

另一个关键更新,是 Claude Code 里的 dynamic workflows(目前是研究预览阶段)。

按官方说法,Claude 现在可以在一个任务里规划大工程、并行调度成百上千个 subagent,先各自干活,再自己回过头来验证结果。官方举的例子很夸张:跨越几十万行代码的代码库迁移,从启动到合并,用现有的测试集当验收标准。

这就不只是”让 AI 帮我写一段代码”了。

它更像是:你把一个大任务交给 Claude,它自己拆任务、分子任务、合并结果、再自查,然后推进整个流程。

说人话:以前是你雇了一个很能干的人帮你改东西;现在更像你给了 Claude 一个”包工头”,它自己拉一队人分工干、干完再互相检查,你只管收活。

过去的 AI 编程助手,更像一个聪明的实习生:你问一句,它答一句;让它改一个文件,它改一个文件。现在的方向,是让它变成一个小型执行团队:有人读代码,有人找问题,有人改文件,有人检查结果。

当然,这里面坑肯定不少。subagent 多,不代表结果一定好;并行任务多,也可能带来更多上下文冲突和错误合并。

但方向很明确:AI 编程工具的竞争,正在从”谁更会写代码”,变成”谁更会组织工作”。

五、Effort control:AI 成本开始精细化

Claude 这次还加了一个有意思的东西:effort control。

简单理解,就是你可以控制 Claude 对一个任务投入多少”思考努力”。简单的事不让它想太久;复杂的事就让它多花时间、多用资源。4.8 默认是高档。

有点像打车选”快车 / 专车”,或者外卖选”普通 / 加急”——简单的事走省钱档,难题才开高档让它多想想。

值得注意的是,能力涨了,基础价格却没涨——4.8 和 4.7 的标准定价一样。变贵的不是基础调用,而是你”主动选择让它想更久”的那部分。

这背后是个很现实的问题:AI 不是免费的,聪明也不是免费的。

以后用 AI,大概率会越来越像用云计算:简单聊天一个价,深度分析一个价,跑代码、跑 agent 又是另一个价。

所以这次 4.8 的变化,不只是模型升级,也是在悄悄教育用户:以后要学会管理 AI 的成本。

真正会用 AI 的人,可能不是每次都开最强档的人,而是知道什么时候该快、什么时候该深、什么时候该省的人。

六、为什么这次更新这么快?

前面提到,4.8 距离 4.7 只隔了 41 天,这在 Anthropic 这儿是反常的。

原因其实不难猜。一方面,4.7 当时的反响比较平淡,有不少用户觉得不够惊艳;另一方面,这段时间 OpenAI 的 Codex、Google 的 Gemini 都有不小的动作,压力摆在那里。

更重要的是,Anthropic 还压着一张更大的牌——Mythos。它被定位成比 Opus 更强的一档,之前小范围预览时因为安全方面的顾虑没有全量放开,而这次官方明确说,”未来几周”就会把 Mythos 级别的模型开放给所有客户。

把这几件事放一起看,4.8 的定位就清楚了:它是一次”稳住阵脚”的过渡升级——在 Mythos 全量之前,先用一个又快又便宜、更诚实、更能干活的 Opus 顶住,把工作流的体验补齐。

本文由 @鸣十一 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自作者提供

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!