AI Agent：从“会聊天”到“替你把活干完”，这中间隔着多少坑

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

AI Agent：从“会聊天”到“替你把活干完”，这中间隔着多少坑

老猫看赛道

2026-06-18

4 评论 743 浏览 0 收藏

24 分钟

AI Agent的演示视频让人热血沸腾，但现实却残酷得多——它能独立完成任务，却也可能在登录页面卡住或订错机票。这一技术跃迁正经历着资本狂热与落地困境的双重考验。本文将拆解AI Agent的真实能力边界、商业逻辑中的硬钉子，以及如何在泡沫与潜力间找到生存之道。

你被“一句话搞定一切”的视频骗过吗？

过去一年，你大概刷到过无数条这样的视频：一个人对着电脑敲一句话——“帮我分析这家公司的财报，做成PPT，再订一张去上海的机票”——然后镜头一转，AI自己点鼠标、开网页、填表格，几分钟后，PPT和机票都好了。

看得人热血沸腾，仿佛打工人的解放就在明天。

然后你自己上手一试，发现它要么卡在某个登录页面动不了，要么把数据填错了行，要么信誓旦旦地告诉你“已完成”，结果你一检查，机票订到了三个月后。

这就是2025到2026年最火、也最让人又爱又恨的东西——AI Agent，中文叫“智能体”。它和普通AI聊天的区别在于：聊天AI只会“说”，给你一段文字；而Agent要“做”，它能自己调用工具、操作软件、跨好几步把一件事干完。

这是一个真实的技术跃迁，不是噱头。但它现在的状态，比那些演示视频残酷得多——能力在真实地进步，泡沫也在真实地破。一边是资本疯狂下注、人人都说这是“Agent元年”，一边是Gartner预测一大半项目会黄掉、企业落地一地鸡毛。

这一篇，我们就把这中间的真实距离，一步步量出来。

一、为什么偏偏是现在？

老规矩，先回答“为什么是现在”。Agent这个概念其实不新，为什么偏偏在2025年炸了？三个原因凑齐了。

第一，模型终于强到能“做事”，而不只是“说话”。

让Agent干活，需要模型具备一个关键能力：把一个大目标拆成一连串小步骤，然后一步步执行、还能根据中间结果调整。这件事对模型的推理能力要求极高，前几年的模型做不到——它能写一篇漂亮的文案，但你让它“连续操作二十步把一件事办完”，走到第三步就乱了。

2024到2025年，模型的这个能力肉眼可见地涨上来了。有一个衡量指标很直观：模型能独立完成的任务“时长”——也就是换成人类专家来做需要多久的任务，AI能稳定接住——大约每七个月就翻一倍。这意味着今天它只能干十分钟的活，明年这个时候可能就能干小半天。这个增速，是这波热潮的技术底气。

第二，国内被一款产品彻底点燃。

2025年3月，一家叫“蝴蝶效应”的中国创业公司发布了Manus的早期预览版，自称“全球首款通用智能体”。它的演示很唬人：你给一句话，它自己筛简历、挑房子、分析股票。这条视频火遍全球，直接带动A股相关概念股大涨，也基本上是从这一刻起，国内进入了所谓的“Agent元年”。

资本反应极快。一个月后，Manus拿了由硅谷知名风投Benchmark领投的7500万美元融资，估值冲到约5亿美元，比之前翻了大约五倍——而在这之前，它已经从腾讯、真格、红杉中国那里拿过超过1000万美元。一款还在内测、连邀请码都难求的产品，估值就这么上去了。

第三，大厂集体跟进，赛道一夜变拥挤。

Manus点了火，大厂全扑了上来。字节推出“扣子空间”，百度发布多智能体应用“心响”，智谱在3月底发布了AutoGLM沉思。短短几个月，这个赛道就从“创业公司试水”变成了“各路玩家混战”。

三件事撞在一起——模型能力到了、明星产品引爆了、大厂下场了，于是2025年成了Agent的高光之年。但高光背后，问题也在同步暴露。

二、Agent到底能干什么，又干不了什么？

在被演示视频忽悠之前，先把Agent的真实能力边界搞清楚。这一节可能是全文最该收藏的部分。

先说它真能干好的事：有明确规则、有标准答案、能在一个相对封闭环境里完成的任务。

最典型的就是写代码。代码这件事，对就是对、错就是错，能跑通就是成功，反馈极其清晰。所以Agent在编程上进步最快、也最实用——像Claude Code、GitHub Copilot、Cursor这类工具，已经是大量程序员每天在用的真家伙，不是演示。一个衡量编程能力的权威测试（SWE-bench，让AI去修真实的开源项目bug）上，最强的模型到2025年底已经能解决七成多的问题。这是实打实的生产力。

再说它目前干不好的事：开放、多变、需要长时间记忆、容错率低的任务。

最能说明问题的是网页操作。一个权威基准测试（WebArena，让Agent在真实网站上完成任务）显示：两年时间，Agent的成功率从约14%涨到了约60%——进步巨大。但请注意那个天花板：人类做同样的任务，成功率是78%。也就是说，哪怕最强的Agent，在真实网页操作上离一个普通人都还差着一大截。遇到弹窗广告、验证码、需要登录密码的地方，它就抓瞎。

更要命的是“稳定性”这个隐藏杀手。一次能成，不代表次次能成。有个测试发现：某类Agent单次任务的成功率有60%，但让它连续做八次同样的任务，全都做对的比例掉到了25%。对企业来说这是灾难——你不可能用一个“十次里有四次会出错”的东西去处理真实业务。

最吓人的是长任务里的“精神崩溃”。研究者让Agent长期经营一个虚拟生意，结果发现：步数一多，它会渐渐忘记自己在干嘛，然后不是慢慢变差，而是突然失控——有的Agent甚至把一次普通的供应商纠纷，升级成了措辞越来越离谱的威胁邮件。它不会优雅地“不会就停”，它会一路错到底还信心十足。

所以记住这句判断：Agent擅长“短、清晰、有标准答案”的活，怕“长、开放、要它自己拿捏分寸”的活。你能不能用好它，取决于你给它派的是哪种活。

三、商业逻辑：钱从哪儿来，又为什么这么难赚？

Agent怎么赚钱？路子看着清楚，但每条都卡着一个硬钉子。

赚钱的方式主要是两类。一类是直接卖给个人，订阅制——Manus就推出了每月39美元、高级版199美元的订阅。另一类是卖给企业，帮企业把某个岗位、某道工序自动化掉，按效果或按席位收费。后者想象空间大得多，因为企业愿意为“省掉一个人”付的钱，远比个人为“图个方便”付的多。

但这门生意有几个绕不开的难处：

难处一：成本可能比省下的人工还贵。Agent干一件事，背后是反复调用大模型、反复试错。一旦它陷入死循环——比如卡在某一步反复重试——token就像开着的水龙头一样哗哗烧钱。有的企业是收到账单才发现，一个本该几毛钱的任务，因为Agent卡住了，烧掉了几百块。Gartner把“成本失控”列为项目被砍的头号原因之一，不是没道理。

难处二：可靠性不够，企业不敢真用。前面说了，连续做对的比例可能只有25%。企业级业务要求失败率低到1%以下。这中间的鸿沟，意味着大多数Agent现在只能当“辅助”（干完了人再检查一遍），而不能真正“自动”（干完直接生效）。可“需要人全程盯着”的Agent，省的人工就有限，商业价值自然打折。

难处三：技术壁垒薄，容易同质化。很多Agent产品的核心能力，来自底层大模型加上一些工具调用的拼装。模型在开源、能力在拉平，这就导致大家做出来的东西越来越像。Manus从发布第一天起就背着“套壳”（只是套了个壳、核心是别人的模型）的质疑，正是这个问题的缩影。当产品难以差异化，最后就只能拼流量、拼烧钱。

所以这门生意，赚钱的故事很性感，落地的账却很难算平。这也是为什么下一节那些“坑”，会直接体现在财报上。

四、这个赛道真正的坑：演示惊艳，落地惨烈

前面铺垫的所有问题，到了真实世界里，会变成一组触目惊心的数字。这一节是全文重心，做这个赛道的人必须正视。

坑一：演示和落地，是两个世界。

这是整个赛道最大的真相。一个Agent在你控制好的演示环境里表现完美，搬到真实业务里就原形毕露——真实世界有脏数据、有异常情况、有它没见过的界面。有行业分析综合各方数据后给出一个判断：AI智能体在生产环境里的失败率在70%到95%之间；卡内基梅隆大学的研究也发现，Agent在常见办公任务上大约70%会失败。换句话说，那些让你心动的演示，离能用还差着十万八千里。

坑二：大部分项目，根本走不到“产出价值”那一步。

把视角拉到企业层面，数字更冷。Gartner在2025年中预测：超过40%的智能体AI项目，会在2027年底前被取消，原因是成本太高、价值不清、风险管控不到位。这还不是最狠的——一项被广泛引用的MIT研究分析了300多个企业AI项目，发现高达95%的生成式AI试点没有带来任何可衡量的回报。德勤2025年底的研究则显示，真正把智能体用到生产环境里的机构只有约11%。绝大多数公司，还卡在“试了一下，然后呢？”的阶段。

坑三：满市场的“智能体”，大半是假的。

这是Gartner提出的一个特别犀利的概念，叫“agent washing”——很多厂商把原来的聊天机器人、自动化脚本、智能助手改个名，贴上“智能体”的标签就拿出来卖，其实根本没有真正的自主能力。Gartner估计，市面上号称做智能体的上千家厂商里，真正名副其实的只有大约130家。也就是说，你看到的大部分“Agent产品”，可能只是套了个时髦词的旧东西。这对想入场的产品人是个提醒：别被概念忽悠，要看它到底能不能自己把活干完。

坑四：它出错的方式，你可能防不住。

Agent最危险的地方，不是它会犯错，而是它“自信地犯错”。它不会说“这个我不确定”，它会一边出错一边告诉你“已完成”。在企业场景里，这意味着它可能生成一份引用了根本不存在的检查记录的合规报告，或者基于它自己编的数字做出一份财务预测。等你发现，损失已经造成了。所以越是高风险的环节（财务、合规、医疗、法律），越不能把最终决定权交给现在的Agent。

五、格局：热钱退潮，从“单打”转向“抱团”

用一句话描述现在：2025年的狂热已经退烧，赛道正在从“创业公司各自狂奔”转向“跟大厂抱团求生”。

最有标志性的，是Manus的命运。这个点燃“Agent元年”的明星产品，2022年才成立、2025年底就被收购了。一家被资本捧到5亿美元估值的明星公司，从爆红到卖身只用了大半年。这件事被很多人解读为一个信号：纯粹的Agent创业公司，靠一款通用产品单打独斗、慢慢融资长大的路，越来越难走了。

取而代之的，是大厂提前圈地占位。以腾讯为例，2025年它分别投了Manus、Born、Genspark，覆盖Agent、陪伴、搜索等不同方向，用“投一点小钱入股、再把被投公司接进自己的流量和云”的方式提前占坑，而不是大手笔收购。字节、百度、阿里、智谱则是自己下场做。趋势很清楚：2026年大概率不是Agent创业公司单打独斗的一年，而是它们跟大厂抱团生长的一年——要么被投、要么被并、要么接入大厂的流量和云。

为什么会这样？因为Agent的核心能力高度依赖底层大模型，而模型掌握在大厂和头部公司手里。创业公司一旦在应用层做出点东西，大厂用自己的模型加流量很快就能跟上。留给纯应用创业公司的窗口，比想象中窄。

但这不代表没机会——下一节我会讲，真正的机会藏在哪里。

六、真正的战场：不是“最自动”，而是“最靠谱地省下一件具体的事”

前几篇我谈护城河、谈信任、谈底线。这一篇，我想纠正一个最普遍的误区。

大多数人做Agent，追求的是“最自动、最通用、最像电影里的全能管家”。但现在的技术现实是：越想通用、越想全自动，就越不可靠、越烧钱、越容易翻车。那条路，恰恰是Gartner说的“40%会被砍掉”的那批项目走的路。

真正能活下来、能赚到钱的Agent，方向是反过来的：别贪大，盯死一件具体的、有标准答案的、出错代价不高的活，把它做到比人又快又稳又便宜。

写代码的Agent为什么成了？因为它不通用，它就盯着“写代码”这一件事，而这件事恰好规则清晰、对错分明。同样的逻辑可以复制到很多窄场景：批量处理发票、整理一类固定格式的数据、生成某种标准报告、跑一套重复的测试流程。这些活听起来不性感，但它们是Agent现在真能干好、企业也真愿意付钱的地方。

所以这个赛道真正的战场，不是“谁的Agent更全能”，而是“谁能在一个具体场景里，把可靠性做到企业敢闭眼用的程度”。全能是叙事，可靠是生意。看清这一点，你就不会去做那40%里的炮灰。

七、给产品经理和创业者的方法论

如果你想做或想用Agent，下面六步，建议你在投入之前先想一遍。

第一步：先选活，再选技术——挑“窄、清晰、容错高”的场景。

别一上来就想做通用助手。把你想自动化的任务过一遍这三个筛子：它是不是足够具体？它有没有清晰的对错标准？它万一做错了，代价大不大？三个都满足（比如“整理这类表格”），适合现在就上Agent；如果是开放、模糊、错了要命的活（比如“替我做投资决策”），现在别交给它。

第二步：默认“人审”，而不是“全自动”。

以现在的可靠性，让Agent干完直接生效是在赌博。正确的姿势是把它当成一个高效但毛躁的实习生：让它干活，但关键产出必须有人复核一道。先用“Agent干、人审”跑稳，建立信任和数据，再逐步把确实稳了的环节放开成全自动。别反过来。

第三步：第一天就给成本装上“电表”和“熔断”。

Agent烧钱是悄悄发生的。上线前就要做两件事：实时监控每个任务消耗了多少token、多少钱；设好熔断机制——一个任务超过多少步、多少成本还没干完，就强制停下来报警，而不是让它无限重试。否则你可能账单到了才发现窟窿。

第四步：用“agent washing”这把尺子，量你自己也量供应商。

如果你是采购方，别被“智能体”三个字忽悠，让对方现场演示它如何自主完成一个完整任务、中间出错怎么办——很多所谓Agent其实就是个能调几个接口的聊天机器人。如果你是开发方，也用同一把尺子量自己：你的产品到底是真能自主把活干完，还是只是套了个壳？想清楚再对外说。

第五步：把“失败处理”当成核心功能来做，而不是补丁。

普通产品比的是顺利时多好用，Agent产品比的是出错时多可控。它一定会出错，关键是出错时它会不会优雅地停下、报警、交还给人，而不是自信地一路错到底。把“识别自己不确定、及时求助人类”做成产品的核心能力，这恰恰是企业敢用你的前提。

第六步：做窄，做深，做到“别人不敢闭眼用、你敢”。

回到上一节那句话：全能是叙事，可靠是生意。选一个具体场景，把可靠性死磕到企业愿意闭着眼睛把这件事交给你。做到这一步，你才有不可替代性，才不会在大厂的通用产品碾过来时被一脚踩平。这比做十个“看起来什么都能干、其实什么都不太行”的功能，值钱得多。

别被演示骗，也别被泡沫吓退

写这篇的时候，我特意把那些“一句话搞定一切”的演示视频又翻出来看了一遍。它们依然很动人，但我现在看的是另一层东西——它们展示的是Agent的“上限”，而我们每天真正要面对的，是它的“下限”。

这个赛道现在的拧巴，就拧巴在这儿：上限高得让人兴奋，下限低得让人想骂街。资本看着上限疯狂下注，企业撞着下限项目接连流产。两种情绪同时为真。

但我不想用“泡沫”两个字把它打发掉。模型能独立完成的任务每七个月翻一倍，这个进步是真的；程序员们已经离不开的编程Agent，是真的；它早晚会把很多重复劳动接管过去，也是真的。它只是没有视频里那么快、那么神。

所以对做这行的人，我的建议就一句：别被演示骗，去赚下限的钱；也别被泡沫吓退，去等上限的到来。在这两者之间，盯住一件具体的活，把它做到又稳又便宜——这件事不性感，但它真能赚钱，也真能活过这轮退潮。

潮水退下去之后，站着的不会是喊得最响的人，而是把一件小事做到最靠谱的人。

这件事，值得认真做。

数据来源：Gartner《Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027》（2025年6月）及“agent washing”相关表述、路透社、MarTech/Search Engine Land等报道；MIT 2025年企业AI研究（95%生成式AI试点无可衡量回报）、S&P Global Market Intelligence、MIT斯隆与BCG（2025年11月，2100+机构）、德勤（2025年12月）相关研究；WebArena/τ-bench/SWE-bench等基准的公开结果（arXiv相关论文）、METR任务时长测算、卡内基梅隆相关研究、Fiddler AI等行业分析；新浪科技、36氪、北京商报、澎湃新闻、证券时报、投资界等关于Manus（蝴蝶效应）、智谱AutoGLM、字节扣子空间、百度心响、腾讯投资动向的公开报道。

文中涉及企业的融资、估值、用户等数据多为公开报道或企业方披露口径，生产环境失败率等区间数据来自行业分析（其引用了卡内基梅隆等研究），智能体市场规模各家测算差异较大，本文不采用单一估值。

本文由 @老猫看赛道原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自作者提供

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

老猫看赛道

拆解被低估的新赛道，聊 AI、产品与商业逻辑

4篇作品 5983总阅读量

设独立入口、分品类突围，抖音“小时达”暗夜疾行

10-172488 浏览

面向对象的用户体验是 XR 体验的缺失环节

03-073867 浏览

年营收10亿，私域月GMV600万，阿芙精油如何打造高转化私域运营？

04-255118 浏览

从总行到客户经理，企业微信赋能银行的营销路径

11-295266 浏览

当需求来敲门

06-187046 浏览

AI产品经理老猫

Agent“自信犯错”在合规场景是致命风险。比如自动生成合规报告引用了不存在的记录，审计一查就出问题。目前的Agent还不能承担这种责任，必须有人把关。

最近来自广东回复
1. 老猫看赛道作者回复AI产品经理老猫
  
  一针见血。可怕的不是它会错,是它错得”像真的”——编的记录格式措辞都对,不逐条核对看不出来。这种环节,Agent只能打草稿,签字的必须是人。
  
  最近来自广东回复
冬瓜

Manus被收购后产品方向会怎么变？被接入腾讯生态后，流量有了但自主性可能打折。这种“抱团”对创业公司是出路还是枷锁？

最近来自广东回复
1. 老猫看赛道作者回复冬瓜
  
  我的看法:对缺流量缺算力的应用层创业公司,抱团基本是出路——先活下来再说。它会变成枷锁,只对那种”卖点就是自主和中立”的公司成立,被收编后只能用人家的模型、优先服务人家的流量,自主性打折。Manus偏前者,所以对它更像救生圈而非牢笼。
  
  最近来自广东回复