具身智能爆火的冷思考：懂大模型的烂大街，懂“剥洋葱”的PM万里挑一

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

具身智能爆火的冷思考：懂大模型的烂大街，懂“剥洋葱”的PM万里挑一

梦迹

2026-03-16

0 评论 1046 浏览 6 收藏

22 分钟

过去一年，中国大模型赛道沸腾，无数移动互联网产品经理（PM）陷入了深深的“技能恐慌”。当机器拥有了接近人类的逻辑推理能力，甚至开始长出由电机和液压驱动的“四肢”时，PM的护城河究竟还剩下什么？画原型？写PRD？还是调Prompt？

这是一个面向全中国300万移动互联网从业者的残酷拷问。如果我们还停留在“在办公室憋需求”的阶段，那么在即将到来的具身智能（Embodied AI）浪潮中，我们必将被淘汰。

引言：冰与火之歌——被困在“伪智能”里的硅基生命

试想这样一个场景：

在硅谷和中关村的高大上发布会里，资本与极客们正在为一段“人形机器人流畅炒菜、完美拉花、甚至空翻”的Demo视频而狂欢。他们高呼着“AGI已来，具身智能将彻底重构人类社会”。这是烈火烹油的“火”。

然而，当你走出发布会，走进现实生活中最普通的商场、餐厅和养老院，你看到的是什么？

是商场导览机器人被一群熊孩子围住调戏，最终死机停在路中央；是餐厅午高峰时，送餐机器人和端着热汤的服务员在狭窄的过道里“死亡对峙”，最后被不耐烦的店长一把按下急停开关，像推小推车一样粗暴地推回后厨。这是冷酷无情“冰”。

当技术（大模型的大脑、灵活的机械臂）不再是绝对的壁垒时，具身智能走进千家万户的瓶颈究竟是什么？

答案很残酷：是缺乏真正懂场景的“翻译官”和“连接者”。

当前的服务机器人行业，充斥着一种令人毛骨悚然的“技术自嗨”。大厂和创业公司拿着做Web 2.0和APP的“买量思维”与“功能堆砌思维”来做硬件，导致市场上出现了大量几万、几十万一台的“人工智障”。他们赋予了机器人最顶级的大模型，却让它在人类复杂的物理世界中寸步难行。

在这个AI原生的时代，懂大模型的PM已经烂大街了。随便抓一个应届生，都能跟你大谈特谈Transformer架构和Agentic Workflow。但是，真正懂得深入真实场景，懂得通过深度定性调研去“剥洋葱”、去洞察人性的PM，却万里挑一。

这篇文章，我们将撕开服务机器人的“伪需求”外衣，探讨在具身智能时代，产品经理如何通过重塑自己的“三大身份”，完成从“画图机器”到“场景翻译官”的致命跃迁。

01 盲区与陷阱：为什么用“做APP的思维”做不好具身智能？

在移动互联网时代，产品经理最迷信的武器是什么？是“数据（定量分析）”。

日活、月活、留存率、转化漏斗、A/B测试……只要有足够大的流量池，我们就能通过数据仪表盘“跑”出最优解。

但在具身智能落地的初期，这条铁律失效了。

致命的“定量”依赖

正如用户调研理论中指出的：定量分析只能告诉你“发生了什么”（What），而定性分析才能告诉你“为什么发生”（Why）。 在服务机器人赛道（如养老伴学、餐饮配送），我们根本没有千万级的DAU供我们去跑A/B测试。更要命的是，软件改一个Bug只需要发布一个热更新，而硬件机器人如果方向错了，开模、供应链、量产的试错成本动辄几百万甚至上千万。盲目的“试错迭代”在具身智能领域等于“自杀”。

掉入“轻信用户言论”的深坑

很多PM在转型做机器人时，依然沿用着发问卷、开焦点小组的老套路。老板一拍脑袋：“我们要进军养老赛道，给独居老人做一个陪伴机器人！” 于是PM跑去问老人：“大爷，您想要个什么样的机器人啊？” 大爷乐呵呵地说：“我想要个能长得像人一样，陪我下象棋、能跟我聊历史的。”

结果呢？公司花了几千万研发出了一款人形机器人，搭载了最强的下棋算法和知识图谱。但当它真正走进大爷的卧室时，大爷却把它关机了。

为什么？因为在真实的物理环境中，机器人的电机噪音吵得大爷睡不着觉；大爷老花眼，根本看不清机器人胸前的屏幕；更因为大爷晚上起夜时，被黑暗中那个有着机械轮廓的“人形物体”吓得犯了心脏病。

不能轻信用户的言论！调研不是听用户说了什么就做什么。 用户说的不一定是真实想法，甚至他们自己也不知道自己潜意识里的恐惧和阻力。头痛医头、脚痛医脚，是具身智能产品经理的大忌。

要破局，产品经理必须抛弃坐在办公室看数据的傲慢，深入充满油污、噪音、混乱的物理世界，去扮演好三个不可替代的角色。

02 第一层身份：精密的“导演”（排雷避坑，打破伪需求）

一台服务机器人在落地前，最大的风险不是技术无法实现，而是“做出了一个没人愿意用的工业垃圾”。产品经理的第一层身份，就是掌控大局的“导演”。导演的核心任务在准备与招募阶段：定目标、选武器、找对人、写对剧本。

找对人：打破“幸存者偏差”

在做消费级电子产品时，我们喜欢找“极客”、“早鸟用户”来做调研。但在服务机器人领域，这是一个巨大的陷阱。

以餐厅送餐机器人为例，如果你调研的对象是“来吃饭的科技发烧友年轻顾客”，他们会告诉你：“这机器人太酷了，我希望能跟它语音对话点单。”

但这是伪需求！

作为导演，你必须精准定义“真实痛点人群”（用户画像）。在餐厅场景里，机器人真正的利益相关者是谁？是在午高峰跑断腿的服务员，是关注翻台率的店长，是端着热菜怕被撞到的保洁阿姨。你需要向这些典型目标用户进行邀约。只有他们的反馈，才能决定这个机器人能不能在这个场景里“活下去”。

写对剧本：开放式提问的艺术

准备阶段必须明确调研方向。假设我们要调研养老院里的“助行机器人”，千万不要问带有诱导性的封闭问题：“您难道不觉得我们这个自动跟随功能很好吗？” 这种问题除了得到一句敷衍的“好”，没有任何价值。

导演需要编写严密的“开放式大纲”。你需要询问：

最近状态：了解老人日常出行的频次、遇到的困难瞬间。
不用原因：如果以前试过辅助设备，为什么放弃了？是因为太重、太复杂，还是因为觉得“推着轮椅显得自己很老，伤自尊”？（注意，最后这一点往往是定量数据永远测不出来的心理痛点）。
改进建议：现在用什么替代方案（拐杖、护工搀扶）？替代方案有什么不爽的地方？

导演的价值，在于用极其缜密的逻辑，将几十上百万的硬件决策风险，消弭在产品立项的源头。

03 第二层身份：无情的“树洞”（直击最真实的痛点）

剧本写好后，进入执行阶段。在这里，产品经理必须收起“改变世界”的精英姿态，化身为一个极其克制、无情的“树洞”。

深入混乱边缘，做“影子观察者”

做APP调研，你可以把用户请到明亮宽敞的会议室，给他们倒杯咖啡。但在具身智能时代，调研现场必须在“案发地”。

你需要换上护工的衣服，在养老院里待上整整三天；你需要站在油腻的后厨通道里，观察午高峰的兵荒马乱。

树洞的第一原则是营造安全感与破冰。在一线工人和服务员眼中，你带来的高科技机器人是来“抢他们饭碗”的。他们防备心极重。你必须在开局就说明背景，承诺保密：“大哥，您别紧张，咱们今天就是闲聊。这些记录仅用于我们内部改进，绝不告诉你们老板。如果您觉得这机器确实是个废物，您直接骂就行。”

多观察，少引导，记录“沉默的真相”

在这个过程中，你要做到两点：闭嘴和如实记录。

面对复杂的物理世界，用户的真实反应往往藏在肢体语言和下意识的动作中，而不是嘴里。

场景A： 当你的送餐机器人靠近一桌顾客时，你不要听顾客怎么夸机器人，你要死死盯着顾客的身体反应——他们是放松地坐着，还是下意识地把椅子往里拉了拉？如果是后者，说明你的机器人底盘太大，或者减速刹车的动作过于突兀，带来了强烈的“物理压迫感”。

场景B： 当酒店布草机器人在走廊里遇到保洁阿姨的布草车时。阿姨没有说话，只是无奈地叹了口气，然后费力地把自己的小车推到墙角给机器人让路。你必须把这一声“叹气”和“让路的动作”记录下来。

这就是定性调研的精髓。作为树洞，你不需要在现场反驳，更不能去教用户怎么用产品。你只需要耐心倾听，记录用户原话、犹豫瞬间、动作以及那些直击灵魂的“金句”（比如服务员抱怨：“这铁疙瘩一到饭点就像个大爷一样挡路！”）。

04 第三层身份：破壁的“翻译官”（连接碳基与硅基）

拿到了海量的原始录音、视频和观察笔记后，产品经理将迎来最核心的挑战——进入分析与总结阶段，化身“翻译官”。这就是我们在标题中强调的“剥洋葱”能力。

如果说大模型和硬件工程师是硅基世界的建设者，那么普通大众就是碳基世界的原住民。这两种生物的语言是不通的。大模型听不懂什么是“烦人”，它只懂Token、Reward Model和传感器参数。

翻译官的工作，就是将碎片化的情绪和吐槽，转化为产品能听懂的需求。

绘制“生死体验地图”

你需要把几十个小时的录音和笔记打平，提取高频词，给问题打标签（如：避障迟钝、语音识别率低、交互压迫感强）。

接下来，绘制一张极其详尽的“用户体验地图（User Journey Map）”。

以“机器人送餐到桌”这个短短30秒的过程为例，还原服务员和顾客的情绪起伏：

机器人靠近餐桌：顾客兴奋（情绪值+2）。
机器人刹车停靠：刹车太猛，汤汁洒出一点，顾客皱眉（情绪值-1）。
顾客取餐：屏幕反光看不清提示，顾客不知道拿哪一盘，服务员不得不跑过来帮忙（情绪值-3，跌入谷底）。
机器人离开：机器人不会后退，只能原地掉头，差点撞到旁边路过的小孩（情绪值-5，产生安全恐慌）。

在这个体验地图中，你精准地找到了那个最痛的“坑”——取餐确认交互和原地掉头的空间挤压。

剥洋葱：将情绪翻译成算法和硬件规格

找出了痛点，你需要像剥洋葱一样，追问“为什么”，直到找到技术解法。

用户的吐槽（表层表象）： “这铁疙瘩老是挡路，像个智障，真烦人！”

翻译官的拆解（剥洋葱）：

为什么挡路？因为它遇到障碍物只会立刻急停。

急停为什么让人烦？因为在人类的社交礼仪中，过道狭路相逢时，双方会有眼神交流，并侧身让步。但机器人急停后像一堵墙一样杵在那里，打破了人类的社交潜规则。

翻译给研发的“产品需求”（底层内核）： “现在的路径规划算法是不及格的。我们需要在高动态环境中，引入‘具有社会属性的避障算法（Socially Aware Navigation）’。当机器人在狭窄过道遇到人类时，不仅要停下，更要在空间允许的情况下主动向后倒退半米，并同时触发语音播报：‘您先请’。”

看懂了吗？这就是万里挑一的PM才能做出的洞察！

不懂剥洋葱的PM，只会跑去跟技术说：“算法部门，你们把行驶速度调快点，别老挡路。”

而懂剥洋葱的PM，能洞察到物理世界中碳基生物的“社交礼仪”，并将其转化为具体的算法指令和产品定义。

05 落地兵器谱：具身智能时代的《用户调研行动指南》

当这一切分析完毕，我们如何将洞察落地，推动那群桀骜不驯的算法大牛和硬件专家去修改产品？

你需要一份一锤定音的《用户调研总结报告》。这份报告决不能是毫无意义的数据堆砌，它必须是一把锋利的手术刀。

作为交付给读者的核心方法论，请熟记以下“调研报告五要素”结构。当你拿着按照这个结构写出的报告走向研发团队时，你将拥有不可辩驳的话语权：

1. 背景与目的 (Background)

忌讳：“为了了解用户对机器人的看法。”
正确示范：“针对V2.0底盘在午高峰高动态场景下通过率低、导致门店退货率上升15%的问题，验证‘主动让行策略’是否能降低人机冲突。”

2. 样本描述 (Sample)

忌讳：“调研了50个路人。”
正确示范：“深度跟车调研3家一线城市火锅店，深度访谈5位工龄1年以上的大堂经理，采集录音600分钟，提取典型交互案例42个。”（强调样本的代表性和极端场景）。

3. 关键发现与用户原声 (Key Findings & Quotes) —— 核心灵魂！

不要只给干瘪的结论，一定要用刺目的“金句”佐证！ 研发往往对抽象的需求不感冒，但对用户最直接的抱怨极度敏感。

结论呈现：“机器人在人流密集区急停，会引发强烈的空间压迫感和安全恐慌。”
加入原声(Quotes)暴击：“（附上录音二维码）火锅店王领班原话：‘它一停在那，红灯一闪一闪的也不出声，我端着滚烫的锅底都不敢动，生怕它突然撞上来，这哪是帮我，这是要我的命啊！’ （这种真实的痛点，能瞬间击穿技术人员的“自嗨”防线）。