具身智能爆火的冷思考:懂大模型的烂大街,懂“剥洋葱”的PM万里挑一
过去一年,中国大模型赛道沸腾,无数移动互联网产品经理(PM)陷入了深深的“技能恐慌”。当机器拥有了接近人类的逻辑推理能力,甚至开始长出由电机和液压驱动的“四肢”时,PM的护城河究竟还剩下什么?画原型?写PRD?还是调Prompt?
这是一个面向全中国300万移动互联网从业者的残酷拷问。如果我们还停留在“在办公室憋需求”的阶段,那么在即将到来的具身智能(Embodied AI)浪潮中,我们必将被淘汰。

引言:冰与火之歌——被困在“伪智能”里的硅基生命
试想这样一个场景:
在硅谷和中关村的高大上发布会里,资本与极客们正在为一段“人形机器人流畅炒菜、完美拉花、甚至空翻”的Demo视频而狂欢。他们高呼着“AGI已来,具身智能将彻底重构人类社会”。这是烈火烹油的“火”。
然而,当你走出发布会,走进现实生活中最普通的商场、餐厅和养老院,你看到的是什么?
是商场导览机器人被一群熊孩子围住调戏,最终死机停在路中央;是餐厅午高峰时,送餐机器人和端着热汤的服务员在狭窄的过道里“死亡对峙”,最后被不耐烦的店长一把按下急停开关,像推小推车一样粗暴地推回后厨。这是冷酷无情“冰”。
当技术(大模型的大脑、灵活的机械臂)不再是绝对的壁垒时,具身智能走进千家万户的瓶颈究竟是什么?
答案很残酷:是缺乏真正懂场景的“翻译官”和“连接者”。
当前的服务机器人行业,充斥着一种令人毛骨悚然的“技术自嗨”。大厂和创业公司拿着做Web 2.0和APP的“买量思维”与“功能堆砌思维”来做硬件,导致市场上出现了大量几万、几十万一台的“人工智障”。他们赋予了机器人最顶级的大模型,却让它在人类复杂的物理世界中寸步难行。
在这个AI原生的时代,懂大模型的PM已经烂大街了。随便抓一个应届生,都能跟你大谈特谈Transformer架构和Agentic Workflow。但是,真正懂得深入真实场景,懂得通过深度定性调研去“剥洋葱”、去洞察人性的PM,却万里挑一。
这篇文章,我们将撕开服务机器人的“伪需求”外衣,探讨在具身智能时代,产品经理如何通过重塑自己的“三大身份”,完成从“画图机器”到“场景翻译官”的致命跃迁。

01 盲区与陷阱:为什么用“做APP的思维”做不好具身智能?
在移动互联网时代,产品经理最迷信的武器是什么?是“数据(定量分析)”。
日活、月活、留存率、转化漏斗、A/B测试……只要有足够大的流量池,我们就能通过数据仪表盘“跑”出最优解。
但在具身智能落地的初期,这条铁律失效了。
致命的“定量”依赖
正如用户调研理论中指出的:定量分析只能告诉你“发生了什么”(What),而定性分析才能告诉你“为什么发生”(Why)。 在服务机器人赛道(如养老伴学、餐饮配送),我们根本没有千万级的DAU供我们去跑A/B测试。更要命的是,软件改一个Bug只需要发布一个热更新,而硬件机器人如果方向错了,开模、供应链、量产的试错成本动辄几百万甚至上千万。盲目的“试错迭代”在具身智能领域等于“自杀”。
掉入“轻信用户言论”的深坑
很多PM在转型做机器人时,依然沿用着发问卷、开焦点小组的老套路。老板一拍脑袋:“我们要进军养老赛道,给独居老人做一个陪伴机器人!” 于是PM跑去问老人:“大爷,您想要个什么样的机器人啊?” 大爷乐呵呵地说:“我想要个能长得像人一样,陪我下象棋、能跟我聊历史的。”
结果呢?公司花了几千万研发出了一款人形机器人,搭载了最强的下棋算法和知识图谱。但当它真正走进大爷的卧室时,大爷却把它关机了。
为什么?因为在真实的物理环境中,机器人的电机噪音吵得大爷睡不着觉;大爷老花眼,根本看不清机器人胸前的屏幕;更因为大爷晚上起夜时,被黑暗中那个有着机械轮廓的“人形物体”吓得犯了心脏病。
不能轻信用户的言论!调研不是听用户说了什么就做什么。 用户说的不一定是真实想法,甚至他们自己也不知道自己潜意识里的恐惧和阻力。头痛医头、脚痛医脚,是具身智能产品经理的大忌。
要破局,产品经理必须抛弃坐在办公室看数据的傲慢,深入充满油污、噪音、混乱的物理世界,去扮演好三个不可替代的角色。

02 第一层身份:精密的“导演”(排雷避坑,打破伪需求)
一台服务机器人在落地前,最大的风险不是技术无法实现,而是“做出了一个没人愿意用的工业垃圾”。产品经理的第一层身份,就是掌控大局的“导演”。导演的核心任务在准备与招募阶段:定目标、选武器、找对人、写对剧本。
找对人:打破“幸存者偏差”
在做消费级电子产品时,我们喜欢找“极客”、“早鸟用户”来做调研。但在服务机器人领域,这是一个巨大的陷阱。
以餐厅送餐机器人为例,如果你调研的对象是“来吃饭的科技发烧友年轻顾客”,他们会告诉你:“这机器人太酷了,我希望能跟它语音对话点单。”
但这是伪需求!
作为导演,你必须精准定义“真实痛点人群”(用户画像)。在餐厅场景里,机器人真正的利益相关者是谁?是在午高峰跑断腿的服务员,是关注翻台率的店长,是端着热菜怕被撞到的保洁阿姨。 你需要向这些典型目标用户进行邀约。只有他们的反馈,才能决定这个机器人能不能在这个场景里“活下去”。
写对剧本:开放式提问的艺术
准备阶段必须明确调研方向。假设我们要调研养老院里的“助行机器人”,千万不要问带有诱导性的封闭问题:“您难道不觉得我们这个自动跟随功能很好吗?” 这种问题除了得到一句敷衍的“好”,没有任何价值。
导演需要编写严密的“开放式大纲”。你需要询问:
- 最近状态:了解老人日常出行的频次、遇到的困难瞬间。
- 不用原因:如果以前试过辅助设备,为什么放弃了?是因为太重、太复杂,还是因为觉得“推着轮椅显得自己很老,伤自尊”?(注意,最后这一点往往是定量数据永远测不出来的心理痛点)。
- 改进建议:现在用什么替代方案(拐杖、护工搀扶)?替代方案有什么不爽的地方?
导演的价值,在于用极其缜密的逻辑,将几十上百万的硬件决策风险,消弭在产品立项的源头。

03 第二层身份:无情的“树洞”(直击最真实的痛点)
剧本写好后,进入执行阶段。在这里,产品经理必须收起“改变世界”的精英姿态,化身为一个极其克制、无情的“树洞”。
深入混乱边缘,做“影子观察者”
做APP调研,你可以把用户请到明亮宽敞的会议室,给他们倒杯咖啡。但在具身智能时代,调研现场必须在“案发地”。
你需要换上护工的衣服,在养老院里待上整整三天;你需要站在油腻的后厨通道里,观察午高峰的兵荒马乱。
树洞的第一原则是营造安全感与破冰。在一线工人和服务员眼中,你带来的高科技机器人是来“抢他们饭碗”的。他们防备心极重。你必须在开局就说明背景,承诺保密:“大哥,您别紧张,咱们今天就是闲聊。这些记录仅用于我们内部改进,绝不告诉你们老板。如果您觉得这机器确实是个废物,您直接骂就行。”
多观察,少引导,记录“沉默的真相”
在这个过程中,你要做到两点:闭嘴和如实记录。
面对复杂的物理世界,用户的真实反应往往藏在肢体语言和下意识的动作中,而不是嘴里。
场景A: 当你的送餐机器人靠近一桌顾客时,你不要听顾客怎么夸机器人,你要死死盯着顾客的身体反应——他们是放松地坐着,还是下意识地把椅子往里拉了拉?如果是后者,说明你的机器人底盘太大,或者减速刹车的动作过于突兀,带来了强烈的“物理压迫感”。
场景B: 当酒店布草机器人在走廊里遇到保洁阿姨的布草车时。阿姨没有说话,只是无奈地叹了口气,然后费力地把自己的小车推到墙角给机器人让路。你必须把这一声“叹气”和“让路的动作”记录下来。
这就是定性调研的精髓。作为树洞,你不需要在现场反驳,更不能去教用户怎么用产品。你只需要耐心倾听,记录用户原话、犹豫瞬间、动作以及那些直击灵魂的“金句”(比如服务员抱怨:“这铁疙瘩一到饭点就像个大爷一样挡路!”)。

04 第三层身份:破壁的“翻译官”(连接碳基与硅基)
拿到了海量的原始录音、视频和观察笔记后,产品经理将迎来最核心的挑战——进入分析与总结阶段,化身“翻译官”。 这就是我们在标题中强调的“剥洋葱”能力。
如果说大模型和硬件工程师是硅基世界的建设者,那么普通大众就是碳基世界的原住民。这两种生物的语言是不通的。大模型听不懂什么是“烦人”,它只懂Token、Reward Model和传感器参数。
翻译官的工作,就是将碎片化的情绪和吐槽,转化为产品能听懂的需求。
绘制“生死体验地图”
你需要把几十个小时的录音和笔记打平,提取高频词,给问题打标签(如:避障迟钝、语音识别率低、交互压迫感强)。
接下来,绘制一张极其详尽的“用户体验地图(User Journey Map)”。
以“机器人送餐到桌”这个短短30秒的过程为例,还原服务员和顾客的情绪起伏:
- 机器人靠近餐桌:顾客兴奋(情绪值+2)。
- 机器人刹车停靠:刹车太猛,汤汁洒出一点,顾客皱眉(情绪值-1)。
- 顾客取餐:屏幕反光看不清提示,顾客不知道拿哪一盘,服务员不得不跑过来帮忙(情绪值-3,跌入谷底)。
- 机器人离开:机器人不会后退,只能原地掉头,差点撞到旁边路过的小孩(情绪值-5,产生安全恐慌)。
在这个体验地图中,你精准地找到了那个最痛的“坑”——取餐确认交互和原地掉头的空间挤压。
剥洋葱:将情绪翻译成算法和硬件规格
找出了痛点,你需要像剥洋葱一样,追问“为什么”,直到找到技术解法。
用户的吐槽(表层表象): “这铁疙瘩老是挡路,像个智障,真烦人!”
翻译官的拆解(剥洋葱):
为什么挡路? 因为它遇到障碍物只会立刻急停。
急停为什么让人烦? 因为在人类的社交礼仪中,过道狭路相逢时,双方会有眼神交流,并侧身让步。但机器人急停后像一堵墙一样杵在那里,打破了人类的社交潜规则。
翻译给研发的“产品需求”(底层内核): “现在的路径规划算法是不及格的。我们需要在高动态环境中,引入‘具有社会属性的避障算法(Socially Aware Navigation)’。当机器人在狭窄过道遇到人类时,不仅要停下,更要在空间允许的情况下主动向后倒退半米,并同时触发语音播报:‘您先请’。”
看懂了吗?这就是万里挑一的PM才能做出的洞察!
不懂剥洋葱的PM,只会跑去跟技术说:“算法部门,你们把行驶速度调快点,别老挡路。”
而懂剥洋葱的PM,能洞察到物理世界中碳基生物的“社交礼仪”,并将其转化为具体的算法指令和产品定义。

05 落地兵器谱:具身智能时代的《用户调研行动指南》
当这一切分析完毕,我们如何将洞察落地,推动那群桀骜不驯的算法大牛和硬件专家去修改产品?
你需要一份一锤定音的《用户调研总结报告》。这份报告决不能是毫无意义的数据堆砌,它必须是一把锋利的手术刀。
作为交付给读者的核心方法论,请熟记以下“调研报告五要素”结构。当你拿着按照这个结构写出的报告走向研发团队时,你将拥有不可辩驳的话语权:
1. 背景与目的 (Background)
- 忌讳:“为了了解用户对机器人的看法。”
- 正确示范:“针对V2.0底盘在午高峰高动态场景下通过率低、导致门店退货率上升15%的问题,验证‘主动让行策略’是否能降低人机冲突。”
2. 样本描述 (Sample)
- 忌讳:“调研了50个路人。”
- 正确示范:“深度跟车调研3家一线城市火锅店,深度访谈5位工龄1年以上的大堂经理,采集录音600分钟,提取典型交互案例42个。”(强调样本的代表性和极端场景)。
3. 关键发现与用户原声 (Key Findings & Quotes) —— 核心灵魂!
不要只给干瘪的结论,一定要用刺目的“金句”佐证! 研发往往对抽象的需求不感冒,但对用户最直接的抱怨极度敏感。
- 结论呈现:“机器人在人流密集区急停,会引发强烈的空间压迫感和安全恐慌。”
- 加入原声(Quotes)暴击:“(附上录音二维码)火锅店王领班原话:‘它一停在那,红灯一闪一闪的也不出声,我端着滚烫的锅底都不敢动,生怕它突然撞上来,这哪是帮我,这是要我的命啊!’ (这种真实的痛点,能瞬间击穿技术人员的“自嗨”防线)。
4. 问题归类与优先级 (Priority)
将发现的问题按照严重程度(影响安全的、影响核心功能的、体验优化的)排列。在具身智能硬件迭代中,优先级就是生命线。
- P0级别:解决黑暗环境/玻璃墙面导致的幽灵刹车(涉及人身安全)。
- P1级别:增加后退让路动作及拟人化语音致歉(解决道路拥堵核心痛点)。
- P2级别:UI界面的适老化字体放大(体验优化)。
5. 行动方案 (Action Plan)
针对发现的问题,产品层面准备怎么改?这决定了你这个PM的最终价值。
- 软硬件协同方案:“联动硬件组在前后增加ToF传感器消除近地盲区;联动算法组在一个月内上线‘退让避障’分支;联动内容组更新语音包。”
- 最终产出物:更新后的《产品需求池 (Backlog)》并排期跟进。

结语:做具身智能的“水电煤”,做永远不被淘汰的PM
当ChatGPT刚刚爆发时,很多人惊呼:“AI可以一键生成PRD,产品经理要失业了!”
但今天,当我们看着那些在大街上迷路、在餐厅里添乱的具身智能机器人时,我们应该感到庆幸。
因为真实世界的物理摩擦力,是AI永远无法在云端计算出来的。 人性的幽暗、物理环境的复杂、弱势群体的恐惧、一线工人的疲惫……这些都是大模型永远无法直接触及的“黑盒”。
不管AI进化到什么程度,它只是冰冷的技术底座。而能够深入泥泞的现场,去扮演精密的“导演”、无情的“树洞”、破壁的“翻译官”;能够在一团乱麻中剥洋葱找规律,将人性的幽微翻译成机器的代码——这套深度用户调研的内功,才是我们在AI时代安身立命的终极护城河。
大模型的API会越来越便宜,算力会像自来水一样普及。但那个能连接硅基与碳基世界,做具身智能生态里最不可或缺的“水电煤”的产品经理,永远万里挑一。
别在办公室里焦虑大模型要取代你了。合上电脑,去最乱的现场,去找那个正在对着机器人叹气的保洁阿姨聊聊吧。那里,藏着你下一个爆款产品的黄金屋。

本文由 @梦迹 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




