做陪伴机器人，我最先想清楚的是 AI 不该做什么

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

做陪伴机器人，我最先想清楚的是 AI 不该做什么

Iris

2026-05-21

0 评论 969 浏览 3 收藏

13 分钟

我是金融本科出身、一直在做内容/直播方向的产品，最近因为对具身智能感兴趣，花了不少时间研究家庭陪伴机器人这个方向。我没有真实的硬件项目经验，所以这篇不是“实战复盘”，而是一个跨行产品人从零切入后，关于安全兜底这一个点的思考推演。里面对误报代价、责任归属这些硬骨头我只能点到，真正的工程坑欢迎做硬件和具身的同行在评论区拍砖。

先把结论放前面：做家庭陪伴机器人，最该想清楚的不是“AI 能做多少”，而是“AI 不该独自做哪些”。

兜底机制的核心，是把“识别”和“决策”分开——识别可以交给模型，但触发救援的那个决策，必须交给写死的规则，并且最终落到一个能到现场的人身上。

下面拆成四层讲。

先想清楚：这台机器，服务谁、又安抚谁

关于陪伴机器人，默认的用户是老人。

但我倾向于把”使用者”和”决策者”分开看，因为它们很可能不是同一个人。

日常使用这台机器的是老人；但真正掏钱、并且抱着焦虑做购买决策的，很多时候是老人的子女。我没有行业数据支撑这个比例，只是从付费意愿的角度做的判断：老人未必觉得自己需要它，而一个长期在外、没法时时回家的年轻人，需要的是“我爸妈出事时我能第一时间知道”的那份安心。（当然也有老人自购、或养老机构集中采购的情况，这里说的只是其中一类典型情形。）

这个区分有个直接后果：摔倒检测这类功能，服务的是老人；而它真正安抚的，是不在场的子女。所以安全兜底不是一个孤立的技术点，它是整个产品价值的承重墙——解决的是“那个本该在场的人不在场”这个焦虑。

接下来四层，都围绕同一个问题：当最坏的情况发生、而该在场的人不在场时，系统能不能接住，又不至于天天误报到没人再信它？

第一层：把”识别”和”决策”分开

陪伴机器人最高优先级的场景，是“老人摔倒”这类紧急情况。这里我想先纠正一个我自己一开始也踩过的混淆：“用 AI 判断老人是否危险”这句话，其实包含了两件性质完全不同的事。

第一件是感知：

画面里这个人是不是摔倒了？这是个识别问题。它适合用模型来做——具体是端侧的视觉/多模态感知模型，而不是语言模型。（这点要说清楚：像 Qwen3-0.6B 这种小语言模型虽然能在本体上离线跑，但它是处理语言的，不该拿去做摔倒识别这种视觉任务，后面会讲它真正该干的活。）感知模型的输出不应该是非黑即白的“摔了/没摔”，而应该带置信度。

第二件是决策：

基于这个识别结果，要不要触发报警、联系子女？这是个动作问题。

这一层必须用写死的规则，不能让一个模型自由发挥。

为什么这么切？因为这两件事的容错性不一样。识别错了，还能靠下一帧画面、靠别的信号纠回来；但报警这个动作一旦发出去，就收不回来了。如果让一个模型端到端地“看一眼画面、自己决定要不要报警”，你既没法解释它为什么这么判断，也没法在它判错时定位问题。拆开之后就清爽了：

感知层用模型给出“疑似摔倒，置信度 0.8”；
决策层用规则来用这个数：比如“置信度高于阈值 + 主动语音询问无回应 + 持续静止超过 N 秒”，三个条件印证后才升级为高风险。

这里也才是 Qwen3-0.6B 真正的位置——它擅长的是本地的语音确认对话：感知层报了疑似摔倒后，机器人本地问一句“您还好吗？需要帮忙吗？”，并离线理解老人的回应。这是语言任务、能断网运行，正好是这个小模型的用武之地，而不是让它去“看”有没有摔倒。

至于端云怎么分：后果不可逆、不能依赖网络的判断放端（断网时云端恰好失灵，是最危险的设计）；可以慢一点、但要做准的复杂分析放云。划分依据是后果有多严重，不是哪边技术上更方便。

第二层：在”漏报”和”误报”之间显式做权衡

上一层很容易导向一个危险的直觉：“宁可错报一千，不可漏报一个。”但这只算了一半的账。

一个一味追求“绝不漏报”的系统，必然制造大量误报。误报的代价是真实的，而且会累积：三天两头惊动子女、物业甚至警方，会迅速消耗所有人的信任；老人被反复的误报警吓到或烦到，最后干脆把设备关掉、拔了电——到那一步，兜底就彻底归零，这比偶尔漏报更糟。

所以兜底设计的真功夫，恰恰在决策层怎么平衡这两类错误，而不是把灵敏度一味拉满。

这里我思考了几个能压住误报的做法：

多模态印证再升级：单一信号（只有视觉、或只有声音）不直接报警，要求多个信号互相佐证。这能大幅压低误报。
分级响应，先低成本后高成本：疑似事件先用“机器人本地询问”这种零打扰的方式确认，确认不了再逐级升级到联系人、外部求助。把高成本动作留到证据足够时。
噪声鲁棒性和声纹区分是硬骨头。家庭是个吵闹环境——电视、多人说话、背景音乐。系统要能把“老人真实的呼救/异响”从背景噪声里分出来，否则误报会失控。这块在我看来是把这套机制真正落进家庭场景最难的工程点之一。

对不可逆的后果，天平可以向防漏报倾斜，但你得同时主动管理误报的成本。最灵敏的那一版，往往不是最好用的那一版。

第三层：技术选型要克制，敢对某些环节说“这里不用 AI”

把前两层抽象一下，就是一条更通用的产品原则：不是所有先进的技术，都该用在每一个环节。

现在 agent 很火，大家恨不得每个环节都塞一个。但 agent 行为相对不可控——让它查资料、排日程，出点偏差无所谓；让它去自主决定老人现在是不是危险、要不要报警，容错率是零。这正是上面“决策层用规则”的理由。

可以用两个问题给“该不该交给 AI”划线，这是两个不同的维度，要一起看：

这个判断错了，后果可逆吗？可逆（推荐了一首老人不爱听的歌），交给 AI 发挥；不可逆（漏报一次摔倒、误触发一次破门），底线得用写死的规则兜住。
它的判断你能解释清楚吗？安全相关的决策要可追溯、事后能查清楚是怎么判的；一个说不清为什么的黑箱结论，不该单独出现在救援这条链上。

陪伴可以交给 AI，安全要交给规则。这是技术选型上的克制，也是这篇文章想讲的核心。

第四层：兜底必须终结在“一个能做决策的人”

前三层都是技术。但兜底最容易被打穿的地方，反而在技术之外。

业界常见做法是：出事了就联系紧急联系人（通常是子女）。但回到第一节那个错位——会买这台机器的年轻人，生活节奏往往很快。开着会、在地铁里、手机调了勿扰……完全可能在最关键的几分钟恰好联系不上。

如果兜底接到”联系子女”就结束，它就藏了一个单点故障：默认了那个人一定会接。

所以真正的兜底，要考虑“没人接”之后怎么办，把这条线继续往下接：联系不上第一联系人 → 第二、第三联系人 → 接入警方协助 → 同时并联一条就近的线（小区物业、楼栋负责人，他们在物理上最可能最快到现场）。核心只有一句：兜底必须终结在一个有权限、且能真正到现场做决策的真人身上。一个永远停在“等待回应”里的兜底，等于没有兜底。

但我必须诚实地承认，这往下接的每一步都有我答不上来的硬问题，而且都不是技术问题：