为什么大多数 AI 产品“很聪明，却不好用”？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

为什么大多数 AI 产品“很聪明，却不好用”？

浩思AI

2026-01-20

1 评论 1318 浏览 3 收藏

61 分钟

AI产品为何总是精准踩中用户痛点的尴尬瞬间？从职场社死到驾驶险情，这些真实案例揭示了智能工具在‘正确’时机犯错的根本矛盾。本文提出‘观止场景方法论’，通过用户-时间-空间三元坐标系重新定义AI交互逻辑，为产品经理破解‘高智商低情商’的行业难题。

做 AI 产品这几年，我见过太多哭笑不得的瞬间，有些甚至可以说是“社死现场”了。这些事儿，可能你我都经历过，或者至少听说过

比如有一次，一个朋友在公司开一个特别重要的项目复盘会，会议室里坐满了各路老板。他为了显得专业，打开了某个据说很厉害的 AI 会议助手。会议进行到一半，大家正在激烈讨论一个关键失误的责任归属，气氛紧张到冰点。就在这时，AI 助手突然用它那毫无感情的机械音，清晰洪亮地播报了一条来自他个人日历的提醒：“请注意，下午四点与猎头沟通关于新的工作机会事宜”

你可以想象一下那个画面，整个会议室瞬间安静了，所有人的目光都聚焦在他身上。他后来说，当时他想找个地缝钻进去的心都有了。这个 AI 助手聪明吗？当然聪明，它准确地识别了日历信息并按时提醒。但它好用吗？在那个瞬间，它简直就是个灾难

还有一个场景，是我自己亲身经历的。有段时间工作压力特别大，项目上线前连续熬了好几个通宵，身心俱疲。下班回家的地铁上，我戴着耳机，只想放空自己，听点舒缓的音乐。结果，我手机上的 AI 助手可能通过我的听歌历史、低落的表情，甚至是我沉重的叹气声，判断出我“情绪低落”。于是，它非常“贴心”地中断了我的音乐，开始用一种导师般的口吻，给我输出一连串的人生大道理：“人生就像一场马拉松，暂时的落后不代表失败……”

说实话，那一刻我没有感到任何慰藉，只觉得无比烦躁。我不需要一个机器来教我怎么生活，我只想安安静静地待一会儿。它说的道理都对，但那个时刻，那些正确的废话，对我来说就是一种冒犯

更危险的场景也时有发生。一个做自动驾驶研究的朋友讲过一个例子。测试车辆在一条车流密集的城市快速路上行驶，驾驶员正准备向左并线，这是一个需要高度集中注意力的瞬间。就在他扭头观察后视镜，准备打方向盘的零点几秒内，车载智能助手突然在屏幕中央弹出一个硕大的卡片，并用语音详细介绍：“检测到您正在执行并线操作，为了您的安全，请确保与后车保持至少三秒的安全距离，并注意观察盲区……”

这些信息正确吗？完全正确，简直可以写进驾校教科书。但在那个千钧一发的时刻，这种“正确”的干扰，不仅没用，反而极度危险，它分散了驾驶员最宝贵的注意力资源，差点酿成事故

核心矛盾

你看，这些例子有一个共同点：AI 说的内容，从逻辑和事实上来看，往往是“对的”。提醒日程是它的职责，识别情绪并给予鼓励是它的设计目标，提示驾驶安全更是它的核心功能

但我们作为用户的真实体验是什么呢？是“不合适”、“很烦”、“添乱”，甚至是“危险”。这种巨大的反差，就是今天绝大多数 AI 产品面临的核心矛盾。我们投入巨大的研发资源，让模型变得越来越聪明，能写诗、能画画、能分析财报，但在最需要它体现“价值”的日常交互中，它却频繁地表现出一种令人难以忍受的“低情商”

核心判断

所以，问题的根源到底在哪里？是 AI 的能力还不够强吗？我觉得不是。GPT-4 已经能通过各种专业考试，AI 的逻辑推理和信息整合能力，在很多方面已经超过了普通人

我认为，多数 AI 产品的问题，不是能力不足，而是在错误的时间、错误的空间，对错误的用户，做了正确的事。这句话听起来有点绕，但它点出了问题的本质：AI 拥有了“智商”，却极度缺乏“情商”。而这种“情商”的缺失，根源在于它对“场景”的理解出现了系统性的偏差

方法论引出

过去我们做传统互联网产品，天天把“做场景”挂在嘴边。但那个时候的“场景”，更多是一种对用户需求的分类和归纳，比如“通勤场景下的听书需求”、“办公场景下的文档协同需求”。这种定义方式在过去是够用的，因为产品功能相对固定，交互模式也比较简单

但 AI 时代完全不同了。AI 的能力是流动的、弹性的，它可以主动发起交互，可以生成无限多样的内容。这就要求我们对“场景”的理解，必须从一个静态的需求标签，升级为一个动态、多维的分析框架

AI 产品真正缺的，不是更强的模型，而是一个可执行的、能够指导 AI 做出“得体”行为的场景分析坐标。基于这些年的观察和实践，我尝试总结出一个方法论，我称之为“观止场景方法论”。它的核心，就是用一个三元坐标系来重新定义和解构 AI 场景：用户（WHO）· 时间（WHEN）· 空间（WHERE）

只有当 AI 能够在这个三维坐标系中精确地定位自己和用户的相对位置时，它才有可能从一个“聪明但烦人”的工具，进化成一个“懂分寸、有智慧”的伙伴

一、重新定义“场景”—— AI 需要理解的是“剧情”，不是“需求”

1.1 AI 语境下的场景公式

我们先来给这个方法论下一个定义。在 AI 的语境下，一个完整的场景，可以用这样一个公式来表达：

场景=用户× 时间× 空间→决策状态/情绪

这里的乘号（×）不是数学意义上的相乘，而是指三个维度变量的交汇与耦合。这三个变量共同作用，最终指向的不是一个简单的“需求”，而是一个极其复杂的、动态变化的“决策状态”或“情绪状态”

这和传统产品思维有根本的不同。传统产品经理可能会说：“用户在地铁上，这是一个通勤场景，他有娱乐的需求”。这是一个线性的、基于需求的描述。但在 AI 的世界里，我们需要这样思考：“一个刚刚被老板批评过的产品经理（用户），在下班高峰期的拥挤地铁里（空间），只有不到五分钟的碎片化通勤时间（时间），他此刻的决策状态是‘逃避现实、寻求短暂放空’，情绪是‘疲惫且烦躁’”

看到区别了吗？前者定义了一个模糊的需求分类，而后者描绘了一出具体的“剧情”。AI 需要理解的，正是这出包含了人物、时间、地点、内心戏的完整剧情。只有理解了剧情，AI 的每一次“出场”和每一句“台词”，才不会显得突兀和愚蠢

1.2 场景对 AI 的系统级意义

为什么说理解“剧情”如此重要？因为它在系统层面，决定了 AI 三个最核心的行为策略。这三个策略，比 AI 具体能做什么、能说什么，要重要得多

第一个，是决定要不要回应。一个真正有智慧的助手，懂得什么时候应该保持沉默。当用户在激烈争吵时，当用户在专注思考时，当用户在享受二人世界时，沉默是金。很多 AI 产品的问题就在于，它们认为自己必须对每一个可能的触发信号做出反应，结果就是无休止的打扰

第二个，是决定回应多深。即便决定要回应，用一句话总结，还是用一篇长文解释，是天壤之别。用户在开车时问“今天天气怎么样”，他只需要知道“晴天，25度”，而不需要一份包含气压、湿度、风向和未来一周趋势的详细气象报告。对场景的精准判断，决定了交互的深度和粒度，这是避免信息过载的关键

第三个，是决定是否应当主动出现。这是更高阶的能力，也是最容易“翻车”的地方。在用户可能需要帮助但没有开口时，主动提供支持，是顶级助手的表现。比如，检测到用户在一个陌生的城市机场，并且航班延误了，主动推送酒店预订选项和交通方案。但如果判断失误，这种主动就会变成前面提到的“社死现场”。什么时候可以主动，什么时候必须等待指令，这完全取决于对整个“剧情”的把握

这三个系统级决策，构成了 AI 交互的“骨架”。如果骨架是错的，那么无论模型生成的“血肉”（内容）多么聪明、多么丰富，最终呈现出来的，都会是一个行为怪异、不讨人喜欢的“缝合怪”

1.3 缺失任一坐标的典型问题

为了更清晰地理解这个三元坐标的重要性，我们可以看看缺失任意一个维度，会导致什么样的典型问题

只有用户（WHO），没有时间和空间：这就是所谓的“懂你，但不懂你的处境”。AI 通过你的历史数据，知道你是一个深度思考者，喜欢阅读长篇分析文章。于是，在你开车并线的那一刻，它向你推送了一篇万字长文，分析你关注的行业动态。它对“你”的画像是精准的，但它完全无视了你所处的“时间”和“空间”约束，这种“懂”就变得毫无意义，甚至有害

只有时间（WHEN），没有用户和空间：AI 知道你现在很急，比如马上要开会了。于是它拼命帮你“提效”，把所有它认为重要的信息都塞给你。但它不知道“你”是一个需要深度准备的决策者，而不是一个只需要接收指令的执行者；它也不知道你正处在一个嘈杂的公共“空间”，无法进行语音交互。结果就是，它在你耳边喋喋不休，但没有一条信息是你真正需要的，或者能有效接收的

只有空间（WHERE），没有用户和时间：AI 检测到你正在健身房（空间）。于是它开始推送健身相关的教程和音乐。但它不知道“你”其实是一个健身教练，来这里只是为了见一个客户；它也不知道你今天身体不适，只是来简单拉伸一下（时间）。它基于地点的判断看似合理，却因为忽略了用户角色和当前的时间状态，做出了完全错误的假设

任何一个坐标的缺失，都会让 AI 的行为产生巨大的偏差。一个真正好用的 AI，必须是一个能在“用户-时间-空间”这个三维坐标系里，实时进行动态定位和决策的系统

二、坐标一 —— 用户（WHO）：AI 面对的不是“一个人”，而是“一个角色”

2.1 AI 产品中的“角色型用户”

在三元坐标中，“用户”这个维度看似最简单，因为我们已经有了一套非常成熟的用户画像体系。但我想说，在 AI 时代，传统的用户画像方法论，可能需要一次彻底的升级

传统画像关注的是“你是谁”——你的年龄、性别、职业、兴趣偏好。这是一个相对静态的标签集合。但 AI 交互的特点是高频、实时、嵌入生活，它面对的不是一个抽象的“人”，而是在不同“剧情”中扮演着不同“角色”的同一个人

这个概念非常重要。同一个人，在不同的场景下，他的行为模式、信息需求、交互偏好是完全不同的。AI 必须理解这种“角色”的切换

最典型的例子就是“驾驶中的我 vs 停车后的我”。“驾驶中的我”是一个“驾驶员”角色，我的第一要务是安全，我的注意力资源极度有限，我只能接收最简单、最直接的指令式信息，并且最好通过语音或简单的视觉提示来传递。“停车后的我”则回归到普通人角色，我可以拿起手机，深度阅读一篇文章，或者进行复杂的设置操作。如果 AI 把“驾驶中的我”当成“停车后的我”来对待，那就会出大问题

再比如，“决策者 vs 执行者”。在工作中，当我需要做一个重要决策时，我扮演的是“决策者”角色。我需要 AI 提供全面的信息、多种方案的对比、潜在风险的分析。但一旦决策做出，我把任务分配给团队成员时，我可能就切换到了“执行者”或“监督者”的角色。这时，我只需要 AI 告诉我任务的进展、关键节点的提醒，而不再需要那些复杂的决策信息。同一个项目，同一个我，但角色变了，对 AI 的需求就完全变了

还有“熟练用户 vs 初次使用用户”。这不仅仅是用户生命周期的问题，更是一种动态切换的角色。即便是一个使用了某款 AI 工具一年的老用户，当他接触到一个全新的、复杂的功能时，在那一刻，他就暂时切换回了“初次使用用户”的角色。此时，他需要的是引导、是简单的教学，而不是一上来就展示所有的高级选项。很多产品设计了新手引导，却忽略了老用户在特定情境下也会“变回”新手

所以，AI 对用户的理解，必须从静态的“画像”，进化到动态的“角色识别”。它需要不断地问自己：眼前的这个人，此刻，正在扮演什么角色

2.2 用户识别的两种核心方式

那么，AI 如何才能识别出用户正在扮演的角色呢？这需要一套新的分析框架。我认为可以从两个核心视角切入：行为强度和任务目标

2.2.1 行为强度视角（RFM 的 AI 化理解）

做过电商或运营的朋友，对 RFM 模型一定不陌生，它通过近度（Recency）、频度（Frequency）、金额（Monetary）来衡量用户价值。在 AI 产品的语境下，我们可以对这个模型进行一次“AI 化”的改造，用它来衡量用户的“行为强度”，进而判断用户的角色和状态

我们可以把 RFM 重新解读为：信任度、投入度、容错空间

信任度（Trust）：可以类比于 Recency 和 Frequency。一个用户与 AI 交互的频率越高，采纳 AI 建议的比例越大，说明他对这个 AI 的信任度越高。这就像一个高频复购的老客。对于高信任度的用户，AI 可以采取更主动、更深入的交互策略。比如，可以适度地进行预测和推荐，甚至可以拥有一些“纠错”的权限。因为用户相信，AI 的主动行为大概率是善意且有益的

投入度（Engagement）：可以类比于 Monetary，但衡量的不是金钱，而是用户投入的认知资源和时间。用户是否愿意花时间去调教 AI，是否愿意对 AI 的输出进行精细化的修改，是否会使用 AI 的高级功能。高投入度的用户，通常是“专家型”或“共建型”角色，他们希望对 AI 有更强的控制力，需要更专业的界面和更开放的参数设置。他们追求的是效率和能力的上限

容错空间（Tolerance）：这是一个综合性的指标。对于一个刚刚开始使用产品、信任度和投入度都很低的新用户，他的容错空间非常小。AI 的任何一次低级错误、一次不合时宜的打扰，都可能导致他永久流失。而对于一个深度使用、高度信任的老用户，他的容错空间就大得多。他理解 AI 可能会犯错，并愿意给予纠正和反馈。因此，高信任用户和低信任用户的交互策略必须有天壤之别。对前者，可以尝试一些实验性的、可能出错但潜力巨大的功能；对后者，则必须保证核心体验的绝对稳定和可靠

通过这三个维度的动态评估，AI 可以大致判断出用户当前处于“新手探索者”、“熟练使用者”还是“专家共建者”的角色，并匹配相应的交互模式

2.2.2 任务目标分层

除了行为强度，另一个识别用户角色的关键维度是他们当前试图完成的任务目标。同一个用户，在不同任务下的角色是截然不同的。我们可以把 AI 场景下的任务目标大致分为三层

第一层是“信息确认型”任务。这是最基础的需求，比如“今天北京天气怎么样？”、“现在几点了？”、“帮我查一下某某公司的股价”。在这种任务中，用户扮演的是一个“信息获取者”的角色。他对 AI 的要求是：快速、准确、简洁。他不需要任何创造性，也不需要复杂的分析，只需要一个确定的答案。AI 在此应该像一个搜索引擎或者一个报时器，高效地完成指令即可

第二层是“决策支持型”任务。这比上一层要复杂得多。比如，“我想在周末和家人去郊游，推荐几个合适的地方”、“我们团队下个季度的 OKR 应该怎么定？”、“帮我分析一下这份合同里的潜在风险”。在这里，用户扮演的是一个“决策者”的角色。他需要的不是一个唯一的、标准的答案，而是一个“顾问”或“参谋”。他对 AI 的要求是：提供多种选项、分析利弊、罗列事实、启发思路。AI 在此应该像一个专业的咨询顾问，它的价值在于提供高质量的、结构化的信息，帮助用户做出更好的决策，而不是替用户决策

第三层是“操作执行型”任务。这是将决策付诸行动的阶段。比如，“帮我预订明天下午两点去上海的机票”、“根据刚才的讨论，生成一份项目启动会的 PPT”、“写一段代码，实现一个用户登录的功能”。此时，用户扮演的是一个“指挥官”或“管理者”的角色。他对 AI 的要求是：精准理解意图、高效完成任务、提供可修改的中间结果。AI 在此应该像一个得力的“执行助理”或“工具人”，它的价值在于把用户的想法和指令，转化为具体、可用的产出

当 AI 能够判断出用户当前的任务属于哪一层时，它就能够更好地定位自己的角色，是做一个“信息播报员”，还是一个“战略分析师”，或是一个“高效执行者”。这种角色的精准匹配，是实现“好用”体验的基础

【❌ 错误示范 vs ✅ 正确示范｜用户维度】

❌ 把“驾驶状态用户”当成可深度阅读的用户

一个典型的错误，就是 AI 检测到用户正在开车，但因为它知道用户对某个话题感兴趣，于是推送了一篇深度分析文章的链接，甚至开始朗读文章的摘要。AI 的逻辑是：用户（WHO）喜欢这个话题 + 行为（推送文章）是匹配的。但它完全忽略了“驾驶状态”这个临时的、但优先级最高的角色属性。在这个角色下，用户的核心需求是安全，认知负荷极高，任何需要分心阅读或理解的内容都是极其危险的干扰

✅ 驾驶中只给结论，停车后再补充解释

正确的做法是，AI 必须首先识别出“驾驶员”这个角色。在这个角色下，所有的信息交互都必须服务于驾驶安全。如果确实有重要信息，比如用户关注的股票价格发生巨大波动，AI 的交互应该是这样的：通过一声简短的提示音引起注意，然后用一句话语音播报结论：“您关注的股票已上涨百分之十”。仅此而已。同时，系统可以在后台记录这个事件。当 AI 检测到车辆已经停稳、熄火后，再通过中控屏或手机推送一条通知：“您在驾驶时关注的股票信息有更新，是否现在查看详情？”这就把同一个信息，根据用户的角色切换，拆分成了两个步骤，既保证了驾驶安全，又满足了用户获取信息的需求

2.4 本章小结

对“用户”这个维度的分析，正在从静态的用户画像，转向对动态角色切换的理解。AI 产品经理需要思考的，不再仅仅是“我的用户是谁”，而是在每一个具体的交互瞬间，“我的用户正在扮演什么角色”

用户分析的终点不是“你是谁”，而是**“我现在该扮演什么角色？”**

只有当 AI 能够回答好这个问题，它才能真正地“看人下菜碟”，提供恰如其分的帮助，而不是自作聪明地添乱

三、坐标二 —— 时间（WHEN）：AI 什么时候出现，比说什么更重要

3.1 AI 场景中的时间 = 认知余量

如果说“用户”维度定义了 AI 应该扮演的角色，那么“时间”维度，则直接决定了 AI 这出戏的“台词”应该有多长、多复杂。在 AI 产品的交互设计中，时间并不仅仅是物理世界里的时钟刻度，它更是一个关键的隐喻，代表着用户在特定时刻所拥有的“认知余量”

所谓认知余量，就是指用户在处理当前主要任务之外，还剩下多少心力（注意力、理解力、记忆力）可以分配给其他事情。认知余量是极其有限且动态变化的宝贵资源。一个优秀的 AI，应该是一个认知余量的“管理大师”，而不是一个资源的“掠夺者”。根据认知余量的多少，我们可以把 AI 场景中的时间划分为几种典型类型

深度时间（Deep Time）：这是用户拥有最大认知余量的时刻。比如，周末的下午，一个人坐在书房里；长途火车上，窗外的风景一成不变；深夜里，万籁俱寂，准备专心研究一个问题。在这些时间里，用户的心智是开放的、专注的，有足够的能力和意愿去处理复杂信息。这是 AI 发挥其“智商”的最佳时机，可以与用户进行共同思考、深度探讨，提供详尽的分析报告，或者引导用户完成复杂的设置。在深度时间里，AI 可以是一个“思想伙伴”

碎片时间（Fragmented Time）：这是我们日常生活中最常见的时间形态。等电梯的30秒，排队买咖啡的3分钟，地铁到站前的2分钟。在这些时间里，用户的认知余量极低，且随时可能被中断。他们只能处理最简单、最直观的信息。对于碎片时间，AI 的交互原则必须是“只给结论”。不要解释、不要分析、不要提供选项。天气预报就只说“今天有雨，带伞”，新闻就只给一个标题，任务提醒就只说“三点钟开会”。在碎片时间里，AI 应该是一个“信息速递员”

临界时间（Critical Time）：这是一种认知余量为负的特殊时间。所谓“为负”，是指用户不仅没有多余的心力，甚至需要调动全部身心去应对眼前的主要任务。比如，开车并线、在手术台上操作、在重要的演讲中发言。在临界时间里，任何来自 AI 的非必要信息，都是一种致命的干扰。AI 在此的唯一原则就是“绝对安静”，除非是与当前临界任务直接相关的、最高优先级的预警信息（例如“即将追尾！”）。在临界时间里，AI 的最佳角色是“隐形守护者”，它的价值体现在它的“不作为”

仪式时间（Ritual Time）：这是一种介于深度时间和临界时间之间的状态。比如，开车上班前的几分钟，用户正在调整座椅、设置导航；重要演示开始前的十分钟，用户正在检查设备、默念讲稿。在这个时间段，用户正在进行一种“心理建设”，为接下来的主要任务做准备。他们的认知焦点正在收窄，但尚未完全关闭对外通道。AI 在此应该表现出“高度克制”。它可以提供一些辅助性的、轻量级的信息，比如“前方路段拥堵，建议更换路线”，或者“演示设备连接正常”。但绝不能用复杂或无关的信息去打断用户的准备节奏。在仪式时间里，AI 应该是一个“安静的副驾”或“可靠的场务”

3.2 AI 常见的时间判断失误

理解了时间的分类，我们就能轻易地识别出很多 AI 产品在时间判断上的典型失误。这些失误的本质，都是在错误的认知余量窗口，推送了错误复杂度的信息

一个常见的例子是，程序员正在紧张地 Debug，代码跑不通，马上就要到交付死线了，这显然是一个“临界时间”。这时，IDE 里集成的 AI 助手突然弹出一个长篇教程，详细解释这个 Bug 背后可能涉及的底层原理和计算机体系结构。这些知识或许很有价值，但在那个分秒必争的时刻，程序员需要的只是一个可能的解决方案，或者一个指向关键错误代码的提示，而不是一篇学术论文。这种“好心”的教学，只会加剧他的焦虑

另一个例子，早上你马上就要出门上班了，正在手忙脚乱地找钥匙、穿鞋子，这是典型的“仪式时间”向“临界时间”过渡的阶段。你的智能音箱突然大声播报：“根据您昨晚的浏览记录，为您生成了一份关于宏观经济未来走势的深度分析报告，现在为您播报摘要……” 这简直是不可理喻的。用户此刻的认知余量几乎为零，他唯一关心的就是“别迟到”，任何与此无关的复杂信息都是噪音

还有，在很多软件操作流程中，用户正在进行一个关键节点的确认，比如点击“确认支付”或者“格式化硬盘”。这在操作上是一个“临界时间”。但有些产品偏偏喜欢在这个时候，在按钮旁边弹出一个“小贴士”或者“新功能介绍”。这种在关键操作节点插入非必要信息的行为，极大地增加了用户的操作风险和心理负担，是糟糕设计的典型代表

【❌ 错误示范 vs ✅ 正确示范｜时间维度】

❌ 并线前提示原理与风险分析

这个场景我们前面提过，但从“时间”维度来看，能得到更深刻的理解。当驾驶员准备并线时，他进入了以秒甚至毫秒计算的“临界时间”。他的全部认知资源都用于观察路况、判断车速和距离。此时，AI 助手如果开始进行“教学”，比如“并线是一项复杂的驾驶操作，它要求驾驶员对车辆动态有充分的理解。根据牛顿第二定律……” 这不仅是愚蠢的，更是危险的。它试图在一个认知余量为负的窗口，强行塞入高复杂度的信息，这是对“时间”这个坐标的完全无视

✅ 并线时仅提示关键信息，事后补解释

正确的做法是，AI 必须对“临界时间”有敬畏之心。在并线操作的瞬间，AI 的交互应该被压缩到极致。也许只是通过后视镜上的一个盲区指示灯闪烁，或者方向盘的一次轻微震动，来传递“侧后方有车，危险”这个最关键的信息。这种交互方式几乎不占用用户的认知资源，而是近乎本能地被感知。当驾驶结束，用户处于“深度时间”或“碎片时间”时，AI 才可以进行复盘和解释：“刚才在某某路段的并线操作存在风险，系统介入进行了提示。想了解如何更安全地并线吗？” 这样，就把教学和预警，放在了两个完全不同的时间窗口里，既保证了安全，又实现了帮助用户成长的目标

3.3 本章小结

在 AI 产品的设计中，我们必须建立一个核心观念：用户的认知余量是神圣不可侵犯的。AI 的每一次交互，都是在申请使用这一份宝贵的资源

而“时间”这个坐标，就是我们判断用户认知余量最直接的标尺。它决定了我们的 AI 在特定时刻，是被允许“长篇大论”，还是只配“说一句话”，或者最好“保持沉默”

时间在 AI 产品中，是交互复杂度的硬上限

四、坐标三 —— 空间（WHERE）：决定 AI 是否“得体”

4.1 空间 ≠ 地点，而是环境约束的集合

谈完了用户和时间，我们来到三元坐标的最后一个维度：空间（WHERE）。和“时间”一样，这里的“空间”也远不止是 GPS 上的一个地理坐标那么简单。在 AI 场景方法论里，空间是一个更广义的概念，它代表着用户所处环境的所有物理和社会的“约束”的总和。这些约束，直接决定了 AI 的行为是否“得体”，是否“安全”

我把这些约束分为三类

第一类是“物理约束”。这最好理解，它包括了用户与物理世界的直接互动方式。比如，用户是否能用双手进行操作？他是在走路，只能单手操作手机吗？他的视线是否被占用？他是在开车，视线必须集中在路面吗？他所处的网络环境怎么样？是在信号满格的办公室，还是在网络时断时续的地下车库？这些物理约束，直接决定了 AI 应该采用什么样的交互模态（视觉、听觉、触觉）和内容形式（文字、图片、视频、轻量化数据）

第二类是“移动约束”。用户是静止的，还是在移动中？这种移动是可预测的（比如乘坐高铁），还是不可预测的（比如在拥挤的商场里穿行）？移动状态意味着交互随时可能被中断。一个需要用户连续完成五个步骤的操作流程，对于一个静止坐在办公桌前的用户是可行的，但对于一个正在赶地铁的用户来说，几乎不可能完成。因此，移动约束要求 AI 的交互必须是“可中断、可恢复”的，并且最好是“原子化”的，即每次交互都能完成一个独立的闭环

第三类是“社会约束”。这是最复杂，也最容易被技术人员忽略的约束。它指的是用户所处的社交环境。这个空间是公开的还是私密的？是在只有自己一人的卧室，还是坐满了同事的办公室，或是有陌生人在场的电梯？交互的内容是否涉及隐私？是查询天气，还是查看自己的薪资单？旁人听到或看到这些信息，会不会给用户带来尴尬、不适，甚至是信息安全风险？社会约束，考验的是 AI 的“分寸感”和“边界感”，是它是否像一个有教养的、懂礼貌的“社会人”

4.2 AI 常见的空间越界问题

很多 AI 产品的“低情商”表现，都源于对空间约束的无知，也就是我们常说的“不看场合说话”

最典型的就是语音播报的问题。我见过不止一次，在安静的电梯里，某人的手机 AI 助手突然大声朗读起一条微信消息，内容还颇为私密，引得整个电梯的人都投来异样的目光。同样，在车里载着同事或客户时，车载助手如果开始播报你的个人日程或者与家人的通话提醒，也会造成类似的尴尬。这就是完全没有考虑到“社会约束”，把私密信息暴露在了半公开的空间中

在公共空间展示敏感信息也是一个大坑。比如，很多人会把电脑投屏到会议室的电视上。如果此时，电脑右下角弹出一个通知，显示了你刚刚收到的银行账单或者一份敏感的邮件标题，那场面就会非常尴尬。AI 助手在推送通知时，很少会去判断当前的显示设备是一个私密的个人屏幕，还是一个公开的共享屏幕。这种对“空间”属性的忽略，导致了隐私的泄露

对物理约束的忽略也比比皆是。比如，一个主打户外运动的 App，它的 AI 功能却需要用户在运动中进行精细的屏幕点选操作，这完全违背了用户在户外“视线被占用”、“双手不稳定”的物理约束。再比如，一个云端驱动的 AI 应用，在弱网或无网的地下车库、山区等环境下，就完全无法工作，或者需要用户长时间等待一个加载圈。这就是没有为“弱网”这个特殊的物理空间做好兜底和降级方案

【❌ 错误示范 vs ✅ 正确示范｜空间维度】

❌ 电梯/车内语音朗读长文

一个用户在拥挤的电梯里，或者车上载着朋友。他刚刚收到一篇很长的文章，想稍后阅读。他可能会习惯性地对 AI 说：“朗读这篇文章”。一个没有空间意识的 AI，会立即开始用最大音量、字正腔圆地朗读起来。这完全忽略了“电梯/车内”这个半公开、有他人在场的“社会空间”。这种行为不仅打扰了他人，也暴露了用户的阅读内容，让他陷入社交窘境。AI 只是机械地执行了“朗读”指令，却没有理解这个指令在当前空间下的不合宜性

✅ 震动 + 图标 + 一句话摘要

一个懂得“得体”的 AI，在接收到同样的指令后，会首先判断当前的空间属性。它可以通过麦克风检测到周围嘈杂的人声，判断出这是一个公共空间。或者通过蓝牙连接状态，知道车内有多个乘客设备。于是，它不会直接朗读，而是会采取一种更“礼貌”的交互方式。比如，用户的智能手表会轻微震动一下，屏幕上显示一个“耳机”图标和一个“保存”图标，并附上一句极简的文字摘要：“文章已收到，是否连接耳机收听或保存到稍后阅读？” 这种方式，将一个可能引发尴尬的公开行为，转化成了一个无声的、私密的决策。用户只需轻轻一点，就能做出最符合当前空间的选择。这就是对空间约束的尊重

4.3 本章小结

“空间”这个坐标，为 AI 的行为划定了一条无形的“边界线”。它告诉 AI，哪些事情在技术上是“能做的”，但在特定的环境约束下是“不该做的”

一个只懂技术不懂空间的 AI，就像一个武功高强但毫无江湖规矩的莽夫，到处闯祸。而一个深刻理解空间约束的 AI，才有可能成为一个举止得体、受人欢迎的伙伴

空间决定的不是 AI 能不能工作，而是工作是否得体、是否安全

五、三元坐标交汇 —— 以「智能座舱 / 出行场景」为核心案例

5.1 场景拆解（高风险、高复杂度）

前面我们分别讨论了用户、时间、空间三个独立的坐标。但这个方法论真正的威力，在于将三个坐标交汇，进行交叉分析。只有在三维坐标系中锁定一个具体的点，我们才能对一个场景有真正深刻的洞察。让我们以“智能座舱”这个当前最复杂、也最能体现场景价值的领域为例，来做一次完整的拆解

我们选择一个最典型的场景：一个互联网公司的员工，在早高峰期间，独自驾车从家里通勤到公司

首先，我们来分析三个坐标的变量分别是什么

用户（WHO）：他不是一个普通的“司机”，而是一个“通勤驾驶者”。这个角色有几个关键特征：路线熟悉，驾驶在一定程度上是肌肉记忆；但同时，他可能正在思考一天的工作，或者因为堵车而感到焦虑；他的主要任务是安全、准时地到达目的地，而不是享受驾驶乐趣
时间（WHEN）：这是典型的“临界时间”和“碎片时间”的混合体。在并线、超车、通过复杂路口时，是绝对的“临界时间”，认知余量为负。而在平稳行驶或堵车等待时，又会切换到“碎片时间”，有一定的认知余量可以处理一些轻量级信息。时间的属性在频繁、快速地切换
空间（WHERE）：这是一个多重约束叠加的复杂空间。物理上，这是一个封闭的车舱，但用户的视线和双手大部分时间被驾驶任务占用。移动上，车辆在高速移动，交互随时可能被路况打断。社会上，虽然车内是私密空间，但通过蓝牙连接的电话可能会将对话暴露给车外的行人或其他车辆。同时，这是一个高风险空间，任何不当的交互都可能引发交通事故

5.2 三元交叉后的核心洞察

当我们把这三个维度的分析放在一起时，一幅清晰的画面就浮现出来了。我们面对的是一个焦虑的、一心多用的“通勤驾驶者”（用户），在一个认知余量在“负值”和“极低值”之间反复横跳的“混合时间”（时间）里，被困在一个高风险、高约束的“移动铁盒”（空间）中

这个三元交叉点，直接导出了一系列智能座舱 AI 设计的核心洞察，或者说“军规”

第一，不主动打断。鉴于用户处于高风险的临界时间，任何非必要的、由 AI 主动发起的交互，都应该被严格禁止。AI 不能自作聪明地“猜你喜欢”，推送音乐、新闻或者提醒。所有的交互，都应该由用户发起，或者基于最高优先级的安全预警

第二，不输出长内容。由于用户的认知余量极其有限且不稳定，任何需要连续听取、深度理解的长内容（如长篇文章、复杂的播客、详细的教学）都是不合适的。所有的信息输出，都必须是“原子化”的、结论性的。一句话，一个指令，一个图标，就是交互的上限

第三，不引导复杂操作。用户的物理和视线资源被严重占用，任何需要用户在屏幕上进行多步点击、输入文字、或者做出复杂选择的操作，都是反人类的设计。交互应该以语音为主，并且是“一语中的”的指令式语音，而不是需要多轮对话的问答式语音。视觉交互则应以 HUD（抬头显示）上的极简符号和中控屏上的大色块、大字体为主

第四，关键信息优先，可延后展开。这是对上述原则的平衡。如果确实有用户关心的、但非紧急的信息需要传递，应该采用“摘要+稍后处理”的模式。比如，AI 可以说：“你有一条新消息，来自某某，是否现在收听摘要，或在停车后查看全文？” 这就把决策权交还给了用户，并提供了不同时间窗口下的处理选项

5.3 从“体验问题”升级为“系统设计问题”

通过三元坐标的分析，我们发现，智能座舱里那些“不好用”的体验，并不仅仅是某个功能没做好，或者某个交互不友好的“体验问题”。它们本质上是更深层次的“系统设计问题”

首先是“注意力管理”问题。在驾驶场景下，用户的注意力是最稀缺、最宝贵的资源。智能座舱系统的核心职责，不是为用户提供更多功能，而是像一个严格的“注意力管家”，守护用户的注意力不被无效信息所侵占。每一个功能的设计，都应该先回答一个问题：它会消耗多少用户的注意力？这个消耗是否值得

其次是“风险控制”问题。在普通 App 里，一个糟糕的交互最多导致用户流失。但在智能座舱里，一个糟糕的交互可能导致生命危险。因此，风险控制必须成为系统设计的最高优先级。AI 的每一个行为，都必须经过风险评估。在安全和功能之间，永远选择安全。这意味着，AI 必须学会“克制”，甚至在很多时候选择“无为”

最后是“情绪成本管理”问题。通勤驾驶本身就是一件充满压力的事，堵车、加塞、恶劣天气，都会不断累积用户的负面情绪。如果此时 AI 还不断地打扰、犯错、提供无用信息，它就在不断地增加用户的“情绪成本”。一个好的座舱 AI，应该是一个情绪的“减压阀”，而不是“增压器”。它通过可靠的导航、平顺的交互、适时的安静，来降低用户的驾驶压力和情绪成本

5.4 情绪的定位

在这里，我想特别强调一下“情绪”的定位。很多 AI 产品试图把“情绪”作为一个独立的输入参数，通过摄像头、麦克风去识别用户是“高兴”还是“悲伤”，然后匹配不同的策略。我认为这在某种程度上是本末倒置的

在观止场景方法论里，情绪不是一个需要被单独识别的、神秘的输入参数。恰恰相反，情绪是三元坐标精确交叉后，自然涌现的一种状态

一个在早高峰堵在路上的通勤者，我们不需要用复杂的模型去识别他的情绪，我们几乎可以断定，他大概率是焦虑和不耐烦的。一个在深夜独自听着悲伤情歌的用户，他的情绪状态也显而易见。一个在重要会议开始前反复检查 PPT 的人，他的紧张感是不言而喻的

换句话说，只要我们能足够精确地定义出用户（WHO）、时间（WHEN）、空间（WHERE）这三个坐标，我们就已经能够大概率地推断出用户的情绪状态和决策倾向。AI 的任务，不是去“识别”情绪，而是去“理解”这个由场景决定的必然状态，并做出与之匹配的、得体的行为。这种基于场景推断的“共情”，比基于面部表情识别的“猜测”，要可靠得多，也深刻得多

六、从方法论到落地 —— AI 产品经理的实操工具箱

理论说了很多，但方法论的价值最终体现在落地。观止场景方法论不仅是一个分析框架，更可以衍生出一套指导日常工作的实操工具。对于 AI 产品经理来说，这意味着要把对“用户-时间-空间”的思考，融入到产品设计的每一个环节

6.1 AI 用户旅程图

我们都熟悉用户旅程图（User Journey Map），但 AI 时代的旅程图需要增加一个新的维度：AI 的“出场”与“沉默”。传统的旅程图关注用户的行为、触点和痛点，而 AI 用户旅程图在此基础上，必须明确定义出 AI 在每一个节点应该扮演的角色

具体来说，我们需要在旅程图的每一个节点上，都用“用户-时间-空间”三元坐标进行一次分析，然后回答以下几个问题

AI 的出场时机是什么？在这个节点，AI 应该主动出现，还是被动等待召唤？比如，在用户首次打开一个复杂功能时，AI 应该主动出现，提供引导；而在用户进行重复性操作时，AI 就应该保持静默，除非被明确调用

AI 的沉默边界在哪里？这一点至关重要。我们需要明确地划定出 AI 的“禁区”。比如，在用户进行支付、输入密码等高度敏感操作的“临界时间”，AI 必须完全沉默。在检测到用户处于会议、谈话等“社交空间”时，AI 的语音功能应该自动静音。为 AI 定义沉默的边界，和定义它的功能同样重要

哪些是“只给结论”的节点？在旅程图中，我们需要识别出所有的“碎片时间”节点，比如用户在 App 间的切换、等待页面加载的间隙。在这些节点，AI 的交互必须被设计成“结论导向”的。一个卡片，一句话，一个数字，就是全部。这种设计能极大地提升 AI 在碎片化场景中的可用性

通过绘制这样一张包含了 AI 行为策略的旅程图，我们就能把抽象的场景分析，转化为具体的产品设计方案

6.2 场景驱动的功能优先级（四象限）

传统的功能优先级排序，往往基于用户价值、商业价值、实现难度等维度。但在 AI 产品中，我们必须引入“场景”这个变量。因为脱离了场景，一个功能是“好”是“坏”根本无从谈起

同一个功能，在不同的场景下，其价值可能是天壤之别。比如，“语音长文朗读”这个功能，在用户“深度时间”（如做家务时）和“私密空间”（如独自在家时）的场景下，是一个高价值功能。但同样是这个功能，在用户“临界时间”（如开车时）和“公共空间”（如办公室时）的场景下，它就是一个体验糟糕、甚至有风险的“负价值”功能

因此，我们不能孤立地去谈一个功能的优先级。我们应该构建一个场景驱动的四象限分析矩阵。比如，横轴可以是“场景发生频率”，纵轴可以是“场景下的用户痛点强度”。那些高频且痛点强的场景，就是我们应该优先投入资源，让 AI 去解决问题的核心领域。而那些低频、痛点弱的场景，即便技术上很容易实现，也应该降低其优先级

这种思维方式，能帮助我们避免一个常见的陷阱：为了技术而做功能。很多 AI 产品堆砌了大量“看起来很酷”的功能，但这些功能所对应的真实场景非常罕见，最终沦为无人问津的“技术奇观”。功能无法脱离场景谈优先级，必须把有限的研发资源，投入到那些真正能为特定场景下的用户创造巨大价值的地方去