8 大设计突破,定义 AI 未来

0 评论 1512 浏览 4 收藏 19 分钟

文章聚焦人工智能交互设计的八大突破,揭示创新界面与交互范式如何重塑人机协作。这些革新不仅重塑用户体验,更成为AI技术普及与进化的关键引擎。

十多年来,我们首次迎来了用户体验设计领域一片真正的 “蓝海”。没有现成的手册,也没有既定模式可遵循。就连前沿的 AI 实验室也在通过实验摸索,观察新交互方式中哪些能引发共鸣。

这让我想起了触摸式移动界面刚兴起的时候,那时设计师们积极开创如今我们习以为常的交互模式。就像早期 iOS 和安卓的设计选择塑造了移动计算时代一样,如今的突破正在定义未来数年我们与 AI 的协作方式。

看着这些设计选择实时在生态系统中产生连锁反应,实在是妙趣横生。一旦某种设计行之有效,竞品就会竞相采用 —— 这并非偷懒,而是因为我们都在共同探索在这个新范式下,究竟什么才是合理的。

在这个如同 “西部拓荒” 的时期,新的主流模式正在涌现。今天,我想重点讲讲那些最让我眼前一亮的突破 —— 这些设计选择正在重塑我们对 AI 交互的整体认知。其中一些现在看来可能稀松平常,但每一个都曾代表着关键的探索时刻,是一次成功的试验,帮助我们更好地理解人类与 AI 如何协同合作。

通过研究这些有影响力的模式,我们就不再局限于照搬现成的成功经验,而是能够引领 AI 界面的未来走向。

上面是早期的ChatGPT,下面是其之前的开发者实验平台

1.对话范式(ChatGPT)

关键洞察:人类早已熟知如何通过对话来表达复杂的想法 —— 何必让他们再去学别的呢?

影响:将对话确立为人类与 AI 交互的基本范式

如今,聊天界面随处可见,我们几乎都不会特意去想它,但正是这个突破,把我们带入了当下这个时代。GPT 早已在 OpenAI 的开发者控制台上线,可那个界面并未引起广泛关注。它看起来、用起来都和其他开发工具没什么两样。我记得自己摆弄过它,也确实印象深刻,但它并未让我眼前一亮。

将底层技术转变为对话形式这一决策,彻底改变了局面。有意思的是,OpenAI 公司本身可能都没太把这个改变当回事。想想看,他们居然给它取名叫 ChatGPT—— 要是他们觉得自己在打造一款革命性的消费产品,绝对不会选这么个名字。但事实证明,这是这一代最重要的设计选择。从那以后,聊天界面被广泛模仿,几乎影响了之后所有面向消费者的 AI 工具。

我曾经以为聊天界面最终会逐渐消失,但现在不这么想了。这一波生成式 AI 工具全都以自然语言为核心,而对话是通过语言分享想法的主要方式。蹩脚的聊天机器人会不断进化,但对话作为一种基础范式将会持续存在。

尽管在用户界面方面很简约,但引用功能却是一大进步

2.来源透明度(Perplexity)

关键洞察:若看不到信息来源,用户就无法在研究中验证 AI 给出的回答。

影响:为搜索和研究工具中可验证的 AI 输出设定了新的行业预期。

人们开始频繁使用 ChatGPT 后,关于缺乏信息来源的抱怨便屡见不鲜。虽然 GPT 能依据其海量训练数据给出回答,但却无法知晓这些信息从何而来,这使得它难以应用于正规研究。

Perplexity 引入了对 AI 回答的实时引用功能,让答案变得可追溯、可验证,从而改变了这一局面。此后,这一功能被广泛效仿,OpenAI 在 ChatGPT 中整合网页搜索功能时也借鉴了这一点。它解决了一个根本性的信任问题:用户不仅想要答案,还希望对答案的来源放心。

这一突破对于打消人们将 AI 用作新型搜索引擎的顾虑至关重要,但实际情况是,AI 的作用远不止于此。大语言模型(LLMs)不仅能提升像 Perplexity 这类问答式工具的性能,还为全新的创意工作流程打开了大门。

通过 “Artifacts”,对话驱动创意产出

3.创意整合(Claude 的 Artifacts)

关键洞察:对话所能做的不仅仅是生成文本,还能推动结构化、可复用资产的创建。

影响:开启了全新的创意工作流程,在这种流程中,对话能产生实实在在的成果。

使用 Artifacts 时,我第一次感觉自己是在和 AI 积极创作些什么,而不只是单纯地聊天。之前我和 ChatGPT、Claude 的交流对构思很有帮助,Perplexity 在研究方面也很有用,但 Artifacts 让我有了那种 “顿悟” 的时刻 —— 我可以从一场对话开启创意工作流程,然后把其中最精彩的部分转化为实实在在的成果,之后还能导出并再次使用。要通过这种基于对话的交互循环,在创建完资产后轻松延续工作流程,我们还有一段路要走,但我们正朝着这个方向前进。

对我来说,Artifacts 证明了与 AI 协作将成为全新创意工作流程的核心,也改变了我预期的交互模式:AI 不再只是辅助工具,与 Claude 的对话成了核心机制,能生成创意成果,然后我们一起完善。AI 不再仅仅是我的 “助手” 或 “副驾驶”,它越来越像是坐在驾驶座上的那个人了。

ChatGPT iOS 应用程序的听写输入功能

4.自然交互(语音输入)

关键洞察:相较于打字,说话能实现更丰富、更自然的表达。

影响:降低了向 AI 提供详细背景信息以及与之探讨想法时的交互成本。

很多人仍然忽视语音作为一种输入方式。我觉得大家都不太相信语音输入能好用,这都怪过去那一代大多不太靠谱的语音助手(说的就是你,Siri)。但实际情况是,现在 AI 转录的效果已经非常好了。

语音输入之所以关键,是因为它能让你真正使用自然语言。我们可能没意识到,一旦开始把东西写下来,我们就会开始自我修正。大声说出来能让大脑充分发挥即兴创造力。这样的输出能给大语言模型(LLM)提供更丰富的背景信息 —— 而这恰恰是大语言模型所擅长处理的。我觉得大家会有心理负担,或者担心看到真实口语转化成文字后的杂乱(比如那些 “嗯”“啊” 之类的词)。但以我的经验来说,现在的大语言模型根本不在乎这些。它们能忽略这些,甚至还能过滤掉其中一大部分。

最终,你能得到一种更自然的创意构思流程,AI 能快速且全面地捕捉并解读。我非常看好听写,认为它会成为下一代的核心创意技能。从现在就开始练习吧,因为如果你像我当初一样不熟悉,确实需要花点时间来适应。

深度融入现有编码工作流程,效果十分强大

5.工作流整合(Cursor IDE)

关键洞察:深度嵌入 AI ,能大幅提升人们现有工作场景的效率。

影响:将代码编辑器转变为由 AI 赋能的创意环境。

Cursor 把我最初在 Claude 的 Artifacts 中体验到的由 AI 主导的创意工作流程,直接融入了我现有的代码库环境。它的一些功能让人觉得理所当然 —— 那种 “代码编辑器当然就该有这功能” 的感觉(比如它超好用的 “按 Tab 键补全” 功能)。

我职业生涯早期是一名专业的 UI 开发者,但在使用 Cursor 之前,我已经多年没有经常写代码了。重新上手总是很有挑战性,因为我会卡在新语法或者不熟悉的框架特性上。像 Cursor 这样的工具就能帮我绕过很多这类阻碍。比如说,当你第一次打开一个现有代码库时,可能会不知所措,因为你不知道有哪些可用的内容,也不知道去哪里找。有了 Cursor,我就可以针对正在处理的内容以及任何我不确定的代码提出详细问题,并快速得到答案。

使用 Cursor 也让我更深刻地体会到,让 AI 直接读取和写入文件系统是多么强大。我用 Claude 的体验也很好,但总是需要额外的步骤,才能把 Claude 的输出结果导出,再导入到我之后想用的任何平台。而像 Cursor 这样的工具,输出结果能直接出现在最终目的地,这让工作流程紧密得多。

“Grok”按钮能让我瞬间了解背景信息

6.随时辅助(X 平台上的 “Grok” 按钮 )

“Grok” 按钮的实用性着实让我吃了一惊。X 平台信息流中的内容实在太多,我常常觉得自己缺乏足够的背景信息,无法完全理解某条推文。而在内容层面直接集成 “Grok” AI 按钮,让我只需点击一下,就能实时解读网上扑面而来的信息。无论是一个梗图、一篇文章标题,还是其他任何内容,能召唤 AI 助手帮我理解看到的东西,都非常实用。

注:X 平台原名推特(Twitter) ,由埃隆・马斯克(Elon Musk)收购后更名。

我认为,随着我们在网上遇到的内容越来越需要解读(这是 AI 生成的吗?谁发布的?他们有什么偏见?他们想如何影响我?),这种辅助功能会变得愈发重要。

这仍是个新事物,而且和 X 平台上的许多东西一样,其设计执行还有待提高。但我很快就希望我常用的其他网站也能有这种随时可用的 “给我更多背景信息” 按钮。最终,感觉操作系统级别的助手(如 Gemini、Siri 等)会提供这种功能,但 “Grok” 按钮是个很好的例子,展示了如果集成得当,随时辅助功能能有多实用。

DeepSeek 展示了得出回答背后的 “思考” 过程

7.过程透明度(Deepseek)

关键洞察:展示 AI 得出结论的过程,能增强用户的信心与理解。

影响:将机器推理过程可视化,使之更易理解,从而让 AI 的回答更具人性化。

这份榜单的最新成员是 Deepseek,其 R1 推理模型一经发布便在网上引起轰动。虽然它不是市面上首款推理模型,但它做出了一个关键的设计选择,从根本上改变了许多人的使用体验:它展示了模型的 “思考” 过程。

这一举措吸引了众人目光,因为它呈现了机器得出答案的过程,而且其 “思考” 中所用的语言,和人们可能会说或感受到的极为相似。这种透明度有助于让用户相信输出结果,因为他们可以验证思考过程是否合理。另一个附带好处是,推理过程本身可能蕴含有用的想法 —— 比如中途冒出的某个想法很有趣,值得单独深入探究。

这让我想起上一代网页应用中进度条的重要性。如果交互瞬间完成,可能会让人感觉突兀。但如果过程缓慢且毫无提示,人们就会怀疑它到底是在正常运行还是出了故障。进度条通过让用户明白机器正在工作,起到了缓冲作用。展示 AI 的推理过程感觉与之类似 —— 它强化了模型确实在运行这一事实。展望未来,我认为未必需要一开始就展示模型推理过程,但至少应该确保能清晰地获取这一信息,以便用户有需要时能跟进了解。

借助 Discord 的用户界面(UI),Midjourney 得以推迟打造自家界面

8.界面延迟策略(Midjourney)

关键洞察:搞定核心技术比拥有一个精美的界面更重要。

影响:证明了优先关注性能如何能让界面设计决策更有的放矢。

设计领域的讨论大多聚焦于视觉界面,这就使得 Midjourney 的做法愈发引人关注。这家公司早期选择不打造定制化用户界面(UI),而是借助 Discord,这一决策既有趣又具战略眼光。尽管 Midjourney 是一款面向视觉创作者的工具,但其核心产品是实现这些视觉效果的技术。这是其他一切的引擎。如果这项技术不够出色,人们就不会在意它有没有网页界面。

虽然 Midjourney 如今已有网页 UI,但最初选择不做定制化 UI,让他们得以将精力集中在模型的核心性能上,而非界面。从 Discord 起步,通过将产品置于许多非早期用户根本不会涉足的环境(包括我自己),从而控制了产品需求。它还提供了强大的基于社区的反馈闭环,有助于做出更明智的产品决策。

所以,根据你正在开发的 AI 类型,Midjourney 提醒我们,选择不打造定制化 UI 本身就可以是一个战略性的设计选择。

总结思考

这八项突破可不只是巧妙的用户界面(UI)设计决策,它们是人类与机器如何协同工作这一新篇章的开篇之笔。每一项突破都意味着有人敢于尝试、敢于探索未经证实的领域,并找到了能引起共鸣的模式。

从 ChatGPT 让 AI 变得更具对话感,到 Claude 将对话转化为创作,再到 Deepseek 向我们展示机器如何思考 —— 我们正见证一种全新创意媒介的飞速演变。甚至 Midjourney 选择不打造定制化 UI 这一决策,也在提醒我们,以往对软件设计的认知都有待重新解读。

创新的步伐并未放缓,反而在加速。但这也正是当下如此令人兴奋的原因:我们不只是旁观者,更是参与者。如今,每一位使用 AI 的设计师、开发者和创作者,都有机会为这种新兴的人机交互语言贡献力量。

最初的基石已然就位。问题不再仅仅是 “你要用它们构建什么?”,而是 “你将发现哪些新的基石和模式?”

我很想听听哪些突破激发了你的想象,或者你察觉到了哪些正在浮现的模式。你的见解或许就能为这个故事谱写新的篇章。

作者:Patrick Morgan 译者:李泽慧 审核:李泽慧 编辑:魏文强

本文由人人都是产品经理作者【TCC翻译情报局】,微信公众号:【TCC翻译情报局】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!