大语言模型下的趋势预测:大模型的形态预测、交互变化、应用趋势

Bay
0 评论 5709 浏览 23 收藏 16 分钟

自从ChatGPT发布之后,大语言模型一时成为新的风口,不论国内国外,大家都在部署自己的LLM模型。本质上LLM是一个可以在众多领域使用的模型,但大家都这么玩,容易成为垂直领域的产品。还是说有更好的发展方向呢?这篇文章,作者为我们解读,希望对你有所帮助。

本篇围绕大模型在生态中的形态预测、大模型带来的交互变化、应用层产品可能性、投身 AI 产品的建议聊了聊~欢迎阅读交流~

一、大模型未来会成为?

关于 LLM 的猜想众多,有说大模型可能成为下一代操作系统的,有说可以成为新一代底层技术设施、有说可以成为万物终端的。这里的出发点主要在于对大模型未来形态的思考。

我的判断是首先 LLM 带来的能力会作为底层通用技术对上层软硬件产生影响,同时会出现一群围绕大模型基础能力构建的生态,也就是很多文章中说的「中间件」和「Apps」。

这里顺带解释下很多文章中出现的「中间件」和「AI Infra」的含义。

AI中间件,是指在AI应用程序和底层基础设施之间提供中介服务的软件,包括模型训练框架、推理引擎、数据处理工具等,它们可以提供人工智能应用程序所需的功能和服务,同时简化了开发和部署过程。

Infra(Infrastructure),是指基础设施或基础架构,在大模型的生态系统中,Infra通常指的是为支持大模型训练和部署而构建的各种底层技术设施,包括处理器、操作系统、存储系统、网络基础设施、云计算平台等等。

AI Infra 是提供 AI 中间件所需要的底层基础设施的一部分。

一些公司的大模型会作为终端能力接入各种软硬件设备,这里最容易实现的有 Google、微软、苹果(虽然还没有自己的大模型)、华为、百度这样的公司。

大模型的竞争也将带来操作系统、软件市场、终端市场(特别是极度依赖多模态交互输入、输出的设备,如音箱、手表、车载 HMI、MR)的竞争格局变化,

但 LLM 本身很难独立成为 OS 级别的系统,这受限于几点:

  • 纯 CUI/VUI 的交互输入局限性、人们还是需要鼠标、(软、硬)键盘这样的设备辅助输入;
  • 输入产生精力消耗,娱乐性质的刷推荐 feeds、订阅流仍会是大部分人的主要诉求;
  • 来自当前 OS 系统的防御,也就是上面提到的巨头公司们;
  • 开放的平台和生态建立难:成为 OS 级别的系统需要有足够的开放性和可扩展性,以支持不同类型的应用和场景。需要有完善的生态系统和开发者社区的支持,才能吸引开发者轻松地创建和集成;
  • 短时间内难以形成一家独大的局势:不论国内还是国外,投身LLM战场厮杀的巨头有很多,未来几年内很难如 PC、手机操作系统形成部分头部稳定主导的场面,开发者也就不会专注在一个模型上做能力补充,而是更倾向于做独立的,不完全依附单个LLM能力的产品(也就是倾向于做 API 可换甚至接入多个 API 的应用而非为单个 LLM 建立 Plugin)

Perfect Prompt — 能够给出不同模型在同一场景下的回复。

也许会有人做这个方向,纯 LLM 的 OS 系统 受众和应用场景都比较受限。

以上判断基于当前的 AI 能力,也仅代表个人见解,如有不同看法欢迎讨论~

二、大模型带来的交互变化

判断的基本逻辑在于:

  • 交互的本质是输入和输出,大模型并没有带来信息格式的变化,而是加速了信息的生产和交流。
  • 大模型带来的能力强化主要有文本(这里如果不局限于LLM,就还有图像、视频)理解能力、文本生成能力、总结和归纳能力、翻译能力等。

1. 交互链条变短

这也是自然语言交互被增强带来的最显著优势,这点能够直接打破现有产品交互的局限性。或者辅助用户决策、完成机械的流程化任务。

表现1 – 输出结果:不用通过搜索在众多的反馈中找目标,而是直达结果。

对应场景:任何使用搜索的任务,机票、酒店、某个解决问题的答案等。

表现2 – 输入内容:多个意图能够被一次性处理,缩短中间流程。

对应场景:总结所有参会人的空闲时间,寻找合适的会议室,生成一场新的会议邀请。

也就是说,传统设计领域致力于在有限的条件下帮助用户梳理到达目的地的最佳路径,为用户清除流程上的障碍。而现在可以通过AI技术去大幅优化现有产品的交互流程,同时缩短输入和输出过程,对传统的交互方案带来颠覆性的改善。

不过我对「产品 CUI 化」也保持谨慎,CUI 只是降低了一定的门槛,“持续对话”其实非常耗费脑力和精力,如果能点个按钮就完成的事情,要 CUI 反而会将问题复杂化。

2. 改变输入方式

更多场景可以转变为 CUI、甚至 VUI 。

案例1:在一些政务服务场景,如果能够通过对话的方式一步步引导填写,对老年群体会更友好,同时填写方式可以简化成语言输入;

复杂表单填写中的一些错误提示也许可以通过对话的方式引导补充。

案例2:Prompt 命令生成图像/视频/音乐

Adobe firefly beta

但是目前看来,受限于大模型应用的理解能力,用户轻松驾驭 Prompt 还存在门槛(即弄清楚自己的需求 并懂得如何用 prompt 表达需求),输入方式还没有得到极致的简化和易用。不过已经有一些应用开始补齐这方面的体验。

Hayo —— 米哈游旗下AI社区

3. 信息反馈更多维

Chat GPT 已经可以将信息组成新的格式,如表格、代码等;GPT 4 能够直接理解并处理图像上的文本信息。

而 Meta 最新开源的 ImageBind,绑定了文字、声音、图像、深度、温度、IMU 六种数据。可实现音频生成图像、图像生成音频等,未来应用的想象空间应该会更大。(不过官网并没有看到温度、IMU 相关的案例…)

Meta ImageBind

4. 终端能力得到加持

这点也是基于前两点即信息输入方式和信息反馈的。未来大模型在音箱、手表、车载 HMI、MR 这些设备上的使用价值巨大。

最直接的价值则是强化语音助手的能力。

另外就是和具体的应用结合,比如结合 Camera :通过检测画面信息,给出照片拍摄改进建议(角度、构图、参数设置等),不会拍照的男朋友们再也不用担心被骂了…

大模型能力和传感器能力的整合也更值得期待,比如根据实时运动信息、心率给出接下来的运动规划。

5. 对工具类产品的冲击大于内容消费型产品

这点是从用户信息获取诉求上来判断的,毕竟娱乐内容消费场景更多的考虑不是效率而是多巴胺,而对于生产、工作场景,提升效率是核心指标。

从 Notion、钉钉等应用中,大模型已经开始对人们的工作流程产生正向影响,逐步减轻知识记忆、写作、摘要、信息查找等流程化的工作。

6. 丰富C端场景

场景1:私人助理也许会成为可能,大模型通过调用所有应用接口(日历、邮件、行程等)获取个人信息,成为私人顾问。

场景2:CUI 生成图像/视频/音乐的能力可以在各种活动玩法中发挥作用。

也许以后的网易云年度总结就会根据听歌习惯生成一首符合你个人品味的音乐。加入一些简单的用户操作,人人都是「网易云音乐人」。

7. 广告推荐形态产生变化

搜索、信息流为主的场景,变为融入问答,做到更精准、高效的广告分发。

就拿比较好商业化的美妆行业来说,假设淘宝对李佳琪做直播内容分析和训练,做出了个 AI 版李佳琪,支持用户通过问答的形式获得商品推荐。专业背景+人设背书,一定不缺用户,品牌商也会更愿意砸钱。

三、 这波大爆发中看到产品的哪些可能性?

判断逻辑是,应用前景、用户需求程度、成本和商业化能力。可预见的是大模型研发成本太高,中小企业或团队会专注在 AI 中间件、AI 应用上发力。

这里我们聚焦应用层看看。

1. 和现有产品的结合,快速且可预见的收益大

近期所有工具类产品都在发力,比较实用的有 Notion、钉钉。

2. 部分方向值得基于LLM的能力重构

如搜索、语音助手(近期出现最多的 C 端应用就是不同 character 的 Chatbot )、翻译工具(可以举例插件)、教育产品(语言、课程的私教方向很快就能出现头部应用)。

3. 助力超级个体,提升知识生产效率

如果说面向大众的 AI 产品难商业化,那么考虑为第一批使用AIGC产品的人群提供服务也是个不错的想法,受众群体更聚焦,服务更刚需,也更容易产生付费转化。这个方向近期已经涌现了一批此类产品,比如协助开发、快速接入大模型 API、快捷创作 AI 产品、为自己的网站接入客服等。

此外,做辅助文字、图像、视频、音乐生产,提高文字、设计、创作者的生产效率也是不错的方向。游戏领域已经有很多产品辅助 AI 生成角色、视频、音乐、脚本提升游戏开发效率。

4. To C 个性化定制变得更重要

旅行、学习、购物、读书等领域可以根据用户诉求量身定做。

应用层的详细案例将在下一篇《番外篇》中展示。

四、投身 AI 产品的建议

1. 大量产品服务会持续涌现,原因是个人开发者能力得到了第一批 AIGC 产品的加持,未来同赛道将涌现多个相似解决方案,做产品会逐渐从拼创意到拼速度、产品服务质量和拼持久力。

2. 加深产品壁垒:

  • 场景和诉求的准确洞察仍应被摆在首要位置,这将决定产品起跑线。
  • 考虑规模效应带来的价值,比如一些 Prompt 文案、AI 图片分享平台未来有成为AI社区的潜质。
  • 考虑该场景用户规模、使用频次、消费时长,大模型能力出现前是否已经有较成熟的解决方案。
  • 提前考虑商业化问题(瞄准刚需人群和场景解决问题)。
  • 避免功能受到大模型能力升级带来的冲击。

3. 当精力和资源不足时,先深入某个场景解决小问题也是不错的选择,熟悉的领域扎根深挖反而能发现与众不同的视角(如 Figma 插件 Magician ,只解决 UX 设计场景,提供文字描述生成图标、UX 文案优化能力)

相关参考文章推荐:

这篇写的很好,我深度看了两遍:

https://mp.weixin.qq.com/s/PDHWfclMVQrS-2MLCbDm0g?from_wecom=1

超级应用出现和平台的新特性息息相关」的一些结论可以引发思考:

https://mp.weixin.qq.com/s/RXgiIb7oqWmTysffMYim9Q?from_wecom=1

https://mp.weixin.qq.com/s/kjWScZshPAS61053GopJhg

关于 AI 产品商业化:

https://mp.weixin.qq.com/s/k16ZtaA-b0fPh-25ftDddg

https://mp.weixin.qq.com/s/wWWG

作者:Bay,腾讯体验设计师,公众号:Bay的设计奥德赛

本文由 @Bay 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!