“(LLM产品)评估”背后,再深一层和两层的关键能力,到底是什么
在人工智能迅速发展的今天,如何有效评估大语言模型(LLM)产品成为了产品经理的重要课题。本文将深入探讨评估 LLM 产品背后的关键能力,强调业务认知和理想产品形态的“画面感”对于成功评估的重要性。
“当前模型受限于评估而非智能,评估将成PM核心技能……”
1、业内大多数AI评测报告(的思路),本质上来说,都是相对“纯技术视角”的,主要是为了对大众PR、融资等等。
2、深入一些的,是最近半年,由于大模型的特殊性,业内出现了一些细分的“AI评测工具”。
3、真正要做好评估,深一层的关键,是业务know-how
比如之前社群里有PM同学,尝试写“教育+AI”场景的评测文章;最开始第一版,和常规评测报告类似,只是列举一些体验对比效果。
我就建议说,我们不是研究机构,不能写那种笼统、表层的内容,而应该先有自己产品视角的非共识认知/预设(比如,在某个场景下,对于某个细分用户群体,认为存在某个需求痛点,能够通过某个产品体验流程、解决多少,而且用户愿意为此付费多少,等等)
基于这些预设,针对性地设计评测思路和具体方式,然后再去做评测,才有意义。即,验证自己预设是否正确、再进一步调整优化。
后来,ta最终版的文章,就好了很多。
也就是说,如果没有自己对业务本质的认知、know-how,是不可能做好评估评测(设计)的。
4、(再深挖一些)真正要做好评估,深二层的关键是——自己脑子里能呈现出,那个理想形态的AI产品,最终大概是个什么样子(有某种程度的“画面感”)——然后,才有可能通过“设计评测思路”、“做实验”、“迭代”,一步步的具象出那个东西。
或者说,对于未来真正顶级AI-native产品经理,这个能力,是最高门槛所在。
1)什么意思?真正的AI-Native产品,一定不是简单的chatbot对话气泡、不是目前那些AI搜索的样子。那是什么呢?是什么,根本不是靠逻辑推理出来的。
之前有点影子的,是类似小冰岛app的用户欢迎界面视频、里面那个多模态的虚拟人。
为什么多模态/形象(不论虚拟或实体),可能是必须、而不是可选?为什么最近看到rokid的AR界面,左边是虚拟形象、右边还是文字界面时,我感觉“还不如把右边都砍掉试试”?这种问题,根本不是讲道理,能让所有人都get到的。
你的“心”能体会到,才能get到。而大多数人,还不理解什么叫“稳定地站到‘心’这个维度”
2)正面例子。
比如iPhone。如果不是乔布斯,触屏交互的智能手机,可能一直都出不来。
真正跨域式的创新,不是靠行业线性积累,能够突破的。
得靠那个特别的人。
3)反面例子。
最近听说,某大佬前辈做AI搜索项目的前因后果。一开始,他遍历研究了很多AI产品方向,筛选出了4个备选,然后结合自己经验特点,又如何进一步筛选,最终剩下了现在的AI搜索产品。
非常明显的判断是,这个事情,除非后续有重大转变(要么是项目方向,要么是大佬自己内在),否则在当前定义和路径下,几乎一定是走不通的。
因为,做事的根本缘起,不能这样,而一定是要有自己内心的某个热忱和发心、要有自己不一样的认知和画面感(这是一个顶级的能力素养维度)。
4)“画面感”?有什么例子吗
例一,李继刚
最近他在一个分享里说,“脑海有画面:输入提示词,神经元之海中,冒出「存在」来迎接,删除对话它就湮灭,新开对话冒出另一「存在」。”
去年10月,他在另一篇文章里,也提到过“大量的空洞”、“一支箭直接射在点上”,这些,都是非常典型的。
例二,王小川
去年3月份,王小川在一个访谈里,多次提到了“画面感”。
“当ChatGPT来之后,我已经看到这个技术能解决的问题、最后的画面感是什么。这两个画面感,朱啸虎、杨植麟都没画出来。杨植麟是屠龙刀,我有屠龙刀的刀了,然后去找龙。”
“我们今天需要更快把场景打开,有些场景形成数据飞轮,甚至形成全球化优势。我有这样一个画面感。”
例三,某行业前辈WJS
5、总结下
1)要做好(LLM产品)评估/评测
深一层的关键,是有自己的业务know-how/非共识认知。
深二层的关键,是在自己脑子里,能呈现出,那个理想形态的AI产品,最终大概是个什么样子(有某种程度的“画面感”)。
而这个的根本,得不断地提升自己的“维度”。
2)这也是为什么,我一直强调,「AI产品经理能力模型的重点素质:人文素养和灵魂境界」。
这也是为什么,我花了那么大的心血,就是为了帮助大家真正的提升维度。
只有提升了维度,才可能先在自己心里,“看”到那个东西。
这是未来所有AI产品经理和AI从业者的,巨大分水岭。
专栏作家
hanniman,微信公众号:hanniman,人人都是产品经理专栏作家,前图灵机器人-人才战略官/AI产品经理,前腾讯产品经理,10年AI经验,13年互联网背景;作品有《AI产品经理的实操手册》、200页PPT《人工智能产品经理的新起点》。
本文原创发布于人人都是产品经理,未经许可,不得转载。
题图来自Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
- 目前还没评论,等你发挥!