大语言模型做产品实测:效果究竟如何?
随着大语言模型的发展,越来越多的人开始关注其在产品领域的实际效果。这篇文章将深入探讨大语言模型在产品开发中的应用,分析其优势和局限性,并通过实测数据来评估其实际效果。
大年初八,年后上班的第一天,我就收拾行囊,直奔客户那儿去,准备扎营开干,全力搞出个大语言模型的产品应用来。
为啥要这么着急跑客户现场来开发呢?原因有两点:
一是我们要做这个产品,必须要有数据,要不大模型的准确度上不去,做出来个60分的产品,对客户根本谈不上提质增效,大概率会被嫌弃。
二是客户比我们着急,寄希望于我们把产品做出成效,好圆前期吹出去的牛,堵上同行质疑的嘴。
说实在的,过去一两年大模型的横空出世,人工智能那是火得一塌糊涂,各行各业都发起了一场场的AI竞赛。
大家都想着抢先一步,宣传自家用上AI的产品之后,到底牛成啥样了。
正因为大家都相信AI可以极大提升效率,可以替代人力,可以解放生产力。所以,都一股脑儿地扎进用AI做产品的浪潮之中。
不过啊,有些人宣传得太过头,花了几百万做出来的东西,结果还是一个小学生的水平,别说替代人力,还得花更多的精力去“批改”它的作业。
说到客户,他们对AI的预期其实各不相同。
有些客户从来就没有用过AI的东西,也不确定这东西到底能干啥,你整个AI的产品给他这么一试,他会觉得非常的神奇。“哎呀,居然写出来的东西看起来还可以,是那么回事。”
而另外一些客户呢,因为一直在做AI方面的产品的尝试,心里大概也知道,AI能做啥,水平几何。所以,当你提供给他的产品,还是只有六七十分的水平,他就会比较失望。因为在他的预期中,AI必须要替代人力,解放人力,别的地方都是这么宣传的,都已经到了这么牛的地步,你家的产品还得让人伺候着,那哪行啊!
言归正传,当前阶段,绝大部分尝鲜用上AI的客户,其实都是死鸭子嘴硬,60分的效果硬是要吹出90分的成效。
搞得大家对AI的预期都上了一个台阶,就如同明明你家的孩子只能考60分,你却说考到了90分,这下子大家都相信这个孩子可以上一个好学校。但只有你心里清楚,就这水平,高中估计都上不了。
而我们呢?匆匆赶赴客户现场来做项目,就相当于要给这个孩子上一个强化班,短时间内要把他的成绩从60分提升到80分,这样好歹也算是个“学习成绩好”的孩子了。
接下来,我就来简单分析一下我们用AI做出来的这个“孩子”到底能考得怎么样,哪些“题”擅长,哪些“题”还不行。
计算题——100分
说到计算,大模型那可是个中高手,尤其是那些需要按照各种规则来推算的业务,对它来说简直就是小菜一碟。只要你把计算规则梳理得清清楚楚,大模型就会输出准确的答案,并且可以给到你解题的步骤,让你看得明明白白。
拿司法领域常见的量刑计算来举例:
基本案情:张三,男,25岁,2000年1月30日生,民族:汉族,身份证号:43*****56,文化程度:初中,政治面貌:群众,户籍地:西虹市经开区前进村90号,现居地:西虹市高新区广阳村1栋2单元101。犯罪嫌疑人张三有多次盗窃前科,最近一次因为盗窃罪被判处有期徒刑2年,于2023年4月4日刑满释放。2025年1月20日晚上23时许,张三独自一人来到西虹市高新区广场路停车厂,以“手拉车门”的方式盗窃了李xxx放置在小车内的现金1000元和2张银行卡。
问:张三应该如何量刑?
答:张三盗窃金额为1000元,属于数额较大的范畴,且没有其他严重情节,因此,其基准刑应在三年以下有期徒刑、拘役或者管制,并处或者单处罚金。
大模型的这个计算过程就是基于法律条款的明确规则,根据其犯罪的情节加以分析,得出的答案。
填空题——90分以上
这里说的填空题,就是能从文书中精准抓取“要素字段”。别以为它只是简单检索关键词做匹配,现在它已经聪明到能理解语意了,意思相近的描述它也能秒懂。
继续以张三盗窃案子来举例:
这一次,我们要求大模型从张三的案件描述中提取相关的信息。
问:请帮我提取出犯罪嫌疑人张三的基本信息,包括:姓名、年龄、性别、民族、身份证号、文化程度、户籍地、犯罪时间、犯罪地点、盗窃金额。
答:
- 姓名:张三
- 年龄:25岁
- 性别:男
- 民族:汉族
- 身份证号:43*****56
- 文化程度:初中
- 户籍地:西虹市经开区前进村90号
- 犯罪时间:2025年1月20日晚上23时许
- 犯罪地点:西虹市高新区广场路停车场
- 盗窃金额:1000元
几乎是100%的准确,为什么我认为效果只能达到90分以上呢?它也有“犯迷糊”的时候。
从我做产品的实践经验来看,这里主要受限于如下两个方面:
- 有一部分的文书材料是照片或扫描、复印出来的,文字会存在不清晰、有折痕、有印章等情况,导致大模型识别出来的文字内容可能会出错,间接导致了提取效果不好。
- 存在一些文书的描述表达不够清晰、准确或有错别字的情况,我们自己去阅读是能发现和理解的,但大模型还理解不了,也就可能准确率降低。
这也引申出一个思考:我们看到的绝大部分的产品宣传那些“天花乱坠”的效果,都是在理想条件下测出来的。现实里,啥奇怪事儿都能遇到,产品效果自然就得打点折扣
阅读理解——70分
我们有很多的产品功能,其实是需要去做数据分析、业务流程规范(预警)、关键信息的摘取,这些功能都涉及到需要让大模型帮我们去做信息的分析总结。
比如,针对上述的张三案件,检察官要去做社会危险性的评估(分析下张三有没有存在危害社会的可能性),以决定是否要逮捕张三。其中,有一个评估指标是:在案发地有相对固定的工作或住所。
问:请帮我提取出张三案件中涉及到社会危险性的相关指标内容?
在大模型给出的回答中,就没有给出“在案发地有相对固定的工作或住所”。
我继续问它,为什么没有呢?
它回答的逻辑是:内容中并没有明确告知张三有固定住所或工作。
也就是说,对于一些信息的理解,大模型有时候还是比较死板,还达不到我们看到一个信息,可以直接推导出结论,你需要给他更明确的提示,才有可能给到你想要的答案。
写文章——60分
说起用大模型来写文章,那可真是不少人的“救星”啊!毕竟,写文章这事儿,对很多人来讲,就已经是生活中少有的“地狱”级任务。但用上大模型,居然写的这么好,简直“神”了。
不过,日常办公或生活里,想发表点啥,用大模型写写,完全没问题。咱们也不求它写得多么准确无误,多么精彩绝伦,只要能给点修改意见,或者启发点思路,就知足了。
但是,如果要依赖大模型生成的专业的内容当前来讲,还是很难达到。
继续以上面的张三案件来讲,我们当前就是在用大模型去帮助检察官做《起诉书》、《审查报告》等法律文书的生成。
依靠开源的大模型,是可以达到60分的效果的。
但要想让大模型写得更好,那就得下点功夫了。得不断优化提示词,还得给它喂更多的法律文书数据,让它变得更“聪明”,更懂咱们的法律行话,更像一个有资深办案经验的检察官。
总的来说,大模型在规则计算、要素提取、内容摘要、文书生成这些方面,已经算是60分以上的“好学生”了。但要想让它考到80分,那还得定向训练,喂行业数据,调整提示词,加各种约束条件。
作者:武林,公众号:肖武林
本文由@武林 原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
- 目前还没评论,等你发挥!