不吹也不擂,看看国内各厂的chatbot都进化到哪了?|(1)数据统计能力测评和高考数学题能力测评

0 评论 1330 浏览 4 收藏 25 分钟

前段时间高考,作为这几年大热的大模型也被人拉出来评测了一番,从各个科目的表现来看并不是很理想——特别是在数学表现上。但是在打工人日常其实有不少数据统计、分析的工作,这时候的大模型,能否帮到我们?以及,表现怎么样?

相信大家在日常工作生活中,都已经体验过各类chatbot了,像chatGPT、chatGLM、文心一言、通义千问,还有近来上线的腾讯元宝等;那不知大家是否有一些使用心得和使用经验或槽点呢?

我本人目前基本上,每天都会使用LLM来帮助我工作提效(但于我是否真的提效,还有待考证)~

我用的比较多的两个场景是:

  1. 帮我“搜索内容+整理内容+按我要求的格式”输出给我;
  2. 帮我“提炼一篇或多篇文章(pdf或网页url)的要点”;

那除了上面这些场景,PM在日常工作中,还有一些【数据统计分析】的工作,比如查数据、统计数据,那这时候LLM,可否帮帮我们呢?

(虽然我们之前可能早已注意到,chatbot并不擅长数据分析,但随着各类智能体框架和技术的演进,相信一些厂商已经能够解决该问题)

话不多说,让我们一起来看看吧…

一、国内各家chatbot【数据统计能力】测评过程记录、测评结论

这里,本人选取了chatGLM网页版(智谱清言)、文心一言3.5网页版(百度)、通义千问2.5网页版(阿里)、kimi网页版(月之暗面)、腾讯元宝,进行“chatbot数据分析”能力测试。

注:测评过程内容较多,可跳过测评过程,先看测评结论。以下是测评内容和测评结果。

1、我是先用了word文档,直接测试,统计“某一列值=xx,共有多少条数据”

——发现不行。word就是没法很好的完成数据统计分析功能;

2、接着换成了excel文档,内容和问题不变。

——发现好了一点。智谱AI完胜,可以理解问题,并自行判断调用其内部的何种工具来完成问题,结果正确,还支持绘制图表,并进行更深层次的统计分析。文心一言还不支持解析excel。腾讯元宝还在卡BUG死循环的路上。kimi回答不正确。

3、——为了不冤枉各个厂商,我翻了bchabot全部功能(应该没遗漏),最后发现,我没有冤枉文心一言、元宝、kimi~他们的数据统计分析就是不行~

4、关于2024高考数学题,星火、九章大模型、文心一言、智谱GLM4的表现如何?

2.1 实验一:使用word文档,测试简单的【数据统计】功能

(1)实验时间:2024年6月17日

(2)实验人:南方蝶道

(3)实验过程记录:

使用文档:境内深度合成服务算法备案清单(2024年6月) (1).docx

p.s. 共有492条数据,服务提供者=389条;服务技术支持者=103条;

测试输入:

测试结果输出:

(1)chatGLM-4.0网页版-输出结果:

(2)百度文心一言3.5网页版-输出结果:

回答报错、不正确。

第一次系统默认调用【阅读助手】插件,报错(这个插件总是报错,这是我遇到的第五六次了…)

第二次系统给的结果如下:

(3)阿里通义千问2.5网页版-输出结果:

回答不正确

(4)kimi网页版-输出结果:

回答不正确

(5)腾讯元宝网页版-输出结果:

回答不正确

实验一结论:

可以看到,当使用word文档,对chatbot进行数据统计提问时,各个厂商的chatbot均不能完成任务,哪怕是简单的“统计某一列中值=XX 的行数等于多少” ,现阶段的chatbot也不能完成。

okay,是输入方式不对,我们改成 EXCEL文件作为输入,进行测试。详见下面的实验二。

2.2 实验二:使用excel文件,测试简单的【数据统计】功能:统计某一列 [数值=xx] 的行数有多少

(1)实验时间:2024年6月17日

(2)实验人:南方蝶道

(3)实验过程记录:

使用文件:24年6月备案通过名单.xlsx

p.s. 共有492条数据,服务提供者=389条;服务技术支持者=103条;

测试输入:

测试结果输出:

(1)chatGLM-4.0网页版

下面结果表明:chatGLM不仅数据分析问题可以计算正确,还可以绘制统计图表~

再问它一个统计问题:“帮我统计 涉及“多模态”字样的 ,且角色为 “服务技术支持者”的数据有多少条,并给出具体的数据行”

(2)百度文心一言3.5网页版-输出结果:

文心一言chatbot默认的对话窗口,不支持解析excel。即不支持上传excel文件,仅支持pdf、word和图片类型文件。

(3)阿里通义千问2.5网页版-输出结果:

计算不正确

(4)kimi网页版-输出结果:

算了2遍,都不对。

(5)腾讯元宝网页版-输出结果:

自己报错,执行不下去中断了问题。

再试一遍:还是同样的报错。显然,这不是偶发BUG。

报错问题详见:https://yuanbao.tencent.com/bot/app/share/chat/177e6bdd9125a1df7fdeac80574fd415

实验结论:

由实验二各个厂家chatbot的实际测试结果,“数据统计功能“哪家强?——相信大家也一目了然。

1、智谱AI(GLM-4)不仅给出了正确的计算结果,还可以给出相关问题并绘制”数据分布图表“;kimi给出了结论,但计算错误;腾讯还在报错卡BUG执行不下去的路上;百度还不支持excel数据分析,任重而道远~

综上,智谱AI chatbot在【数据统计分析】的路上,进化的最快、能力最强!

在2024年6月17这个时间节点,在”Excel数据统计&分析“这一命题任务上,chatGLM完胜!这一点毋庸置疑~ 它能够分析问题->自主判断调用其系统内部的【代码生成助手】→自动执行任务→给出结果&且结果正确。

emmm,但本着开放包容、不冤枉任何一家chatbot的原则,下面再深入看看,是不是各家chatbot有其它隐藏着的excel技能(如Excel数据分析智能体啥的),只是我没有发现?

——嗯,下面再来深入看一看吧…

2.3 实验三:腾讯元宝、百度文心一言、阿里通义千问、kimi chatbot【数据分析】功能深挖

(1)实验时间:2024年6月17日

(2) 实验人:南方蝶道

(3)实验过程记录:

(3.1)百度chatbot–【数据分析】功能深挖,到底有没有?

之前在实验二中,我们发现文心一言chatbot,压根不支持在【对话框】中对excel类型的文件进行上传和解析;

下面看一看其【插件商城】、【智能体中心】(百宝箱)里面是不是有相关的彩蛋?

(1)文心一言-【插件商城】截图:

翻了一圈【文心一言-插件商城】,没有看到【数据分析】相关的插件~

(2)文心一言-【百宝箱】截图:

直接搜excel相关的智能体/指令,百宝箱搜索结果中给了4个,嗯,但是也没有能干”excel数据统计分析“这件事的。

再试一试“代码”、“sql”相关的:

至此,文心一言chatbot鉴定完毕,现阶段(2024年6月)就是不支持【数据统计分析】,看来只能挪步至隔壁【千帆大模型平台】了~~

后面翻一翻【千帆大模型】平台上的智能体,是否有”数据统计分析“相关的。

(3.2)腾讯元宝–【数据分析】功能深挖

搜一搜元宝是否有 excel相关的智能体?——emmm,Nothing~(下图是24年6月17日截图)

再试一试 是否有“代码生成”(参照智谱AI)相关的智能体?——emm,也没有。(下图是24年6月17日截图)

(3.3)阿里通义千问–【数据分析】功能深挖

(1)通义千问-效率导航-工具箱:无“数据分析”相关;

2)通义千问-智能体:提供了excel相关的智能体,但是测评下来,智能体的功能单一、质量不高,无法完成任务(如不支持传excel文件、有1000的token限制等);

(3.4)kimi–【数据分析】功能深挖

下面是kimi 的”kimi+“智能体列表全部的截图(2024年6月17日),可以看到在这个节点,kimi智能体中心没有【数据统计分析】相关的~

实验三结论:

看来,我没有冤枉各家chatbot,真的没有更多的数据统计分析能力…

二、各种PR稿鼓吹大模型可以做高考数学题,真的能吗?

结论是:现阶段,还不能~ 但有机会,任重而道远~~

这里给大家奉上一篇,我个人认为写的不错的文章(《当AI遇上高考数学题,4个大模型“考生”“成绩单”出炉》,6月19日发表的,下称文章1),文章中的一些核心观点和测评过程中遇到的大模型问题,给大家分享一下(他山之石、可以攻玉):

该篇文章选择了4个大模型,分别是【星火大模型(v3.5版本)】、【文心一言(3.5版)】、【智谱清言(GLM-4)】通用大模型,和 以数学能力见长的教育垂类模型:【九章大模型】

测评数据:选取的是2024全国高考数学–新课标1卷–客观题部分,进行测评。其中包括8道单选题、3道多选题、3道填空题。

此外,由于试题中存在图形、大量数学符号,该篇文章,为防止以文本形式输入题目产生偏差,统一选择以图片形式呈现题目并提供给大模型进行解答。

测评表现和测评结果:

四位“考生”此次作答正确率:从高到低依次为星火大模型(85.71%)、九章大模型(78.57%)、智谱清言(28.57%)、文心一言(7.14%)。

尽管做题结果正确,但各个模型做题的推理过程,均禁不起推敲;

——那么究竟差在哪了?

“第一,题目识别上存在比较大的困难,涉及一些数学符号、分式等会影响识别效果,还有一些图形、表格识别存在问题,以及一些数学专业术语的表述识别也不够精准。

第二,几个大模型在逻辑推理能力上还存在不足。

第三是解题方法较为单一,大模型似乎只能按照固定的模板去答题,而不能依据题目的特征因地制宜地选择最优方法。”

——以上观点,均来自《文章1》

(1)文心一言(v3.5)–2024年-高考数学客观题表现

– 该篇文章测评中可以发现:

①文心一言具备读取图片内容的能力,但无法识别仅带有复杂分数的公式和图形。

– 例如单选题第3题,明明成功读出题目中的“⊥”符号为“垂直”,却在后面的步骤中理解为“平行”(题面中未出现任何平行相关字眼或符号),经提示,文心一言发现理解错误,却在再次解答时又出现理解偏差。

——这就是大模型普遍均存在的让人头疼的“幻觉之一”(上下文矛盾问题);

②文心一言解答数学题并不是用数理逻辑,而是试图用文字论证的方式去猜测一个接近的结果。
– 从单选题第5题的答题情况不难看出;

③文心一言几乎对每一题都进行了详细的推理,但最终大部分题目都得出了错误的答案。

④ 文心一言:优秀的文科生,但理科真的差;

“文心一言在答数学题能力上虽然逊色,但通过一系列的追问、对话可以发现,这位“考生”对语义语境的把控能力非常优秀,很容易明白用户在说什么,在用户补充提醒的时候,它很快就可以知道根据新信息去解释上面的题目。”——文章1。

(2)智谱清言(GLM-4)–2024年-高考数学客观题表现

①智谱清言也存在上下文矛盾的幻觉问题。

在第12题中,经过一番分析后,智谱清言告诉用户无法计算出结果。

在第13题中,智谱清言重复地分析、发现问题、重新审视问题,又一遍一遍地发现行不通,进行了十轮以上的死循环(在我之前测试,我发现腾讯元宝也有这个问题…后面和大家分享),直到人工点击暂停才停下。

②智谱清言的解答比较简洁,一般会直接回应题目,有一定的逻辑性和条理性。

③但答案不是特别详细,也没有深入分析。

④有些题目的回答和标准答案的匹配度不高,有些题目虽然答对了,但会漏掉一些关键点。

(3)星火大模型、九章大模型——2024年-高考数学客观题表现

①如果说文心一言是个“不错的文科生”,那么【星火大模型】和【九章大模型】,就是典型的“理科生”,虽然非常擅长解题,但上下文语义语境的理解是它们的弱势。

– 例如,当用户对【星火大模型】提出:

Q:“上面这道题可以再详细分析一下吗”时,星火并不能理解指向的是什么,而是回答:

星火大模型回答:“很抱歉,由于我无法看到您提到的具体问题,所以无法为您提供更详细的分析。请提供问题的详细信息,以便我能够更好地帮助您。”

当用户对【九章大模型】追问:

Q:“请你检查一下这道题,D选项到底对不对”;

九章:“当然可以,请您提供题目的具体内容,包括选项D的表述,我会尽力帮助您检查。”

——说明其比较擅长解题,但很难联系上下文语境语义来与用户互动对话。并不明白用户问的是什么。

②九章大模型的部分解题过程也存在瑕疵。

在一道多选题中,九章大模型在推理中明明认为C选项错误,但最后又把C选为正确答案,“这个表述上下文之间没啥逻辑关系,让人摸不到头脑。”上述数学专业人士指出。

② 星火和九章 对题目的处理上:

1)九章大模型在图片题目识别上,会先在输入文本框中识别读取出题面,并以文本形式呈现,用户可在框内确认题目的准确性。若发现识别错误,点击即可出现数学符号的辅助输入工具栏,进行编辑修改,防止题目读取错误。

2)而星火大模型,没有上面这个步骤。直接回答,所以不知道题目识别环节理解了多少。

三、写在最后的一点思考

我的一些观点:

1、PR稿吹得天花乱坠,但是实际落地,一堆工程问题需要解决;

——这是因为厂商需要“造梦”,以获得资本的青睐;

——所以我们要建好心里预期,不要抱过高期待;

2、新技术的出现,于世界、于我们都是好事,我们要拥抱它,同时需要给予它一些耐心和包容性~

3、大模型之于教育场景(辅导服务,课后点评,辅助解题等)有很多想象空间,但同时也有很长的一段路要走…

写在最后:

1、希望本文对各位小伙伴了解chatbot能力和市场,有所帮助~~

但是但是,借用本文内容的观点和内容,请注明来源链接~~ 禁止直接抄袭~

2、除了本文的chatbot【数据统计】能力测评外,本人还系统进行了“AI搜索+写作”、“图片理解”、“长文档解析和问答”、“Agent搭建”等各项能力测评,后续有时间同大家分享~

本文参考资料:

[1]当AI遇上高考数学题,4个大模型“考生”“成绩单”出炉 — 新京报

本文由 @南方碟道 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!