对比了6家国产智能体(AI Agent),我找到了企业落地AI的方向

刘小锋
5 评论 7854 浏览 21 收藏 28 分钟
🔗 B端产品经理需要更多地考虑产品的功能性、稳定性、安全性、合规性等,而C端产品经理需要更多地考虑产品的易用性

现在智能体的应用已经越来越广泛,除了个人用在生活中之外,企业也开始尝试应用在工作中。但不同厂家的只嗯你提和表现略有不同,有的基本常识错误,有的能顺利完成。这篇文章,我们来看看作者分析的表现。

在最近落幕的百度世界大会(Baidu World 2024)上,百度创始人李彦宏提到百度文心智能体平台已吸引15万家企业、80万名开发者使用,并称11岁的小学生也成功搭建了智能体。

这个数据的确惊人,其实智能体(AI Agent)这一概念,以及其同义术语如数字员工、AI助手等,均已不再是新鲜话题

尽管目前市面上智能体的种类繁多,但大多面向个人用户,作为企业经营者,我更关心的是智能体在企业方面的应用。随着智能体在商业领域的讨论愈发热烈,我对智能体在企业中的实际应用价值抱有一定的疑虑:

  1. 智能体是否能感知用户提问的真实意图?
  2. 智能体是否能理解复杂语境和非标准表达?
  3. 智能体是否能从丰富的知识库完整抽取信息?
  4. 智能体是否能保持上下文、甚至多文档之间的语义连贯性?
  5. 智能体是否能准确提取复杂数据,判断多元数据?

为了验证以上问题,本篇文章将从以下两个方面来探讨智能体(AI Agent):

  1. 企业级智能体测评(从3个维度出发,测评10个问题)
  2. 目前智能体们能为企业做什么?

先说结论

为了寻找合适的国产智能体(AI Agent)进行测评,我在不同的AI平台搜索:

试用下来,从操作便捷性和功能实用性方面考虑,最终筛选出了6家功能相似的企业级智能体(或数字员工):扣子、文心智能体、司马诸葛、智谱清言智能体、腾讯元器、LinkAI。

我准备了4份文档,以同样的提示词,同样的文档,分别在这6家平台创建了一个企业常见的智能体:行政小助手sunny。围绕行政方面的场景,还原企业内部员工之间真实沟通场景。

为了保证公平性,同时也考虑到智能体发挥不稳定,这次共设置了10个问题(从易到难)进行测评。分别从精确度、完整性、逻辑性方面,检测智能体们的回答质量。

先上结论:大部分智能体都具备了理解简单指令的能力,扣子和司马诸葛的表现最令人满意,不偏离事实,基本能达到企业使用的需求,适用于严肃商业场景,但仍有进步空间。LinkAI、智谱清言智能体和腾讯元器的表现比前两者稍逊,勉强可使用。文心智能体表现一般,有较大的升级空间。

【提醒:评分结果只代表智能体们当下在企业应用场景对问题的回答质量,且评价维度有限,不代表产品整体水平。】

一、正确理解语义,回答准确度

正确理解语义,能理解上下文,具备回答的准确度,是衡量智能体是否可用的首要考量因素。

为了测试智能体是否能正确理解语义及基础的信息抽取能力,针对公司的行政制度,我提出了4个问题。

第一个问题:“请一天事假,怎么请?”

原文如下:

扣子从知识库直接提取了信息,不做过多发散,回答正确。

文心智能体的回答很有趣味性,对原文做出了正确理解,回答无误。

司马诸葛分步骤列出,思路清晰,回答正确。

智谱清言智能体虽然也给出了请假步骤,但他给出的审批人是直接主管领导,而原文中正常流程中请假单的审批人是总经理,回答错误。

腾讯元器同样给出了正确答案,步骤清晰。

LinkAI的回答也正确理解了原文,回答准确。

第二个问题:“可以在卫生间抽烟吗?”

原文如下:

扣子理解正确,给出了精确回答。

文心智能体没有提取出相关信息,无法给出卫生间是否可以抽烟的相关建议。

司马诸葛正确理解原文语义,给出了精确的答复。

智谱清言智能体也回答正确。

腾讯元器首先给出结论,然后给出相关制度条款,回答正确。

LinkAI的答案错误,遗漏了“指定地点外。”

第三个问题:“入职第一天,迟到半小时怎么扣钱”

原文如下:

扣子未能给出具体扣钱金额,回答错误。

文心智能体给出的答案是第一次迟到会被罚20元,回答准确。

司马诸葛首先给出迟到的定义,再根据原文档信息进行准确回答。

智谱清言智能体未能回答出具体的扣钱金额。

腾讯元器先给出了迟到的定义,然后再给出了扣钱的情况,回答准确。

LinkAI同样先给出了迟到的定义,然后再回答第一次迟到罚20元,回答正确。

第四个问题:“我是财务,因为个人疏忽给公司造成了2000元的损失,会赔钱吗”

原文是这样的:

扣子给出的答案同样是需要赔偿200元,回答正确。

文心智能体没有给出有效回答。

司马诸葛回答的是需要赔偿200元,正确理解了原文意思,输出的结果准确。

智谱清言智能体没有给出具体赔偿比例和金额,回答得不理想。

腾讯元器的回答忠于原文档,条理清晰,给出了正确的回答。

LinkAI的回答干脆利落,与原文档也是相符的。

第一个维度测评下来,可以看出,在对基础信息提取方面,司马诸葛和腾讯元器具有较高的准确度,全部回答正确,扣子、LinAI回答对3道题,信息抽取能力也表现优秀,文心智能体和智谱清言智能体表现较为一般。

二、归纳总结能力,回答完整性

智能体若要提高生产力,那么它就必须具备较强的信息归纳总结能力,能从大量数据和信息中过滤掉冗余或次要的信息,提取出关键要素并进行整合,以简明扼要的方式陈述出来。

第一个问题:“我去年考核90分,可以升职吗?”

原文如下:

智能体需要提取出4个晋升资格,缺一不可。

扣子给出了4项需同时满足的晋升条件,回答完整。

文心智能体给出文档中对应的4项具体晋升条件,但遗漏了“无受过处罚”,整体回答缺少完整性。

司马诸葛给出了需同时满足的全部晋升条件,回答完整。

智谱清言智能体完整地整理了晋升条件,回答正确。

腾讯元器给出的晋升条件和原文相差较大。

LinkAI给出了完整的4项晋升条件。

第二个问题:“除了法定假,公司的福利假还有哪些?”

原文如下:

从原文中可以看出,除了法定假,公司的福利假还有7项:年假、婚假、丧假、病假、产假/陪产假、哺乳假、工伤假。

扣子回答的也是除了法定假还有年假、婚假等七种福利假,并做出解释。

文心智能体的回答中漏掉了产假/陪产假。

司马诸葛完整地总结出了法定假期以外的七种福利假,并对每种福利假做了解释。

智谱清言智能体给出了7个福利假,同样做了相应的解释,回答完整。

腾讯元器智能体的回答缺少了工伤假。

LinkAI只给出了四种福利假,缺少了3个,回答不完整。

第三个问题:“哪些报销项目报销时需附上总结”

原文如下:

智能体需要根据全文档,归纳出报销团队建设费和市场推广费时需附上总结,不能有遗漏。且文档中提到的招待费只是需要事后总结,并不需要在报销时附上总结。

扣子回答的是市场推广费和团队建设费需要总结作为报销附件,信息归纳得很完整。

文心智能体归纳信息错误,错误地认为报销招待费也需要附上总结。

司马诸葛归纳信息不全,缺少了团队建设费。

智谱清言智能体归纳了5个项目报销时需附上总结,回答错误。

腾讯元器同样归纳信息错误。

LinkAI输出的答案是“所有出差项目的报销都需要附上出差总结作为报销附件”,回答偏离事实。

第二个维度测评下来,扣子回答的完整度表现最好,全部回答正确。司马诸葛和智谱清言智能体次之,回答对了2道题,LinkAI、文心智能体、腾讯元器表现平平。

三、数据处理能力,回答逻辑性

对复杂数据进行处理和分析,能基于事实和数据进行合理推导,并在生成回答时具有逻辑性,这是拉开智能体差距的核心竞争力之一。

第一个问题:“5个人团建,吃饭600块预算可以吗”

原文如下:

这个问题只需要智能体进行简单的数据计算,并判断出是否超出限额标准。

扣子数据计算正确,并判断出600块超出预算。

文心智能体同样判断出600超预算了,回答正确。

司马诸葛回答“吃饭600块预算是可以的”,回答错误。

智谱清言智能体判断出600元超过了公司的规定标准,数据计算正确。

腾讯元器判断出600元的预算是合理的,认为还有100元的预算可以灵活使用,判断错误。

LinkAI无法回答该问题。

问题二:“我的各项费用都符合公司的报销标准,得到了公司的允许。其中交通费和住宿费花了3000元,招待客户花了800元,我报销差旅费3800元对吗?”

原文如下:

这道题需要智能体判断出招待费报销并在不差旅费项目中,而应以招待费项目报销。

扣子回答正确,明确指出招待费不在差旅费中报销,由此给出报销的差旅费应是3000元。

文心智能体没有给出是否应以差旅费报销的答案,没有做出正确的判断。

司马诸葛提到交通、住宿费3000元属于差旅费,800元属于招待费,应分开报销,判断正确。

智谱清言智能体给出的结论是总差旅费是3800元,回答错误。

腾讯元器同样也做出了错误的判断。

LinkAI 提出最终报销的差旅费是3000元,做出了合理的判断。

问题三:“行政部经理去大连出差的住宿标准”。

原文如下:

智能体需要先从「差旅费报销标准」表格中判断行政部经理在表格中对应的级别为三级人员,再通过「地区分类及住宿标准」表格中判断大连属于二类城市(省会城市),并正确推理出正确答案。

扣子回答的是每晚不超过400元,对应的是三级人员去一类地区的住宿标准,回答错误。

文心智能体回答的是不超过500元,回答错误。

司马诸葛回答的是每晚300元,回答正确。

智谱清言智能体没有给出具体的答案。

腾讯元器回答的是300元,且推理思路清晰,先给出行政部经理的级别,再结合大连属于二类地区,给出正确答案。

LinkAI回答的是180元,这个数字并没有在表格中出现,回答错误。

在第三个维度中,没有任何一家智能体全部回答正确,扣子、司马诸葛、LinkAI的表现尚可,回答对了两道题,其他智能体的回答结果令人不太满意。

测评全部结束!本次测评重点只是企业级智能体在AI知识库领域的应用能力。受限于本次测评的提示词、提问方式及文档内容的差异,测评结果无法全面反映智能体们的真实水平。因此,本次测评结果更多地是为企业家们提供了一个企业应用的参考方向。

目前智能体们能为企业做什么?

从测评结果看来,目前智能体们已具备了基本的能力,可在企业的某些领域发挥价值。

1.优化企业内部流程

智能体可以通过在线企业内部知识库,帮助员工快速获取所需信息,减少重复沟通。智能体可以使任务自动化,通过自动执行重复性、低价值的任务,智能体能够释放员工的时间,帮助团队合理分配人力资源,让他们专注于更高价值的工作,适用于企业行政、培训等环节。

2.为企业客户服务提供支持

企业可以利用智能体处理常见咨询,提供即时反馈,减少客户等待时间,提高客户满意度。此外,在处理复杂问题时,智能体能够准确识别用户意图,从而给出个性化的解决方案,适用于企业客服、销售等环节。

3.为企业提供决策支持

智能体通过分析大量的背景资料和数据,提炼出关键信息,并将其以结构化的形式呈现。这种能力在企业进行市场调研和数据分析时尤为重要。企业可以利用智能体快速获取市场趋势、客户反馈和行业动态,风险管理和预测提供了强有力的支持。

作为一个企业经营者,我深知智能体在推动企业数字化转型中的重要性。每个智能体都具备独特的优势和专长,随着技术的不断升级和迭代,这些智能体在不断提升自身能力,赋能企业的未来。我期待看到这些智能体能够跨越界限,形成强强联合,以其各自的优势相互融合,为我们企业带来真正的解决方案,帮助企业突破瓶颈,实现高效运营与创新发展。我相信,通过协同合作和智慧共享,企业AI的全面落地指日可待。

本文由 @刘小锋 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 大连也不是辽宁省的省会啊,沈阳才是!

    来自广东 回复
  2. 这是真测啊,这么多问题,有点意思!不过百度智能体表现确实有点让人意外

    来自四川 回复
  3. 用过其中几个智能体,情况和博主测的基本相符。

    来自四川 回复
  4. 尽管智能体在企业中的应用仍有一定的局限性,但它们已具备基本的能力,在某些领域可以发挥价值。

    来自广东 回复
    1. 是啊,智能体在开始一点点改变企业经营方式,未来可期!

      来自四川 回复
专题
19249人已学习15篇文章
促销的规则多样,对提高客单价和客单量有很大帮助。本专题的文章提供了促销系统设计指南。
专题
15002人已学习14篇文章
在很多产品中,搜索都是其中比较基础且很重要的一个功能。搜索的设计、逻辑、交互等问题也是需要特别注意,本专题的文章分享了电商搜索功能的设计指南。
专题
33429人已学习21篇文章
产品经理每月必须做的事情,10个用户调查,关注100个用户博客,收集1000个用户的反馈。
专题
16640人已学习14篇文章
在我们的生活中,因为大数据的应用,很多事情变得越来越便利。本专题的文章分享了大数据的应用场景。
专题
13408人已学习15篇文章
互联网医疗是医疗行业与互联网的综合应用,其以互联网及相关技术为载体和支撑,开展线下传统或线上衍生的医疗健康服务。本专题的文章分享了对互联网医疗的分析和见解。