火爆的AI Agent，到底是什么？

王智远

2024-05-05

0 评论 6780 浏览 28 收藏

查了一下：

AI Agent热潮，准确来说，从2023年3月开始。

那时候，一个叫AutoGPT框架项目发布，项目利用大型语言模型，能自动把一个大任务拆分成小任务，并使用工具完成它们。

这种技术，将大语言模型处理语言、创造内容，和逻辑推理的能力扩展到了应用场景里，还加了感知和行动技术，所以，能从头到尾解决一个简单的问题。

紧接着，一年时间内，项目引起国外大公司、国内创业者、投资者们极大关注，大家开始积极开发AI Agent的框架、平台或具体应用。

外加上去年11月，OpenAI又推出一系列的GPTs，然后，国内才有不少公司才开始根据各自能力布局应用层、平台层、开发层和运营层等方向，来增加下一波生态下的壁垒性。

因此，人们才认为它是下一个重要细分发展方向。

可是：任何行业都存在信息差，我周围有很多人，之前并没有关注该赛道，爆发后才觉得有必要了解下，但现在市场上各种信息泛滥，让人眼花缭乱，就带来不少困扰。他们不太清楚Agent是什么？为什么很重要，未来发展怎样？借此机会，分享一些信息，希望帮你初步了解这个概念。

01

到底什么是AI agent？它是怎么工作的呢？

先来看一个词：“agent”，中文意思是代理人。代理人，你可以理解成有人帮你去做某件事。那么，AI agent是什么？简单来说，一个由AI技术加持的代理人，它变得更聪明了，可以感知周围的环境，并且能够独立地思考和行动。

你有没有用过对话式的大模型（LLM），比如：文心一言、Kimi Chat、或者智谱AI？AI agent和对话式模型区别在于，你不用一直告诉它要做什么，只要给它一个目标，就能想办法自动帮你完成。

所以，大模型（LLM）要很多各种各样的数据，数据帮助它，学习的和人一样具备交流、学习、思考和推理的能力。

不过，它并不完美，时常出现一些奇怪的想法，或者受到环境影响；这时，就能用基于大模型开发的AI agent进一步细化问题。

举个容易理解的例子：你用过小爱同学吗？假如生病了，以前对它说：“我不舒服”，它只会告诉你去医院看看，多注意防护。如果更聪明的AI agent，做法会不一样。

它能检测你的体温和其他健康指标，结合网上的信息，分析之后告诉你：你可能发烧了。”接下来，还能帮你自动写好请假条。

如果说：“帮我在钉钉上发给领导”，它立刻就能搞定。要是家里布洛芬不够了，它甚至可以把药加入购物车，你确认后付款，很快药就能送到家。

这就是AI agent的聪明之处。

所以，它的工作原理是什么呢？主要有四部分：

感知
信息处理
执行
输出

感知是第一步。AI通过传感器、摄像头、麦克风这些外部设备来感知周围的世界。比如你说：“我不舒服”，这句话就能通过麦克风被捕捉到。

信息处理，像把一个通用的大模型和很多专业的知识库结合起来。比如：健康数据和家里的药物存量，你告诉它这些信息，它就能帮你保存并做出决策。

写请假条、在线购买药品，这些都是系统根据它的决策来完成的具体工作。完成之后，系统会告诉你结果。

一个完整的智能体（Agent），好比人类和周围环境互动的过程，它由两部分组成：一部分是智能体自己，另一部分是它所在的环境。

智能体像生活在物理世界中的人类，而物理世界是它的外部环境，人类感知周围的世界，理解环境中隐藏的信息，再结合自己的记忆、对世界的了解来做计划、做决定和采取行动一样；行动又会影响环境，产生新的反馈。

人类根据反馈再次做出决策，从而形成一个不断循环的过程。

你看，整个过程像不像马克思主义的「实践论」？有个目标后，从认识开始，实践得出理论知识，再把知识应用回实践中去。

这就是，AI Agent神奇之处。

02‍

不过，由于大模型本身能力还在不断发展中，智能体形态、应用场景也就更晚一些，所以，看似短短一年内，探索了多种实现智能体的方式，但大部分还处在概念验证、产品演示阶段，常见问题也相对明显。

包括：项目文档不完整、复用效果不稳定、任务拆分过细，导致成本过高，以及推理能力不够，更主要的原因，还有跨平台能力如何解决等等。

我身边爱写作、阅读的朋友们都有一个共同的习惯：

他们会收藏一些有用的信息。通常，信息被临时记录在备忘录中。随着时间往后推，记录东西多了，管理起来就比较麻烦。

前段时间，我琢磨能不能创建一个完整的流程，自动化处理，折腾半天，虽然搭建成功流程自动化，但实际使用起来的效果并不理想。

所以，许多平台厂商、研究机构、创业公司推出各种单一智能体、多组合智能体、以及机器人自动化（RPA）等框架项目，但从实际调研和行业反馈看，还要迭代。

不过，这个框架的总体思路，可以用一个公式概括：

Agent = LLM（大型语言模型）+ Planning（规划）+ Feedback（反馈）+ Tool use（工具使用）。

当我们做规划时，不仅只看当前情况，还会考虑记忆、过去的经验，以前的反思和总结，还有对世界的了解也加入进来。

而现在以ChatGPT和其他为首的国内大模型，更像一个固定不变的知识库，它不能直接和环境互动，虽然它们可以进行逻辑推理、基本规划，但不能感知周边的一切，来进行自主反馈。

在我看来，智能体能通过各种方式获取反馈。

比如：

如果我们把和对话的ChatGPT视为一个智能体，那么，通过文本框输入的回复就是给它的反馈，这种互动后，它能调整自己的回答，而不是一次次再教育。

一款产品无到有，产品经理需要做些什么？

在一个产品从无到有的过程中，要做好产品经理这个角色实在是不容易，除了大家都知道的写需求、写需求、写需求，要做的事多着呢。产品经理不是你眼中的只会找你麻烦，提要求..

查看详情 >

还有，更进一步地，智能体可以使用外部工具来增强它的功能，解决更复杂的问题。

例如：

它可以用天气API来获取天气预报，如果没有工具，智能体还能学习适应环境变化的策略，来应对挑战。所以，一个完整AI智能体应该能够主动和环境互动。而大型语言模型是它潜在能力的核心，未来发展方向，是创建一个从头到尾的系统，这将依靠它有效地使用周围的工具，来实现更广泛的应用。

03‍

那么，它为什么很重要？我为什么要深入理解呢？

首先，AI智能体将会引领软件行业进入一个新的时代，我们可以叫它“3D打印时代”。什么意思呢？3D打印技术普及时，人们很方便地3可以打印出各种“实体物品”。

在所谓的“3D打印时代”，开发、定制软件将变得跟打印文件一样简单、快速。公司、个人想要什么？都根据自己的需求，很快找到解决方案。有一个科学家，名叫Andrej Karpathy，他在特斯拉负责开发、优化自动驾驶技术。

他在推特上说过，我们可以利用大数据、强大的计算能力来解决过去需要很多人力和时间的复杂问题。这也是为什么那么多人对AutoGPT感兴趣的原因。

其次，AI智能体能减少软件的生产成本。你学过编程没？以前编程，要写大量临时文件、测试方案，还要长期保存下来，以便不时之需；现在的编程，完全可以自动化制作，成本几乎为零；这意味着，原来需要上千万人才能完成的软件任务，现在少量的人就可以搞定。

还有一点是，智能体灵活满足各种需求。以前，我在几家C轮公司工作过，技术人员占了一半，因为用户很多、开发的东西也特别多。不仅要做商城，还要做CRM系统，只有用很多人力才能提高效率。

现在情况不同，很多基础的需求直接交给智能体来处理。这就像，我们从大批量生产，转变成了小批量快速响应的模式。如果把大语言模型看作人类思考的“系统1”，即负责快速、直觉的思考，而AI智能体则类似于人类的“系统2”，负责慢速、分析性的深入思考。计算机专家，Andrej Karpathy曾提到：大模型可以快速产生反馈，但也容易产生误判。

AI智能体目标是建立一个个小框架，让LLM循序渐进的思考，反而更能做出可靠的决策。我以前在网上搜索学术文章时，要分两步筛选信息：首先，根据研究领域进行初步筛选；然后，根据第一次搜索结果，进一步筛选出与我期望最相似的文章。这个过程通常要多次查询和调整，耗时又麻烦。后来，情况大有改观。

我用RPA后，它按照要求自动筛选，并在第一轮结果后精准查找，所以，这就像APP的推荐系统，你可以根据需要，定制自己的智能体。

所以，基于大模型的Agent，改变了获取信息的方式，未来会有更多人有自己的Agent，帮它当合作伙伴，你可以想想，如果有个小助手，你会让它做什么？

04‍

那么，AI Agent有什么不同类型呢？因为Agent技术还不是完全成熟，所以，Agent平台也在初期阶段，现在一些比较固定的工作流程，或有详细标准SOP的程序，都在封闭环境下进行。

即便一些比较受欢迎的平台，它们在API生态系统，工作流程再组合上，还是不够完善。我盘了一下，AI Agen平台大致有三类：一类，面对公众和非开发人员，基于知识库和数据库的简单聊天机器人（Chatbot）；如“类GPTs”，它提供标准界面、流程。国内字节的扣子（Coze）、阿里的AI助理市场。

另一类，面向开发者的综合开发平台：这类平台帮助开发者使用各种API、第三方库和代码嵌入，进行Agent的流程调优。

例如：Coze海外版、百度灵境矩阵全代码版，阿里、亚马逊等提供模型托管，支持开发者开发应用。它们可以能解决复杂问题、有多个工作流程安排的复杂场景在里面。

第三类是企业级开发平台：专门给企业工作流程制作的智能化。比如：TARS-RPA-Agent、CubeAgent和Torq等。澜码科技的AskXbot平台，以及360的“大模型+企业知识库+Agent”的解决方案。基于该框架下又能进行行业结构，应用场景再次划分。

因为大家发展速度真的很快，所以，从实际情况来看，首先需要做的是：

第一步，丰富通用和特定场景的工作流程。这意味着，要创建一些标准的流程，这样不同的情况下都能用。

第二步，深入地学习和积累专业知识。

这样，第三步，平台能更好地重复使用已有的工作流程，也能更灵活地结合不同的工具。

同时，还要探索适合的商业模式，这样才能满足AI时代的需求。简单说，就是要搞清楚怎么通过AI Agent赚到钱，同时确保AI平台能不断进步，更好地服务大家，很重要。

更直白一点说：产品营销圈，有一个很重要概念叫做PMF（Product-Market Fit，产品市场匹配度）。

如果一个产品找到它的PMF，就找到了自己的市场立足点，开始有了用户黏性。在AI大模型产品领域里，大模型要找到自己的TPF（Technology Product Fit，技术产品匹配）。

技术发展比较快时，AI从业者，要从技术、产品和市场三个角度全面考虑，寻找一个中间值，三者，完美匹配的时，才是AI Agent解决具体需求，赚到前的高光时刻。我们不能总说技术厉害，而忽略市场是否需要。

前段时间，跟一个老板沟通企业内部流程再造时，就提到该问题，他说：看似很多冗余工作，AI Agent可以解决，但是，AI Agent解决前，总要先有人得先用好他。

举个例子：服装设计公司，面临一个重大挑战，批量生产服装时，要设计和制作多个样板，这个过程传统上完全依赖人工；现在，AI智能体可以介入这一过程，但到底能处理到哪一步呢？精确度足够高吗？这些都要进一步的探索、测试。

所以，国内Agent发展还未达到其真正潜力，大多只是些简单的聊天机器人。

缺少反思、规划、环境感知能力，而这些能力，恰巧构成高级AI Agent的核心要素。总结而言AI Agent，进一步迭代工作流。

据我所知，目前市面有很多agent搭建工具，如果你想进一步了解这个赛道，亲自试试，是最快的方法。

本文由人人都是产品经理作者【王智远】，微信公众号：【王智远】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App