每天学一点AI知识:从预测性AI到自主性智能体
Google最新发布的《Introduction to Agent》揭示了AI发展的革命性方向——从被动响应到主动思考的智能体(Agent)时代。本文将深入解析Agent的核心构成、能力分级及应用场景,带你了解这种能自主规划、执行复杂任务的新型AI形态如何重塑产品设计思维。

在2025年11月份,Google团队发表了《Introduction to Agent》的资料。介绍Google对于AI Agent的理解和展望。看完之后深有感触,结合其中核心内容和我工作中的思考,分享给各位。
一、综述核心内容
核心内容可以总结为下图:

AI发展会经历三个阶段,从开始的AI能力最终进化为智能体(Agent)。
预测和生成式AI功能虽然强大,但每一步都需要人类持续指导。
智能体(Agent)拥有更高的主动性,是能够自主解决问题、执行任务的新型软件产品(可以理解成软件产品,但是与一般软件不在一个大气层)。
二、智能体(Agent)的定义
智能体并非静态工作流中的单纯人工智能模型,而是一套完整的应用程序,能够制定计划、采取行动以实现目标。
核心优势在于可自主运行,无需人类步步指引,就能自行规划达成目标所需的后续步骤。
上文说的“静态工作流”就是指work flow、流程搭建工具等,需要人工手动编排流程并且只能按照固定流程完成固定任务的软件产品。
而Agent可以自己规划工作流程,自己按照规划一步一步的完成工作。
例如要写一个竞品分析,需要执行步骤:
step1.需要确定对比分析的指标;
step2.需要确定对比的产品有哪些;
step3.需要搜集这些产品的最新资料;
step4.需要根据step1、step2的结果整理、汇总产品资料;
step5.根据step4的信息进行评分和总结;
step6.写竞品分析材料,如word、ppt等。
之前:在使用AI的过程中,人需要规划好步骤,并且一步一步的要求AI完成初稿,再反复校对,多次沟通后AI才会生成差不多可用的内容。
Agent:人发送需要写一个xx产品的竞品文档给Agent,Agent自己会规划出上述6个步骤,并且自己默默完成每一个步骤中的任务,在这个过程中,人如果发现它的方向不对,可以打断Agent的任务,进行指导(human in the loop),Agent会修改方向继续完成任务,直至完成step6。
三、智能体(Agent)的构成

1、推理模型(reasoning Model)
是指区别于通用大语言模型(DeepSeek V3等)的,具备思维链CoT能力的大语言模型(如DeepSeek R1)。
比较直观的判断是“think”过程,有“think”则是推理模型。

2、可执行工具(actionable Tools)
如果说模型是智能体的大脑,那么工具就是将其推理的结论与现实世界连接的双手。
Agent在执行任务的过程中,可以调用“工具”完成某些任务。
就好比大语言模型是个大脑,但是没有手和脚,所以走不了路,也拿不到东西。而工具就是大语言模型的四肢,完成走路、拿东西等任务。
所以工具并不是只有一个,如果提供给大语言模型的工具越多越高质量,则Agent的表现效果越好。
结合具体案例理解,比如上文所描述的step3搜集竞品资料,这个工作Agent需要去这些产品的官网、社交平台、咨询等地方查询资料,以获得最新的资讯。关键就是这个“最新”,在大语言模型(LLM)中只学习到定期(历史)的信息和资料,在此之后上传到互联网中的信息LLM并不了解。
而调用“搜索”类型的工具之后,就可以直接去查询网络上的最新信息,搜集到最准确的资讯。
Agent结合LLM和各种“工具”的能力,可以完成更多的任务。
在实际工作中,会根据需求开发特定的“工具”、通用“工具”,来使Agent完成比较复杂的业务任务。
3、控制编排层(governing Orchestration Layer)
如果说模型是智能体的大脑,工具是它的四肢,那么编排层就是连接两者的中枢神经系统。
开发者已经将人类大脑有效的学习和推理模式:“思考、行动、观察”的循环置入编排层。
编排层会使用这个基础的模式结合具体的任务进行推理,并根据任务建立具体的行为模型(可以理解成公司为了统一员工水平和设定的SOP),以便后续执行这些任务。
结合上文案例,step1-step6的任务拆分和具体任务执行的结果就是Agent在编排层里完成的。
上述的“具体的行为模型”可以抽象成辅助理解:
- 状态(State):系统在某一时刻所处的特定“模式”或“状况”。例如,一个灯泡有“开”和“关”两种状态。
- 事件(Event):触发状态改变的外部输入或信号。例如,你“按下开关”就是一个事件。
- 转换(Transition):当某个事件在特定状态下发生时,系统从一个状态切换到另一个状态的规则。
四、智能体的能力等级
智能体(Agent)整体会随着技术进步逐步分为四大级:基础级、工具级、战略级、协助级、自主级。
目前国内、国际在产品层面正处在L2、L3阶段。

听起来Agent发展十分快速,目前已经是比较高级的阶段,但是在真实的使用过程中,应对企业中复杂的业务流程,Agent的精准度和可信度以及安全性等问题依旧存在。
L0、核心推理系统(已经达到)
基础级
仅语言模型,无工具连接,基于预训练知识回答,仅具备语言理解和生成能力。
核心特征
✅ 基于预训练知识的回答
✅ 语言理解和生成能力
✅ 无外部工具连接
✅ 静态知识库依赖
L1、连接问题解决者(已经达到)
工具级
模型 + 工具组合;能够获取实时信息并执行简单操作,可通过 API 和工具扩展能力,与外部系统交互。
核心特征
✅ 能够连接和使用外部工具
✅ 获取实时信息
✅ 执行简单操作和任务
✅ API 调用和外部系统交互
L2、战略问题解决者(当前阶段)
♟️ 战略级
具备多步计划能力,可进行上下文工程,主动规划复杂任务,能理解复杂问题并制定多步骤解决方案,还可动态调整执行策略。
核心特征
✅ 制定多步骤解决方案
✅ 上下文理解和工程
✅ 主动规划复杂任务
✅ 动态调整执行策略
L3、协作多智能体系统(当前探索阶段)
协作级
采用团队协作模式,多个智能体分工合作处理复杂业务流程,智能体间可实现通信与协调,共同完成复杂目标。
核心特征
✅ 多个智能体协同工作
✅ 分工合作处理复杂任务
✅ 处理端到端业务流程
✅ 智能体间通信与协调
L4、自演化系统
自主级(最高级别)
可动态创建新工具和智能体,自动识别并填补能力缺口,实现完全自主的学习与演化,无需人工干预即可自我改进和优化。
核心特征
✅ 动态创建新工具和智能体
✅ 自动识别和填补能力缺口
✅ 实现完全自主的学习与演化
✅ 能够自我改进和优化
感谢观看~
尾语:
构建简单智能体不是难事,但确保系统的安全性、质量和可靠性却是一项重大挑战。尤其在面对企业的具体业务需求时,一定要认真分析需求,避免无法交付需求的情况发生。
本文由@宇智波冰 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unspalsh, 基于CC0协议。
- 目前还没评论,等你发挥!

起点课堂会员权益




