智谱发布GLM-5-Turbo:大模型正式进入Agent时代
GLM-5-Turbo的发布标志着大模型从Chat到Agent的范式转移。智谱AI这次不仅提升了参数规模,更通过Slime训练框架让模型具备长序列任务执行能力。本文深度解析Agent模型如何突破Chat模式的局限,以及它将如何重塑开发者的工作方式和行业生态。

一、一个月内连发两代,智谱在急什么?
昨天,我还在用GLM-5让龙虾帮我查资料、写文章、整理代码。
今天,智谱AI发布了GLM-5-Turbo。
距离GLM-5的发布,才过去一个月。
更关键的是它的定位:全球首个专为OpenClaw(龙虾)场景深度优化的通用大模型。

这不是”升级版”,这是”转型版”。
作为一个OpenClaw的深度用户,我的第一反应不是”性能又提升了多少”,而是:为什么基座模型需要为Agent场景做专门优化?
这个问题的答案,藏着大模型发展的下一个范式转移——从Chat(对话)到Act(执行)。
二、从Chat到Act:不是升级,是换代
Chat模式的先天局限
过去两年,我们习惯了和ChatGPT、Claude这样的对话模型交互。
它们的核心能力是什么?
回答问题。
你问它”什么是MoE架构”,它给你解释;你问它”怎么写一个快排算法”,它给你代码。
这种能力的基础是:单轮问答优化。
但Agent场景完全不同。
Agent不是在”回答问题”,而是在”完成任务”。
比如,你让OpenClaw帮你”重构这个项目,优化性能,并写一份技术报告”。
这不是一个”问题”,这是一个”任务链”:
- 分析项目结构
- 找出性能瓶颈
- 设计优化方案
- 实施修改
- 测试验证
- 撰写报告
在这个过程中,Agent需要:
- 长序列执行:几十个步骤、数千条消息
- 工具协作:调用编辑器、终端、测试框架
- 动态规划:根据中间结果调整策略
- 错误恢复:在失败时自动重试或换方案
这些能力,Chat模型根本不具备。
- Chat模型像一个”百科全书式的顾问”,知识渊博但缺乏实战经验。
- Agent模型像一个”有经验的执行者”,能在复杂环境中完成任务。
GLM-5-Turbo的答案
智谱AI的解决方案是Slime训练框架。
核心创新:异步智能体强化学习算法。
简单说,就是让模型在真实或模拟的Agent任务中进行训练,而不是在静态的问答数据上训练。
一个关键数字:单次运行3000-6000条消息的极限长序列训练。
这意味着什么?
意味着模型学会的不再是”回答问题”,而是”管理一个长任务的完整生命周期”——规划、执行、监控、调整、总结。
从”静态知识库”到”动态执行器”,这才是真正的范式转移。
三、技术解码:不是堆参数,是改架构
MoE:越精准,不是越大
GLM-5-Turbo的技术参数:
- 7440亿总参数,激活40B-44B
- 预训练数据28.5T Tokens
- 80层,256个专家
- 上下文窗口202K-204.8K Tokens
看起来参数量很大,但智谱AI强调的不是”最大”,而是”最优”。
MoE(Mixture of Experts)架构在Agent场景有独特优势:
- 不同专家负责不同类型的任务
- 更高效的长序列推理
- 更好的泛化能力
- Agent场景不是考”记忆力”,而是考”执行力”。
堆参数,不如改架构。
长上下文:不是”能读更多字”,是”能记住更多事”
202K-204.8K的上下文窗口,听起来就是个”更大的输入框”。
但实际意义完全不同。
作为OpenClaw用户,我体会最深的是:
以前让龙虾帮我重构一个项目,它会在中途”忘记”最初的规划。
比如,我在第50步说”记住,所有API都要遵循RESTful规范”,到了第150步,它可能已经开始写GraphQL了。
不是它”不够聪明”,而是上下文窗口不够,早期的指令被挤出了记忆。
现在呢?
能一口气完成几百个文件的修改,而且始终记得最初的需求。
这就是DeepSeek稀疏注意力(DSA)和多头潜在注意力(MLA)的作用——不只是”读更多”,而是”记住更多”。
评测数据:不是分数,是能力证明
据公开评测数据:
- SWE-bench Verified: 77.8分→ 代码生成能力接近中级工程师
- Terminal-Bench 2.0 Terminus 2: 60.7分→ 命令行操作能力
- BrowseComp: 75.9分→ 浏览器自动化能力
- τ²-Bench Agent Task: 89.7分→ 综合任务执行能力
这些不是”考试分数”,而是”工作能力证明”。
Agent时代,评测标准从”知识问答”转向”任务完成”。
一个模型能不能帮你修bug、能不能自动化测试、能不能浏览网页并提取信息——这些才是真正的能力指标。
四、生态视角:硬件需要软件,模型需要生态

AutoClaw(澳龙):开箱即用的生产力伙伴
技术再强,用户用不上也没用。
智谱AI同步发布了AutoClaw(澳龙)——一个桌面应用,预置50+ Skills。
什么是Skills?
就是”预设好的任务模板”。
比如”帮我写一篇公众号文章”、”帮我分析这个代码仓库”、”帮我整理会议纪要”。
对于普通用户来说,这意味什么?
无需编程,也能使用Agent能力。
你不需要会写Prompt,不需要懂技术细节,只需要点选一个Skill,然后给出你的需求。
这是从”技术工具”到”生产力伙伴”的跨越。
让我举一个具体的例子:
我最近在整理一个飞书多维表格的质检项目。以前,我需要手动导出数据、逐行检查、标记问题、生成报告——整个过程至少需要2小时。
现在,我调用了一个”数据质检”的Skill,只需要告诉它:”检查这个表格,找出所有空字段、格式错误、重复数据,生成一份Excel报告。”
龙虾自动完成了:
- 读取表格结构
- 逐字段验证规则
- 标记异常数据
- 生成可视化报告
整个过程不到5分钟。
更重要的是,如果遇到特殊情况——比如某个字段”看起来是空的,但实际有隐藏字符”——龙虾会停下来问我:”这个字段包含不可见字符,是否应该标记为异常?”
这就是Agent和Chat的区别:Chat会给你一个答案,Agent会帮你走完整个流程,遇到问题还会主动确认。
开发者生态:从”写Prompt”到”写Skill”
对于开发者,OpenClaw的生态意味着更大的想象空间。
以前,我们”优化Prompt”来让模型输出更好的结果。
现在,我们可以”开发Skill”来让Agent完成更复杂的任务。
一个Skill可能包含:
- 任务规划逻辑
- 工具调用序列
- 错误处理策略
- 结果验证规则
这比单纯的Prompt工程要深入得多,也更有价值。
更重要的是,Skills生态正在形成一种”能力复用”的模式。
比如,一个开发者写了一个”代码审查”的Skill,另一个开发者可以直接调用这个Skill,而不是从头写一套代码审查的逻辑。
这就像npm之于JavaScript、pip之于Python——能力的模块化和复用。
我已经看到社区里出现了很多有意思的Skills:
- 有人写了”自动生成测试用例”的Skill
- 有人写了”分析代码依赖关系”的Skill
- 还有人写了”将文档翻译成多语言”的Skill
这些Skills不是孤立的,它们可以组合使用。
比如,”代码审查”Skill可以调用”生成测试用例”Skill,自动为审查出的bug生成测试代码。
这种组合创新的可能性,才是生态真正的价值。
智谱AI还推出了龙虾套餐:
- 39元/月,3500万Tokens
- 99元/月,1亿Tokens
价格有所调整,但能力也显著提升——对于重度用户来说,这是一次合理的价值重估。
如果OpenClaw是”Linux”,那么GLM-5-Turbo就是为Linux优化的”芯片”。
软硬件协同,才能发挥最大价值。
五、反思与前瞻:能力越强,责任越大
风险与合规:不能忽视的警示
就在GLM-5-Turbo发布前后,两个事件值得注意:
- 中国互联网金融协会发布风险提示:警惕AI诈骗
- 315晚会曝光AI投毒产业链:虚假信息生成、深度伪造
这不是危言耸听。
Agent的自主执行能力,也让风险维度发生了质变——以前AI只会”说错话”,现在它可能”做错事”。
一个能”自动执行任务”的AI,如果被恶意利用,后果可能比一个只会”回答问题”的AI严重得多。
让我举几个具体的场景:
场景一:自动化攻击
假设一个恶意用户让Agent”帮我找出这个网站的所有漏洞”。
在Chat模式下,AI只会告诉他”常见的漏洞类型有哪些”。
但在Agent模式下,AI可能会自动:
- 扫描网站端口
- 尝试SQL注入
- 枚举用户名
- 生成攻击报告
整个过程完全自动化,攻击者甚至不需要懂技术。
场景二:大规模伪造
假设一个恶意用户让Agent”生成100条虚假评论,发布到这个电商平台的商品页面”。
在Chat模式下,AI只会生成一段评论文本。
但在Agent模式下,AI可能会:
- 自动注册账号
- 生成100条不同风格的评论
- 绕过验证码
- 批量发布
这种规模化的伪造能力,是Chat模型无法实现的。
场景三:越权操作
假设一个用户让Agent”帮我整理一下这个文件夹里的所有文件”。
如果权限控制不当,Agent可能会:
- 删除了不该删除的文件
- 修改了不该修改的配置
- 上传了敏感数据到错误的位置
这不是Agent”恶意”,而是”理解偏差”导致的错误操作。
而Agent执行得越快,错误造成的破坏也越快。
最小授权原则变得前所未有的重要:
- 不是”给所有权限”,而是”按需授权”
- 用户的信任需要用安全性来回报
- 每一次权限授予,都要有明确的边界
Agent能力越强,责任越大。这不仅是技术问题,更是伦理问题。
行业影响:AI的”Linux时刻”
业内将OpenClaw类比为”AI的Linux时刻”。
这个类比很精准。
Linux的开源生态,让它成为了服务器、云计算、嵌入式设备的”基础设施”。
OpenClaw的开源生态,正在让它成为AI Agent的”基础设施”。
更形象的类比是:
从”DOS系统”到”Windows时刻”。
DOS时代,你需要记住各种命令,手动执行每一个步骤。
Windows时代,你点击鼠标,系统自动完成复杂的工作流。
Agent时代,你给出一个目标,AI自动规划并执行整个任务链。
这不是”界面升级”,这是”交互范式的根本变化”。
技术终局:持续学习
最后一个关键点:持续学习(Continual Learning)。
GLM-5-Turbo的Slime训练框架,让模型学会了”从执行中学习”。
这意味着什么?
未来的Agent不是”部署后就不变”,而是”越用越聪明”。
每一次任务执行,都是一次学习机会。 每一次失败,都是一次改进机会。
这才是Agent时代的真正终局——不是”静态的智能”,而是”动态的进化”。
六、结语:真正的Agent时代才刚开始
GLM-5-Turbo的发布,不是一次”小版本升级”,而是一个”时代标志”。
标志什么?
大模型从”更聪明”进入”更有用”阶段。
- Chat时代,模型回答问题的准确率越来越高
- Agent时代,模型完成任务的能力越来越强
作为一个OpenClaw的深度用户,我感受到的不是”速度又快了20%”,而是”能做更多事了”。
以前不敢让AI做的事情——重构整个项目、自动化测试、批量数据处理——现在敢做了。
这不是性能提升带来的信心,而是范式转移带来的可能性。
Agent时代,才刚刚开始。
而GLM-5-Turbo,就是这个时代的第一个注脚。
相关链接:
- 智谱AI官网
- OpenClaw官网
- AutoClaw下载
本文作者为OpenClaw深度用户,部分观点来自实际使用体验。
本文由 @像素呼吸 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自 Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




