智谱GLM-5.1登场，开源模型首超Opus4.6!!!

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

智谱GLM-5.1登场，开源模型首超Opus4.6!!!

AI阿铭

2026-04-11

0 评论 3375 浏览 2 收藏

9 分钟

GLM-5.1的静默发布却在技术圈掀起巨浪，这款国产大模型不仅将AI编程能力从'分钟级'突破到'8小时级'，更在SWE-Bench Pro等硬核榜单上首次超越GPT-5.4和Claude Opus 4.6。其敢于提价10%的底气，标志着国产AI从价格战转向价值竞争的时代已经来临。

没有发布会的”大事件”

2026年3月27日深夜，智谱悄悄放出了GLM-5.1的早期访问权限，没有发布会，没有PPT，没有技术报告。

随后4月8日，GLM-5.1正式发布。

这种”静默发布”的方式，反而在技术社区引发了更大的涟漪。开发者们在OpenRouter上接入，在Claude Code里实测，在X和微博上争相讨论。这个没有仪式感的发布，成为了近期国产大模型最热的话题之一。

这种反差本身就值得玩味——真正有实力的东西，不需要仪式，数据会说话。

核心突破：从”分钟级”到”8小时级”

要理解GLM-5.1的意义，必须先理解AI编程能力的演进逻辑。

过去两年，行业围绕”单轮更聪明”展开竞争：谁的代码生成质量更高？谁能一句话搭出更炫的界面？这是”Vibe Coding”时代——AI是一个聪明的助手，写完代码停下来等人打分。

GLM-5在今年2月迈出了第一步，将能力边界推进到”Agentic Engineering”：30分钟内完成一个完整的系统工程任务，自主规划、执行、测试。

而GLM-5.1，把这个边界拉到了8小时。

这不是比喻，是经过基准测试验证的数字：

KernelBench Level 3：在50个真实机器学习计算负载上，GLM-5.1独立优化超过24小时，完成655轮迭代，让向量数据库查询吞吐提升到初始版本的6.9倍；
Linux桌面构建：从零开始，在8小时内构建完整的Linux桌面系统；
METR榜单：GLM-5.1是全球除Claude Opus 4.6外，少数验证了8小时级持续工作能力的模型，也是唯一做到这一点的开源模型。

它的工作方式不再是”生成代码→等待反馈”，而是”实验→分析→优化”的完整闭环。模型会主动运行benchmark，识别瓶颈，调整策略，在多轮迭代中持续改进——这更像一个会自己推进工作的工程师，而不是一个等你指令的工具。

跑分之战：国产模型首次站上顶点

跑分不是全部，但跑分是最清晰的语言。

在三个最具代表性的代码评测基准的综合平均分上——衡量专业软件开发能力的SWE-Bench Pro、像工程师一样操作命令行的Terminal-Bench 2.0、从零构建代码仓库的NL2Repo——GLM-5.1取得：全球第三 国产模型第一 开源模型第一

尤其值得关注的是SWE-Bench Pro这个单项榜单。它要求模型在真实GitHub仓库中定位并修复高难度工程Bug，被普遍认为是评估”真实软件开发能力”最硬的指标。GLM-5.1在这个榜单上刷新全球最佳成绩，超越GPT-5.4和Claude Opus 4.6。

这是国产开源模型第一次在编程核心榜单上站到全球第一的位置。

一年前，GLM-5.0的SWE-Bench得分是35.4；这次GLM-5.1直接提升到45.3，提升幅度超过30%。与Claude Opus 4.6的差距，从此前的明显落后，缩小到了不足3分的咬合距离。