从Grok 4到Kimi K2 “地表最强大模型”到底强在哪?

IT时报
1 评论 1087 浏览 0 收藏 14 分钟
渴望踏入产品经理行业但无从下手?我们的1V1私教陪跑实战营,由大厂导师手把手带你入门,从理论到实践,助你快速掌握核心技能,轻松上手!

当“大力出奇迹”仍是铁律,大模型战场迎来两位新王:Grok 4用20万张H100、1.7 TB参数和四智能体协同把数理基准刷到44%,却一脚踏进伦理翻车现场;Kimi K2则以1 TB开源巨兽之姿,率先把“模型即Agent”搬进现实,能帮你订Coldplay门票、写代码、比价机票,却先被算力卡脖子。

全球大模型公司都喜欢“扎堆”发布新品。

最近一周,两个超大规模的大模型先后更新:先是马斯克旗下人工智能公司xAI正式推出Grok 4,并宣称Grok 4为“全球最强大的AI模型”;后有月之暗面在7月11日深夜直接开源Kimi K2,在编程、智能体、工具调用三项基准测试中,是目前表现最好的开源模型。

事实证明,至少在现阶段,“大力出奇迹”依然是AI大模型能力跃迁遵循的规律:尽管没有公布,但坊间普遍猜测Grok 4用了20万张H100,而Kimi K2的1TB参数是目前全球开源大模型中最大的参数规模。

那么,这两个“最强”大模型,究竟有哪些厉害的杀招?

01 Kimi K2:智能体调用迈出第一步

沉寂许久之后,月之暗面终于拿出了大招——Kimi K2。官方发布的数据显示,Kimi K2是一个万亿(1TB)参数规模的混合专家(MoE)模型,激活参数32B,并在SWE Bench Verified(代码智能体评估基准)、Tau2(评估 AI Agent 在现实场景中的性能和可靠性)、AceBench(评估大型语言模型在工具使用中的学习能力)等基准性能测试中,Kimi K2均取得开源模型中的SOTA (目前最高水平)成绩。

在Kimi K2的自述文件中,尤其强调模型在前沿知识、推理和编码任务中表现出色,并声称针对Agent代理能力做了优化,专为工具使用、推理和自主解决问题而设计。

大模型和智能体的区别是什么?在测试Kimi K2的智能体能力前,这是道必答题。

简单理解,大语言模型像一本“百科全书”,知识丰富,但需要人工查阅和应用;而智能体像你的“秘书”,它不仅知道答案,还能主动订餐厅、安排会议,也就是说,它“动手”能力比较强,可以跨平台调用其他App的能力。此前爆火一时的Manus、各品牌AI手机里的小助手,都属于智能体。

从官方放出的案例来看,作为一个基础大模型,Kimi K2迈出了智能体化的第一步。“我想去看Coldplay乐队的巡演,每次行程的预算为5000美元,包含所有费用。您能帮我规划所有事宜吗?……”在一长串Prompt(提示词)之后,Kimi K2不仅根据要求给出了完整的行程规划,完成演唱会所在城市的机酒与旅游规划,还自动将行程计入了使用者的谷歌日历。

记者也在Kimi K2中尝试让它提供一个8月“上海往返东京”的旅行规划,而且要求价格最合算,它不仅规划了具体行程,同时给出了价格最低的行程安排,以及航空公司和另一个机票比价网站的链接,但可能并没有给出明确的“订票”指示,Kimi K2并没有像演示中那样直接打开另一个网站进行操作。

不过相较于其他基础大模型,这已经是进步了。同样的需求,记者给到了DeepSeek、元宝和豆包,尽管它们也都给出了完整的规划,但并没有给出可执行的答案,仍以趋势类的建议为主,比如“7月中下旬预订最佳”,而不是直接给出一个确切的答案,比如到底哪几天最便宜,或者买哪个航空公司的机票,DeepSeek给出的答案甚至远高于正常票价。

官方文件表示,Kimi K2现已具备稳定的复杂指令解析能力,可将需求自动拆解为一系列格式规范、可直接执行的ToolCall(通用模型调用外部工具的字典)结构。你可以将其无缝接入各种Agent(智能体)/Coding(编码)框架,完成复杂任务或自动化编码,而且Agent能力已可通过API使用。

点评:

显然,Kimi K2希望实现的是模型即Agent,或者可以说,它仍走在AGI的道路上,尽管目前能力还很稚嫩,但或许是Kimi另辟蹊径的开始。

不过,Kimi K2现在最大的问题应该是算力,记者刚测试了不到10个问题,对话框便显示,“当前模型对话次数已达到上限,可切换为其他模型继续对话”。

或许这也是月之暗面选择将Kimi K2开源的原因之一,毕竟不是谁都有xAI、字节、腾讯等大厂充沛的算力,这也说明直接面向C端用户不再是月之暗面的主攻方向。不如做一个“好用”的开源基座模型,从而借助社区力量完善自己的技术生态,并倒逼自己以更高的技术标准做出更好的模型。

02 Grok 4:数理化“遥遥领先” 却做不好“伦理题”?

“所有学科碾压博士!”被马斯克称为“全球最聪明”的Grok 4,是妥妥的“Scaling Law(尺度定律)”代言人、土豪家的“富公子哥”,有着传说中的20万张英伟达H100、1.7TB参数(也有传闻说2.4TB)和100倍于Grok 2的训练数据,以及碾压所有其他大模型的基准测试成绩,再加上顶配版(SuperGrok Heavy)300美元(约等于2150元人民币)的月费,直接将所有人的期待拉满。

可刚刚过了两天,Grok 4便接连被曝“翻车”:7月8日,有媒体称,Grok参考马斯克掌管的社交媒体平台X用户发布的内容,生成一系列“反犹主义”言论,其中包括赞扬希特勒;知名的网络技术作家、Web框架Flask之父Simon Willison也发现,当涉及敏感议题时,Grok会搜索马斯克的推文,而fast.ai的创始研究员、昆士兰大学的名誉教授Jeremy Howard复刻了Simon Willison的实验后,更是发现64条消息中54条都是马斯克的观点。

有人说,Grok 4的营销策略,“就像特斯拉初期的自动驾驶策略——先画饼,后填坑”,但也有人认为,这些所谓的“翻车”都是个别现象,整体而言,Grok 4的能力普遍高于其他主流基础模型,压力已经给到了迟迟未露面的谷歌Gemini 3和OpenAI的GPT-5。

无论如何,先来看看Grok 4的基准测试数据。

最引人瞩目的自然是HLE(Humanity’s Last Exam人类最终测试),这项包含3000道高难度题目的多模态基准测试,是2025年初由全球近千名科学家共同打造而成。此前SOTA模型,如OpenAI的o3和谷歌的Gemini 2.5 pro得分徘徊在22%左右,Grok 4在同样不调用工具时得分是25.4%,可启用工具后,便快速上升至38.6%,而SuperGrok Heavy更是飙至44.4%。

在一些常规测试,比如GPQA(科学、数学、历史、常识)、AIME25(数学)、LCB(Live Code Bench 编程)、USAMO25(数学)等榜单中,Grok 4的成绩均有碾压性的表现,甚至在AIME25获得满分。

不过,从实测结果看,Grok 4的缺点也十分明显。

首先是编程能力远不及其做数学题的能力。有知乎网友用同样的编程任务测试了GPT-4、Claude4和Grok4,结果是GPT-4代码结构清晰,逻辑完整;Claude4不仅代码质量高,还有详细的注释;Grok 4基础功能能实现,但代码冗余,优化空间很大,“简单的算法题还能应付,但涉及复杂的系统设计、代码优化,就明显力不从心了”。

其次,256K Token的上下文窗口长度也称不上惊艳,远低于Gemini 2.5 Pro的1000K Token上下文窗口。不过,有网友实测表示,Grok4和SuperGrok Heavy完全可以替代o3-pro,后者幻觉率较高,而Grok 4就像是接入了o3的搜索和工具调用能力的Gemini 2.5 Pro,输出风格正常,搜索能力在线,而且还可以搜索X最新的帖子,当然“价格也贵了50%”。

不过,马斯克在发布会上公布,专用编码模型预计在8月发布,编码效果应该会有些惊喜。此外,9月多模态智能体将上线,10月会推出视频生成模型,都还是很值得期待的。

点评:

Grok 4此次展现出的最重要创新,无疑是多智能体协同(Multi-Agent Collaboration),也即“多智能体内生化”(Multi-Agent Internalization)。

不同于传统模型“先训练后调用工具”的方式,Grok 4的多智能体协同机制在训练阶段就将工具调用能力嵌入模型的底层架构,智能体可以像人类使用手机应用一样调用“代码执行器”“网络检索工具”“数据分析模块”等工具,让多个独立的人工智能代理(Agent)并行处理任务,相互交叉验证并整合结果,以提供更准确、更高效的解决方案。

目前,SuperGrok Heavy版本支持最多四个独立智能体同时处理同一任务。每个智能体可以从不同角度分析问题,生成各自的解决方案,然后再彼此进行交叉验证,通过比较和评估,找出最优解。比如在量子物理题解中,便出现“3个智能体分别用弦理论、量子场论、经典力学推导,最终融合出更简洁统一公式”的案例。

不过,这种方式是典型的“富人游戏”,多智能体协作需要极高的计算资源,Grok 4的训练计算量是Grok 2的100倍、Grok 3的10倍,如此昂贵的使用成本,即便是马斯克也不再“大方”,相较Grok 3发布后的慷慨免费体验,Grok 4从一开始便是收费服务,普通版月租30美元,Heavy版月租300美元。

从一开始猛烈抨击OpenAI“忘记初心”到现在的“最贵大模型”,很多时候,马斯克的“AI平权”,听听也就罢了。

作者/ IT时报记者 郝俊慧 编辑/ 郝俊慧 孙妍

本文由人人都是产品经理作者【IT时报】,微信公众号:【IT时报】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 文章深入剖析Grok 4与Kimi K2两大模型的特点与问题,Grok 4数理性能强大但面临伦理争议和算力成本高的困境,Kimi K2在智能体功能上取得突破却受制于算力瓶颈,展现了大模型发展的机遇与挑战。

    来自广东 回复
专题
13334人已学习12篇文章
产品定位是一个产品面向市场前先要考虑清楚的问题,也是产品人和运营人的必备技能。什么产品为谁解决什么问题,产品的主要卖点或独特性是什么?本专题的文章分享了如何做产品定位。
专题
15957人已学习12篇文章
本专题的文章分享了交互设计文档的撰写指南。
专题
43667人已学习17篇文章
谈到互联网产品,我们不得不谈的就是它的盈利方式,这也是产品人经常会被问到的问题。
专题
61727人已学习24篇文章
想要脱围而出,你必须学点实在的技能。
专题
12760人已学习12篇文章
在各大产品中,都离不开会员体系的建立,那么会员权益模块产品该如何设计?本专题的文章分享了会员权益设计的思考
专题
34779人已学习17篇文章
让我们来扒一扒跨境电商的风险和机遇|从业者必看