实测K2.5，第一次有国产模型对齐Gemini 3 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

实测K2.5，第一次有国产模型对齐Gemini 3

沃垠AI

2026-01-28

0 评论 692 浏览 0 收藏

14 分钟

Kimi K2.5的发布标志着国产大模型在多模态能力上首次实现对Gemini 3的全面追赶。这款原生多模态架构的模型在视觉理解、代码生成和Agent集群调度上展现出惊人实力，从网页复刻到批量任务处理，实测表现直逼行业顶尖水平。本文通过深度体验K2.5的超级视觉、Visual Coding、Agent Swarm等核心功能，解析其如何以开源姿态重构大模型竞争格局。

在Gemini 3发布后，我很早就说过，我们急需要一个强力的基模。

现在，似乎有答案了。刚刚，Kimi发布并开源了全新的基座模型K2.5，文字/图片/视频理解能力Max。

K2.5模型在huggingface上开源

感觉Kimi这次，是带着大杀器倾巢而来。

我赶紧体验了一番，先说结论：这可能是目前最强的开源视觉Agentic模型。特别是前端方面，直追Gemini 3 Pro。

01 快速了解K2.5

简单介绍一下这个模型。

K2.5最大的特点是全能：

原生的多模态架构：天生具备视觉能力，理解图片、视频就像读文字一样自然。
超全的能力&性价比：K2.5同步提供快速版、思考版、Agent版和Agent集群。

基于K2.5，Kimi带来了全新的体验：

1）超级视觉

不仅能看，更能推理，具备Visual Reasoning和Agentic Tool Call。

256k上下文，能吃得下2小时长视频 /100MB文件，支持视觉版“大海捞针”。

2）Visual Coding

支持Image/Video to Code，所见即所得。

上传一张图片或视频（＜100MB），Kimi能秒懂你的意图，像素级复刻一个网页。

比如，复刻一个交互超级牛逼的网站。

3）Agent Swarm

Agent集群，能同时调度多个Agent协作，可一口气独立完成1500+步骤。

比如，帮我们一次性调研100家上市公司，一次下载100篇学术论文，生成100张素材图。

4）Office Agent

Office三件套全新升级，可以帮助用户直接交付准专业水平的办公文档。

5）Kimi Code

以上所有功能，现在已可以在kimi.com直接体验。

同步，Kimi还推出了全新的编程工具：Kimi Code。

Kimi Code不仅能在终端里直接运行，也能无缝集成到VSCode、Cursor、JetBrains和Zed等主流编辑器中。

体验地址：www.kimi.com/code

01 一手实测

K2.5上线后，我也赶紧体验了一番。

1）前端复刻

之前，Gemini 3 Pro的前端复刻，被很多人玩坏了。

我用K2.5，也来试一下。

给《流浪地球》的行星发动机做一个动画演示网页。

参考这张图片设计一个教学演示网页。

复刻这个网页，让眼珠子跟着鼠标移动。

复刻OpenAI News。

复刻Moonshot官网。

更有意思的是，K2.5支持视频复刻。可以把你喜欢的APP录屏，然后发给K2.5，让它设计一个类似的产品。

体验下来，前端这块，我觉得K2.5和Gemini 3 Pro已经没什么区别了。顶级审美，顶级动效，以及顶级的视觉理解能力。

2）网站开发

体验完前端，我们来让它做一个真正的网站。

上周，北京不是下雪了，我找了一张故宫雪景的图片，打开K2.5 Agent模式，让它帮我设计一个网站。

它会自己理解这张图的美学意境，包括设计元素、视觉效果等。

然后，调用Agent给我们进行开发，并部署上线。

给大家看下最终的成品（一次输出，没有抽卡）。

特别是1-3屏，这排版、布局和交互真的太棒了，这就是我们的东方美学。

让它复刻网站wodniack.dev，完成效果非常nice，超级酷炫。

也可以做汉堡的分层拆解动画。

3）批量work

如果说前面的体验，大家觉得“嗯，好像还不错”。

那Agent Swarm（Agent集群），相信我，你一定会被这个功能给惊讶到的。

体验地址：https://www.kimi.com/agent-swarm

最近，不是全民都在学Skills嘛，那我想让「Agent集群」帮我整理50个高Star的Skills，于是就问它：

帮我从GitHub上搜集50个热门的Claude Code Skills，按照Star数从高到低排列。

初次体验，会提示消耗3次Agent额度。想象这个工程量，只消耗3次额度似乎还是很划算的，让它继续干吧。

然后，它就招来了3个助手帮我干活。每个助手的工作内容，各不相同。

活干到一半，只收集到39个skills，还没完成。kimi又继续拉了小北、海明威两位替补助手，继续给我干活。

最终，集齐了50个skills，一次性给到了我。

不得不说，这个“批量work”的效果太赞了，就是速度有点慢（大部分时间因为耗在GitHub访问失败的地方）。

不过没关系，它是在K2.5 Agent自己的后台运行。在Agent工作期间，我完全可以去做其他事情，等有结果了再来验收。

所以，我又用它跑了一些其他的case。

比如，我让它用我头像做一系列连续性的打斗动画。

批量下载论文。

召集专家建言献策，如何让1岁孩子上北大。

以及，批量生图。

不得不说，Kimi这次是真的把并发拉满了。

从K1.5卷长度，到K2卷深度思考，再到今天K2.5卷并发。每次新模型的发布，Kimi都总能给我们新的答案，而且一次比一次猛。

并发拉满，考验的不只是模型本身，而是工程、调度、成本、稳定性的一整套系统能力。

这次Kimi能够把这个产品做出来，是真的。

4）视觉理解与推理

最后，我们考验一下模型基本的视觉理解和推理能力。

随手拍了张照片（图中大楼标志已被抹除），问问它这是哪里。

没错，这里是北京的京东科技大厦，Kimi正是在这里办公。

又问了一张图，这是什么雪山，推测一下我拍摄时的海拔高度。

非常准确，玉龙雪山，海拔9,000-11,000米。

接着，我又问了一个问题。

其实，一开始我都不抱希望。

但是看到结果，有点被惊讶到了。除了航线外（实际为“四川成都-云南芒市”），它差一点就全部推理出了。

给大家看下真实的Exif信息。

K2.5也能做这样的行测题，反正我是看不懂。

实测下来，像推理地理位置、楼层高度、人物身高、作品名称这些，K2.5基本能猜个八九不离十，当然还做不到100%的准确。

但如果拿来分析一些股票图、科研图、行测题、Puzzle题、几何题等，基本都能得到靠谱的答案，准确率很高。

03 写在最后

所以，整个体验下来，才会有了开篇那句话“感觉Kimi这次是带着大杀器倾巢而来。”

K2.5快速、K2.5思考、K2.5 Agent、K2.5 Agent集群，以及新上线的office三件套、Kimi Code，量大管饱，应有尽有。

这种“倾巢而来”并非杂乱无章的堆料，而是生态级的All IN，且诚意满满。

快速版负责效率（日常够用），思考版兜底复杂问题，Agent负责把模型能力变成生产力，Agent集群则专门解决规模化问题……

很高兴，今天终于能够有国产模型在多模态理解和Coding能力上追平海外顶尖模型。

而且还是开源的。

正是，潮平两岸阔，风正一帆悬。

本文由人人都是产品经理作者【沃垠AI】，微信公众号：【沃垠AI】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

沃垠AI

努力分享一些好玩、有用的AI干货。首发同名公众号。

36篇作品 112956总阅读量

“苹果定律”失效，2023是VR的劫点还是拐点？

11-132177 浏览

“苹果定律”失效，2023是VR的劫点还是拐点？

东方甄选要做一盘怎样的生意

08-092399 浏览

东方甄选要做一盘怎样的生意

解密设计赋能：从重要性到实际应用的全面探析

08-295432 浏览

解密设计赋能：从重要性到实际应用的全面探析

如果你提的需求，技术同学“百般推诿”怎么办？

03-1011316 浏览

如果你提的需求，技术同学“百般推诿”怎么办？

小红书爆文应该这样写

07-2512252 浏览

小红书爆文应该这样写

评论

目前还没评论，等你发挥！

我用了1个月，深度拆解了这款物流与供应链aPaaS产品，收获满满！

08-1411313 浏览
如果你提的需求，技术同学“百般推诿”怎么办？

03-1011316 浏览
如何打造深入人心的品牌识别？

07-0810025 浏览