实测K2.5,第一次有国产模型对齐Gemini 3

0 评论 226 浏览 0 收藏 14 分钟

Kimi K2.5的发布标志着国产大模型在多模态能力上首次实现对Gemini 3的全面追赶。这款原生多模态架构的模型在视觉理解、代码生成和Agent集群调度上展现出惊人实力,从网页复刻到批量任务处理,实测表现直逼行业顶尖水平。本文通过深度体验K2.5的超级视觉、Visual Coding、Agent Swarm等核心功能,解析其如何以开源姿态重构大模型竞争格局。

在Gemini 3发布后,我很早就说过,我们急需要一个强力的基模。

现在,似乎有答案了。刚刚,Kimi发布并开源了全新的基座模型K2.5,文字/图片/视频理解能力Max。

K2.5模型在huggingface上开源

感觉Kimi这次,是带着大杀器倾巢而来。

我赶紧体验了一番,先说结论:这可能是目前最强的开源视觉Agentic模型。特别是前端方面,直追Gemini 3 Pro。

01 快速了解K2.5

简单介绍一下这个模型。

K2.5最大的特点是全能:

  • 原生的多模态架构:天生具备视觉能力,理解图片、视频就像读文字一样自然。
  • 超全的能力&性价比:K2.5同步提供快速版、思考版、Agent版和Agent集群。

基于K2.5,Kimi带来了全新的体验:

1)超级视觉

不仅能看,更能推理,具备Visual Reasoning和Agentic Tool Call。

256k上下文,能吃得下2小时长视频 /100MB文件,支持视觉版“大海捞针”。

2)Visual Coding

支持Image/Video to Code,所见即所得。

上传一张图片或视频(<100MB),Kimi能秒懂你的意图,像素级复刻一个网页。

比如,复刻一个交互超级牛逼的网站。

3)Agent Swarm

Agent集群,能同时调度多个Agent协作,可一口气独立完成1500+步骤。

比如,帮我们一次性调研100家上市公司,一次下载100篇学术论文,生成100张素材图。

4)Office Agent

Office三件套全新升级,可以帮助用户直接交付准专业水平的办公文档。

5)Kimi Code

以上所有功能,现在已可以在kimi.com直接体验。

同步,Kimi还推出了全新的编程工具:Kimi Code。

Kimi Code不仅能在终端里直接运行,也能无缝集成到VSCode、Cursor、JetBrains和Zed等主流编辑器中。

体验地址:www.kimi.com/code

01 一手实测

K2.5上线后,我也赶紧体验了一番。

1)前端复刻

之前,Gemini 3 Pro的前端复刻,被很多人玩坏了。

我用K2.5,也来试一下。

给《流浪地球》的行星发动机做一个动画演示网页。

参考这张图片设计一个教学演示网页。

复刻这个网页,让眼珠子跟着鼠标移动。

复刻OpenAI News。

复刻Moonshot官网。

更有意思的是,K2.5支持视频复刻。可以把你喜欢的APP录屏,然后发给K2.5,让它设计一个类似的产品。

体验下来,前端这块,我觉得K2.5和Gemini 3 Pro已经没什么区别了。顶级审美,顶级动效,以及顶级的视觉理解能力。

2)网站开发

体验完前端,我们来让它做一个真正的网站。

上周,北京不是下雪了,我找了一张故宫雪景的图片,打开K2.5 Agent模式,让它帮我设计一个网站。

它会自己理解这张图的美学意境,包括设计元素、视觉效果等。

然后,调用Agent给我们进行开发,并部署上线。

给大家看下最终的成品(一次输出,没有抽卡)。

特别是1-3屏,这排版、布局和交互真的太棒了,这就是我们的东方美学。

让它复刻网站wodniack.dev,完成效果非常nice,超级酷炫。

也可以做汉堡的分层拆解动画。

3)批量work

如果说前面的体验,大家觉得“嗯,好像还不错”。

那Agent Swarm(Agent集群),相信我,你一定会被这个功能给惊讶到的。

体验地址:https://www.kimi.com/agent-swarm

最近,不是全民都在学Skills嘛,那我想让「Agent集群」帮我整理50个高Star的Skills,于是就问它:

帮我从GitHub上搜集50个热门的Claude Code Skills,按照Star数从高到低排列。

初次体验,会提示消耗3次Agent额度。想象这个工程量,只消耗3次额度似乎还是很划算的,让它继续干吧。

然后,它就招来了3个助手帮我干活。每个助手的工作内容,各不相同。

活干到一半,只收集到39个skills,还没完成。kimi又继续拉了小北、海明威两位替补助手,继续给我干活。

最终,集齐了50个skills,一次性给到了我。

不得不说,这个“批量work”的效果太赞了,就是速度有点慢(大部分时间因为耗在GitHub访问失败的地方)。

不过没关系,它是在K2.5 Agent自己的后台运行。在Agent工作期间,我完全可以去做其他事情,等有结果了再来验收。

所以,我又用它跑了一些其他的case。

比如,我让它用我头像做一系列连续性的打斗动画。

批量下载论文。

召集专家建言献策,如何让1岁孩子上北大。

以及,批量生图。

不得不说,Kimi这次是真的把并发拉满了。

从K1.5卷长度,到K2卷深度思考,再到今天K2.5卷并发。每次新模型的发布,Kimi都总能给我们新的答案,而且一次比一次猛。

并发拉满,考验的不只是模型本身,而是工程、调度、成本、稳定性的一整套系统能力。

这次Kimi能够把这个产品做出来,是真的。

4)视觉理解与推理

最后,我们考验一下模型基本的视觉理解和推理能力。

随手拍了张照片(图中大楼标志已被抹除),问问它这是哪里。

没错,这里是北京的京东科技大厦,Kimi正是在这里办公。

又问了一张图,这是什么雪山,推测一下我拍摄时的海拔高度。

非常准确,玉龙雪山,海拔9,000-11,000米。

接着,我又问了一个问题。

其实,一开始我都不抱希望。

但是看到结果,有点被惊讶到了。除了航线外(实际为“四川成都-云南芒市”),它差一点就全部推理出了。

给大家看下真实的Exif信息。

K2.5也能做这样的行测题,反正我是看不懂。

实测下来,像推理地理位置、楼层高度、人物身高、作品名称这些,K2.5基本能猜个八九不离十,当然还做不到100%的准确。

但如果拿来分析一些股票图、科研图、行测题、Puzzle题、几何题等,基本都能得到靠谱的答案,准确率很高。

03 写在最后

所以,整个体验下来,才会有了开篇那句话“感觉Kimi这次是带着大杀器倾巢而来。”

K2.5快速、K2.5思考、K2.5 Agent、K2.5 Agent集群,以及新上线的office三件套、Kimi Code,量大管饱,应有尽有。

这种“倾巢而来”并非杂乱无章的堆料,而是生态级的All IN,且诚意满满。

快速版负责效率(日常够用),思考版兜底复杂问题,Agent负责把模型能力变成生产力,Agent集群则专门解决规模化问题……

很高兴,今天终于能够有国产模型在多模态理解和Coding能力上追平海外顶尖模型。

而且还是开源的。

正是,潮平两岸阔,风正一帆悬。

本文由人人都是产品经理作者【沃垠AI】,微信公众号:【沃垠AI】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!