DeepSeek「开眼」了，但你可能想多了

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

DeepSeek「开眼」了，但你可能想多了

沃垠AI

2026-05-06

0 评论 88 浏览 1 收藏

10 分钟

DeepSeek 识图模式的灰度测试悄然上线，虽非外界期待的原生多模态，却在基础视觉理解上展现了不俗实力。从 OCR 提取到文化背景推理，这款产品的视觉模块正试图在巨头林立的 AI 战场突围。当字节、阿里、Kimi 纷纷亮出多模态王牌时，DeepSeek 能否凭借性价比优势后发制人？

先给结论：DeepSeek识图模式来了，能用，但跟你们期待的多模态不是一回事。

4月29日下午，陈小康在X上发了这么一条：”Now, we see you.” 配图是两只鲸鱼logo，一只还戴着海盗眼罩，一只已经睁开了眼睛。

我看到那一刻，第一反应：这营销做得有点秀。

（这句话是AI说的，别骂我…）

但有意思的是，这是他24小时内第二次发类似内容。前一天他发过”Soon, we see you.”发完很快就删掉了。一删一发，很明显在等一个时机。果然，和这条推文几乎同步，已经有部分用户在DeepSeek官方App的输入栏上方，发现了第三个按钮：”识图模式”，标注”图片理解功能内测中”。

灰度测试，正式开始了。

1. 到底发了什么

这件事的时间节点很值得注意。

DeepSeek V4正式发布是4月24日，V4-Pro（1.6T参数）和V4-Flash（284B参数），都支持1M token上下文，都是纯文本模型。识图模式在V4发布的第5天就上了灰度，快得有点出乎意料。

但问题是，V4技术报告在”局限与未来方向”这节，白纸黑字写着：下一步工作之一是”将多模态能力融入模型体系”。

所以，识图模式跟V4是什么关系？从灰度体验的输出风格来判断，更接近是一个挂在V4主干上的视觉理解模块，而不是外界过去半年疯传的”原生多模态V4″。

说白了：视觉理解 ≠ 原生多模态生成。

那识图模式到底能用到什么程度？从已经被灰度到的用户实测来看，基础识图准确率挺高。

场景描述、OCR、文字提取，不开思考模式也能给出相当结构化的回答；开了思考模式，甚至能推断博物馆展品的文化背景，比如把一件玉器判断为”清代痕都斯坦风格”，也就是莫卧儿王国的工艺风格，这一步推理其实已经超出”看图说话”的范畴了。

但知识库的局限很明显。最新的产品、游戏、品牌，识不出来。让它看一张FM24战术图，认出来了；让它看一款2025年底发布的手机，判断错了；但居然通过副屏推断出了旧型号，这逻辑链还挺能打的。

复杂图形逻辑题，比较拉。让它数图里的老虎，数了三遍，每次数字不一样，最后给了个错的。

这类基于反色、碎块化的视觉推理，还是视觉模型的硬伤，DeepSeek也没逃过。

2. 带伤上阵的多模态团队

这次识图模式发布背后，有一个很多人没注意到的背景。

DeepSeek的多模态团队，过去大半年走了不少人。多模态核心贡献者阮翀，去了自动驾驶公司元戎启行，出任首席科学家；OCR系列核心作者魏浩然，春节前后离职；R1推理负责人郭达雅，以年薪亿元的价码去了字节跳动Seed团队；初代大模型核心作者王炳宣，也去了腾讯。

这四个人，刚好覆盖了DeepSeek最核心的四条技术主线：基座模型、推理、OCR、多模态。

V4技术报告近300人名单里，有10个名字被标注了”已离职”。

DeepSeek做了一件让很多人觉得有风骨的事：把离职的人也放进了致谢名单，注明贡献。有人说这是”AI界黄埔军校”，这个评价我不觉得过誉，但它背后也是一个真实的留人困境，大厂拿着2到3倍薪资和八位数总包，确实很难顶。

也正因为如此，陈小康这次连续两条推文才显得有点不寻常。这是DeepSeek多模态团队近三个月来，第一次以产品形式对外释放进展。

某种程度上，这是一次”我们还在”的宣示。

带伤打仗，我觉得，这才是DeepSeek现在的真实状态。

3. 行业没有等你

再说说外部压力。DeepSeek识图模式上灰度这一天，身边的竞争对手没有一个在歇着。

字节跳动的Doubao-Seed-2.0-Pro，在SuperCLUE-VLM最新评测里拿下总榜第一，90.66分，超过谷歌Gemini-3.1 Pro的89.35分。这是中文场景多模态评测的目前最高水位。

阿里在3月下旬发布了Qwen3.5-Omni，原生全模态架构，基于超过1亿小时音视频数据预训练，215项SOTA，官方说通用音频理解全面超越Gemini-3.1 Pro，而且宣称文本和视觉能力没有因为多模态而降智。

Kimi在4月底发布K2.6，多模态和Agent方向同时推进。

商汤的SenseNova U1也在同一周开源，单一框架整合多模态理解、推理和生成。

这个赛道，现在基本上是”王不见王，全都在同一周发”的状态。国产多模态，已经进入肉搏期。

有一个细节值得记住：豆包在2025年底的月活已经超过了DeepSeek。这说明纯文本能力再强，产品化落地和用户覆盖才是这一阶段真正拉开差距的事。识图模式的到来，是DeepSeek在补这块短板。

4. 性价比，才是真正的牌

DeepSeek在纯文本上能打赢，核心还是两件事：性能够用，价格足够低。V4-Pro的API价格已经是历史低点，这条逻辑有没有可能在多模态上复制？

如果能，它的影响可能比前几轮价格战来得更猛烈。现在多模态API的调用成本，对绝大多数开发者来说还是一道真实的门槛。如果DeepSeek能把视觉理解的API打到地板价，甚至再来一次那种”99%降价”的打法，这个市场格局就真的会变。

说实话，这才是我最想看到的那张牌。

Qwen3.5-Omni的能力很强，但如果DeepSeek的多模态API比它便宜十倍，开发者会怎么选？

写在最后

识图模式目前是灰度内测，还没有全量，很多人还看不到。

从现有能力判断，基础视觉理解已经可用，这是DeepSeek多模态路线产品化的第一步。但离”原生多模态”还有距离，V4技术报告里那句”下一步工作”，说的大概就是这件事。

陈小康那句”Now, we see you.”，我觉得是个双关。

一方面跟用户说：DeepSeek的眼睛，睁开了。另一方面，大概也是跟整个行业说：我们看到你们了，别以为我们不在。

但问题是，对手可没等你。

字节在追，阿里在赶，Kimi在超，个个都不是省油的灯。

DeepSeek这次补多模态，来得有点晚，人才也走了不少，但有一点没变：它还是那个最有可能把成本打穿的选手。

这对吗？说实话，我不知道。

但我知道，接下来几个月，一定会很好看。

本文由人人都是产品经理作者【沃垠AI】，微信公众号：【沃垠AI】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

沃垠AI

努力分享一些好玩、有用的AI干货。首发同名公众号。

32篇作品 88990总阅读量

五一假期，别人去旅游，我摆摊卖烤肠

05-045879 浏览

小红书营销全攻略，从平台特性到营销技巧！

07-1216360 浏览

在小红书上，什么样的产品更受博主的欢迎？

09-282871 浏览

5年豪掷700亿：张一鸣为何“果断”放弃游戏｜万字解读

12-094700 浏览

细说产品路线图

12-068299 浏览

目前还没评论，等你发挥！