DeepSeek「开眼」了,但你可能想多了

0 评论 88 浏览 1 收藏 10 分钟

DeepSeek 识图模式的灰度测试悄然上线,虽非外界期待的原生多模态,却在基础视觉理解上展现了不俗实力。从 OCR 提取到文化背景推理,这款产品的视觉模块正试图在巨头林立的 AI 战场突围。当字节、阿里、Kimi 纷纷亮出多模态王牌时,DeepSeek 能否凭借性价比优势后发制人?

先给结论:DeepSeek识图模式来了,能用,但跟你们期待的多模态不是一回事。

4月29日下午,陈小康在X上发了这么一条:”Now, we see you.” 配图是两只鲸鱼logo,一只还戴着海盗眼罩,一只已经睁开了眼睛。

我看到那一刻,第一反应:这营销做得有点秀。

(这句话是AI说的,别骂我…)

但有意思的是,这是他24小时内第二次发类似内容。前一天他发过”Soon, we see you.”发完很快就删掉了。一删一发,很明显在等一个时机。果然,和这条推文几乎同步,已经有部分用户在DeepSeek官方App的输入栏上方,发现了第三个按钮:”识图模式”,标注”图片理解功能内测中”。

灰度测试,正式开始了。

1. 到底发了什么

这件事的时间节点很值得注意。

DeepSeek V4正式发布是4月24日,V4-Pro(1.6T参数)和V4-Flash(284B参数),都支持1M token上下文,都是纯文本模型。识图模式在V4发布的第5天就上了灰度,快得有点出乎意料。

但问题是,V4技术报告在”局限与未来方向”这节,白纸黑字写着:下一步工作之一是”将多模态能力融入模型体系”。

所以,识图模式跟V4是什么关系?从灰度体验的输出风格来判断,更接近是一个挂在V4主干上的视觉理解模块,而不是外界过去半年疯传的”原生多模态V4″。

说白了:视觉理解 ≠ 原生多模态生成。

那识图模式到底能用到什么程度?从已经被灰度到的用户实测来看,基础识图准确率挺高。

场景描述、OCR、文字提取,不开思考模式也能给出相当结构化的回答;开了思考模式,甚至能推断博物馆展品的文化背景,比如把一件玉器判断为”清代痕都斯坦风格”,也就是莫卧儿王国的工艺风格,这一步推理其实已经超出”看图说话”的范畴了。

但知识库的局限很明显。最新的产品、游戏、品牌,识不出来。让它看一张FM24战术图,认出来了;让它看一款2025年底发布的手机,判断错了;但居然通过副屏推断出了旧型号,这逻辑链还挺能打的。

复杂图形逻辑题,比较拉。让它数图里的老虎,数了三遍,每次数字不一样,最后给了个错的。

这类基于反色、碎块化的视觉推理,还是视觉模型的硬伤,DeepSeek也没逃过。

2. 带伤上阵的多模态团队

这次识图模式发布背后,有一个很多人没注意到的背景。

DeepSeek的多模态团队,过去大半年走了不少人。多模态核心贡献者阮翀,去了自动驾驶公司元戎启行,出任首席科学家;OCR系列核心作者魏浩然,春节前后离职;R1推理负责人郭达雅,以年薪亿元的价码去了字节跳动Seed团队;初代大模型核心作者王炳宣,也去了腾讯。

这四个人,刚好覆盖了DeepSeek最核心的四条技术主线:基座模型、推理、OCR、多模态。

V4技术报告近300人名单里,有10个名字被标注了”已离职”。

DeepSeek做了一件让很多人觉得有风骨的事:把离职的人也放进了致谢名单,注明贡献。有人说这是”AI界黄埔军校”,这个评价我不觉得过誉,但它背后也是一个真实的留人困境,大厂拿着2到3倍薪资和八位数总包,确实很难顶。

也正因为如此,陈小康这次连续两条推文才显得有点不寻常。这是DeepSeek多模态团队近三个月来,第一次以产品形式对外释放进展。

某种程度上,这是一次”我们还在”的宣示。

带伤打仗,我觉得,这才是DeepSeek现在的真实状态。

3. 行业没有等你

再说说外部压力。DeepSeek识图模式上灰度这一天,身边的竞争对手没有一个在歇着。

字节跳动的Doubao-Seed-2.0-Pro,在SuperCLUE-VLM最新评测里拿下总榜第一,90.66分,超过谷歌Gemini-3.1 Pro的89.35分。这是中文场景多模态评测的目前最高水位。

阿里在3月下旬发布了Qwen3.5-Omni,原生全模态架构,基于超过1亿小时音视频数据预训练,215项SOTA,官方说通用音频理解全面超越Gemini-3.1 Pro,而且宣称文本和视觉能力没有因为多模态而降智。

Kimi在4月底发布K2.6,多模态和Agent方向同时推进。

商汤的SenseNova U1也在同一周开源,单一框架整合多模态理解、推理和生成。

这个赛道,现在基本上是”王不见王,全都在同一周发”的状态。国产多模态,已经进入肉搏期。

有一个细节值得记住:豆包在2025年底的月活已经超过了DeepSeek。这说明纯文本能力再强,产品化落地和用户覆盖才是这一阶段真正拉开差距的事。识图模式的到来,是DeepSeek在补这块短板。

4. 性价比,才是真正的牌

DeepSeek在纯文本上能打赢,核心还是两件事:性能够用,价格足够低。V4-Pro的API价格已经是历史低点,这条逻辑有没有可能在多模态上复制?

如果能,它的影响可能比前几轮价格战来得更猛烈。现在多模态API的调用成本,对绝大多数开发者来说还是一道真实的门槛。如果DeepSeek能把视觉理解的API打到地板价,甚至再来一次那种”99%降价”的打法,这个市场格局就真的会变。

说实话,这才是我最想看到的那张牌。

Qwen3.5-Omni的能力很强,但如果DeepSeek的多模态API比它便宜十倍,开发者会怎么选?

写在最后

识图模式目前是灰度内测,还没有全量,很多人还看不到。

从现有能力判断,基础视觉理解已经可用,这是DeepSeek多模态路线产品化的第一步。但离”原生多模态”还有距离,V4技术报告里那句”下一步工作”,说的大概就是这件事。

陈小康那句”Now, we see you.”,我觉得是个双关。

一方面跟用户说:DeepSeek的眼睛,睁开了。另一方面,大概也是跟整个行业说:我们看到你们了,别以为我们不在。

但问题是,对手可没等你。

字节在追,阿里在赶,Kimi在超,个个都不是省油的灯。

DeepSeek这次补多模态,来得有点晚,人才也走了不少,但有一点没变:它还是那个最有可能把成本打穿的选手。

这对吗?说实话,我不知道。

但我知道,接下来几个月,一定会很好看。

本文由人人都是产品经理作者【沃垠AI】,微信公众号:【沃垠AI】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!