DeepSeek V4终于来了!我们知道些什么?

0 评论 348 浏览 0 收藏 10 分钟

DeepSeek V4预览版终于发布,战略聚焦Agent能力提升,但评测显示与Claude Opus仍有差距。1M上下文窗口与低价Token策略带来生产力潜力,回答风格偏干可能影响C端市场。技术文档隐藏训练硬件细节,引发昇腾适配猜测。开源特性将加速产业验证,腾讯或成最大受益方。

万众期待的DeepSeek V4预览版终于在北京时间4月24日上午发布了。此前,媒体和分析师曾反复预测V4即将发布,并已经多次预测失败,这一次终于成功了。由于模型发布时间还太短,第三方和客户评测还在紧锣密鼓的进行中,现在的有效信息其实很少。不过,通过技术文档和海外AI社区的初步讨论,我们还是能得到一些情报的。

首先,V4的战略方向是提高Agent能力,这与OpenClaw发布以来的世界潮流相符。“全民养龙虾”的浪潮,给MiniMax, Kimi和智谱等国产大模型厂商带来了巨大的Token增量,但最重要、最专业的增量被Claude吃掉了。Agent能力与编程能力是密不可分的,Claude Code至今仍是全球最强大的AI编程工具(没有之一),GPT-Codex也无法撼动其地位。DeepSeek官方公告在开头最显眼的部分宣称“Agent能力大幅提高”,但也承认“(据评测反馈)仍与Opus 4.6思考模式存在一定差距”。

在海外AI社区,一部分用户十分兴奋,期待DeepSeek成为“Claude杀手”——但公允的说,这只是一种美好愿望,毕竟很多人都很痛恨Claude及其开发商Anthropic,“天下苦Anthropic久矣”。从目前的测试数据看,V4的Token性价比很高,但是Agent Benchmark指标并没有超过Claude Opus-4.6和GPT-5.4。需要注意的是,Benchmark分数只有参考意义,关键还是实际用户体验,Claude在许多Benchmark测试当中并不优于GPT和Gemini,但并不妨碍它在Agent领域几乎一枝独秀。因此,我非常关心接下来一段时间,专业用户使用DeepSeek进行Agent操作的实际反馈。

上下文窗口扩展到1M是一个重要提升,与较低的Token定价结合起来,可能创造较高的生产力。不过,我们仍需要等待专业客户执行复杂任务之后的实际反馈,至少还得等两三天。

我猜测:DeepSeek从传说中的“1月/2月发布”一直拖到今天发布,实际原因可能是打磨Agent能力,因为龙虾这波增量超出了所有人的预期。与其发布一个跟不上现实Agentic Workflow需求的大模型,还不如在等几个月,发布一个完全符合现实需求的大模型。当然这只是我的个人猜测,没有实证。

其次,最初一波海外客户使用反馈,在执行“非深度推理、非数学、非代码”任务,例如头脑风暴和文艺创作时,V4给人的感觉“太干”(dry),“过于正式”,落后于Claude和GPT的最新版本,甚至有人认为落后于GPT-5.2。需要强调的是,这些零碎的主观感受代表不了什么,文艺创作任务也并非V4的主要发力方向。不过,这有可能对消费端用户的倾向造成微妙的影响,从而扰动目前互联网大厂对C端AI应用市场的争夺战。

假设V4的回答真的“太干”“太正式”,有可能是对于V3/R1幻觉率较高问题的一种解决,因为自由发挥几乎一定意味着幻觉率提升,而限制幻觉率几乎一定会让回答“更干”。当然这只是猜测,期待更多更广泛的测试结果。

第三,也是很多人最关心的:DeepSeek V4技术文件披露了很多训练细节,但是不包括训练硬件(显卡)。整份技术文件当中,仅仅提到“华为”(Huawei)一次,提到“英伟达”(Nvidia)三次(不含脚注);提到“GPU”十四次(不含脚注),但都没有提到是什么型号的GPU,仅有一次例外——”We validated the fine-grained EP scheme on both NVIDIA GPUs and Huawei NPUs platforms. 但这只是表示测试环境,不代表训练场景(注:这也是唯一一次提到华为昇腾NPU)。

因此,我们仍不知道DeepSeek究竟是在什么硬件上训练出来的。技术文件中有几次提到了CUDA,但也不能据此得出完全基于英伟达架构的结论。是否像某些分析师预期的那样,“基于英伟达和华为昇腾混合架构进行训练”,或者“在后训练环节对昇腾进行了专门优化”?遗憾的是,虽然一切皆有可能,但是DeepSeek官方既无认可、也无否认。相比之下,V3技术文件在一开始就宣布是由英伟达H800和A100训练出来的。

图片由Google Nano Banana Pro制作

有人根据DeepSeek公告中“预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调”,得出了“V4针对昇腾做了深度优化”,甚至“从1月推迟发布至今就是为了适配昇腾”的结论。虽然不能完全排除这种可能性,但不得不说,这种思维过于跳跃。这只能说明DeepSeek官方会采购或租用一批昇腾算力,并对昇腾推理进行过一些优化(这是很正常的),至于优化程度多深、乃至是否为了适配昇腾而多次推出发布,均还没有任何实证支持。

不过,要间接证明或证伪也不难。V4是开源的,从今天起,会有无数厂商用自己的算力运行推理。假设它确实是基于昇腾训练出来的,或者为昇腾做过深度优化,那么可以推断——它在昇腾硬件上的推理效率,应该高于在英伟达等其他硬件上的推理效率,或至少处于同一量级。又或者,昇腾硬件能够促使V4达到某种独特的性能,而其他硬件做不到。只需要关注一下新闻即可轻松了解实际情况(如果没看到新闻则代表证伪了)。

最后是对产业界的影响。除了DeepSeek自己,最期待V4发布并震惊世界的,大概就是腾讯了。昨天混元3.0大模型预览版刚刚发布,结果其光芒完全被今天的DeepSeek V4遮住了。我还没有机会全面试用混元3.0,但是考虑到此前腾讯在基座大模型方面的落后程度非常大,想用一个版本就达到世界先进水平,似乎不太可能。

因此,腾讯要做好AI生意,不管是做好To B生意(尤其是卖Token的MaaS生意)还是To C生意,恐怕还是要依赖高质量的第三方开源大模型。国内水平最高、使用人数最多的开源大模型是Qwen,那是老对手阿里的,腾讯显然不太愿意用。那就只有依靠DeepSeek,以及几天之前才发过新版本的Kimi了。如果DeepSeek真的开放融资,腾讯一定会不惜代价投进去。V4越成功,就越能让腾讯争取到更多时间,一边争取把自己做成“国产开源生态”的一个集合平台,另一边竭尽全力把自研大模型实力赶上来。

我想,现在最期待V4在用户测试当中传来捷报的,应该是腾讯的投资人和管理层。幸运的是,从最初期的一波反馈看,似乎还不错,海外社区的评价偏向积极一面。但确实还需要更多信息,而且仅仅“偏向积极”是不够的,最好是“十分积极”——我们恐怕还得等上一个星期才能确认。

本文由 @不蓝灯 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!