DeepSeek不想只做大模型了

0 评论 340 浏览 0 收藏 22 分钟

DeepSeek V4的发布不仅是技术参数的升级,更是国产算力与AI产业深度融合的信号。在1.6万亿参数、百万token上下文的性能背后,最值得玩味的是定价说明中关于昇腾950的那行小字——它揭示了模型公司正在将价格战与国产芯片的供给节奏深度绑定。本文将从技术路径、算力博弈与商业压力三个维度,拆解这场正在改写中国AI产业规则的暗线战争。

DeepSeek V4发布后,最值得看的不是跑分,而是价格表下面一行小字。

在V4的定价说明中,DeepSeek提到,受限于高端算力,目前Pro版服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。

这句话比很多技术参数更有信息量。它说明DeepSeek的低价已经不再只是模型工程优化的结果,而开始和国产算力的供给节奏绑定。过去,模型公司降价,外界通常理解为算法效率提升、厂商补贴或新一轮价格战。但这一次,DeepSeek把未来降价的前提,直接指向了昇腾950超节点的规模化部署。

这也是V4这次发布真正不同的地方。表面上,它是一次常规模型升级:1.6万亿参数、100万token上下文、更强的代码和Agent能力、更低的API价格。但往深处看,它更像是梁文锋在同时回答三道题:DeepSeek还能不能继续把模型做便宜;国产算力能不能进入前沿模型的关键路径;一个长期以技术理想主义示人的团队,能不能扛住融资、留人和商业化的压力。

过去一年,DeepSeek 改变了中国大模型行业的定价方式。V3和R1发布后,国内外模型厂商被迫重新计算API价格、训练成本和商业化路径。到了V4,问题变得更复杂。DeepSeek不只是继续降价,而是把降价的下一步,压到了国产算力的规模化部署上。在笔者看来,这意味着中国大模型的竞争正在从“谁的模型能力更强”,进入“谁能把模型、芯片、工程系统和商业组织连成闭环”的阶段。

01 DeepSeek把长上下文做便宜了

4月24日上午,DeepSeek宣布全新系列模型DeepSeek-V4预览版正式上线并同步开源。

这次不是单一模型,而是两个版本同时推出:DeepSeek-V4-Pro和DeepSeek-V4-Flash。根据 DeepSeek披露的信息,V4-Pro总参数为1.6万亿,激活参数490亿,定位高性能任务;V4-Flash 总参数2840亿,激活参数130亿,主打低成本和高吞吐。两款模型均采用MoE架构,也就是“混合专家模型”。

知名科技产业时评人彭德宇对笔者分析到:MoE的逻辑并不复杂。一个大模型内部可以有很多“专家”,但每次回答问题时,不需要所有专家同时工作,只调用最相关的一部分。这样既能做大模型容量,又不会让每一次调用都背上完整参数的算力负担。对用户来说,感知到的是模型更便宜、更快;对模型公司来说,关键是单位推理成本被压低。

V4的另一个变化,是把100万token上下文做成官方服务标配。这个能力对普通用户听起来有些抽象,但放到使用场景里就很直接:用户可以一次性让模型处理一整本书、一个较大的代码库、一份完整年报,或者一组复杂项目文档。过去,这类长文本处理通常是高端模型的附加能力,价格高、调用慢、显存压力大。在笔者看来,V4的重点不是第一个做到百万上下文,而是试图把百万上下文做成低成本基础能力。

企事界北京科技有限公司执行董事李睿对笔者说到:这也是V4这次最有实际意义的变化。百万上下文今天已经不是独家能力,Gemini、Qwen 等模型也已经做到这一量级。DeepSeek要回答的问题不是“能不能做到”,而是“做到之后,成本能不能撑住”。如果长上下文仍然昂贵,它只是少数高端用户的功能;如果成本被压下来,它才可能变成企业和开发者日常可用的基础设施。

一位大模型行业研究员对笔者表示:这背后解决的是大模型行业长期存在的一个矛盾:上下文越长,成本越高。传统模型要理解长文本,需要计算大量token之间的相互关系,文本越长,计算量和显存占用就越容易上升。DeepSeek V4没有硬扛这个问题,而是通过稀疏注意力和压缩机制,把长文本先压缩、再抓重点。换句话说,它不是让模型把所有内容从头到尾反复重读,而是先把内容整理成更浓缩的信息结构,再围绕重点做推理。

价格延续了DeepSeek一贯的打法。按照V4公布的API定价,Pro版输入缓存命中价格为1元/百万token,输出24元/百万token;Flash版输入缓存命中价格为0.2元/百万token,输出2元/百万token。梳理对比来看,目前智谱GLM-5.1输入缓存命中价格约为1.3-2元/百万token,Kimi-K2.6输入缓存命中价格约为1.1元/百万token。也就是说,V4的输入价格仍然处在国内主流模型低位。

在笔者看来,这次真正值得注意的是,低价和长上下文被放到了一起。百万上下文不是一个孤立参数,它决定了模型能否进入更重的工作流。代码、金融、法律、科研、企业知识库,这些场景都需要模型读长材料、处理复杂结构、保留上下文。

V4的能力变化也围绕这些场景展开。DeepSeek披露的评测信息显示,V4-Pro在数学、STEM、竞赛型代码等任务中超过多数公开评测中的开源模型;在Agentic Coding上进入开源模型第一梯队,并被DeepSeek内部作为工程团队编码工具使用。它还针对 Claude Code、OpenClaw、CodeBuddy 等主流Agent工具做了适配,在代码生成、文档处理和工具调用场景中优化表现。

但这并不意味着V4已经全面拉开差距。企业战略定位专家吴玉兴如此对笔者分析:V4的性能突破相比R1当时带来的冲击要小一些。它依然处于第一梯队,但在部分复杂Agent任务和最广泛的世界知识上,与最顶尖闭源模型仍有差距。

V4的看点不是“全面碾压”,而是以较低价格提供足够强的长上下文和生产任务能力。这才是 DeepSeek V4 的第一层意义:它把高性能模型的使用门槛继续往下压。但更重要的是,DeepSeek 开始解释这套低价还能靠什么继续维持,答案指向了国产算力。

02 便宜的下一步,指向国产算力

V4最关键的点,不在参数表,而在那句关于昇腾950的说明。

DeepSeek在定价说明中明确提到,受限于高端算力,目前Pro版服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。一个模型公司把未来降价和某一类算力集群的上市节奏直接绑定,这在行业里并不常见。它说明模型价格开始被算力结构决定。

过去DeepSeek便宜,更多被理解为模型架构和工程效率的胜利。V2用MoE降低激活参数规模;R1用更高效的训练和推理路线冲击行业对算力堆叠的依赖;那么V3则以极致成本控制与工程优化,瓦解了通用大模型的传统定价逻辑。V3和R1之后,国内大模型被迫进入新一轮价格重估。但V4的不同之处在于,DeepSeek开始把低价的下一步,放到国产算力的规模化部署上。

根据DeepSeek技术报告,V4在系统底层做了细粒度专家并行,也就是EP方案。用通俗的话说,就是优化模型在芯片上的调度方式,让计算和通信像流水线一样重叠起来,减少芯片等待时间。同样一批芯片,如果能处理更多请求,单位推理成本自然会下降。

技术报告提到,这套EP方案已经在英伟达GPU和华为昇腾NPU两套体系上完成验证,通用推理任务可实现1.5-1.73倍加速,在对延迟敏感的场景(如RL推演和高速代理服务)最高可达1.96倍。华为昇腾方面也在V4发布后宣布,超节点全系列产品支持DeepSeek V4系列模型,据了解,昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理部署。

彭德宇对笔者说到:这组信息的意义不只是“推理更快”。它意味着 DeepSeek的工程优化开始具备跨平台能力。过去,大模型公司大多围绕英伟达CUDA体系开发。CUDA不只是一个编程工具,更像AI时代的底层操作系统。全球大量开发者、算子库、框架和模型代码都围绕CUDA构建,一旦离开这个体系,很多底层代码需要重写,工程成本和测试成本都很高。这也是英伟达真正的护城河。

DeepSeek现在做的,不是马上推翻CUDA,而是尝试给自己留出第二条路。综合媒体报道信息来看,DeepSeek通过TileLang、Tile Kernels等方式,把部分底层算子逻辑从单一CUDA路径中抽象出来,用更通用的语言表达计算逻辑,再由编译器生成适配不同硬件的底层代码。这样一来,开发者不必为每一种GPU或NPU完全重写一套代码,而可以先写通用逻辑,再针对具体硬件做优化。

这对国产芯片很重要。国产AI芯片过去面临的不只是纸面算力问题,更是软件生态和有效利用率问题。芯片能不能用好,取决于模型、算子、编译器、通信、显存管理等多个环节。DeepSeek如果能在华为昇腾上跑通前沿模型,并把推理成本打下来,它带来的不只是一个模型的适配案例,而是一次软硬件协同的技术验证。

但DeepSeek并没有马上摆脱英伟达,短期内,CUDA仍然是最成熟、最稳定的路径。V4释放出的信号是,国产算力已经开始进入DeepSeek的关键成本结构,并在一定程度上影响未来定价。它还没有推翻CUDA,但它让CUDA不再显得完全不可替代。

这正是黄仁勋担心的地方。英伟达创始人黄仁勋近期在接受Dwarkesh Patel专访时曾表示,如果DeepSeek先在华为平台上发布,对美国而言将是灾难性的。李睿指出,这个判断并不是因为DeepSeek某一项跑分超过了谁,而是因为一旦顶级开源模型能够在非英伟达体系上稳定运行,开发者就有可能开始改变习惯。模型足够好,价格足够低,工具链逐渐成熟,迁移就不再只是政治选择或供应链选择,而会变成商业选择。

所以,V4的第二层意义,是DeepSeek的低价逻辑正在从“模型优化驱动”,转向“模型优化+算力体系驱动”。过去,大模型价格主要由算法效率、训练成本和厂商补贴决定;现在,价格开始和芯片供给、超节点部署、软硬件协同效率绑定。对DeepSeek来说,这是一条通向更低成本的路;对英伟达来说,这是一道暂时不大、但必须警惕的裂缝。

只是,软硬件协同不是轻资产生意。模型越深地嵌入芯片和基础设施,DeepSeek要承担的成本、组织压力和商业化压力也越大。

03 DeepSeek开始变重

这也是为什么,V4发布前后,梁文锋开始接触外部融资的消息显得同样重要。

据新浪科技报道,近期DeepSeek还曝出了计划融资500亿元的消息,有接近DeepSeek的知情人士透露,DeepSeek融前估值为3000亿元,约合440亿美元,目前腾讯控股、阿里巴巴集团均正在洽谈投资DeepSeek。不过,对于融资相关事宜,DeepSeek方面至今未正面回应媒体问询。

具体估值不是最重要的。关键的是DeepSeek开始打开外部融资窗口。这意味着它面对的竞争已经不只是模型能力,而是延伸到了算力投入、人才稳定、员工激励和商业化能力。

这件事重要不在于投资数额是不是一个足够大的数字。放在今天的AI融资市场里,它并不夸张。重要的是开口融资的人是梁文锋。DeepSeek此前长期被视为一家少见的技术理想主义公司,背后有幻方量化支持,不急着拿外部资本,也不急着讲商业故事。现在它开始接触外部融资,说明V4之后的竞争形态变重了也有压力了:算力基础设施、人才激励和商业化落地,都需要比过去更稳定的资本安排。

第一重压力来自算力。V4越往国产算力深处走,越需要基础设施投入。模型参数从千亿级走向万亿级,训练和推理成本都会抬升。如果还要围绕昇腾体系做更多适配、调优和部署,DeepSeek就不能只是一家轻资产模型公司。当前DeepSeek已经在内蒙古乌兰察布招聘数据中心运维工程师,这是其首次招聘直接负责计算基础设施运营的人才,这也被外界视为其向更重的算力基础设施方向移动的信号。

第二重压力来自人才。多家媒体报道显示,目前从DeepSeek确认离开的核心技术大牛已有5位,流向字节、腾讯、小米、元戎启行等公司,涉及基座模型、推理强化学习、多模态和OCR等方向。其中,郭达雅(DeepSeek R1核心作者)被报道加入字节Seed团队;王炳宣(DeepSeek LLM核心作者)加入腾讯混元;阮翀(深度参与DeepSeek-VL、VL2、Janus系列等多模态模型的研发)加入元戎启行;罗福莉(DeepSeek-V2的关键开发者之一,也是MLA技术的核心贡献者)加入小米;魏浩然(DeepSeek OCR系列核心作者)的去向尚未公开。

对一家总共不到200人的公司来说,这类流动不是普通人员变化。媒体报道称,DeepSeek核心研发团队约100多人,几乎不社招,主要依靠应届生和实习生留任。在这样的团队里,一个核心研究员离开,可能影响的不是一个岗位,而是一条技术线的连续性。

这并不意味着DeepSeek的组织不好。相反,外界对DeepSeek的长期印象,正是它有一套大厂很难复制的组织方式:不打卡、不设 KPI,研究员可以自由组队,也可以独自钻研新想法。这种组织方式适合早期技术突破,也解释了为什么DeepSeek能在过去几年不断做出反常识的工程创新。但当行业进入更重的阶段,问题就变了。顶级人才不只看工作自由度,也看技术方向、资源投入和落地场景。大厂能同时给钱、算力、产品场景和更大的团队。

第三重压力来自商业化。V4发布前,DeepSeek App已在4月8日改版,上线支持复杂推理的“专家模式”和处理简单任务的“快速模式”。随着V4发布,外界才知道,专家模式对应的是1.6万亿参数的 V4-Pro,快速模式对应的是2840亿参数的V4-Flash。这个变化说明,DeepSeek 不再只是把模型放出来让开发者使用,而是在开始打磨面向用户的产品分层。

彭德宇指出,这与开源路线之间存在天然张力。开源可以快速建立技术声量,也能让开发者和生态伙伴更快复用DeepSeek 的路线。但开源通常意味着更薄的利润空间,更高的成本敏感度。OpenAI、Anthropic 这类闭源公司可以通过订阅、API、企业服务建立更直接的商业闭环;谷歌、亚马逊、微软可以把模型成本消化在云计算和生态体系里。DeepSeek没有这些现成的商业缓冲层。如果它要继续坚持低价、开源和前沿模型研发,就必须找到新的资金、算力和商业化支撑。

李睿表示,所以,V4发布和融资不是两件独立的事。V4是梁文锋交给市场的答卷,证明DeepSeek仍然能做出强模型、低价格,并把国产算力推到关键路径上。融资则是他交给团队的答卷,给算力投入、员工期权、人才稳定和商业化探索留出缓冲。

吴玉兴进一步说到,这里也有一个更现实的悖论。融资可以解决股权定价,可以缓解算力压力,也可以让公司在人才争夺中更有筹码。但融资解决不了全部问题。DeepSeek过去最稀缺的不是钱,而是那种愿意长期押注底层技术、愿意绕开主流路径做工程创新的组织气质。一旦资本、商业化和大厂人才战同时进入,DeepSeek要守住的不只是模型领先,也包括自己原来的技术路线和组织文化。

在笔者看来,这也是V4真正暴露出来的深层问题。它证明中国大模型已经有能力在模型能力、推理价格和国产算力适配上同时向前走一步;但它也证明,大模型竞争已经不再是少数天才写出更好算法的比赛。下一阶段拼的是算力基础设施、工程系统、产品转化、融资能力和人才密度。

梁文锋这一次把牌押向了国产算力。V4让DeepSeek继续站在行业中心,也让外界看到CUDA生态并非完全不可撼动。但更难的题才刚开始:当模型越来越重、人才越来越贵、商业化越来越急,DeepSeek能不能在成为一家更重的AI基础设施公司之后,仍然保持过去那种改变规则的能力。

本文由 @高恒说 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!