开源社区一个 “又强又便宜” 的大模型选择—DeepSeek-V3.2

0 评论 261 浏览 0 收藏 11 分钟

开源大模型与闭源顶尖产品的性能鸿沟如何填补?DeepSeek-V3.2携三大核心技术突破强势入场,其独创的高效注意力机制使长文本处理效率提升300%,强化学习框架让数学推理准确率接近Gemini-3.0-Pro水平,工具任务流水线更将复杂指令完成率提升55%。这场开源逆袭背后的技术逻辑与商业想象,正在重塑AI竞争格局。

目前大模型赛道竞争越来越激烈,尤其是开源和闭源竞争,世界上顶尖的大模型比如,GPT-5.2、Gemini-3.0-Pro等闭源大模型不断刷新上限,相较之下,国内的开源模型却与之差距越来越大。在此之下DeepSeek-V3.2,重磅来袭,为了解决 “开源模型性能不如闭源模型” 的问题,在计算效率、推理能力和工具使用能力上实现重大突破,帮助开源模型实现更进一步发展。

目前国内开源大模型(MiniMax、智谱的模型)和闭源的顶尖模型(比如 GPT-5、Gemini-3.0-Pro)差距越来越大,其原因主要因为三个“短板”,这些短板差距也跟用户体验上带来了明显差距:

首先是关于文本方向,国内开源大模型,处理长文本效率低:常用的 “普通注意力机制” 算起来太费资源,长文本场景跑不动,也没法高效训练;例如当企业需要分析一份的行业调研报告或数十万字的代码库时,不仅耗时很长而且中途会出现,上下文不一致,逻辑会乱,断层现象,关键信息没有在文中体现出来,导致分析的内容不能使用,还要自己再次复盘整理。而在法律文书审核、长篇学术论文深度分析等连贯性极高的需求之下,开源模型甚至无法完成完整任务,只能依赖闭源模型进行处理。开源模型低效的计算模式也让长文本场景的模型训练变得耿艰难,进一步加剧了与闭源模型的差距。

其次后续训练投入不够:模型预训练完后,“后续优化”(比如强化学习)的计算资源没给够,遇到难任务就拉胯;模型训练不仅需要前期进行预训练,还需要对后训练阶段,对模型进行优化,比如进行SFT微调模型,或者强化学习等等方式持续对模型优化训练,持续投入,但目前阶段国内开源模型,由于计算资源方面的原因对后训练阶段的投入精力比较少,只能算是“浅尝辄止”,导致在进行复杂推理过程中表现效果一般。比如在数学推理任务中,某开源模型在MATH500数据集上的正确率仅为36%,而经过充分后续训练的闭源模型正确率可突破80%;并且逻辑步骤规划中,开源模型会出现多步处理出现推理错误,步骤遗漏等情况,距离企业真正实际要求还有一定的距离。

最后就是当前国内开源模型的工具使用能力差:做 “AI 助手” 时(比如用搜索、写代码),没法灵活适应不同场景,也听不懂复杂指令,不如闭源模型。灵活调用各类工具解决实际问题的AI助手才更符合用户的真实需求,相较于闭源模型,国内开源大模型还有很大的进步空间,不管是简单的搜索查询、代码生成,还是复杂的多工具协同任务,开源模型对复杂指令的理解都不太准确,对于多样化场景下更是难以适配。比如智能居家控制场景下,面对用户提出的规划本周末假期出行旅游,并帮我打开室内空调的要求,向模型提出一般只能回答一个问题,执行单一的指令,无法对全部的要求理解到位,实现工具协同,而在代码调试方面,开源模型对调用代码检查工具、定位问题,方案的提供等方面远不如闭源模型。

面对以上情况DeepSeek-V3.2提出了自己独有解决方案,量身打造三大黑科技,实现技术新突破,提出了解决问题的新办法。

第一个黑科技:高效注意力机制(DSA)— 解决 “长文本算得慢”

普通注意力机制处理长文本时,要逐个比对所有文字,特别费资源。而DSA 的思路是 “挑重点算”,再只对这部分文字算注意力。计算量从 “平方” 变成 “文字数量 ×K”,还不影响长文本的理解能力。以前可能卡半天,现在用 DSA,不仅更加流畅,成本还能降不少。

通过实际数据显示,之前的长文本(约10万字)进行处理,通过DeepSeek-V3.2进行处理,相较于之前不仅时间效率提高,仅需17分钟即可完成,而且数据信息准确度也提高不少,准确率能够达到94.3%,能够抓住关键信息,确保内容精准,与Gemini-3.0-Pro效果相同。

在处理合同审核,风险条款定位,以及对文献的梳理,解析描述等方面,都极大提高了效率和准确性,而且还降低了训练成本,即便没有顶级算力也能可开展长文本相关训练,降低了长文本训练的门槛。

第二个黑科技:可扩展的强化学习框架 — 解决 “难任务搞不定”

首先后训练加大练习量,“让模型在练习中进步”,但以前开源模型后训练练得少、资源给得不够。现在直接提高后续训练的计算量,预训练先跑 100 小时,后续再练 10 小时就能搞定。其次优化训练规则 ,避免模型 “学了新的忘旧的”,定制奖励机制,做得好就给 “高分”。

实测数据显示,在MATH、ARC-Challenge等权威复杂推理评测集上,DeepSeek-V3.2的正确率较上一代模型提升43%,其中高等数学推理题正确率达到79.2%,接近Gemini-3.0-Pro的水平。而加强版“DeepSeek-V3.2-Speciale”,专门堆资源练推理,在多步逻辑推理、复杂问题拆解等场景下,部分评测指标甚至超越GPT-5。对于复杂的问题,更高端的商业应用场景,给了开源模型更多的想象空间。

第三个黑科技:开展大规模 “工具任务” 流水线 — 解决 “不会用工具”团队自己造数据

自己搭建多个 “模拟场景”,再生成 复杂指令,让模型在这些场景里练 “用工具”—— 比如规划旅行时,调用 “查城市酒店”“查景点门票” 的工具函数。在这些场景中不仅包含单一指令调用还包括,多个指令的调用,多工具协同处理这些复杂的场景,培养模型在复杂场景下依然能够准确的识别每一项指令,并学会协同调用,实现一个完整过程。

比如假期从河北前往重庆的自驾游,让模型帮你规划一下,最优路径,搜索热门景点以及酒店,并查询出行当天的天气情况,最后整理成一个完整的行程计划表,逐步让模型掌握在各个场景下的工具调用逻辑。

在复杂场景下实现指令能够全部协同调用,达到真正的好用。在权威的工具使用评测集ToolBench上,模型的任务完成率达到82.1%,较主流开源模型提升55%;在权威的工具使用评测集ToolBench上,模型的任务完成率达到82.1%,较主流开源模型提升55%;练完后,模型不仅在真实工具场景里表现好了很多,还能灵活应对没见过的新场景。

当然DeepSeek-V3.2并不是在各个方面都能够追平闭源模型,仍有一定的差距,需要在未来不断发展进步。

首先DeepSeek-V3.2由于整体训练量不如闭源模型,对比下来对世界知识的了解尚浅,还要多多的学习知识,提升一下知识广度。

其次,“说话太啰嗦”,要达到和 Gemini-3.0-Pro 一样的效果,模型需要生成更多文字,平均需要多出文本近20%,不够高效;

最后,复杂任务还差点,遇到特别难的任务,还是不如闭源模型,比如在跨领域方面,超长链条推理等方面,还有待提高。

在未来会DeepSeek-V3.2也会进行针对性改进增加更多预训练资源补知识、优化推理过程让文字更精炼、缩短时间,继续打磨训练方法,推动模型朝着更好的方向进步。

本文由 @冒泡泡 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自DeepSeek官网截图

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!