Deepseek V3-0324版本的评测来啦

帅森森
0 评论 886 浏览 0 收藏 5 分钟
对未来感到迷茫?起点课堂的导师将为你提供专业的职业发展规划指导,帮你明确方向、设定目标,让你在产品经理的道路上,每一步都走得清晰而坚定。

前几天DeepSeek更新了V3版本,虽然是个小更新,但性能表现依然超出了许多人的预期。这篇文章,我们来看看作者的分析。

开始

没有一点点防备,也没有一丝的顾虑,他就这样悄悄的上线啦。有多低调,看下面图片,readme竟然都是空的。好歹宣传一下呀,哈哈

有哪些更新

官方给出答复是小的版本更新,没有基准测评和技术报告。社区反馈,代码能力有明显的提升,还具备一定的推理能力。输出速度更快。能够迅速处理数学和编程任务。它也非常稳定,无论是编程还是解决问题,每次都能给出良好的结果。对比表现可以看下面的编程实现对比,DeepSeek V3-0324 的表现优于 o3-mini 和 Deepseek R1视频展示看公众号内容(帅森森聊AI和职场)

第三方评测

结论

Deepseek V3-0324可能是目前最好的非推理模型,而且还是免费的。综合能力与sonnet 3.5不分伯仲。

评测逻辑

每个柱体有3个颜色,代表是三种评测逻辑,具体含义如下:这张图片的右上角有三个图例,分别代表以下含义:

1. Pass@5

含义:Pass@5 表示模型在测试中前五个结果中有多少是正确的。

用途:这一指标通常用于评估模型的准确率,特别是在生成任务或多选任务中。它反映了模型在有限尝试次数内提供正确答案的能力。

如果 Pass@5 为 80%,意味着模型在前五个结果中,有 80% 的概率至少包含一个正确答案。

2. Average Score

含义:Average Score 表示模型在所有测试中的平均得分。

用途:这一指标反映了模型的整体性能,综合了模型在不同任务或测试中的表现。

如果 Average Score 为 60%,意味着模型在所有测试中的平均得分为 60%。

3. 5/5 Consistency

含义:5/5 Consistency 是一个衡量模型在多次面对相同或非常相似的输入时,能否给出一致性回答的指标。更具体地说,它通常表示在五次独立的测试中,模型都给出了相同或高度相似的答案。

用途:这一指标反映了模型的一致性和稳定性,评估模型是否能够在所有测试中保持高水平的表现。

如果 5/5 Consistency 为 40%,意味着模型在所有测试中,有 40% 的概率能够做到输出一致。

指标解读

通用语言模型中,Deepseek V3-0324版本在top 5测评的准确率居首。平均得分与sonnet 3.5不相上下。5对5一致性评测中,弱于sonnet 3.5。相比之前的V3版本,三个指标都有提升。

哪里可以使用

官方网页版: 在deepseek.com上免费测试更新后的V3版本,记得关闭“深度思考”按钮。

官方 App: 可在iOS和Android上下载,已更新至3月24日发布的版本。

官方 API: 在api-docs.deepseek.com上使用model=’deepseek-chat’。

HuggingFace: 从HuggingFace下载“DeepSeek V3 0324”权重模型。

本文由 @帅森森 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
17936人已学习13篇文章
在精细化运营的过程中,为自己的产品搭建一套数据指标体系,对于促进产品和业务增长是至关重要的。本专题的文章分享了如何搭建数据指标体系。
专题
12883人已学习13篇文章
AI技术的出现给各行各业都带来了重塑的机会,那么,当AI与社交赛道碰撞时,会讲述出怎样的故事?各家产品的表现如何?
专题
13797人已学习15篇文章
私域流量是与公域流量相对的概念,本专题的文章主要通过几个核心的问题,为大家解读私域流量背后的底层逻辑。
专题
14213人已学习14篇文章
在生活中,我们总是能被各种各样的事情挑起不同的情绪,如果将情绪映射到设计/运营中呢?本专题的文章分享了如何将“情绪”映射到设计/运营中。
专题
12159人已学习12篇文章
针对新零售行业的发展现状,面向新零售企业的SaaS系统,可以如何进行系统架构和规划?本专题的文章分享了新零售saas架构指南。