测试模型六小虎(智谱、Kimi等)中的Step 3.5 Flash 2603,它到底什么水平?

0 评论 1667 浏览 2 收藏 15 分钟

当大家都在讨论 Agent 如何改变工作流时,阶跃星辰发布的 Step 3.5 Flash 2603 无疑提供了一个极具说服力的样本。它不追求虚浮的通用知识堆砌,而是以“实用主义”为核心,通过极高的推理速度(350 token/s)和对复杂工具链(如 OpenClaw Skills、飞书 API)的精准调度,证明了模型可以成为真正可靠的“数字员工”。本文将深入测评其在真实开发、数据可视化及多步骤业务调度中的表现,探讨一款“聪明且高效”的模型如何重塑我们的生产力边界。

最近模型圈确实又热闹起来了。

新模型一波接一波。

GLM-5、MiniMax2.7、小米的MIMO 这次给大家看看“大模型六小虎”中的阶跃星辰,阶跃星辰刚更新的 Step 3.5 Flash 2603。

阶跃星辰是一家做通用大模型的 AI 公司,行业里称为“大模型六小虎”,其中的三“小虎”大家肯定熟悉,智谱,MiniMax和Kimi

之前的Step 3.5 Flash就在openrouter上得到了不错的分数。

查看了一下大模型热度榜单,Step 3.5 Flash稳居前三。

所以,今天我想重点测评一下Step 3.5 Flash 2603 在真实场景中的表现。本文会相继用到Claude Code、OpenClaw、飞书等不同平台来测试,并会在每个Case前做说明。

测试主要分为4个场景,重点评估模型的执行过程和最终结果。

任务一:搜索、整理数据,再做成可视化页面

第一个任务,我放在 ClaudeCode 里测试。

模型我已经切到了 step-3.5-flash 2603,然后直接给了一个连续任务:打开 Boss 直聘、拉勾和智联招聘,搜索最近热门的 AI 相关岗位,结合薪资范围、岗位要求、城市分布和招聘热度,综合筛选 10 个代表性岗位,整理成 Excel 表格,并根据 Excel 表格的信息设计一个可视化 HTML。

这个任务看起来不算特别复杂,但它其实是一个很典型的多步骤执行题。

因为它不是只回答一个问题,而是要一口气完成:

联网检索 → 总结内容 → 生成表格 → 编写代码

这里面既考验模型的信息整理能力,也考验它调用工具、维持上下文和连续执行的能力。

而 Step 3.5 Flash 2603 这次给我的感觉是,做这种任务节奏挺快,没有那种想很久、说很多、但迟迟不落地的拖沓感。它基本是一边执行一边推进,最后一次性交付了 Excel 表格和信息图 HTML。

在 ClaudeCode 里还能直接看到它的执行过程,整个流程跑起来非常利落。

除了少数有反扒的网站之外,大多数步骤几秒钟就能推进一轮。

下面看下最终结果。可视化 HTML

表格结果

表格

这份表格的观感还是不错的,信息整理得比较规整,阅读压力不大。HTML 信息图也能看出来,它不是单纯把内容堆上去,而是有在尝试做层级划分和视觉呈现。

当然,如果提示词继续细化,比如补充版式偏好、图表样式、字段要求,模型自然会生成得更好些 所以对于这种链路稍微长一点的工作流任务,Step 3.5 Flash 2603在保持效率的同时,还可以正常完成任务。

从这个 case 来看,阶跃星辰这版 Step 3.5 Flash 2603,做这类高频、多步骤、结果明确的任务,确实是顺手的。

任务二:把数据库表快速转换成 Java 实体类

第二个任务,AI Coding 里一个很常见的高频场景:数据库结构转换。

如果你平时做后端开发,应该很熟悉这种情况。项目刚开始,或者接一个已有业务时,第一步常常就是对数据库做处理。表一多,光是把数据表一张张转换成 Java 实体类,就很花时间。

所以我这次直接把数据库 SQL 丢给模型,让它批量转换。

这是一个 RAG 客服生产业务里的库表。

结果也比较直接:一分钟左右,11 张表就全部转成了 Java 实体类。

在这个场景下,Step 3.5 Flash 2603 的体验还是挺舒服的。该补的字段基本都能补上,结构转换也比较规整,没有那种写着写着风格飘掉、命名乱掉的问题。

既然表都写好了,那我就顺手继续往下写一步,让它把一部分增删改查也一起补出来。

这类任务做下来,我的直观感受是:

对于初始化结构、批量转换、基础 CRUD 这种高频工作,Step 3.5 Flash 2603 是可以直接进生产前置流程的。

很多时候,项目里最消耗人的,并不是“特别难”的那部分,而是这些重复度高、细碎、但又必须做的基础活。以前是人手一点点搭,现在交给模型先铺一版,效率确实高很多。

当然,复杂任务我也试了。

比如我后面又让它去处理一个更深的需求,需要打通两个业务线中的某个功能。这个需求麻烦的地方就在于,它必须先理解业务全景,再下手写代码,不然很容易只写对局部、却接不上整体流程。

这种任务,Step 3.5 Flash 2603 目前还做不到完全独立搞定,还是得先靠人工把业务梳理清楚,再结合模型一起推进。

所以如果要我一句话总结这个 case:

简单、高频、结构清晰的开发任务,没什么问题;复杂度高、业务链深、依赖全局理解的任务,现阶段还是更适合“人来定方向,模型来提效”。

这属于模型的边界了。

任务三:测试 skills 调用,以及前端生成能力

前两个 case,更多测的是代码和结构化执行。

第三个任务,我想进一步看看它对 Agent 能力的适配程度,尤其是放进 OpenClaw 这类体系里之后,调用 skills 的表现怎么样。

这次我测试的是:

利用 Knowledge Site Creator Skills 创建一个知识学习网站。

文章内容来源于这篇公众号文章:

https://mp.weixin.qq.com/s/VjBNgfDhJSMMlGw5n6RQMA

查看模型能不能理解任务目标,然后借助 skills 把一个成型的网站雏形做出来。

实际跑下来,它的页面产出是在线的,至少不是那种“技术上能打开,但审美和结构都很敷衍”的状态,这种蓝紫色配色,也是大多数AI的惯例。

接着我又顺手测了一下它单纯的前端代码能力,做了一个个人博客页面。

个人博客

这个页面给我的感觉是,流畅度和交互意识都还不错。

它不是那种只会机械堆 div 的写法,而是能把页面层级、视觉节奏和交互细节一起带出来。放在日常开发里,这种能力很实用,因为很多时候我们要的不是一份“完美作品”,而是一个可运行、可继续改、可快速迭代的前端基础版本。任务四:放进飞书里,测试 Agent 调度能力

单请求代码类任务上,Step 3.5 Flash的最高推理速度可达每秒350个token,确保了复杂Agent任务的低延迟响应。

具体来说,就是把飞书接入 OpenClaw,然后直接在飞书里给它发指令,看它能不能把一个任务完整调度起来。

因为只要进到 OpenClaw 这种原生 Agent 场景,事情就不只是“写一段回答”那么简单了。

一个任务背后,往往要经历很多环节:加载技能、调用 tools、来回推理、做中间判断、决定下一步动作……任务链一长,对模型的调度能力、稳定性和响应速度,要求就会明显提高。 查看Step 3.5 Flash 2603 放进这种多模块环境里,是否还可以保持高效执行。

来看下制作效果:

整体效果我觉得是可以的。

它能完成多任务调度,也能在比较长的链路里把任务往前推,不会动不动就卡在某个环节反复空转。更关键的是,整个使用过程里,没有那种“为了想清楚简单任务,反而把链路拉得特别长”的感觉。

这一点其实很重要。

因为很多 Agent 场景中,最麻烦的就是模型弯弯绕绕的,半天出不来一个结果,也不知道在思考什么。如果一个任务本来几步就能走完,结果模型每一步都要铺很长的思考链,那最后的结果可能质量更高一点,但实际使用成本也会明显上去。

从这次体验来看,阶跃星辰这版 Step 3.5 Flash 2603 在这方面控制得还不错。放在日常 Agent 使用里,可以做到稳定推进任务的“执行型选手”,不会轻易把简单事情复杂化。

初步体验

这轮测下来,如果让我给阶跃星辰的 Step 3.5 Flash 2603 做一个比较直接的判断,我会觉得它是一款很适合进入真实开发工作流的模型。

在日常使用中会遇到的问题:高频编程结构转换小步快跑式修改简单到中等复杂度的前端生成Agent 工作流里的执行型任务多步骤但目标明确的连续操作

Step 3.5 Flash 2603基本上都能高效完成。

特别说明一下, Step 3.5 Flash 2603可能会首先在StepPlan里上线,所以在ClaudeCode等Agent中进行配置的时候可能需要把 baseURL替换为:

https://api.stepfun.com/step_plan/v1写在最后

最近大家都在聊 Agent,也都在聊模型到底能不能真正走进工作流。

我自己的感受是,方向其实已经越来越清楚了:“聪明且高效”。

这次实测下来,阶跃星辰 Step 3.5 Flash 2603 给我的印象,就是一款明显更偏向实用主义的模型。

在开发、Agent、多步骤执行这些场景里,确实能给出比较顺手的体验。对于经常要写代码、改代码、搭流程、跑自动化任务的人来说,这种“反复用起来都不别扭”的感觉,其实比一次两次的惊艳更重要。

如果你本身就在折腾 AI Coding,或者已经把模型接进了日常工作流,那这版 Step 3.5 Flash 2603,还是值得自己上手跑几轮真实任务试试。

本文由人人都是产品经理作者【叶小钗】,微信公众号:【叶小钗】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!