测试模型六小虎（智谱、Kimi等）中的Step 3.5 Flash 2603，它到底什么水平？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

测试模型六小虎（智谱、Kimi等）中的Step 3.5 Flash 2603，它到底什么水平？

叶小钗

2026-04-04

0 评论 2815 浏览 2 收藏

15 分钟

当大家都在讨论 Agent 如何改变工作流时，阶跃星辰发布的 Step 3.5 Flash 2603 无疑提供了一个极具说服力的样本。它不追求虚浮的通用知识堆砌，而是以“实用主义”为核心，通过极高的推理速度（350 token/s）和对复杂工具链（如 OpenClaw Skills、飞书 API）的精准调度，证明了模型可以成为真正可靠的“数字员工”。本文将深入测评其在真实开发、数据可视化及多步骤业务调度中的表现，探讨一款“聪明且高效”的模型如何重塑我们的生产力边界。

最近模型圈确实又热闹起来了。

新模型一波接一波。

GLM-5、MiniMax2.7、小米的MIMO 这次给大家看看“大模型六小虎”中的阶跃星辰，阶跃星辰刚更新的 Step 3.5 Flash 2603。

阶跃星辰是一家做通用大模型的 AI 公司，行业里称为“大模型六小虎”，其中的三“小虎”大家肯定熟悉，智谱，MiniMax和Kimi

之前的Step 3.5 Flash就在openrouter上得到了不错的分数。

查看了一下大模型热度榜单，Step 3.5 Flash稳居前三。

所以，今天我想重点测评一下Step 3.5 Flash 2603 在真实场景中的表现。本文会相继用到Claude Code、OpenClaw、飞书等不同平台来测试，并会在每个Case前做说明。

测试主要分为4个场景，重点评估模型的执行过程和最终结果。

任务一：搜索、整理数据，再做成可视化页面

第一个任务，我放在 ClaudeCode 里测试。

模型我已经切到了 step-3.5-flash 2603，然后直接给了一个连续任务：打开 Boss 直聘、拉勾和智联招聘，搜索最近热门的 AI 相关岗位，结合薪资范围、岗位要求、城市分布和招聘热度，综合筛选 10 个代表性岗位，整理成 Excel 表格，并根据 Excel 表格的信息设计一个可视化 HTML。

这个任务看起来不算特别复杂，但它其实是一个很典型的多步骤执行题。

因为它不是只回答一个问题，而是要一口气完成：

联网检索 → 总结内容 → 生成表格 → 编写代码

这里面既考验模型的信息整理能力，也考验它调用工具、维持上下文和连续执行的能力。

而 Step 3.5 Flash 2603 这次给我的感觉是，做这种任务节奏挺快，没有那种想很久、说很多、但迟迟不落地的拖沓感。它基本是一边执行一边推进，最后一次性交付了 Excel 表格和信息图 HTML。

在 ClaudeCode 里还能直接看到它的执行过程，整个流程跑起来非常利落。

除了少数有反扒的网站之外，大多数步骤几秒钟就能推进一轮。

下面看下最终结果。可视化 HTML

表格结果

表格

这份表格的观感还是不错的，信息整理得比较规整，阅读压力不大。HTML 信息图也能看出来，它不是单纯把内容堆上去，而是有在尝试做层级划分和视觉呈现。

当然，如果提示词继续细化，比如补充版式偏好、图表样式、字段要求，模型自然会生成得更好些所以对于这种链路稍微长一点的工作流任务，Step 3.5 Flash 2603在保持效率的同时，还可以正常完成任务。

从这个 case 来看，阶跃星辰这版 Step 3.5 Flash 2603，做这类高频、多步骤、结果明确的任务，确实是顺手的。

任务二：把数据库表快速转换成 Java 实体类

第二个任务，AI Coding 里一个很常见的高频场景：数据库结构转换。

如果你平时做后端开发，应该很熟悉这种情况。项目刚开始，或者接一个已有业务时，第一步常常就是对数据库做处理。表一多，光是把数据表一张张转换成 Java 实体类，就很花时间。

所以我这次直接把数据库 SQL 丢给模型，让它批量转换。

这是一个 RAG 客服生产业务里的库表。

结果也比较直接：一分钟左右，11 张表就全部转成了 Java 实体类。

在这个场景下，Step 3.5 Flash 2603 的体验还是挺舒服的。该补的字段基本都能补上，结构转换也比较规整，没有那种写着写着风格飘掉、命名乱掉的问题。

既然表都写好了，那我就顺手继续往下写一步，让它把一部分增删改查也一起补出来。

这类任务做下来，我的直观感受是：

对于初始化结构、批量转换、基础 CRUD 这种高频工作，Step 3.5 Flash 2603 是可以直接进生产前置流程的。

很多时候，项目里最消耗人的，并不是“特别难”的那部分，而是这些重复度高、细碎、但又必须做的基础活。以前是人手一点点搭，现在交给模型先铺一版，效率确实高很多。

当然，复杂任务我也试了。

比如我后面又让它去处理一个更深的需求，需要打通两个业务线中的某个功能。这个需求麻烦的地方就在于，它必须先理解业务全景，再下手写代码，不然很容易只写对局部、却接不上整体流程。

这种任务，Step 3.5 Flash 2603 目前还做不到完全独立搞定，还是得先靠人工把业务梳理清楚，再结合模型一起推进。

所以如果要我一句话总结这个 case：

简单、高频、结构清晰的开发任务，没什么问题；复杂度高、业务链深、依赖全局理解的任务，现阶段还是更适合“人来定方向，模型来提效”。

这属于模型的边界了。

任务三：测试 skills 调用，以及前端生成能力

前两个 case，更多测的是代码和结构化执行。

第三个任务，我想进一步看看它对 Agent 能力的适配程度，尤其是放进 OpenClaw 这类体系里之后，调用 skills 的表现怎么样。

这次我测试的是：

利用 Knowledge Site Creator Skills 创建一个知识学习网站。

文章内容来源于这篇公众号文章：

https://mp.weixin.qq.com/s/VjBNgfDhJSMMlGw5n6RQMA

查看模型能不能理解任务目标，然后借助 skills 把一个成型的网站雏形做出来。

实际跑下来，它的页面产出是在线的，至少不是那种“技术上能打开，但审美和结构都很敷衍”的状态，这种蓝紫色配色，也是大多数AI的惯例。

接着我又顺手测了一下它单纯的前端代码能力，做了一个个人博客页面。

个人博客

这个页面给我的感觉是，流畅度和交互意识都还不错。

它不是那种只会机械堆 div 的写法，而是能把页面层级、视觉节奏和交互细节一起带出来。放在日常开发里，这种能力很实用，因为很多时候我们要的不是一份“完美作品”，而是一个可运行、可继续改、可快速迭代的前端基础版本。任务四：放进飞书里，测试 Agent 调度能力

单请求代码类任务上，Step 3.5 Flash的最高推理速度可达每秒350个token，确保了复杂Agent任务的低延迟响应。

具体来说，就是把飞书接入 OpenClaw，然后直接在飞书里给它发指令，看它能不能把一个任务完整调度起来。

因为只要进到 OpenClaw 这种原生 Agent 场景，事情就不只是“写一段回答”那么简单了。

一个任务背后，往往要经历很多环节：加载技能、调用 tools、来回推理、做中间判断、决定下一步动作……任务链一长，对模型的调度能力、稳定性和响应速度，要求就会明显提高。查看Step 3.5 Flash 2603 放进这种多模块环境里，是否还可以保持高效执行。

来看下制作效果：

整体效果我觉得是可以的。

它能完成多任务调度，也能在比较长的链路里把任务往前推，不会动不动就卡在某个环节反复空转。更关键的是，整个使用过程里，没有那种“为了想清楚简单任务，反而把链路拉得特别长”的感觉。

这一点其实很重要。

因为很多 Agent 场景中，最麻烦的就是模型弯弯绕绕的，半天出不来一个结果，也不知道在思考什么。如果一个任务本来几步就能走完，结果模型每一步都要铺很长的思考链，那最后的结果可能质量更高一点，但实际使用成本也会明显上去。

从这次体验来看，阶跃星辰这版 Step 3.5 Flash 2603 在这方面控制得还不错。放在日常 Agent 使用里，可以做到稳定推进任务的“执行型选手”，不会轻易把简单事情复杂化。

初步体验

这轮测下来，如果让我给阶跃星辰的 Step 3.5 Flash 2603 做一个比较直接的判断，我会觉得它是一款很适合进入真实开发工作流的模型。

在日常使用中会遇到的问题：高频编程结构转换小步快跑式修改简单到中等复杂度的前端生成Agent 工作流里的执行型任务多步骤但目标明确的连续操作

Step 3.5 Flash 2603基本上都能高效完成。

特别说明一下， Step 3.5 Flash 2603可能会首先在StepPlan里上线，所以在ClaudeCode等Agent中进行配置的时候可能需要把 baseURL替换为：

https://api.stepfun.com/step_plan/v1写在最后

最近大家都在聊 Agent，也都在聊模型到底能不能真正走进工作流。

我自己的感受是，方向其实已经越来越清楚了：“聪明且高效”。

这次实测下来，阶跃星辰 Step 3.5 Flash 2603 给我的印象，就是一款明显更偏向实用主义的模型。

在开发、Agent、多步骤执行这些场景里，确实能给出比较顺手的体验。对于经常要写代码、改代码、搭流程、跑自动化任务的人来说，这种“反复用起来都不别扭”的感觉，其实比一次两次的惊艳更重要。

如果你本身就在折腾 AI Coding，或者已经把模型接进了日常工作流，那这版 Step 3.5 Flash 2603，还是值得自己上手跑几轮真实任务试试。

本文由人人都是产品经理作者【叶小钗】，微信公众号：【叶小钗】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

叶小钗

原鹅厂、百度一线开发，B站技术专家；AI产品项目负责人，CEO数字分身负责人

62篇作品 178988总阅读量

为什么「华与华方法」在我们公司不管用？

02-238093 浏览

是进化还是退化？ChatGPT已经开始怼人了

02-225908 浏览

总结下我对 B 端产品 3 大流程图的理解

11-224908 浏览

互联网就业进行时

01-184664 浏览

“摆烂”营销——品牌年轻化的流量密码

10-275116 浏览

目前还没评论，等你发挥！

AI助力下的STS（Ship-Then-Shop）模式，能否引领国内电商用户体验的新潮？

07-033170 浏览
大厂都要求的“数据分析闭环”，该如何实现？

09-207110 浏览
面试「自我介绍」怎么说？把握8大重点，有效提升成功率

10-2516221 浏览