即梦 Agent 后端编排逻辑深度拆解-设计可视化

0 评论 121 浏览 0 收藏 11 分钟

即梦 Agent 的创新之处在于其独特的架构设计——它不是简单的LLM内容生成器,而是一个由路由层、技能层和执行层组成的三层编排系统。这套系统将LLM定位为编排者而非生产者,通过动态加载技能插件、模块化工作流规则和异步执行引擎,实现了高效、可控的跨模态内容生产。本文将从技术架构到业务逻辑,深度拆解这套颠覆性设计如何重构AI生成的工作范式。

一份面向产品 / 研发 / Agent 设计的逆向架构拆解。

核心结论:即梦 Agent 的本质不是“会生成内容的 LLM”,而是LLM 编排器 + 技能插件 + 执行引擎。

一句话结论

即梦 Agent 的后端更像一个三层编排系统:

  • Layer 1:Router 路由层 —— 负责安全审核、意图识别、任务分类、技能分配
  • Layer 2:Skill 技能层 —— 负责按需加载工作流规则与 SOP
  • Layer 3:Execution 执行层 —— 负责真正提交图片 / 视频 / 文件类任务

1. 整体架构总览

核心洞察

  • LLM 负责理解与编排,不直接承担最终生成
  • 真正的生产动作由底层工具执行
  • 整体系统是一个典型的 Orchestrator 模式,不是单体 Prompt 模式

2. 七大核心工具

dreamina_cli 参数逻辑

图片生成

  • command: text2image
  • prompt: Agent 自动扩写
  • output_id: 语义化命名
  • ratio: 自动推断
  • resolution_type: 默认 4K
  • model: 默认 5.0

视频生成

  • command: text2video / image2video
  • prompt: 视频描述或分镜脚本
  • duration: 4-15 秒
  • ratio: 默认 16:9
  • resolution: 默认 720P
  • model: 默认 seedance2.0_vip
  • ref_images: 风格 / 角色 / 产品 / 道具

ref_images 顺序规则:风格图 → 角色 → 产品 → 道具

3. 技能调度机制:按需加载,而不是预加载

关键特征

  • 技能不是固定写死在全局 prompt 中
  • 而是任务到来后 动态注入规则片段
  • 可以按需加载,也可以并行加载多个技能

技能层级关系

这意味着技能的本质,更像是可热插拔的工作流规则模块。

对 AdsTurbo 来说,这一点非常值得直接借鉴。

4. 状态机:Agent 是如何一步步跑起来的

前端状态与后端含义映射

5. 路由决策树

两条最关键分支

图片任务

  • 能直接执行:直接调 text2image
  • 常规需求:先加载 image-main
  • 再继续分流到电商套图 / 海报 / 品牌 / 通用创作

视频任务

  • 单 Clip、明确、4-15 秒:直接生成
  • 成片、多阶段、需求复杂:进入 video-sop

6. Video-SOP:最有价值的编排资产

阶段总览

各阶段对应技能

Phase 6 是整个系统最“工程化”的部分

6.1分镜切割➡️6.2分镜计时➡️6.3镜头组装➡️6.4连贯性校验

分镜时长公式

这说明它不是纯感性创作,而是把脚本拆分进一步计算化、规则化、可执行化

7. Project Memory:跨轮次上下文管理

Memory 的作用

  • 存储产品、目标用户、平台、当前阶段
  • 存储大纲、剧本、故事板等阶段产物
  • 存储已生成资源状态
  • 支撑跨轮次连续对话与工作流推进

推断结构

JSON

{

“project_id”: “12350335922188”,

“product”: “智能手表”,

“target_audience”: “25-35岁都市白领”,

“platform”: “抖音”,

“current_phase”: “Phase 1”,

“completed_phases”: [“需求说明”],

“assets”: {

“outline_file”: “智能手表广告_大纲.md”,

“script_file”: “智能手表广告_剧本.md”,

“storyboard_file”: “智能手表广告_故事板.md”

}

}

8. 并发与异步:它为什么显得“像个成熟系统”

并行能力

图片默认 4 张并行生成

多个视频 Clip 可并行生成

跨模态任务也可并行提交

异步机制

Agent 提交后不阻塞等待

不主动轮询

结果由前端推送刷新

用户感知更流畅

关键原则

提交成功后,Agent 只负责告知“已提交”,而不是自己卡在等待里。

这件事对 AdsTurbo 非常重要,因为它会直接影响:

  • 对话流畅度
  • 任务并发能力
  • 前后端职责边界
  • 用户对“专业感”的判断

9. 错误处理与安全机制

错误处理

  • 工具格式错了,Agent 会自我修正再重试
  • 高级工具失败,会自动降级到基础工具
  • 重复请求时,会先检查状态,减少浪费

安全机制

  • 第一层:路由层拦截违规请求
  • 第二层:系统规则禁止暴露内部实现

这个双层安全结构说明:即梦并不是把安全压在最终输出上,而是前置到了编排入口。

10. 完整调用时序图

11. 对 Agent 的直接启发

启发一:采用“LLM 编排器 + 工具插件”架构

启发二:让技能变成可热插拔模块

  • 不硬编码在大 system prompt 中
  • 独立维护、独立迭代
  • 可做 A/B 测试
  • 可减少上下文冗余

启发三:把视频广告生成做成阶段化 SOP

  • 每一阶段有独立输入输出
  • 关键节点允许用户确认
  • 阶段间依靠 project memory 传递上下文

启发四:生成任务必须异步化

  • 提交到任务队列
  • Agent 立即回复“已提交”
  • 前端通过 WebSocket / SSE 推送结果
  • 前端自动刷新展示

12. 最后总结

即梦 Agent 最强的地方,不是单点模型能力,而是它把技能、状态、任务、记忆、异步执行串成了一条完整可控的生产链路。

最直接的结论,那就是:

  • 先做编排,不要先卷生成
  • 先做阶段流,不要先做全自动一步到位
  • 先把技能模块化,再谈规模化扩展下期拆lovart~

本文由 @喂鱼AI操盘手 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!