即梦 Agent 后端编排逻辑深度拆解-设计可视化

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

即梦 Agent 后端编排逻辑深度拆解-设计可视化

喂鱼AI操盘手

2026-05-11

0 评论 1546 浏览 2 收藏

11 分钟

即梦 Agent 的创新之处在于其独特的架构设计——它不是简单的LLM内容生成器，而是一个由路由层、技能层和执行层组成的三层编排系统。这套系统将LLM定位为编排者而非生产者，通过动态加载技能插件、模块化工作流规则和异步执行引擎，实现了高效、可控的跨模态内容生产。本文将从技术架构到业务逻辑，深度拆解这套颠覆性设计如何重构AI生成的工作范式。

一份面向产品 / 研发 / Agent 设计的逆向架构拆解。

核心结论：即梦 Agent 的本质不是“会生成内容的 LLM”，而是LLM 编排器 + 技能插件 + 执行引擎。

一句话结论

即梦 Agent 的后端更像一个三层编排系统：

Layer 1：Router 路由层 —— 负责安全审核、意图识别、任务分类、技能分配
Layer 2：Skill 技能层 —— 负责按需加载工作流规则与 SOP
Layer 3：Execution 执行层 —— 负责真正提交图片 / 视频 / 文件类任务

1. 整体架构总览

核心洞察

LLM 负责理解与编排，不直接承担最终生成
真正的生产动作由底层工具执行
整体系统是一个典型的 Orchestrator 模式，不是单体 Prompt 模式

2. 七大核心工具

dreamina_cli 参数逻辑

图片生成

command: text2image
prompt: Agent 自动扩写
output_id: 语义化命名
ratio: 自动推断
resolution_type: 默认 4K
model: 默认 5.0

视频生成

command: text2video / image2video
prompt: 视频描述或分镜脚本
duration: 4-15 秒
ratio: 默认 16:9
resolution: 默认 720P
model: 默认 seedance2.0_vip
ref_images: 风格 / 角色 / 产品 / 道具

ref_images 顺序规则：风格图 → 角色 → 产品 → 道具

3. 技能调度机制：按需加载，而不是预加载

关键特征

技能不是固定写死在全局 prompt 中
而是任务到来后 动态注入规则片段
可以按需加载，也可以并行加载多个技能

技能层级关系

这意味着技能的本质，更像是可热插拔的工作流规则模块。

对 AdsTurbo 来说，这一点非常值得直接借鉴。

4. 状态机：Agent 是如何一步步跑起来的

前端状态与后端含义映射

5. 路由决策树

两条最关键分支

图片任务

能直接执行：直接调 text2image
常规需求：先加载 image-main
再继续分流到电商套图 / 海报 / 品牌 / 通用创作

视频任务

单 Clip、明确、4-15 秒：直接生成
成片、多阶段、需求复杂：进入 video-sop

6. Video-SOP：最有价值的编排资产

阶段总览

各阶段对应技能

Phase 6 是整个系统最“工程化”的部分

6.1分镜切割➡️6.2分镜计时➡️6.3镜头组装➡️6.4连贯性校验

分镜时长公式

这说明它不是纯感性创作，而是把脚本拆分进一步计算化、规则化、可执行化。

7. Project Memory：跨轮次上下文管理

Memory 的作用

存储产品、目标用户、平台、当前阶段
存储大纲、剧本、故事板等阶段产物
存储已生成资源状态
支撑跨轮次连续对话与工作流推进

推断结构

JSON

{

“project_id”: “12350335922188”,

“product”: “智能手表”,

“target_audience”: “25-35岁都市白领”,

“platform”: “抖音”,

“current_phase”: “Phase 1”,

“completed_phases”: [“需求说明”],

“assets”: {

“outline_file”: “智能手表广告_大纲.md”,

“script_file”: “智能手表广告_剧本.md”,

“storyboard_file”: “智能手表广告_故事板.md”

}

}