视频分镜提示词Skill，详细制作过程分享！

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

视频分镜提示词Skill，详细制作过程分享！

阿真Irene

2026-03-06

0 评论 6621 浏览 13 收藏

30 分钟

作者以一篇轻松实用的“复健”之作，开源了其精心打造的「短剧剧本转视频提示词」Coze Skill：该工具不仅能将复杂剧本文档一键拆解为精准的AI视频分镜提示词，更难得的是，作者毫无保留地复盘了从定义标准化文件结构、驱动AI自动编写功能脚本，到构建专属知识库与模板体系的完整开发路径，让读者在直接获取高效提效工具的同时，也能掌握一套系统化定制AI Agent的底层方法论。

好久不见了，放假给我放爽了，回来猛猛干活了。今天这篇比较轻松，我先复健一下，写个简单一点的关于视频提示词 Skill 制作的。

上次写Coze Skill的时候，我曾经分享过一个剧本生成分镜的Skill，大家可以直接在 Coze 使用，链接在：

https://www.coze.cn/?skill_share_pid=7596234767713173538

也可以直接下载 Skill 文件，文件附件链接我放文章最后的飞书云文档链接了。原 Skill 做得比较通用，大家可以在我的基础上修改。

关于它怎么使用，我在 Coze Skill 也写过，就不再赘述，在上面这个 Coze 技能这里也可以看到使用案例：

或者下载最后的 Skill 文件，上传到支持 Skill 使用的工具使用也可以：

今天分享这样的 Skill 怎么做。

简单来说思路就是，首先想明白要做什么，然后将任务一步步拆细，先有整体结构，然后填充枝叶。

完整的 Skill 结构是这样的：

上面几个结构的说明👇

SKILL.md：定义这个 Skill 的定位与入口，说明怎么触发、整体流程、输入要求、输出目标。这个可以自己写一个雏形，然后和 AI 工具沟通并优化。
scripts/：执行层，这里放的 Python 自动化脚本，它负责把流程真正跑起来（解析、提取、生成、优化、导出等）。这个可以给到流程思路让AI来写。
references/：知识规范层，提供术语、模板、规则和方法，保证结果统一、可解释、可复用。类似知识库，可以把往常使用的格式规范放进来，并且在需要生成具体某个部分的内容的时候，要求它按照这个规范输出。
assets/：交付模板层，提供可直接套用的资源文件（如 HTML/CSV/JSON 模板与速查表）。它可以提高交付速度和统一性，避免每次从零做格式与排版。

下面是SKILL.md文件，完整 Skill 内容大家可以在文章最后的分享链接去下载查看：

—
name: script-to-video-prompts
description: 短剧剧本转视频提示词生成器。将用户上传的短剧剧本文档智能拆解为可直接用于AI视频生成的完整中文提示词体系。输出包括：角色设定提示词、场景设定提示词、逐镜头分镜提示词。支持批量处理、多格式导出、一致性校验。当用户说”剧本转视频提示词”、”拆解剧本生成分镜”、”短剧转视频”、”批量生成分镜提示词”、”剧本可视化”时触发。
—
# 短剧剧本转视频提示词生成器
将短剧剧本文档智能拆解为可直接用于AI视频生成的完整中文提示词体系，支持自动化批量处理。
## 用户输入
– 短剧剧本文档（Word/PDF/TXT/Markdown/Final Draft .fdx）
– 可选：风格参考图片、角色参考图片、已有角色设定表
## 工作流程
### 1. 剧本智能解析
使用 `scripts/parse_script.py` 解析剧本：
– 自动识别剧本格式（标准编剧格式/自由格式）
– 提取场次(Scene)、场景描述(Action)、角色对白(Dialogue)、动作指示(Parenthetical)
– NLP分析：情绪曲线、节奏变化、画面密度
– 自动生成场次时长估算
### 2. 角色设定提取
使用 `scripts/character_extractor.py` 提取角色信息：
– 基础外貌（年龄、性别、体型、五官特征）
– 发型发色、肤色
– 服装造型（支持多场次服装变化追踪）
– 角色气质/性格的视觉化表达
– 标志性道具/配饰输出格式参考 [references/character_template.md](references/character_template.md)
### 3. 场景设定分析
使用 `scripts/scene_analyzer.py` 分析场景：
– 场景类型（室内/室外、具体地点）
– 空间结构、关键道具布置
– 光线设计（光源类型、方向、强度、色温）
– 色彩基调、视觉氛围
– 天气/时间/季节输出格式参考 [references/scene_template.md](references/scene_template.md)
### 4. 分镜提示词生成
使用 `scripts/storyboard_generator.py` 生成分镜：
– 镜头编号（场次-镜号）
– 景别（大特写/特写/中近景/中景/中远景/远景/大远景），详见 [references/shot_terminology.md](references/shot_terminology.md)
– 画面构图（三分法位置、视线引导）
– 角色动作、表情、站位
– 运镜方式（固定/推/拉/摇/移/跟等），详见 [references/shot_terminology.md](references/shot_terminology.md)
– 情绪氛围关键词，详见 [references/mood_keywords_library.md](references/mood_keywords_library.md)
– 建议时长（秒）
– 转场方式
### 5. 一致性校验
使用 `scripts/consistency_checker.py` 校验：
– 角色跨镜头一致性控制
– 场景连续性检查
– 光影风格统一性校验
– 详见 [references/consistency_control.md](references/consistency_control.md)
### 6. 导出
使用 `scripts/export_utils.py` 导出：
– 支持格式：Markdown/JSON/CSV/Excel
– 支持按场次/角色/场景分类导出
– 可生成可视化分镜脚本
## 输出结构
“`
一、项目元数据
– 片名、集数、总时长、场次数
二、风格总设定
– 画面风格、色彩体系、光影风格
三、角色设定库
– JSON结构化数据 + 自然语言描述
四、场景设定库
– JSON结构化数据 + 自然语言描述
五、完整分镜提示词
– 按场次顺序排列，提示词全部使用中文
六、一致性参考表
– 角色/场景一致性种子词
“`
## 参考文件
### scripts/（自动化脚本）
– `parse_script.py` – 剧本解析器
– `character_extractor.py` – 角色信息提取
– `scene_analyzer.py` – 场景分析
– `storyboard_generator.py` – 分镜生成
– `consistency_checker.py` – 一致性校验
– `export_utils.py` – 多格式导出
– `prompt_optimizer.py` – 提示词优化
### references/（规范文档）
– `screenplay_format_spec.md` – 剧本格式规范
– `character_template.md` – 角色设定模板
– `scene_template.md` – 场景设定模板
– `shot_terminology.md` – 景别/运镜术语词典
– `mood_keywords_library.md` – 情绪氛围关键词库
– `video_style_guide.md` 视频风格指南
– `consistency_control.md` – 一致性控制指南
– `prompt_patterns.md` – 高效提示词模式库
### assets/（模板资源）
– `storyboard_template.csv` – 分镜脚本CSV模板
– `export_template.html` – 可视化导出HTML模板

下方【文件结构】是 Skill 的文件结构，它的文件结构中必须有 SKILL.md 文件。YAML头部、Markdown正文和关键要素是SKILL.md 格式规范。（可选）的部分是不固定的，可以是文件也可以是文件夹，文件夹的命名也可以按照自己的要求来👇

制作 Skill 的时候，可以前期制定标准，中期优化功能模块，后期测试优化与封装。下面是完整的执行思路，注意下方虽然分了步骤，但是实际生成 Skill 的时候它也可以一次执行所有要求，再根据效果继续优化调整的。

前期：制定标准

1. 明确这个Skill操作的总流程

我希望这个 Skill 的工作流程是这样的：

剧本解析 → 角色提取 → 场景分析 → 分镜生成 → 提示词优化 → 一致性检查 → 导出。

如果没有具体明确的工作流程要求，后面所有实现都会默认按照这个规范。

2. 确定输入内容格式

确定支持哪些输入：比如txt/md/docx/pdf/fdx。同时定义默认输入是一个剧本文档，也可以是一段话甚至一句话，但是这样的话效果和内容走向可能会不太可控；“推荐输入”可加角色图参考、风格图参考、画幅要求、时长限制。

3. 明确Skill最终产出什么

先写清楚最终要产出哪些文件：角色设定、场景设定、分镜提示词、一致性报告、导出文件格式等，这一步的作用是防止中途越做越偏。

4. 设计统一的结构

确定每一步输入输出长什么样。我希望它输出分镜表是什么样的，希望它输出角色设计提示词格式是什么样的等等。这一步很关键，每个输出项的字段先定好，再让 AI 按要求输出，后面就不会乱。

比如我希望完整的分镜提示词表是按照第 X 幕第 X 场景，每个场景的提示词表包含镜头编号、景别、画面描述、构图、运镜、光线、色调、氛围、时长、镜头角度、提示词等。那么我可以自己做或者让AI来生成这样一个统一的表格模板，如果本身有这样的模板，也可以直接放进去。后面的每个脚本都读写这个模板，并且按照这个格式输出，这样就不会不同幕和场景之间格式互相对不上。

可以制作模板放在 assets 里，让 AI 生成的脚本参考这些模板规范进行生成。

中期：优化功能模块

5. 准备references内容

references 中存放术语与模板。

整个提示词的规则可以输出为单独的文档，比如剧本格式规范、镜头术语、情绪词库、提示词模板、一致性指南等。这样会更方便修改和规范指定方向的文档内容。其他人查看时，也能知道为什么这么做。

6. 准备assets文件夹内容

assets 中存放可复用模板内容。

比如：分镜 CSV 模板、角色提示词模板、HTML 模板、速查表等等。这样每次新项目也能直接复用，不用重做排版和字段。

references 和 assets 中的内容建议单独生成、优化，输出文件后放进去，再给到指定路径给后续脚本调用。

7-12. AI生成脚本

接下来的 7-12 几个模块都是脚本，这些都可以让 AI 来写。比如 7 的提示词参考如下：

帮我生成脚本，用于把原始剧本内容（支持 `txt/md/docx/pdf/fdx`）解析成结构化 JSON，要求自动识别并分类：场景标题（INT/EXT 或“第X场/场景X”）、角色名、对白、动作、转场，并输出中文字段：`标题`、`场景列表`、`全角色`、`全地点`、`总时长秒数`、`元数据`（含`场景数`、`角色数`、`地点数`），其中每个场景至少包含`场景编号`、`场景标题`、`地点`、`时间段`、`内外景`、`角色`；规则是“上一行是角色名则下一行优先判定为对白，否则判定为动作”，没有场景标题时自动创建默认场景，空行跳过；重点先保证稳健性和通用性，不追求复杂算法，优先做到“任何剧本或任意文本内容都能读入并形成场景列表”；支持通过命令行传入文件路径并输出格式化 JSON，代码尽量清晰、注释简单、依赖缺失时提示安装。

更简单点（自己直接写），这样写不满意的话可以在这个基础上让 AI 优化提示词：

生成一个通用剧本解析脚本，能读取常见文本格式并智能分析内容，自动识别场景、角色、对白、动作和转场，输出清晰的结构化 JSON；要求优先保证稳定可用，即使输入不规范也能自动补默认场景并正常返回结果。

现在的 AI 工具都很机灵了，我们只要要求它生成 Skill 的时候生成单独的脚本，它就会自己生成。大多数时候都不需要单独输入提示词。

7. 实现【剧本解析】模块

把原始剧本变成结构化数据。识别生成场景标题、角色名、对白、动作、转场。

8. 实现【角色提取】模块

从【7】的解析结果里提角色档案：性别、年龄段、体型、发型、关键词。要求输出时给每个角色一段提示词描述，后面分镜直接可用，调用也方便。

9. 实现【场景分析】模块

从【7】的每个场景里提地点、室内外、时间段、光线、氛围，给每个场景生成一条基础视觉提示词。这一层是全片视觉基础，后面镜头都在它上面叠加。

10. 实现【分镜生成】模块

按【7】的场景自动拆成镜头，至少包含：建立镜头、角色出场、对话镜头。每个镜头都要有编号、景别、运镜、动作、时长、转场、提示词。先保证“有镜头可用”，再逐步优化镜头艺术性。

11. 实现【提示词优化】模块

把镜头提示词做统一处理：术语标准化、去重复提示词、补质量词（提升画面质量和稳定性的万能词，比如高质量、电影感、清晰对焦这类）。这样能让输出更适配视频模型，不会每条风格都散。有时间的话还可以针对不同风格单独制作不同风格、不同视频模型的提示词规范表。

12. 实现【一致性检查】模块

检查角色跨镜头提示词、场景是否跳变、光线是否变化突兀等，输出“问题 + 修复建议 + 复用规范提示词”。

后期：测试优化与封装

13. 导出格式确认

确认默认导出格式，这里我希望至少支持 JSON + CSV + Markdown。目标是让不同职能都能直接看和用。

14. 上传剧本进行测试

用 2-3 份不同的剧本跑全流程。这个剧本可以 AI 生成也可以自己提供。

重点检查：字段是否缺失、镜头是否正确、提示词是不是符合自己的要求。

重要的部分可以单独拎出来补充单独文档和脚本，比如我对视频提示词有指定的要求，那么可以单独一个提示词参考文档（放在 references ）或提示词格式参考模板（放在 assets ）并要求脚本在指定场景调用。

发现问题就让 AI 针对对应模块修改。

15. 完成 Skill 封装

最后整理为清晰目录，最简单的可以就一个SKILL.md，复杂一些就可以加上脚本、参考、模板等文件夹了，我这里的格式是：

SKILL.md + scripts/ + references/ + assets/。

这个直接让 AI 封装Skill然后自己确认就可以。到这一步，我们就拥有一个比较完整的 Skill 了。

梳理完全部步骤后，就可以输出一个完整的提示词，让 AI 生成 Skill 了。需要详细输出的地方，可以单独生成提示词或模板后放进去，要求脚本调用。

下面我放了最初我的提示词要求，后期对这组提示词进行了分布的详细优化，但是我的 Claude 账号被封了所以优化提示词的过程没有了😅，但大致的逻辑思路是上面这样的，供大家参考。

另外，references/ 和 assets/ 中的内容也建议通过对话多轮优化到自己满意的效果。

你是一个 Skill 开发助手，帮我从零构建一个「剧本转视频分镜提示词」Skill。请按以下规格和顺序执行，不可跳步，不可合并步骤。
—
【第一步：工作流程定义】
这个 Skill 的工作流程是：
先解析剧本结构，识别出幕、场景、对白和动作描述；
然后提取所有角色，为每个角色生成设定；
接着分析所有场景，为每个场景生成设定；
再把每个场景拆解成具体镜头，生成分镜提示词表；
之后对每条提示词做优化，确保它足够具体、包含必要的视觉参数、并且与角色和场景设定一致；
然后做一致性检查，交叉比对角色、场景与分镜之间的偏差；
最后按用户要求的格式导出。不可以跳步，不可以合并步骤。
如果用户没有特别要求改变流程，永远执行完整的七步。
【第二步：输入规格定义】
支持接收 txt、md、docx、pdf 和 fdx 格式的剧本文件。最低可运行的输入是一个剧本文档，哪怕只是一段话甚至一句核心概念也能启动流程，但必须在开始前告诉用户：当前输入信息有限，后续生成内容的风格一致性和走向可能不完全可控，建议补充更多信息。推荐的输入是剧本加上角色参考图、风格参考图、目标画幅比例、目标时长、以及希望的视觉风格关键词。用户提供的参考图永远优先于自己的推断。
【第三步：最终产出定义】
最终产出：一份角色设定文档，包含每个角色的外貌、服装、气质关键词和可用于 AI 生图的完整提示词；一份场景设定文档，包含每个场景的空间描述、光线类型与方向、主色调和氛围词；一份完整的分镜提示词表，按照幕、场景、镜头三级结构组织；一份一致性检查报告，标注角色和场景在不同镜头之间的视觉偏差；最后是以上所有内容的导出文件，支持 CSV、Markdown、Excel 和 HTML 格式。这五样东西是这个 Skill 存在的全部目的，任何中间步骤都是为了最终产出它们。
【第四步：统一结构规范】
分镜提示词表按第 X 幕第 X 场景组织，每个场景的提示词表包含以下字段：镜头编号、景别、画面描述、构图、运镜、光线、色调、氛围、时长、镜头角度、提示词。先生成这个统一的表格模板，后面所有脚本都读写这个模板并按此格式输出。
【第五步：references 内容】
生成以下规范文档：剧本格式规范、镜头术语表、情绪词库、提示词模板、一致性检查指南。每个文档独立成文件，方便后期单独修改。
【第六步：assets 内容】
基于第四步的结构规范，生成以下可复用模板文件：分镜 CSV 模板、角色提示词模板、HTML 导出模板、速查表。
【第七步：剧本解析脚本】写一个脚本，能读剧本文件，分出场景、角色、对白和动作，最后输出为 JSON 格式。代码清晰精炼、注释清楚。
【第八步：角色提取脚本】
从解析结果里提取角色档案，包含性别、年龄段、体型、发型、关键词。为每个角色输出一段可直接用于 AI 生图的提示词描述。
【第九步：场景分析脚本】
从每个场景里提取地点、室内外、时间段、光线、氛围，为每个场景生成一条基础视觉提示词。
【第十步：分镜生成脚本】
按场景自动拆成镜头，至少包含建立镜头、角色出场、对话镜头，每个镜头严格按照第四步定义的字段输出。
【第十一步：提示词优化脚本】
对所有镜头提示词做统一处理：术语标准化、去重复、补质量词、输出质量打分。参考 references/ 中的提示词模板和镜头术语表。
【第十二步：一致性检查脚本】
检查角色跨镜头是否漂移、场景是否跳变、光线是否变化突兀，输出「问题 + 修复建议 + 复用规范提示词」报告。
【第十三步：导出脚本】
将所有产出内容导出为 JSON、CSV、Markdown 三种格式，HTML 格式基于 assets/ 中的 HTML 模板生成。
【第十四步：测试】
用 2-3 份不同类型的剧本跑全流程，重点检查：字段是否缺失、镜头是否正确生成、提示词是否符合 references/ 中的规范。发现问题后定位到对应脚本，只修改该脚本，不动其他文件。告诉我每份剧本的测试结果和发现的问题。
【第十五步：封装 SKILL.md】
基于以上所有内容，生成完整的 SKILL.md 文件，包含：定位说明、触发方式、完整七步流程说明、输入要求、输出目标、文件目录结构。
—
所有文件生成完毕后，输出完整目录结构，以及如何用一份测试剧本跑通全流程的指南。

几个问题

最开始怎么理清制作一个 Skill 的思路？

先抓一条主线：先想清楚“用来做什么、输入什么、交付输出什么”，再把中间步骤进行拆分（比如解析、生成、检查、导出），然后要求统一格式，再让 AI 输出。

轻松慵懒版顺序可以是：提示词直接要求它可以通过输入什么，获得什么输出，中间的流程是怎样的，有哪些模板可以调用，最后让 AI 写脚本。等这个完成了，需要什么再补充。这样做不会一开始就陷入技术细节，也不容易做着做着跑偏。

有任何不清楚的地方都可以问 AI，从大方向到细化都可以问。比如：

AI可能会写得很详细，我们提取关键要素就可以。

再让 AI 按要求生成 Skill 之前把要求尽可能梳理全面，感觉逻辑不够清晰或者还有优化空间，都可以让 AI 去继续优化提示词。

为什么自动化脚本要单独出来？

自动化脚本要单独出来，是因为它和说明文档、模板资源的职责完全不同：在这里，脚本负责执行流程并产出结果，参考文档负责解释规则和标准，模板负责规范格式和交付外观。

为什么要分很多个子脚本？

复杂的 Skill 中，把脚本单独放在 scripts/，可以让我们直接调用、测试、替换和部署，不会被文档内容干扰；同时当规则变化时，我们可以只改 references/，当逻辑变化时只改 scripts/，维护成本和排错成本都会明显降低。

后期如果要修改内容，怎么要去要求 AI 去排查和修改比较节省 token ，并且准确高效率？

最简单的方法是：每次只让 AI 干一件小事，并告诉它“只改哪里、不要乱改、改完怎么验收”。你可以直接说：只检查并修改 scripts/scene_analyzer.py（复制文件路径）里的光线规则，别动其他文件；先找问题点，再最小改动；最后只告诉我改了哪几行、会影响什么、怎么验证。这样 AI 不会到处读文件、不会大改代码，token 花得少，结果也更稳。

至于要不要改 SKILL.md，取决于改的是规则说明还是代码细节。

小白判断法：如果用户使用方式变了，就改 SKILL.md；如果只是内部实现变了，可以不改。

Skill下载

下载这个 Skill ，可以查看内部所有文件，安装即可直接使用：

https://my.feishu.cn/docx/PsPfdVFD9oZ3nZxcvBFcGxdgnje

本文由人人都是产品经理作者【阿真Irene】，微信公众号：【阿真Irene】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App