一句话就能生成漫剧分镜？我决定自己做一个 AI 脚本助手

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

一句话就能生成漫剧分镜？我决定自己做一个 AI 脚本助手

zNONOz

2026-03-26

0 评论 1116 浏览 0 收藏

11 分钟

漫剧正以AI生成的漫画风格席卷短视频平台，但创作门槛却让普通人望而却步。本文揭秘如何用AI实现『一句话生成分镜脚本』的产品设计逻辑，从意图理解到画面拆解，展示AI如何将模糊灵感转化为完整视觉叙事。更透过程序员摆摊的案例，呈现AI创作中可控的随机性与产品化思考。

开头：一个让我动念的瞬间

前段时间刷短视频，发现一种叫”漫剧”的内容形态越来越火了。

不知道你有没有刷到过——一组 AI 生成的漫画风格图片，配上旁白和 BGM，讲一段几分钟的故事。有些做得好的，完播率和点赞量比真人出镜的短视频还高。

我当时就想：这东西看着也不复杂啊，我能不能也做一个？

然后我打开电脑，试着开始写第一个分镜脚本。

写了两个小时，我放弃了。

不是因为没有故事可讲，而是从”一个模糊的灵感”到”一份可以用来生图的完整分镜脚本”之间，隔着一道巨大的鸿沟。你需要考虑的东西远比想象中多得多：故事要拆成几个画面？每个画面里角色在干什么？镜头是远景还是特写？角色的表情和肢体语言怎么描述？场景的氛围怎么用文字传达给 AI 生图工具？

一份像样的分镜脚本，少说也要花上几个小时。而且这还只是文字部分，后面还有生图、排版、配音……

这个门槛，把绝大多数想做漫剧的普通人挡在了外面。

我就想：能不能让 AI 来帮我干这件事？

我想解决的问题

在真正动手之前，我先想清楚了一个问题：我到底要帮谁解决什么问题？

这是做产品的基本功，但很容易在兴奋中被跳过。

我观察到的现状是这样的：

目前做漫剧的人大致可以分成两类。一类是专业创作者，他们有编剧基础，有成熟的工作流，脚本对他们来说不是瓶颈。另一类是像我这样的普通人，可能有一个不错的点子，想尝试做一条漫剧，但在第一步——写分镜脚本——就卡住了。

第一类人，工具做得再好，他们也未必需要。

第二类人，才是我真正想服务的对象。

他们的核心诉求其实很简单：我脑子里有一个故事的雏形，但是我不会拆分镜、不会写画面描述。我只想告诉你”大概是什么故事”，你帮我把后面的活都干了。

把这个诉求翻译成产品语言就是——

用户只需要输入一句话，系统自动生成一套完整的分镜脚本。

“一句话”背后的产品思考

“一句话生成分镜”听起来很简单，但在产品设计层面，这六个字背后有一些值得聊的东西。

为什么是”一句话”，而不是让用户填一个表单？

做产品的时候，我们经常面临一个选择：给用户更多的控制权，还是给用户更低的使用门槛？

如果我设计一个表单，让用户填写”故事类型””角色数量””场景偏好””风格调性”……信息越多，生成结果的质量肯定越高。但问题是，我的目标用户是小白。一个连分镜脚本是什么都不太清楚的人，你让他填 10 个字段，他大概率会在第 3 个字段的时候关掉页面。

所以我选择了另一个方向：最小输入，最大输出。

用户只给我一句话，比如”一个社恐女生第一天上班的故事”。剩下的所有事情——故事展开、场景设计、分镜拆解、画面描述——全部由系统来完成。

这意味着什么？意味着 AI 不只是在”辅助”用户，而是在”替”用户做大部分创作决策。这听起来很美好，但在实际开发过程中，我发现这件事远比我想象的要难。

一句话进去，到底发生了什么？

让我用一个简单的例子来说明。

当用户输入：”一个外卖骑手在暴雨天遇到一只流浪猫”。

系统需要完成的事情大致是这样的：

第一步：理解意图，补全故事。 用户给了一句话，但这一句话只是一个”种子”。AI 需要从这颗种子生长出一个有起承转合的完整故事。外卖骑手为什么在送外卖？他是着急赶单还是最后一单？遇到猫之后他做了什么？故事的情绪走向是温暖治愈还是现实无奈？这些用户都没说，但系统必须做出合理的判断。

第二步：把故事拆成分镜。 一个完整的故事，可能要拆成 8-15 个画面。每个画面要有独立的视觉信息，同时画面之间的衔接要自然流畅。这不是简单地”把故事切成几段”，而是要像导演一样去思考：这里该给一个远景来交代环境，这里需要一个特写来强化情绪。

第三步：为每个分镜写画面描述。 这一步是最关键的，因为这些描述最终要喂给 AI 生图工具。描述的质量直接决定了生成图片的质量。你不能只写”骑手在雨中”，你需要写出”一个穿着黄色雨衣的年轻男性骑手，骑着电动车行驶在昏暗的城市街道上，大雨倾盆，路面积水反射着路灯的暖黄色光芒”。

这三步，每一步都不简单。

而且它们之间不是孤立的，是相互关联的。故事的走向决定了分镜的节奏，分镜的构图决定了画面描述的写法。如果前面某一步出了问题，后面的结果全会跟着歪掉。

先让你看看现在的效果

聊了这么多，不如直接看看实际效果。

比如用户输入一句话：

“一个程序员辞职去摆摊卖咖啡”

系统会生成类似这样的分镜脚本（这里只展示前几个画面）：

分镜 1 | 远景 | 办公室 深夜加班的办公室，只剩下几盏工位灯还亮着。一个戴着眼镜的年轻男性坐在电脑前，屏幕的蓝光映在他疲惫的脸上。桌上放着喝了一半的外卖咖啡。

旁白：在互联网公司写了三年代码，我每天最期待的事情，就是那杯咖啡。

分镜 2 | 中景 | 办公室 同一个年轻男性站在领导的办公桌前，双手递出一份文件。他的表情平静但坚定，领导露出惊讶的神色。

旁白：直到有一天，我把辞职信交了上去。

分镜 3 | 特写 | 街边 一双手正在仔细擦拭一台小型咖啡机，阳光洒在不锈钢表面，反射出温暖的光泽。旁边堆着几个还没拆封的纸箱。

旁白：别人都说我疯了，放着好好的班不上。但我觉得，这是我第一次真正清醒。

……

这只是其中一种生成效果。同一句话输入多次，故事的展开方式和分镜设计都可能不一样。这也是 AI 创作有意思的地方——它带有一种可控范围内的”随机性”。

这个项目对我来说意味着什么

说实话，我开始做这个项目，不完全是因为”看到了市场机会”。

更多的是出于好奇：AI 现在到底能帮人做到什么程度？一个非专业的普通人，借助 AI 的能力，能不能完成以前只有专业团队才能做的事情？

在做这个项目的过程中，我接触到了很多以前从来没碰过的东西——Prompt Engineering、模型精调、AI 图像生成、角色一致性控制……每一个都是一个有意思的话题。

所以我打算开一个系列，边做边写，把过程中的思考和踩坑经历分享出来。

不是写技术教程，而是用产品经理的视角来聊这些技术问题。因为我觉得，在 AI 时代，产品经理需要理解这些东西——不需要会写代码，但至少要知道”这事儿能不能做、难不难做、有哪些坑”。

本文由 @zNONOz 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

zNONOz

资深产品经理，带你构建外脑系统。定期分享AI提效与商业逻辑，点赞关注，做少数派。

3篇作品 2916总阅读量

抖音不跟微信“聊天”

01-176204 浏览

6个小技巧，将客户成功带上快车道

09-012467 浏览

元宇宙，还能救一救？

07-211870 浏览

GPT奇点赋能大数据行业，不只是写SQL还有……——以数据全生命周期视角为例

05-067333 浏览

Bard迎来大更新：终于支持中文！

07-143011 浏览

目前还没评论，等你发挥！

刘强东回归一年：打不赢的百亿战争，搞不定的“不可能三角”

12-192673 浏览
小红书爆文密码 | 一月爆款笔记案例解析

02-0217426 浏览
饿了么，需要一个新故事

05-294094 浏览