一句话就能生成漫剧分镜?我决定自己做一个 AI 脚本助手
漫剧正以AI生成的漫画风格席卷短视频平台,但创作门槛却让普通人望而却步。本文揭秘如何用AI实现『一句话生成分镜脚本』的产品设计逻辑,从意图理解到画面拆解,展示AI如何将模糊灵感转化为完整视觉叙事。更透过程序员摆摊的案例,呈现AI创作中可控的随机性与产品化思考。

开头:一个让我动念的瞬间
前段时间刷短视频,发现一种叫”漫剧”的内容形态越来越火了。
不知道你有没有刷到过——一组 AI 生成的漫画风格图片,配上旁白和 BGM,讲一段几分钟的故事。有些做得好的,完播率和点赞量比真人出镜的短视频还高。
我当时就想:这东西看着也不复杂啊,我能不能也做一个?
然后我打开电脑,试着开始写第一个分镜脚本。
写了两个小时,我放弃了。
不是因为没有故事可讲,而是从”一个模糊的灵感”到”一份可以用来生图的完整分镜脚本”之间,隔着一道巨大的鸿沟。你需要考虑的东西远比想象中多得多:故事要拆成几个画面?每个画面里角色在干什么?镜头是远景还是特写?角色的表情和肢体语言怎么描述?场景的氛围怎么用文字传达给 AI 生图工具?
一份像样的分镜脚本,少说也要花上几个小时。而且这还只是文字部分,后面还有生图、排版、配音……
这个门槛,把绝大多数想做漫剧的普通人挡在了外面。
我就想:能不能让 AI 来帮我干这件事?
我想解决的问题
在真正动手之前,我先想清楚了一个问题:我到底要帮谁解决什么问题?
这是做产品的基本功,但很容易在兴奋中被跳过。
我观察到的现状是这样的:
目前做漫剧的人大致可以分成两类。一类是专业创作者,他们有编剧基础,有成熟的工作流,脚本对他们来说不是瓶颈。另一类是像我这样的普通人,可能有一个不错的点子,想尝试做一条漫剧,但在第一步——写分镜脚本——就卡住了。
第一类人,工具做得再好,他们也未必需要。
第二类人,才是我真正想服务的对象。
他们的核心诉求其实很简单:我脑子里有一个故事的雏形,但是我不会拆分镜、不会写画面描述。我只想告诉你”大概是什么故事”,你帮我把后面的活都干了。
把这个诉求翻译成产品语言就是——
用户只需要输入一句话,系统自动生成一套完整的分镜脚本。
“一句话”背后的产品思考
“一句话生成分镜”听起来很简单,但在产品设计层面,这六个字背后有一些值得聊的东西。
为什么是”一句话”,而不是让用户填一个表单?
做产品的时候,我们经常面临一个选择:给用户更多的控制权,还是给用户更低的使用门槛?
如果我设计一个表单,让用户填写”故事类型””角色数量””场景偏好””风格调性”……信息越多,生成结果的质量肯定越高。但问题是,我的目标用户是小白。一个连分镜脚本是什么都不太清楚的人,你让他填 10 个字段,他大概率会在第 3 个字段的时候关掉页面。
所以我选择了另一个方向:最小输入,最大输出。
用户只给我一句话,比如”一个社恐女生第一天上班的故事”。剩下的所有事情——故事展开、场景设计、分镜拆解、画面描述——全部由系统来完成。
这意味着什么?意味着 AI 不只是在”辅助”用户,而是在”替”用户做大部分创作决策。这听起来很美好,但在实际开发过程中,我发现这件事远比我想象的要难。
一句话进去,到底发生了什么?
让我用一个简单的例子来说明。
当用户输入:”一个外卖骑手在暴雨天遇到一只流浪猫”。
系统需要完成的事情大致是这样的:
第一步:理解意图,补全故事。 用户给了一句话,但这一句话只是一个”种子”。AI 需要从这颗种子生长出一个有起承转合的完整故事。外卖骑手为什么在送外卖?他是着急赶单还是最后一单?遇到猫之后他做了什么?故事的情绪走向是温暖治愈还是现实无奈?这些用户都没说,但系统必须做出合理的判断。
第二步:把故事拆成分镜。 一个完整的故事,可能要拆成 8-15 个画面。每个画面要有独立的视觉信息,同时画面之间的衔接要自然流畅。这不是简单地”把故事切成几段”,而是要像导演一样去思考:这里该给一个远景来交代环境,这里需要一个特写来强化情绪。
第三步:为每个分镜写画面描述。 这一步是最关键的,因为这些描述最终要喂给 AI 生图工具。描述的质量直接决定了生成图片的质量。你不能只写”骑手在雨中”,你需要写出”一个穿着黄色雨衣的年轻男性骑手,骑着电动车行驶在昏暗的城市街道上,大雨倾盆,路面积水反射着路灯的暖黄色光芒”。
这三步,每一步都不简单。
而且它们之间不是孤立的,是相互关联的。故事的走向决定了分镜的节奏,分镜的构图决定了画面描述的写法。如果前面某一步出了问题,后面的结果全会跟着歪掉。
先让你看看现在的效果
聊了这么多,不如直接看看实际效果。
比如用户输入一句话:
“一个程序员辞职去摆摊卖咖啡”
系统会生成类似这样的分镜脚本(这里只展示前几个画面):
分镜 1 | 远景 | 办公室 深夜加班的办公室,只剩下几盏工位灯还亮着。一个戴着眼镜的年轻男性坐在电脑前,屏幕的蓝光映在他疲惫的脸上。桌上放着喝了一半的外卖咖啡。
旁白:在互联网公司写了三年代码,我每天最期待的事情,就是那杯咖啡。
分镜 2 | 中景 | 办公室 同一个年轻男性站在领导的办公桌前,双手递出一份文件。他的表情平静但坚定,领导露出惊讶的神色。
旁白:直到有一天,我把辞职信交了上去。
分镜 3 | 特写 | 街边 一双手正在仔细擦拭一台小型咖啡机,阳光洒在不锈钢表面,反射出温暖的光泽。旁边堆着几个还没拆封的纸箱。
旁白:别人都说我疯了,放着好好的班不上。但我觉得,这是我第一次真正清醒。
……
这只是其中一种生成效果。同一句话输入多次,故事的展开方式和分镜设计都可能不一样。这也是 AI 创作有意思的地方——它带有一种可控范围内的”随机性”。
这个项目对我来说意味着什么
说实话,我开始做这个项目,不完全是因为”看到了市场机会”。
更多的是出于好奇:AI 现在到底能帮人做到什么程度?一个非专业的普通人,借助 AI 的能力,能不能完成以前只有专业团队才能做的事情?
在做这个项目的过程中,我接触到了很多以前从来没碰过的东西——Prompt Engineering、模型精调、AI 图像生成、角色一致性控制……每一个都是一个有意思的话题。
所以我打算开一个系列,边做边写,把过程中的思考和踩坑经历分享出来。
不是写技术教程,而是用产品经理的视角来聊这些技术问题。因为我觉得,在 AI 时代,产品经理需要理解这些东西——不需要会写代码,但至少要知道”这事儿能不能做、难不难做、有哪些坑”。
本文由 @zNONOz 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




