复盘2024 AI视频生成:从Sora的惊艳到落地的艰难,万字报告里的真实现状

0 评论 476 浏览 8 收藏 14 分钟

2024 年被称为“AI 视频生成元年”,技术不断变迁,产品形态进化,商业化呈现多种打法,巨头也纷纷布局。本文基于报告为您深度剖析 AI 视频生成产业的现状与未来,揭示其中的机遇与挑战。

2024年,被科技圈公认为“AI视频生成元年”。

年初OpenAI发布的Sora,像一颗深水炸弹,瞬间炸穿了人们对“视频生成”的想象天花板。长达60秒的连贯镜头、复杂的物理世界模拟,让原本还停留在“PPT动画”水平的行业一夜惊醒。然而,半年过去了,Sora至今未对公众开放,但战场却早已硝烟弥漫。

从Runway Gen-3到快手可灵,从Luma到生数科技的Vidu,国内外玩家疯狂卷技术、卷应用。对于产品经理和从业者来说,现在最焦虑的问题不再是“AI能不能生成视频”,而是:这东西到底能不能用?怎么赚钱?未来的护城河在哪里?

基于量子位智库发布的《AI视频生成研究报告》,我们抽丝剥茧,试图还原一个真实的AI视频生成产业全貌。

一、 技术底座的变迁:为什么是现在?

在讨论产品之前,必须先理解技术的代际跃迁。AI视频生成并非一夜冒出来的,它经历了一个从“甚至不能动”到“理解物理世界”的痛苦过程。

报告清晰地梳理了这一技术路线图:

  1. 早期(GANs时代): 如2016年前后,效果差、生成内容不可控,基本不可用。
  2. 中期(Transformer时代): 2017年开始,谷歌发布Video Vision Transformer,开始尝试理解视频序列,但算力昂贵,效果有限。
  3. 爆发期(Diffusion + Transformer): 这是当下的核心。

Sora的“暴力美学”与DiT架构

Sora之所以强,本质上验证了一条路:DiT(Diffusion Transformer)。简单来说,以前的扩散模型(如Stable Diffusion)用的是U-Net架构,这在处理图像时很棒,但在处理视频这种这就需要极强“时空连贯性”的数据时,U-Net有些力不从心。

DiT将Transformer的Scaling Law(缩放定律)引入了视频生成。这意味着,只要你喂给模型足够多的高质量数据(视频+文本对),再加上足够狂暴的算力(H100集群),模型就能涌现出对“物理世界”的理解能力。

产品视角解读:这也带来了当前行业的三大硬伤,也是产品经理在设计相关应用时必须面对的客观物理限制:

  • 算力成本极高: 训练一个Sora级别的模型,成本是千万美元起步。推理成本更是惊人,生成一分钟视频可能需要数十分钟的渲染和高昂的GPU费用。
  • 抽卡模式: 目前的一致性(Consistency)依然是痛点。人物换个镜头衣服变了、脸崩了是常态。用户需要反复“抽卡”才能得到可用素材。
  • 可控性差: 导演想让主角“向左转头并微笑”,AI可能生成“向右转头并大笑”。

二、 产品形态的进化:从“玩具”到“工作流”

这是报告中最值得产品人深思的部分。

早期AI视频产品(如Runway Gen-1)更多是“单点工具”,用户输入Prompt,生成一段几秒的视频。这种模式对于C端用户尝鲜尚可,但对于B端专业用户(影视、广告、短剧)来说,不可控的随机生成不仅不是生产力,反而是干扰。

报告指出,2024年的产品趋势正在发生本质变化:从单点生成走向全流程工作流(Workflow)。

1. 控制权的回归

目前的头部产品(如Runway, Pika, 可灵)都在疯狂加更“控制功能”:

  • 运镜控制:推拉摇移,模拟真实摄像机。
  • 运动笔刷:涂抹哪里,哪里动。
  • 首尾帧控制:也就是Start-to-End,确保视频的开头和结尾符合逻辑,这对于视频剪辑衔接至关重要。

2. “分镜”逻辑的引入

LTX Studio 与 MOKI报告中重点提及了LTX Studio和美图的MOKI,代表了下一代产品的形态。它们不再是简单的对话框,而是引入了“故事板(Storyboard)”“分镜”的概念。

  • LTX Studio:用户先生成角色一致性设定,然后通过脚本生成分镜图,确认分镜没问题后,再将分镜图“视频化”。这符合传统影视工业的作业流程,极大地降低了废片率。
  • 美图MOKI:专为AI短剧设计。它把流程拆解为:脚本生成 -> 角色设计 -> 分镜图生成 -> 视频生成 -> 配音配乐。

洞察:未来的AI视频产品,竞争壁垒不在于底层的模型(因为大家都会趋同),而在于谁能更深地嵌入到行业工作流中。谁能帮用户解决“角色一致性”和“多镜头叙事”的痛点,谁就能拿下B端市场。

三、 商业化的真相:谁在赚钱?怎么赚钱?

AI视频生成的商业化,目前主要分为三类玩家,他们的打法截然不同。

1. 卖铲子的:底层模型厂商(Model as a Service)

代表玩家:OpenAI (Sora), Runway, 生数科技 (Vidu), 爱诗科技 (PixVerse)。

模式:订阅制(SaaS)+ API调用。

现状:烧钱最猛,壁垒最高。报告显示,Runway的年营收已达500万美元级别,Midjourney更是凭借图像生成做到了2亿美元营收。这一层的竞争是“军备竞赛”,只有头部一两家能活下来。国内的生数科技、爱诗科技目前处于第一梯队,融资额均过亿。

2. 做装修的:内容工具大厂

代表玩家:Adobe, Canva, 美图, 剪映(字节)。

模式:功能内嵌,增值服务。

优势:他们不一定非要自己从头训练一个Sora,他们可以直接接入第三方的模型,或者微调开源模型。

Adobe的策略最老辣:它推出了Firefly Video Model,直接嵌在Premiere和After Effects里。对于专业剪辑师来说,我不想要一个生成视频的网页,我只想要在剪辑时间线上,用AI帮我“擦除这个路人”或者“延长这3秒素材”。场景结合是这类玩家的必杀技。

3. 挖金矿的:垂直场景解决方案

代表玩家:FancyTech, Boolv(布尔向量)。这也是报告中非常亮眼的一类隐形冠军。

痛点:电商卖家每天要做大量视频,请模特贵、拍摄慢。

FancyTech打法:专注于电商商品视频化。通过AI学习商品详情页,自动生成脚本,结合3D建模和视频生成,把静态商品图变成动态视频。

数据:FancyTech在23年就已经实现月入破千万。

Boolv打法:专注于出海营销视频。帮跨境电商卖家一键生成TikTok营销短视频。

洞察:垂直类公司不追求做出一个“物理世界模拟器”,他们只追求“这个包包的光泽度对不对”、“这个模特的动作假不假”。

在细分领域,数据质量和行业Know-how比通用模型更重要。

四、 巨头的博弈:字节、腾讯与阿里的棋局

报告中详细分析了国内互联网大厂的布局,非常耐人寻味。与创业公司的“高举高打”不同,大厂显得极其务实且谨慎

  • 字节跳动(即梦/剪映): 拥有最强的视频基因(抖音/TikTok)。字节内部赛马机制严重,但成果显著。剪映是其最大的落地场景,Story Diffusion等技术可以直接转化为剪映里的“一键成片”功能。字节的策略是:不仅要有模型,更要有生态。
  • 快手(可灵): 2024年的黑马。快手发布的可灵模型,效果直接对标Sora,且迅速向公众开放。快手的优势在于其拥有海量的短视频数据(这是训练视频模型最核心的资产)。快手通过“可灵”不仅秀了肌肉,更是在构建一个AI创作者社区。
  • 腾讯(混元): 相对低调,侧重于混元大模型的多模态能力。腾讯拥有最大的社交和游戏场景,未来的AI视频技术极大概率会率先应用在游戏制作(如NPC动作生成)和广告投放上。
  • 阿里巴巴: 侧重于电商赋能。阿里妈妈发布的AtomoVideo等技术,核心是服务淘宝天猫商家的,帮商家降低视频制作成本。

结论: 大厂不会轻易下场做纯粹的“视频生成工具”去和Runway抢生意,他们更倾向于将能力内化,赋能现有的核心业务(广告、电商、游戏)。

五、 未来推演:产品经理需要关注的三个变量

基于报告的分析,未来1-3年,AI视频生成领域有三个关键变量值得关注:

1. 成本的摩尔定律

报告中提到,目前推理成本极高(H100每小时约3美元)。但随着Flash Attention等优化技术的发展,以及专用推理芯片的出现,推理成本有望在一年内下降90%(参考LLM的降价路径)。机会点: 一旦成本下降到临界点,实时互动视频(AI Video Game)个性化定制短剧 将爆发。想象一下,你玩的游戏,剧情和画面是AI实时生成的,每一局都不一样。

2. “多模态统一”是终局

现在的视频生成,其实是“静音”的,或者是“画面+独立配音”。Google Gemini和OpenAI GPT-4o展示了未来的方向:原生多模态(Native Multimodal)。模型天生就理解声音、画面和文字。未来的产品,不再是“文生视频”,而是“与AI导演对话”。你对它说“风声大一点”,画面中的树叶摇动会变剧烈,同时风声音效也会变大。音画同步的细腻度将是体验的分水岭。

3. 从“生成”到“编辑”

目前的AI视频大多是“一锤子买卖”,生成了就不能改。未来的方向是可编辑性(Editability)。类似于在Photoshop里修图,用户应该能在视频里通过自然语言修改局部:“把这件红衣服换成蓝色的,但人物动作不要变”。谁解决了视频的局部重绘(Inpainting)和精准控制,谁就掌握了通往专业影视制作的门票。

结语

看完这份46页的报告,最大的感受是:AI视频生成已经过了“看热闹”的阶段,进入了“拼刺刀”的深水区。

对于SaaS层面的创业者来说,窗口期正在关闭,因为巨头和头部模型厂商正在快速补齐能力。但对于应用层的产品经理来说,好戏才刚刚开始。

现在的AI视频,就像早期的移动互联网,基站建好了(模型有了),手机普及了(算力在增长),但真正的“微信”和“抖音”还没出现。

机会或许就藏在那些**“看起来不性感,但能实实在在解决效率问题”**的垂直工作流里。是在电商的详情页里,是在短剧的剧本会上,是在游戏美术的素材库里。

Sora还没来,但我们已经在路上了。

(本文基于量子位智库2024年7月发布的《AI视频生成研究报告》撰写)

本文由 @狸归四海 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Pixabay,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!