AI视频,这一次中国真赢了

0 评论 235 浏览 0 收藏 10 分钟

AI视频赛道正上演中美分道扬镳的戏剧性场景。当OpenAI关停Sora、Runway转型之际,中国的生数科技、爱诗科技却以10亿级融资冲向IPO。可灵、海螺等本土模型不仅占据Artificial Analysis榜单前列,更在商业变现上率先突破。本文将深度解析中国视频模型如何通过超短反馈回路实现'群体性领先'。

这两天,生数科技、爱诗科技相继传出要港股IPO的消息。

这个节奏,有点不讲道理。

两家公司都成立于2023年。也就是说,不到三年,就从0走到了IPO门口。

更微妙的是,就在不久前,OpenAI刚刚关停了 Sora,把资源转向其他方向。

一边是加速上市,一边是主动收缩。同一个赛道,中美走出了两条完全相反的路径。

美国这边,不只是OpenAI,Runway在转型,Pika融资停滞,视频模型整体在降温。

而中国这边,不仅钱还在流入,结果也开始兑现。生数、爱诗今年都完成了10亿级融资,估值跨过10亿美元门槛。

模型能力上,用a16z的话说,即使在即梦Seedance发布之前,可灵、海螺、爱诗这些中国模型,就已经在输出质量上形成领先。

至少在视频模型这个赛道上,中国已经开始出现“群体性领先”。这在整个AI竞争里,是第一次。

那么问题来了,这件事,到底是怎么发生的?

01 中国加码,美国退场

过去一年,AI视频这件事,中美出现了一次很微妙的分岔。

一边在退,一边在加码。

先看美国。上个月,OpenAI关掉了Sora,对外的说法是,把资源转向下一代模型。

这件事的信号其实很明确,在资源有限的情况下,视频没有被优先选择。

随着OpenAI退出,所谓“AI御三家”里,真正还在持续投入视频模型的,只剩谷歌。

巨头在退,创业公司的表现也没好到哪去。

Runway,最早一批做AI视频的公司,已经转型去做平台,把各家模型接进来,自己不再重投模型研发。上一次发布视频模型,还停留在去年12月。

另一家AI视频明星公司Pika,最近一轮融资还停留在2024年6月。

美国放弃视频模型的原因很简单,跟不上了。

但就在美国这边集体哑火的同时,中国这边,正在上演一场截然相反的戏码。

2026年3月,爱诗科技拿下3亿美元融资,直接冲进独角兽;一个月后,生数科技完成近20亿元B轮融资,估值逼近20亿美元。

就连美国最顶级的风投a16z,在今年3月发布的全球AI产品Top100里,也不得不承认:

即使在即梦Seedance发布之前,可灵(Kling AI)、海螺(Hailuo)、爱诗(PixVerse)都建立了真实的用户牵引力,中国开发的模型在输出质量上持续领先。

这可是a16z,美国本土最能打的VC,亲口说的。

再看Artificial Analysis的实时榜单,截至2026年4月,Dreamina Seedance 2.0、Kling 3.0、SkyReels V4、PixVerse V6,这些中国模型长期霸占文本转视频、图生视频的前列。

可以毫不夸张的说,在视频模型这个赛道上,中国已经形成了“群体性领先”,这也是中国在AI竞争里第一个拿到明确领先的赛道。

那么问题来了,为什么是中国?

一个很重要的原因是,中国短视频平台强大的分发能力,带来了超短反馈回路,让视频模型的商业价值更容易被验证。

根据《中国网络视听发展研究报告(2026)》,截至2025年12月,中国用户人均每天刷短视频的时长是129分钟,而去年美国用户在TikTok每天花的时间只有58分钟。

也就是说,中国用户每天刷短视频的时间,是美国人的两倍还多。

高密度的使用场景,为视频模型厂商带来快速迭代的环境。最终,在商业层面得到了率先兑现。

可灵2025年营收做到10.4亿元,远超年初目标;到2026年初,ARR超过3亿美元;爱诗ARR超过4000万美元,生数也做到2000万美元级别。

02 AI视频不会被赢家通吃

即使巨头已经下场,投资人还愿意押注视频模型创业公司,一个很重要的原因是:

视频模型短期内无法“大一统”,不会出现赢家通吃的局面。

视频模型不会像通用模型那样高度集中,反而更可能长期处在“分裂态”——没有绝对统一的最优解,不同场景对应不同模型,各自做到局部最优。

原因很简单,目前,视频模型的竞争,更像是不同团队在不同方向上做强化选择。

不同模型擅长的能力完全不一样。有的擅长动作,比如打斗;有的擅长情绪,比如人物表情;有的擅长画面质感,比如CG效果。

所以,在实际制作里,同一个视频,不同镜头,往往需要不同模型。比如,一个8镜头的视频,可能要拆成8段,每一段用最合适的模型生成,最后再拼起来。

数据也在印证这一点。fal的数据显示,企业在媒体内容生产里,平均会用到14个模型。而在语言模型领域,前三家就占了将近90%的预算。

为什么视频模型这么难统一?

一方面,训练数据、标注方式不同,导致每个模型天然有风格差异。

原因很简单,不同公司拿到的数据源本身就不一样。

有的偏影视级素材,有的偏短视频内容,有的偏动漫,有的偏游戏资产。这些数据不仅在画面风格上差异巨大,在镜头语言、节奏、构图甚至“审美取向”上也完全不同。

模型在训练过程中,本质上是在“学习这些数据里的规律”。

你喂给它什么,它就会更像什么。所以,一个偏电影镜头训练出来的模型,天然更擅长叙事和调度;

一个吃短视频数据长大的模型,更容易做出强节奏、高刺激的内容。这不是后期能轻易调回来的,而是“底子”决定的。

另一方面,即便是同一个模型,只要输入稍微变化,结果就完全不同。

OiiOii 创始人闹闹在调教 Sora 时就遇到过一件事:同样的模型,仅仅因为输入从“单元素”变成“带场景图”,生成结果就出现了明显变化。

也就是说,视频生成的结果,不只取决于模型能力,更是“输入 + 流程”的共同产物。

回到行业视角,视频模型赛道的机会,其实在两个方向:

第一,做“单点极强”的模型。比如专注物理模拟、动漫风格、多镜头叙事等,把某一个能力做到极致。

第二,做“把复杂变简单”的编排层。把原本需要十几个模型、几十步流程的事情,压缩成一个可调用的系统。

所以,视频模型赛道的机会,也在这里被重新定义了:

并不需要去赌“谁会成为下一个OpenAI”,而是看谁能在这条复杂的生产链条里,占住关键位置。

无论是模型能力、工具层,还是编排与交付,每一层都有可能成为独立的价值节点,而不是被单一平台完全吞并。

这也意味着,这个赛道的竞争逻辑,并不会快速收敛到少数几家公司,而更可能在较长一段时间内维持多点分布的格局。

从这个角度看,视频模型或许是少数仍处在“结构尚未固化”的 AI 赛道——路径还在探索,分工仍在形成,格局远未定型。

文/阿奇

本文由人人都是产品经理作者【硅基观察Pro】,微信公众号:【硅基观察Pro】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!