AI视频，这一次中国真赢了 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

AI视频，这一次中国真赢了

硅基观察Pro

2026-04-25

0 评论 235 浏览 0 收藏

10 分钟

AI视频赛道正上演中美分道扬镳的戏剧性场景。当OpenAI关停Sora、Runway转型之际，中国的生数科技、爱诗科技却以10亿级融资冲向IPO。可灵、海螺等本土模型不仅占据Artificial Analysis榜单前列，更在商业变现上率先突破。本文将深度解析中国视频模型如何通过超短反馈回路实现'群体性领先'。

这两天，生数科技、爱诗科技相继传出要港股IPO的消息。

这个节奏，有点不讲道理。

两家公司都成立于2023年。也就是说，不到三年，就从0走到了IPO门口。

更微妙的是，就在不久前，OpenAI刚刚关停了 Sora，把资源转向其他方向。

一边是加速上市，一边是主动收缩。同一个赛道，中美走出了两条完全相反的路径。

美国这边，不只是OpenAI，Runway在转型，Pika融资停滞，视频模型整体在降温。

而中国这边，不仅钱还在流入，结果也开始兑现。生数、爱诗今年都完成了10亿级融资，估值跨过10亿美元门槛。

模型能力上，用a16z的话说，即使在即梦Seedance发布之前，可灵、海螺、爱诗这些中国模型，就已经在输出质量上形成领先。

至少在视频模型这个赛道上，中国已经开始出现“群体性领先”。这在整个AI竞争里，是第一次。

那么问题来了，这件事，到底是怎么发生的？

01 中国加码，美国退场

过去一年，AI视频这件事，中美出现了一次很微妙的分岔。

一边在退，一边在加码。

先看美国。上个月，OpenAI关掉了Sora，对外的说法是，把资源转向下一代模型。

这件事的信号其实很明确，在资源有限的情况下，视频没有被优先选择。

随着OpenAI退出，所谓“AI御三家”里，真正还在持续投入视频模型的，只剩谷歌。

巨头在退，创业公司的表现也没好到哪去。

Runway，最早一批做AI视频的公司，已经转型去做平台，把各家模型接进来，自己不再重投模型研发。上一次发布视频模型，还停留在去年12月。

另一家AI视频明星公司Pika，最近一轮融资还停留在2024年6月。

美国放弃视频模型的原因很简单，跟不上了。

但就在美国这边集体哑火的同时，中国这边，正在上演一场截然相反的戏码。

2026年3月，爱诗科技拿下3亿美元融资，直接冲进独角兽；一个月后，生数科技完成近20亿元B轮融资，估值逼近20亿美元。

就连美国最顶级的风投a16z，在今年3月发布的全球AI产品Top100里，也不得不承认：

即使在即梦Seedance发布之前，可灵（Kling AI）、海螺（Hailuo）、爱诗（PixVerse）都建立了真实的用户牵引力，中国开发的模型在输出质量上持续领先。

这可是a16z，美国本土最能打的VC，亲口说的。

再看Artificial Analysis的实时榜单，截至2026年4月，Dreamina Seedance 2.0、Kling 3.0、SkyReels V4、PixVerse V6，这些中国模型长期霸占文本转视频、图生视频的前列。

可以毫不夸张的说，在视频模型这个赛道上，中国已经形成了“群体性领先”，这也是中国在AI竞争里第一个拿到明确领先的赛道。

那么问题来了，为什么是中国？

一个很重要的原因是，中国短视频平台强大的分发能力，带来了超短反馈回路，让视频模型的商业价值更容易被验证。

根据《中国网络视听发展研究报告（2026）》，截至2025年12月，中国用户人均每天刷短视频的时长是129分钟，而去年美国用户在TikTok每天花的时间只有58分钟。

也就是说，中国用户每天刷短视频的时间，是美国人的两倍还多。

高密度的使用场景，为视频模型厂商带来快速迭代的环境。最终，在商业层面得到了率先兑现。

可灵2025年营收做到10.4亿元，远超年初目标；到2026年初，ARR超过3亿美元；爱诗ARR超过4000万美元，生数也做到2000万美元级别。

02 AI视频不会被赢家通吃

即使巨头已经下场，投资人还愿意押注视频模型创业公司，一个很重要的原因是：

视频模型短期内无法“大一统”，不会出现赢家通吃的局面。

视频模型不会像通用模型那样高度集中，反而更可能长期处在“分裂态”——没有绝对统一的最优解，不同场景对应不同模型，各自做到局部最优。

原因很简单，目前，视频模型的竞争，更像是不同团队在不同方向上做强化选择。

不同模型擅长的能力完全不一样。有的擅长动作，比如打斗；有的擅长情绪，比如人物表情；有的擅长画面质感，比如CG效果。

所以，在实际制作里，同一个视频，不同镜头，往往需要不同模型。比如，一个8镜头的视频，可能要拆成8段，每一段用最合适的模型生成，最后再拼起来。

数据也在印证这一点。fal的数据显示，企业在媒体内容生产里，平均会用到14个模型。而在语言模型领域，前三家就占了将近90%的预算。

为什么视频模型这么难统一？

一方面，训练数据、标注方式不同，导致每个模型天然有风格差异。

原因很简单，不同公司拿到的数据源本身就不一样。

有的偏影视级素材，有的偏短视频内容，有的偏动漫，有的偏游戏资产。这些数据不仅在画面风格上差异巨大，在镜头语言、节奏、构图甚至“审美取向”上也完全不同。

模型在训练过程中，本质上是在“学习这些数据里的规律”。

你喂给它什么，它就会更像什么。所以，一个偏电影镜头训练出来的模型，天然更擅长叙事和调度；

一个吃短视频数据长大的模型，更容易做出强节奏、高刺激的内容。这不是后期能轻易调回来的，而是“底子”决定的。

另一方面，即便是同一个模型，只要输入稍微变化，结果就完全不同。

OiiOii 创始人闹闹在调教 Sora 时就遇到过一件事：同样的模型，仅仅因为输入从“单元素”变成“带场景图”，生成结果就出现了明显变化。

也就是说，视频生成的结果，不只取决于模型能力，更是“输入 + 流程”的共同产物。

回到行业视角，视频模型赛道的机会，其实在两个方向：

第一，做“单点极强”的模型。比如专注物理模拟、动漫风格、多镜头叙事等，把某一个能力做到极致。

第二，做“把复杂变简单”的编排层。把原本需要十几个模型、几十步流程的事情，压缩成一个可调用的系统。

所以，视频模型赛道的机会，也在这里被重新定义了：

并不需要去赌“谁会成为下一个OpenAI”，而是看谁能在这条复杂的生产链条里，占住关键位置。

无论是模型能力、工具层，还是编排与交付，每一层都有可能成为独立的价值节点，而不是被单一平台完全吞并。

这也意味着，这个赛道的竞争逻辑，并不会快速收敛到少数几家公司，而更可能在较长一段时间内维持多点分布的格局。

从这个角度看，视频模型或许是少数仍处在“结构尚未固化”的 AI 赛道——路径还在探索，分工仍在形成，格局远未定型。

文/阿奇

本文由人人都是产品经理作者【硅基观察Pro】，微信公众号：【硅基观察Pro】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

硅基观察Pro

人人都能读懂的AI商业

194篇作品 647633总阅读量

平台、监管携手助推精品频出，短剧市场有望走上良性轨道

11-241309 浏览

平台、监管携手助推精品频出，短剧市场有望走上良性轨道

浅析亚马逊 ERP-产品模块

02-067616 浏览

浅析亚马逊 ERP-产品模块

抖音、微信做外卖，美团、饿了么不用慌

02-225832 浏览

抖音、微信做外卖，美团、饿了么不用慌

写给数据产品后浪们的修炼指南（三）面试篇

12-062169 浏览

写给数据产品后浪们的修炼指南（三）面试篇

Vision Pro 的多任务交互设计

10-263602 浏览

Vision Pro 的多任务交互设计

评论

目前还没评论，等你发挥！