Runway:AI Native Tools工厂,下一个时代的视频创作工具

1 评论 10731 浏览 10 收藏 44 分钟

本文作者从Runway公司的产品着手进行讲解,介绍了Runway的产品历程及公司特色,分析了其市场定位与外部竞争,并在最后研究探讨了Runway公司的未来发展,推荐给感兴趣的伙伴们阅读~

Runway 是什么?是 Stable Diffusion model 背后的研究团队的公司;是目前最受关注的 AI native 视频创作软件;是新产品 demo 总是很酷炫,但用户很难拿到内测的“最强广告公司”;是基于云端和浏览器的团队协作产品——视频编辑领域的 figma。

但更进一步看,我们认为 Runway 的模式是一个 AI native tools 工厂,和字节的路径很像。字节以推荐算法+资讯作为载体,制造了段子、新闻、贴图、短视频、中视频等一系列产品,爆款程度不一。而 Runway 以“AI + 视觉创作”为载体,随着 AI 技术每一次浪潮的迭代推出了 30 多个图像视频编辑工具,也有不少在业界成为爆款。

Runway 的产品哲学很清晰:一直站在 AI 技术演进的前沿,始终基于 AI 新技术的边界,寻找视频和图像编辑的全新方法。他们不希望做一个更好的 Photoshop 或 Premiere,而是希望借助云计算和 AI 的力量塑造全新的工作流。

从技术和产品结合的角度看,Runway 不断把最前沿的计算机视觉技术封装成工具,装入自己的云端视频编辑平台,可以说抓住了每次 AI 技术进步的机会:

  • 在 StyleGAN 等生成技术成熟时,Runway 做了一个机器学习模型平台,让用户可以方便地训练、部署视觉模型,许多用户在 Runway 上调用 StyleGAN 模型生成肖像;
  • 在图像语义理解、分割等技术成熟时,Runway 选择不断优化绿幕、图像修复等技术,大幅节省视频编辑时间,服务于专业的视频编辑师;
  • 如今 Stable Diffusion 为代表的图像生成技术成熟,Runway 于是开始发力生成相关技术,目前 Runway 的 Gen-2 模型是市场上最好的视频生成模型,用户已经可以在简单场景生成效果惊艳的短视频。
  • 也正因为 Runway 总想走在技术最前沿,而 AI 生成的技术成熟度还不高,Runway 的产品也面临挑战;
  • 视频编辑工具层面,Runway 不适合精细度要求高、特别专业的场景,更多专业用户把它的 tools 当成 Adobe 的补充而非替代;而中小客户方面又面临剪映(Capcut)这种更方便、更移动原生产品的竞争;
  • 在图像生成方面,虽然 Runway 是 Stable Diffusion 的早期作者,图片生成质量落后于 Midjourney 和 Stability AI,目前内测的视频生成产品,效果还待更多用户来验证。

以下为本文目录,建议结合要点进行针对性阅读。

  1. Thesis
  2. 全新的 AI 创作方式
  3. Runway 产品历程
  4. Runway 公司特色
  5. 定位与竞争
  6. 团队与融资
  7. 关键讨论与未来

一、Thesis

我们认为,Runway 的模式是一个 AI native tools 工厂,是否能从好用的单点工具闭环成用户不可或缺的工作流产品,值得长期关注。

1. Runway 的模式是一个 AI native tools 工厂,有利于在目前技术更迭较快的背景下快速发布产品,获得用户反馈和迭代方向。

他们已经发布了 30 多个 AI Magic Tools,包括文本生成、图像生成、音频处理、视频抠图等市面上主流 AI 功能:

  • 基于 AI tools ,他们研发了一套基于 Web 端的视频编辑软件,主打“协作”和“快”,试图帮助视频后期编辑和特效师提高生产效率;
  • 在图像生成技术成熟后,Runway 基于 Stable Diffusion 模型开发了图像生成、无限图像,类似 Lensa 魔法头像的 Customer AI Training 等功能,又在近期开始内测视频生成模型 Gen-1 和移动 APP。

2. Runway 面临专业工具 Adobe 和轻量级产品剪映的竞争 :

  • 在专业视频编辑场景,Runway 难以撼动 Adobe 的护城河,其编辑工具目前无法应对专业精细化的要求,同时专业编辑软件 Adobe 和达芬奇(Davinci Reslove)也在 Runway 发布的新功能半年后就更新 AI 工具插件;
  • 在轻量化视频制作场景,Runway 面对高度嵌入抖音(TikTok)工作流体系的剪映(Capcut);
  • 在图像生成领域,Runway 在生成图像的质量上落后于 Midjourney,Stability AI。

3. 从近期发布看,Runway 有望将单点的 AI Tools 组合成团队协作产品,提高对用户工作流的介入:

  • 他们最近发布的 Custom AI Training 和 Gen-2 视频生成功能都很适合移动端,比如拍摄一张照片或一段视频后经过简单的特效处理和编辑就可以分享至社交和内容平台;
  • Gen-2 功能目前是市场上最好的视频生成模型,能够在简单场景生成令人惊艳的效果,有可能会引起一波热潮;
  • 同时团队正在 APP 中内测 Image to Image 功能,这与上面两种功能有着相同的技术栈,倘若未来 Runway 可以将视频生成功能和编辑工具形成闭环的产品,那么将有大量 Youtube、Tiktok 用户完全基于 Runway 进行视频制作创作。

二、全新的 AI 创作方式

Generative AI 的本质是创造性任务的民主化,新的 AI 工具将原本需要多年专业学习、历时数个小时的创造性工作压缩到了几秒,如今任何人都可以借助 Runway、Midjourney 在专业广告、产品摄影等场景里打开创作空间。

Runway CEO 在访谈中表示,图像的生成问题可能会在几个月内解决(“解决 ”,表示任何人都可以从电脑和浏览器中获得专业级视觉效果),而视频将会赶上。

从各种公开演讲我们都没有看到 Runway CEO 讨论新时代内容平台的问题,他们似乎只想成为未来的内容创作工具,如果我们假设未来十年会有全新的内容形态和内容平台,未来的年轻人会希望使用 Runway 来制作视频, 就像 Primere 和剪映(CapCut)之于Youtube 和 Tiktok 一样。

1. AI 对视频编辑的优化

传统的视频制作分为前期和后期:

在视频制作的前期工作中,首先需要经验丰富的人进行剧本创作和分镜规划,通常由 excel 完成,而如今剪映(CapCut)也将其作为前期功能集成进软件中,未来有望通过聊天形式辅助完成文案、剧本创作。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

Runway:AI Native Tools工厂,视频生成领域的字节跳动

分镜规划完成后,接下来就是素材拍摄、制作和整理工作:

素材管理的相关工作耗时、枯燥、繁重,一方面需要将各类素材进行文件格式的统一,各类视频素材库检索效率较低,难以满足需求,另一方面面临设备、时间约束,甲方需求等挑战。

而未来我们可以通过多模态生成模型针对图片、视频素材进行管理,对图像进行语义理解,翻译成文本 Prompt,每次只需要一个聊天框入口,输入你想要的图片内容。算法一方面可以大大提高检索效率、另一方面可以随时生成所需的图片视频素材,比如我们可以通过 Runway 的特效视频生成作为某一段视频的素材。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

Runway:AI Native Tools工厂,视频生成领域的字节跳动

( 图源:Runway 官网)

视频制作的后期则包括了逻辑剪辑、音乐制作、粗调成片、细调和字幕添加等工作,它们占据了专业视频编辑工作的 80%,Runway 有提供音频去噪、自动风格变换等功能。

不仅如此,许多专业视频还要包括视觉特效的制作,而在特效制作过程中,最费力的工作便是 Green Screen(绿幕抠图)及 Inpainting(图像修复),这也是 Runway 的主打的两项功能。

综上,我们可以总结出生成式 AI 技术对于当下视频创作工作流的优化:

Runway:AI Native Tools工厂,视频生成领域的字节跳动

三、Runway 产品历程

1. 从 ML 模型平台到 AI Tools 工厂

Runway 创业之初的产品形态是一个关于 ML(机器学习)模型的应用商店,用户可以在这上面使用数百个模型。就像我们可以很方便地在 Hugging Face 平台使用不同的 NLP 模型一样,用户可以在 Runway 平台上方便地调用流行的图像处理模型,比如 StyleGAN 模型。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

在 5 分钟内将机器学习模型从 GitHub

移植到 RunwayML

GAN (对抗生成网络)是早期图像生成的主流算法,基于 GAN 模型发展出了许多人脸生成的玩法,2018 年 12 月,Nvidia 的研究人员发表 StyleGAN 相关论文,该模型可以生成无限张假的肖像画。

在图像生成方面,GAN 模型在生成内容无法同时满足高度可控性和高分辨率,而如今的图片生成模型主流技术是 Diffusion 模型。

随后 Runway 开始基于最新的 AI 算法开发相应 AI magic tools,目前已发布 30 余个 AI 创作工具,包含音频、图片、视频、3D 和生成五个大类,涵盖了几乎所有的音视频内容生成和处理工具。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

2. 从单点 AI 工具到云视频编辑套件

在深度学习的研究过程中,Runway 发现大约 80% 的视频编辑时间都是那些逐帧编辑的非创造性操作,并且也有许多视频制作行业里的制作人对 Runway 的技术感兴趣,于是基于视频抠图类的 AI Tool 打造了一套云原生的视频编辑工具。

Video Editing 是 Runway 目前的主打功能,在产品形态上,Runway 基于 Web 打造了一个视频编辑软件,前端页面依然遵循着一些传统视频创作的用户习惯,保持了底部界面的轨道,带有多编辑系统,音轨、关键帧动画以及对文本、图像的支持。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

Runway 的前端界面

视频后期特效/微调中,最耗时费力的便是:Green Screen(绿幕抠图)、Inpainting(图像修复)这两项工作,而 Runway 通过三个 AI Tool 的帮助,可以节省大量的时间:

1)Green Screen,可以把选择的对象以绿幕的方式作为视频主题剪裁出来,通过点选的方式 AI 自动帮你补全贴合主题的轮廓;

2)Inpainting,视频修复功能,类似图片的 PS 功能,通过手动选择对象范围,将选定范围内的主题删除,并用周围的背景通过 AI 计算进行填充;

Runway:AI Native Tools工厂,视频生成领域的字节跳动

( 内容源:Runway 官网)

3)Motion Tracking,选定一个视频内的主体,当你添加其他的效果(比如标题)时可以跟随这个主体运动。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

(内容源:Runway 官网)

Ruwnay 在官网上展示了两个案例:

  1. 使用 Adebo AE 软件需要多次手工处理修正的人物选框工作,Runway 通过简单的点击,整个过程只需要 5s;
  2. 将一个动态的人物从背景中剪辑出来加上火焰特效,协作使用 Runway 和 Adobe 的两个人只用了 6 分钟就完成了制作并导出结果,而只用传统软件的对照组进度则远远落后。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

( 图源:Runway官网 )

但在产品的实际体验效果中,比如主推的视频修复功能,我们发现只有在环境单一,光源固定,人群稀少的情况下,这个功能可以最大限度的发挥,但依然稳定地无法完成高度精细化的任务,只能作为专业剪辑软件的补充,所以在 Runway 推出类似功能后不到半年的时间里,专业剪辑软件Davinci和 Adobe 就加入了类似功能。

3. 编辑视频到生成视频

团队在基于 GAN 模型寻找图像生成方法的时候发现了 Diffusion模型,于是在团队算法科学家在 Disco Diffusion 基础上进行迭代优化,构建了 Stable Diffusion 的早期版本。

基于 Stable Diffusion 模型,团队开发了 text to image、image to image、无限图像、Custom Training 等一系列 Magic Tools:

1)“无限图像”功能

用户可以通过文字编辑,为世界名画拓展边界,也可以生成各种没有边界的图像。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

Runway:AI Native Tools工厂,视频生成领域的字节跳动

(图源:Runway 无限图像功能)

2)Custom AI training 功能

基于 Image to Image tools ,Runway 将过去模型托管平台的服务升级为 Custom AI Training 产品,这类似于 Lensa AI 去年所推出的魔法头像服务,用户只需要上传特定肖像、动物、物品的多张照片,便可以直接进行生成模型的训练,相当于将 Fine-tune 民主化:

Runway:AI Native Tools工厂,视频生成领域的字节跳动

以前的 Runway ML lab

Runway:AI Native Tools工厂,视频生成领域的字节跳动

如今的 Runway AI Training

以肖像为例,用户需要上传 15-20 张个人照片,就可以支付 10 美元进行训练,生成上百张生成图片。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

放入 15-20 张个人照片

( 图源:Runway 官网展示肖像)

Runway:AI Native Tools工厂,视频生成领域的字节跳动

可生成上百张不同风格照片

( 图源:Runway 官网展示肖像)

每次训练完成,除了一次性生成上百张肖像照,系统还会生成一个标签化的 prompt,之后可以在 Runway 文生图平台调用该 prompt 生成新肖像。

3)视频生成功能

2023 年 2 月 6 日, Runway 推出 Gen-1 功能,并在 Discord 中开启内测,用户可以在服务器里上传一段视频,并 @Gen-1 机器人后输入风格 Prompt,然后就可以得到相应风格的视频,在社区中,我们可以看到用户的三种输入形式。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

Runway:AI Native Tools工厂,视频生成领域的字节跳动

( 图源:Discord 社区用户 vkuoo)

用户也可以在输入视频的同时,输入风格图片作为参考,可以得到效果更好的视频。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

Runway:AI Native Tools工厂,视频生成领域的字节跳动

( 图源:Discord 社区用户 TecateVirus )

当然,同时输入风格图片和文字描述也是允许的:

Runway:AI Native Tools工厂,视频生成领域的字节跳动

Runway:AI Native Tools工厂,视频生成领域的字节跳动

( 图源:Discord 社区用户 FARGO)

在活跃的社区氛围加持下,Gen-1 模型飞速迭代,并在 3 月 20 日发布升级版 Gen-2,展现出模型的巨大提升,目前已经能够很好地将场景、色调简单的几何体变成酷炫的视频,但对于复杂场景的视频无法达到精细化的处理。

近期 Runway 开启了手机 APP 内测,将 Image to Image 功能引入移动端,模型会将用户上传的图片解码成 prompt 文本,用户可以对 prompt 进行编辑,应用也提供了多种风格 prompt 模版。Runway APP 内测版 UI 界面,目前只有图像编辑功能。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

( 图源:Runway APP 截屏)

四、Runway 公司特色

1. AI 研究驱动产品

Runway 的产品哲学很清晰:一直站在 AI 技术演进的前沿,始终基于 AI 新技术的边界寻找视觉创作的全新方式。

Runway 除了在 CVPR 和 NeurIPS 等会议上发表文章,还会举办讲座和辅导,保持和学界的紧密联系,并参与公共社区的建设,去年 Runway 的研究科学家 Patrick Esser 与德国慕尼黑大学的学者共同撰写了 Stable Diffusion 的初始论文,Runway 随后帮助构建了 Stable Diffusion 的原始版本,并将该技术集成进设计软件的功能中。

Runway 团队不仅重视底层模型的研究,还十分崇尚全面的技术堆栈,团队希望能够完全了解和控制产品部署及与用户交互的方式,同时,在 CEO Cristóbal 看来,未来的单位算力成本会急剧下降,随着硬件和软件的优化,我们将持续看到训练和模型运行成本随着时间推移而降低,在工程技术方面的投资是值得的。

Runway 采用 Pytorch 框架建立自己的模型,使用 AWS 的集群,同时会自建系统优化模型训练流程,并且会采用 WebGL 加速器完成前端的优化。在推理端,他们使用 C++ 技术栈 ,以方便实时对视频编码解码过程,同时建立了一整套流媒体系统,并不断地权衡模型的精度和速度,这保证了 Runway 对于自家产品的控制和表现力。

2. 云原生驱动协作

在产品体验方面,Runway 的套件基于 Web 和云原生,同 Figma 和 Canva 一样,这带来了三个非常重要的好处:降低本地计算机性能要求,便于跨平台协作,便于内容分发。

CEO 在访谈中提到,希望未来大家制作视频的感觉应该类似于在 Google Docs 上的协作一样,没有必要下载和更新软件,在合作者之间自由分享创作灵感,基于此,Runway 打造了基于合作为中心的一套自动化创作工具。

Runway 关于 AI 相关的计算都是在云端远程处理的,为此公司针对音视频的网络端传输做了大量优化,可以预见,这家基于 AI 的云产品公司未来将会面临巨大的网络和服务器开销。

五、定位与竞争

1. 市场定位

从 CEO 的分享、客户访谈综合来看,Runway 的定位是专业级、电影级视频制作,并希望在未来得到更广泛用户的青睐,Runway 目前在主推 AI 创作电影节 和 Gen-2 社群。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

(图:Runway AI 电影节网站)

CEO 在最近的访谈中提到,Runway 的产品哲学不是做一个更好的 Photoshop 或者 Premiere ,它只是在寻找一种制作视频、编辑图像、音频的新方法,其中的关键是 ML 驱动,云原生,让每个人都可以轻松在电脑和浏览器中制作专业级视频特效。对于产品定位,Runway 的团队主要提到四点:专业、协作、快、很多 AI Magic Tools。

Runway 目前的客户主要是电影级视频编辑和特效制作者,他们的主要优势是更轻便、更高效,但其产品能力尚不足以撼动专业软件,他的机会在于基于视频生成技术,让更多的年轻人基于 Runway 进行视频创作和编辑,成为新一代的创作工具甚至内容平台。

客户和从业人员这样评价 Runway:

• 一位主要在 TikTok 平台创作视频的特效编辑师:

Runway 的体验就是速度,我们想做一些看起来需要很长时间才能完成的东西,但它可能只需要一两天,拥有能够非常快速地制作出真正高质量的东西的工具是非常重要的,它改变了我的过程很多,当您的项目截止日期非常紧迫,并且需要交付高质量的东西时,您不想花时间在没有成效的地方上,你不想做任何动态描写和清理工作,只希望专注于添加素材库、添加所有效果,为了能够在几分钟而不是几天内清理一些东西,它节省了项目。

• 一支负责 The Late Show with Stephen Colbert (一档 CBS 综艺节目)的专业特效团队:

我们曾经用 Runway 拍摄了 Stephen Colbert 纪念 Americone Dream 冰激凌周年的音乐视频,有一个场景是需要把冰淇淋放在不同背景中以夸大冰淇淋的影响力,但由于冰淇淋和背景颜色均过于复杂,团队尝试了很多方法,都不是很成功,Runway 的图像修复技术拯救了我们,将数小时的工作降低到几分钟,目前 Runway 已经融入进入团队的工作流。

• 一位自由职业戏剧导演、编辑和特效艺术家:

他主要使用 Premiere 做编辑和视觉特效,但会在大多数专业项目中使用 Runway ,Runway 可以帮助节约大量制作时间,虽然 Adobe 做了类似的功能,但体验不如 Runway,相比于雇很多专业的抠图人员,日薪资 600-800 美元,Runway 每月低廉的订阅费让人值得一试。

• 前 Netflix 制片人:

我会主要使用 Runway 的团队协作功能,但 Runway 这种基于新技术驱动的编辑软件,难以撼动 Adobe 。该项目有机会像曾经的 Instagram 一样,从图片墙成为新一代社交或者内容平台。

基于上文的 AI 内容生成对于视频制作流程的增益和客户的反馈,我们列出以下表格,并认为 Runway 的客户主要是专业影视制作用户、业余用户与潜在用户:

Runway:AI Native Tools工厂,视频生成领域的字节跳动

业余用户指的是平均每个月都会制作并在社交媒体发出一些非专业化的小视频,潜在用户指的是几乎很少制作视频,但目前是 Instagram 等社交软件的用户,目前除中国外 Instagram 月活用户为 20 亿,而 Tiktok 用户为 10 亿。

2. 竞争分析

在视频编辑产品层面,Runway 的主要竞争对手既包括 Adobe 这种巨头公司,也有 Descript、CapCut 类的轻量化视频制作产品。

1)Premiere/Davinci

Premiere 是 Adobe 旗下的专业视频编辑软件,Davinic 是由 Blackmagic Design 公司开发的专业编辑软件。在实际的工作流中,Runway 和 Premiere/Davinci 往往是相互补充的关系,而非竞争关系,Runway 主打的是云端协作,便捷快速,在一些特定功能比如绿幕、抠图,Runway 往往做得更好让很多专业团队愿意为它付费。

2)CapCut

CapCut 是剪映海外版,字节跳动旗下的免费视频编辑和创作软件,拥有各种娱乐性质的视频编辑功能,目前全球拥有数亿用户,Runway 目前与其没有直接竞争关系,但他们同时在抢夺未来的“潜在客户”,随着 Runway 的发展,未来势必要正面挑战 CapCut,而 CapCut 的产品核心竞争力其实是与 TikTok 的强绑定,所以在未来的战场,Runway 需要绑定或者成为新的内容平台,才有机会成为最后的赢家。

3)Descript

Descript 是一款可以用文字编辑音频和视频的软件,主推通过编辑文本来编辑视频,是现在企业办公方向视频制作首选,和 Runway 的客户群体并不相同,虽然 Runway 也期待面向企业级用户,但 Runway 主推的是艺术类的视频制作,而非办公场景的视频。

4)Veed

这是一家伦敦的初创公司,创始人 Keynejad 曾经在设计工作室时要处理很多在线视频,但他发现视频处理软件都庞大而臃肿,便开始构建网页视频编辑器 Veed。截至 2022 年 2 月,Veed 有 100 万用户和 700 万美元的 ARR,主要用户是社交媒体视频的创作者,从客群和面向的产品属性看,目前该项目和 Runway 不构成直接竞争。

5)Vidyo.ai

是一个在线视频编辑平台,它使用 AI 技术帮助用户从长视频中快速制作出适合在 TikTok、Instagram、LinkedIn 和 Facebook 等平台分享的短视频,在 2021 年 11 月获得了 110 万美元的种子轮融资,目前用户数量不详。Vidyo和 Runway 二者之间的竞争关系是 Generative AI 应用层和全栈应用公司之间的竞争,由于视频生成和编辑的模型层仍旧在剧烈的变化,所以掌握核心的 AI 技术是更加稳妥的选择。

3. Text to Video 技术进展

在 Diffusion 模型在图片生成领域取得了重大成功后,各家研究团队都对 Text to Video 展开了研究,目前比较领先的有:

1)Meta 于 2022 年 9 月发布了其下一代内容制作工具 “Make-A-Video”。

他们主要将时间维度引入扩散模型,基于对于图片中关键语义生成几个视频特定帧,进而通过插帧补全的方式完成视频生成,目前没有发布产品,官网展示了三个方向的 Demo:

  • 通过输入行为文字直接生成视频;
  • 将一张静态图片转变成短视频;
  • 为一个视频做背景、风格切换。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

Meta 视频生成技术架构,采用先生成几个关键帧,

再进行插帧优化方案

2)Google 在 2022 年 11 月份发布了 Google Imagen 视频生成功能。

他们一方面和 Meta 一样将时间维度引入扩散模型,另一方面采用先生成低分辨率视频,再进行优化的技术方案,目前还没有公开内测,从 demo 看效果优于 Meta 的模型,但依旧存在可控性差、分辨率差、时间较短等各种问题。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

Google Imagen 视频生成系统 demo

3)Runway 于 2023 年 2 月发布了基于扩散器模型的视频生成模型 Gen-1。

不同于 Meta 和 Google ,他们摒弃了文本直接生成视频的技术路线,而是将输入的视频的进行逐帧风格迁移,最后再将风格进行统一优化的方案,这大大降低了视频生成的难度,可以让用户更好地控制视频的生成效果,并在和用户的数据高效迭代六周后发布升级版 Gen-2 模型,可以说这是目前最领先的视频生成模型:

Runway:AI Native Tools工厂,视频生成领域的字节跳动

Runway Gen-1 论文展示案例,

基于时序扩散模型进行视频风格迁移

OpenAI 在视频制作和生成角度并没有过多的进展,但从内部员工了解,他们已经有一个更好的 DALL·E 模型,效果超越 Stable Diffusion,OpenAI 目前具有领先的大模型训练基础和多模态技术,同时坚持“大力出奇迹”的长期战略,没有人知道他们未来将视频数据引入大模型后,还会给公众释放什么样的惊喜。

OpenAI 投资了视频编辑软件公司 Descript,并提供了 GPT4 接口的优先使用权,Descript 的技术原理是将文本切片、音频切片、视频切片一一对应,在用算法相关技术进行快速匹配,而非大家所想象的 text to video 功能。

六、团队与融资

1. 公司发展

Cristóbal Valenzuela 是 Runway 项目的 CEO, 他本科就读于智利排名第一的私立院校阿道夫伊瓦涅斯大学 (AIU) ,获得经济学和工商管理学士学位,并于 2012 年获得了设计艺术硕士学位,毕业后留校任教。

从 2016 年开始,深度学习的进展给了 Cristóbal Valenzuela 极大的震撼,他便选择辞职去纽约大学进行深造,成为了 Tisch 艺术学院 ITP (Interactive Telecommunications Program)项目的研究生,并开始寻找制作艺术、生成内容和讲述故事的新方法。

而 Runway 则是Cristóbal Valenzuela 的论文项目,在项目的开发过程中,他遇到了智利同胞 Alejandro Matamala,后者拥有过两段创业经历,他随后加入项目担任联合创始人,在毕业后,纽约大学为他们提供了一个研究实习机会,他们在那里遇到了具有丰富开发经验的智利同胞 Anastasis Germanidis,并说服他加入 Runway 担任 CTO。

2022 年 12 月 5 日,Runway 的 CEO Cristóbal Valenzuela 在公司博客上宣布完成了 5000 万美元 C 轮融资,估值 5 亿美元。除著名风险机构 Felicis、Amplify Partners、Lux Capital、Coatue、Compound 和 Madrona 投资外,还有一批豪华天使阵容 —— Guillermo Rauch(Vercel CEO)、Amjad Masad(Replit CEO)、Howie Liu(Airtable CEO)、Soumith Chintala(PyTorch 负责人)、Lukas Biewald(Weights & Biases CEO) 以及 Jay Simons(ex Atlassian 总裁)。

截止到目前,Runway 团队已经有 42 人,与开源社区和许多研究机构保持着良好的关系。

2. 收入预测

虽然 Runway 没透露公司 2022 年的营收,根据福布斯的信源推断其年营收可能不足五百万美元,甚至仅有一百万美元营收,由于最近半年 Runway 的产品形态发生了巨大的变化,所以往期收入并没有足够的参考价值。

Runway 收费方式是个人专业版 12 美元/月,团队版 28 美元/月。

视频编辑订阅维度,Runway 可以成为 Adobe 的良好补充,相比于 Adobe 全家桶 110 美元/月 的价格,Runway 的价格便宜了十倍左右,而传统视频后期团队的一个资深编辑的后期制作费用大概在 250 美元/小时,一个只负责抠图的编辑费用也需要 60-80 美元/小时,而 Runway 可以在这一领域为他们节省几个小时甚至几天的工作,所以在专业领域层面,用户有为其付费的理由。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

在业余用户和潜力用户客群,Gen-2 目前是市场上最好的视频生成模型,如果 Runway 可以将视频生成功能和编辑工具形成闭环的产品,那么将吸引大量的 Youtube、Tiktok 视频制作团队完全基于 Runway 进行视频制作。

参考 Adobe 、Canva、剪映(CapCut)的总用户数和付费人群,可以估计视频编辑领域拥有潜力客户有一个亿左右,他们会倾向于尝试免费版的轻量化软件,而潜在付费用户预计和 CapCut 同一数量级,为百万数量级。

Runway:AI Native Tools工厂,视频生成领域的字节跳动

Canva、Figma 付费用户数量计算方法:基于年营收和客单价进行估算;剪映(CapCut)付费用户量无数据来源,按总用户量 1% 进行估算;Davinci 商业模式更侧重于软硬协同,财报显示客户每年会使用 Davinci 平台制作 150 万个项目。

从成本角度,相比于 GPT 动辄千亿参数,Stable Diffusion 模型参数量并不大(8.9 亿参数),同时其推理速度在快速优化,所以相比于传统的 SaaS 产品,引入 Stable Diffusion 模型并不会给成本带来显著增加。

七、关键讨论与未来

1. 如何打造 AI Native 公司

AI-Native 的公司核心是能够深入理解模型的能力,让他们变得更加可控,方便与产品的深入结合。

Runway CEO 说:“多数追求‘一键生成视频’制作工具的人都没有经历过甲方的摧残,尽管一些人将 Runway 当成一站式的视频制作工具,但 Runway 并不期待这样,它应该允许其他人使用不同的软件组合,也可以成为别人工作流的一部分,Runway 主要帮助人们提高视频制作的效率,降低重复劳动。”

同时 Runway 希望将人类的创造性引入创作环节,形成一个持续的反馈系统,这一方面要摒弃端到端的产品设计,另一方面需要掌握全栈 AI 技术。

但在语言模型层面,CEO 认为 OpenAI 已经创造了足够好的模型,没有必要自己从零开始训练,团队应该专注于如何让大模型变得更加可控,以期待更好的表现能力。

当你有大型的语言模型,能够将想法转化为内容,你以你想要的方式在特定的空间或矢量方向上导航和移动,你需要新的隐喻,你需要新的抽象。真正有趣和具有挑战性的是,这些隐喻是什么?那些接口是什么?你如何确保你所建立的系统是真正具有表现力的?

2. Runway 的未来可能性

Runway 一直站在 AI 技术演进的前沿,始终在基于 AI 新技术的边界寻找创造、编辑图像和视频全新的方式。他们不希望做一个更好的 Photoshop 或 Premiere,而是希望借助云计算和 AI 的力量塑造全新的工作流。

Runway CEO 在接受访谈中表示:

“未来每一家公司都将会成为一家媒体公司,各种规模的公司都需要源源不断的内容来建立叙述,接触他们的受众和市场,特别是许多小型企业,他们的业务依赖于此。而当涉及到客户参与时,视频的转化效率比任何其他格式都要好得多。

Runway 的核心就是速度,未来创造专业的视频,未必需要专业的机构和工作室,和编辑过程打交道时昂贵且冗长的,这就需要一款快速轻量化的工具软件,我们看到了视频领域强劲的长尾效应,因为各细分市场的大量客户始终将视频列为未来投资和工作的最重要的创意媒介。”

从近期发布看,Runway 有望成为下一个时代的内容创作工具:

  1. 他们最近发布的 Custom AI Training 和 Gen-2 视频生成功能都很适合移动端,比如拍摄一张照片或一段视频后经过简单的特效处理和编辑就可以分享至社交和内容平台;
  2. 同时团队正在 APP 中内测 Image to Image 功能,这与上面两种功能有着相同的技术栈;
  3. 倘若未来Runway 可以将视频生成功能和编辑工具形成闭环的产品,那么将吸引大量的 Youtube、Tiktok 视频制作团队完全基于 Runway 进行视频制作。

Reference

https://research.runwayml.com/the-research-origins-of-stable-difussion

https://runwayml.com/blog/training-an-object-detection-model-in-runwayml-to-analyze-posters/

https://sacra.com/research/cristobal-valenzuela-runway-business-video-primitives/

https://lspace.swyx.io/p/open-source-ai?utm_source=twitter&sd=pf

https://www.businessofapps.com/data/lensa-ai-statistics/

https://swyx.substack.com/p/open-source-ai?sd=pf&utm_source=twitter

https://twitter.com/runwayml/status/1622594989384519682?s=46&t=7B9oi79_pVnoIt_NHpzW6w

https://m.youtube.com/watch?v=60gzrrAFGeY

作者:Johnson;编辑:penny;公众号:海外独角兽(ID:unicornobserver)

原标题:Runway:AI Native Tools工厂,视频生成领域的字节跳动

本文由 @海外独角兽 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Pixabay,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 深入思考,才能找到解决方案

    来自广东 回复