Pika联创参与新研究：Diffusion能抢GPT的活了！成功挑战自回归文本范式 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

Pika联创参与新研究：Diffusion能抢GPT的活了！成功挑战自回归文本范式

2024-04-17

0 评论 499 浏览 0 收藏

产品经理的不可取代的价值是能够准确发现和满足用户需求，把需求转化为产品，并协调资源推动产品落地，创造商业价值。

自回归模型和扩散模型的“专长”并不同，如果让后者去挑战前者所擅长的部分，会得到怎样的结果？不妨来看看本文的分享。

纵观生成式AI领域中的两个主导者：自回归和扩散模型。

一个专攻文本等离散数据，一个长于图像等连续数据。

如果，我们让后者来挑战前者的主场，它能行吗？

斯坦福博士的最新研究，就搞了这么一个扩散模型VS自回归模的同台PK。

结果：

挑战成功！（下面为生成示意图，最后得到的文本是“Hello world，Iam a languagediffusionmodel，namedSEDD”）

并且他们的扩散模型在困惑度和质量上已率先超越自回归的GPT-2。

赶紧来瞧瞧。

一、扩散模型挑战离散数据

用自回归来处理离散文本数据，即根据之前的token来预测下一个token，这可能是目前我们能想象到的最简单可行的方法。

为什么这么说？

B 端产品经理如何快速成长？

产品与业务架构主要是将整个业务工作流进行分层，梳理，然后抽象出一个个需求，将业务需求与产品合情合理的映射起来，最终使业务数据在产品中流动，执行，记录，使用。

作者在这里用GAN举了个例子：

对于图像生成，GAN首先根据随机噪声生成图像，然后使用判别器来“惩罚”偏差，因此梯度信息可以反向传播到生成器。

但如果我们假设用GAN来生成文本，就行不通了。

因为尽管我们可以定义同样原理的生成器和判别器，但文本的离散性质使得更新生成器非常难。

（图像是连续的，因此可以通过反向传播来计算梯度，但文本是一堆无法区分的离散值，计算梯度信号相当繁琐，基本只能粗略估计）

所以说，文本建模领域基本成了自回归的天下（如transformer的发扬光大就是基于自回归模型）。

不过，这个架构也有根本性的缺陷：

最有名的“批评”来自Lecun，他就认为自回归transformer“注定要失败”，因为生成会“偏离”数据分布并导致模型在采样过程中发散。

除此之外，自回归架构的采样也具有高度迭代性，这对为并行计算而高度优化的GPU来说也不够match。

最后，由于这类架构的模型都是按照从左往右地完成任务，因此一次执行多个控制任务也很困难（例如补充给定了前缀和后缀的文本）。

正是这些缺点促使作者开始构思另一种概率模型，因此有了本文的主角：

分数熵离散扩散模型（SEDD，Score Entropy Discrete Diffusion）。

简单来说，为了将扩散模型扩展到离散空间，就必须将“分数函数”（也就是对数概率的梯度）概念推广到离散空间。

幸运的是，有一种替代方案可以呈现具体分数，即概率的局部比率。

如下图所示，左边为分数函数，它直观地“指向”连续空间中的较高密度区域，具体分数（右）将其推广到离散空间。

这些具体的比率（分数）可以通过得分熵（score entropy）损失函数来学习，从而实现离散扩散模型的快速、可扩展训练。

在这之中，由于作者只知道可以使用得分熵从数据中学习具体得分（对应于学习概率模型），但仍然不知道如何生成样本。

因此还借用了扩散模型的核心思想，并使用学习到的具体分数将随机值迭代地去噪为数据点。

为此，他们还定义了向离散文本样本中“添加噪声”的含义：

对于连续空间，这是通过添加高斯噪声自然产生的，但在离散空间中，则是被迫直接在不同元素之间“跳跃”。

而最终，他们的SEDD模型通过学习将样本不断迭代去噪为文本，完成从纯随机输入生成文本的任务。

二、超越GPT-2

总的来看，与自回归模型相比，该扩散模型可以在生成过程中利用完整的全局上下文，从而获得更好的整体生成效果。

对比起来，自回归模型特别是像GPT-2这样的会发生“漂移”现象，从而破坏整体性能的稳定性。

并且即使在较小的模型规模下，SEDD也能始终生成高质量的文本（绿框，读者很通顺），而GPT-2就比较困难（红框，一眼看上去就很多错误）。

具体测试中，SEDD在困惑度指标上表现出了很强的竞争力：

此外，作者还发现：

使用更少的采样步骤，SEDD照样在控制生成质量上的表现也比GPT-2要好。

最后，团队以完全零样本的方式从任意位置提示SEDD后发现：对于标准（从左到右）和非标准（填充）提示方法，SEDD都可以与最好的GPT-2解码方法一较高下。

如下图所示：

提示标记以蓝色表示，不管它在前面中间还是结尾，SEDD都能够生成有意义的文本。

三、Pika创始人是作者之一

本研究一共3位作者：

一作为斯坦福计算机专业博士生Aaron Lou，康奈尔本科毕业。

二作也是该校博士生Chenlin Meng。

她的名字不算陌生，Pika就是她（下图右）和“学妹”郭文景一起创办的。（Meng 2020年入学斯坦福，郭2021年入学）

看起来，一边创业的她也一边兼顾着学业。

最后，通讯作者为一二作的导师Stefano Ermon，他是斯坦福计算机科学系副教授。

论文地址：https://arxiv.org/abs/2310.16834

参考链接：

https://aaronlou.com/blog/2024/discrete-diffusion/

https://twitter.com/aaron_lou/status/1763242384958386306?s=20

作者：丰色发自凹非寺

来源公众号：量子位（ID：QbitAI），追踪人工智能新趋势，关注科技行业新突破

本文由人人都是产品经理合作媒体 @量子位授权发布，未经许可，禁止转载。

题图来自 Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

追踪人工智能新趋势，关注科技行业新突破

89篇作品 214213总阅读量

“小蓝鸟”将成为历史，马斯克想打造美版微信？

07-254295 浏览

“小蓝鸟”将成为历史，马斯克想打造美版微信？

大公司不需要创意

06-115125 浏览

大公司不需要创意

业务篇：B端产品经理面试，注意这些细节

刚刚

聊聊支付（1）：线上与线下支付的区别

08-097214 浏览

聊聊支付（1）：线上与线下支付的区别

ChatGPT 一周「紧急刹车」：算力不足、被指隐私数据泄露

04-112218 浏览

ChatGPT 一周「紧急刹车」：算力不足、被指隐私数据泄露

关于视频号创作分成计划的4点猜想

03-314332 浏览

关于视频号创作分成计划的4点猜想

评论

目前还没评论，等你发挥！

B端客户需求差异大、难平衡？3个案例带你理清设计思路！

小程序“三国杀”，商家怎么选？

01-124427 浏览
设计中的交互设计

02-1413620 浏览
微信对公众号广告收“过路费”，不走官方互选平台将被严惩？

05-292944 浏览

12487人已学习19篇文章

机器人行业调研

机器人行业是一个新兴的行业，国内做的公司不多。本专题的文章对整个机器人赛道进行完整的梳理，在输入输出的同时，体验时代带给我们的冲击感。

20025人已学习13篇文章

产品经理面试题汇总

本专题的文章分享了产品经理面试题和解答思路。

15514人已学习12篇文章

如何绘制逻辑图

逻辑图是用图标符号、说明文字以及连接线等，形象化地表达复数要素之间的相互作用关系。本专题的文章分享了如何绘制逻辑图。

12469人已学习12篇文章

联名营销指南

瑞幸咖啡和茅台的这次联名合作，无疑让联名营销这类营销方式又掀起了热度。本专题的文章分享了联名营销指南。

11874人已学习12篇文章

消费金融APP流程详解

金融产品的流程与常见策略规则类型是从事相关行业人员需要了解的重要内容。本专题的文章分享了消费金融APP流程详解。

11818人已学习12篇文章

互联网医疗运营

对着互联网行业的不断发展，如今很多传统行业都与互联网想结合，医药行业也不例外。本文作者分享了关于互联网医疗的运营知识。