Redian新闻
>
Pika联创参与新研究:Diffusion能抢GPT的活了!成功挑战自回归文本范式

Pika联创参与新研究:Diffusion能抢GPT的活了!成功挑战自回归文本范式

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

纵观生成式AI领域中的两个主导者:自回归和扩散模型

一个专攻文本等离散数据,一个长于图像等连续数据

如果,我们让后者来挑战前者的主场,它能行吗?

斯坦福博士的最新研究,就搞了这么一个扩散模型VS自回归模的同台PK。

结果:

挑战成功!(下面为生成示意图,最后得到的文本是“Hello world,I am a language diffusion model,named SEDD”)

并且他们的扩散模型在困惑度和质量上已率先超越自回归的GPT-2。

赶紧来瞧瞧。

扩散模型挑战离散数据

用自回归来处理离散文本数据,即根据之前的token来预测下一个token,这可能是目前我们能想象到的最简单可行的方法。

为什么这么说?

作者在这里用GAN举了个例子:

对于图像生成,GAN首先根据随机噪声生成图像,然后使用判别器来“惩罚”偏差,因此梯度信息可以反向传播到生成器。

但如果我们假设用GAN来生成文本,就行不通了。

因为尽管我们可以定义同样原理的生成器和判别器,但文本的离散性质使得更新生成器非常难。

(图像是连续的,因此可以通过反向传播来计算梯度,但文本是一堆无法区分的离散值,计算梯度信号相当繁琐,基本只能粗略估计)

所以说,文本建模领域基本成了自回归的天下(如transformer的发扬光大就是基于自回归模型)

不过,这个架构也有根本性的缺陷

最有名的“批评”来自Lecun,他就认为自回归transformer“注定要失败”,因为生成会“偏离”数据分布并导致模型在采样过程中发散。

除此之外,自回归架构的采样也具有高度迭代性,这对为并行计算而高度优化的GPU来说也不够match。

最后,由于这类架构的模型都是按照从左往右地完成任务,因此一次执行多个控制任务也很困难(例如补充给定了前缀和后缀的文本)

正是这些缺点促使作者开始构思另一种概率模型,因此有了本文的主角:

分数熵离散扩散模型(SEDD,Score Entropy Discrete Diffusion)

简单来说,为了将扩散模型扩展到离散空间,就必须将“分数函数”(也就是对数概率的梯度)概念推广到离散空间。

幸运的是,有一种替代方案可以呈现具体分数,即概率的局部比率。

如下图所示,左边为分数函数,它直观地“指向”连续空间中的较高密度区域,具体分数(右)将其推广到离散空间。

这些具体的比率(分数)可以通过得分熵(score entropy)损失函数来学习,从而实现离散扩散模型的快速、可扩展训练。

在这之中,由于作者只知道可以使用得分熵从数据中学习具体得分(对应于学习概率模型),但仍然不知道如何生成样本。

因此还借用了扩散模型的核心思想,并使用学习到的具体分数将随机值迭代地去噪为数据点。

为此,他们还定义了向离散文本样本中“添加噪声”的含义

对于连续空间,这是通过添加高斯噪声自然产生的,但在离散空间中,则是被迫直接在不同元素之间“跳跃”。

而最终,他们的SEDD模型通过学习将样本不断迭代去噪为文本,完成从纯随机输入生成文本的任务。

超越GPT-2

总的来看,与自回归模型相比,该扩散模型可以在生成过程中利用完整的全局上下文,从而获得更好的整体生成效果。

对比起来,自回归模型特别是像GPT-2这样的会发生“漂移”现象,从而破坏整体性能的稳定性。

并且即使在较小的模型规模下,SEDD也能始终生成高质量的文本(绿框,读者很通顺),而GPT-2就比较困难(红框,一眼看上去就很多错误)

具体测试中,SEDD在困惑度指标上表现出了很强的竞争力:

此外,作者还发现:

使用更少的采样步骤,SEDD照样在控制生成质量上的表现也比GPT-2要好。

最后,团队以完全零样本的方式从任意位置提示SEDD后发现:
对于标准(从左到右)和非标准(填充)提示方法,SEDD都可以与最好的GPT-2解码方法一较高下。

如下图所示:

提示标记以蓝色表示,不管它在前面中间还是结尾,SEDD都能够生成有意义的文本。

Pika创始人是作者之一

本研究一共3位作者:

一作为斯坦福计算机专业博士生Aaron Lou,康奈尔本科毕业。

二作也是该校博士生Chenlin Meng。

她的名字不算陌生,Pika就是她(下图右)和“学妹”郭文景一起创办的。(Meng 2020年入学斯坦福,郭2021年入学)

看起来,一边创业的她也一边兼顾着学业。

最后,通讯作者为一二作的导师Stefano Ermon,他是斯坦福计算机科学系副教授。

论文地址:
https://arxiv.org/abs/2310.16834
参考链接:
https://aaronlou.com/blog/2024/discrete-diffusion/
https://twitter.com/aaron_lou/status/1763242384958386306?s=20

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI联创Greg最新采访:为什么OpenAI最先做出GPT-4?IVUS-DCB研究:DCB治疗腘动脉疾病时,IVUS引导的12个月时初级通畅率优于血管造影引导丨ACC重磅研究青春怀旧校园文学《青桃时代》连载 第四章 抵制霸凌 (二)OpenAI联创Greg最新采访:为什么OpenAI最先做出GPT-4?|亮马桥小纪严选78、长篇家庭伦理小说《嫁接》第二十一章 初来乍到(2)抛弃自回归,连接一致性Diffusion和LLM!UCSD上交新作热度紧追AF 3最新研究公布!全球超额死亡人数增加或与新冠疫苗有关,疫苗致命副作用曝光增肌减脂要多吃"蛋白质"?最新研究:摄取过多很伤动脉视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架​249篇文献!北邮发布文本到图像Diffusion可控生成最新综述,已开源!完胜司美格鲁肽?Nature最新研究:带“馅儿”的Plus减肥药,GLP-1类减肥药包裹药物MK-801,有更强更持久的减肥效果LeCun怒斥Sora是世界模型,自回归LLM太简化了一支铅笔内塔尼亚胡刚发话,美国不战自退:以色列有错就改,制裁全部取消3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建OpenAI新研究破解GPT-4大脑,分解1600万个特征打开“黑匣子”,Ilya 、Jan Leike也参与了!清华开源全球首个基于U-ViT的多模态扩散大模型UniDiffuser[旅游] Día de la Independencia | 2017年9月游墨西哥城第3-4天Sam Altman亲自回应:不知GPT-5何时发布、Q*不是“核武器”麦城忆旧:我与林毓生教授的师生缘澳洲最新研究:2/3结果来自中国,少放这个可以活更久!LeCun哈佛演讲PPT放出:唱衰自回归LLM,指明下一代AI方向候静波教授:介入医生的“第三只眼睛”——OCT的最新研究进展 | CCIF 2024ChatGPT 大更新曝光!免费用户自动升级 GPT-4 ,还能创建 GPTs吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果候静波教授专访:OCT的临床应用和最新研究进展 | CCIF 2024微软“去OpenAI化”引发高层洗牌:必应CEO被DeepMind联创挤跑!纳德拉会见Stable Diffusion老板3D重建范式变革!最新模型MVDiffusion++:刷新视图合成和3D重建SOTA!睡眠与表型年龄呈“U形”关系,要睡在拐点处!最新研究:每天7小时睡眠是最佳“保养品”,过多/少的睡眠时间都会加速衰老睡眠竟然对人体免疫系统那么重要!最新研究发现:夜间休息与新靶点免疫的TIL细胞功不可没!300万,死亡率高得吓人!最新研究:可能与新冠疫苗有关!澳专家此前承认,疫苗存严重副作用…神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成带你去阳明山看樱花· 春光美ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。