Redian新闻
>
NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成

NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成

科技


扩散模型因其卓越的性能在图像生成领域引起了广泛关注。最近,它们的成功被扩展到文本生成,通过同时生成序列中的所有 token。然而,与图像相比,自然语言展现出更为明显的顺序依赖性,而现有大多数语言模型都是通过从左到右的自回归方法进行训练的。为了考虑自然语言固有的顺序特性,我们引入了自回归扩散(AR-DIFFUSION)。
 
AR-DIFFUSION 确保右侧 token 的生成依赖于左侧生成的 token,这一机制是通过使用根据 token 位置变化的动态去噪步骤数来实现的。这使得左侧的 token 经历的去噪步骤较少,从而使它们能够更早地生成并随后影响右侧 token 的生成。在各种文本生成任务上的一系列实验中,包括文本摘要、机器翻译和常识生成,AR-DIFFUSION 明显表现出其优越性,且在实现可比较的结果时速度可提高 100 倍至 600 倍。

论文标题:

AR-DIFFUSION: Auto-Regressive Diffusion Model for Text Generation

论文地址:

https://arxiv.org/pdf/2305.09515.pdf

代码地址:

https://github.com/microsoft/ProphetNet/tree/master/AR-diffusion

 



Introduction


文本生成是自然语言处理(NLP)领域中的一个基本任务。像 GPT-4、LLaMA 和 Alpaca 这样的预训练语言模型以其生成流畅且类似人类的文本内容的能力引起了广泛关注。这些模型利用自回归(AR)Transformer 解码器,按照从左到右的顺序逐个生成 token。通过利用位置依赖性的力量,AR 模型能够增强生成文本的自然性、连贯性和遵循人类语言规范。
 
最近的研究表明,扩散模型在图像生成方面表现出卓越的性能,激发了研究人员将扩散方法扩展到文本生成领域的动力。通过引入时间步,这些方法逐步调节原始 token 与高斯噪声之间的插值,然后迭代地进行去噪以进行文本生成。在每个时间步,基于扩散的文本生成器遵循非自回归(NAR)原则同时预测所有 token,相较于 AR,具有更快的解码速度。然而,它也继承了 NAR 的缺点,即牺牲了 token 之间的位置依赖性和生成性能下降。

▲ 图 1:在一个二维坐标系统上展示模型的行为,其中水平轴代表位置,垂直轴表示扩散时间步。

在推断阶段,不同的模型将表现不同。(a)对于典型的 Diffusion-LM,每个 token 共享相同的运动速度:。(b)从扩散模型的角度来看,AR 模型根据原始 token 和高斯噪声之间的插值程度具有两种状态:待解码(在时间步 )和已解码(在时间步 )。
具体而言,我们有  和 (c)在 AR-DIFFUSION 中,  是锚点的坐标。不同位置的 token 展示出不同的运动速度,例如当  时, 
为了进行全面的分析,我们引入了一个二维坐标系统来跟踪位于不同位置的 token  的扩散时间步。如图 1 所示,该系统将 token 位置  分配给水平轴,将扩散时间步  分配给垂直轴。图 1(a)展示了 Diffusion-LM,这是现有基于扩散的文本生成模型所采用的方法。它为所有 token 分配了统一的时间步 

相反,图 1(b)中的 AR 模型在生成步骤内展示了不同的时间步( )token。例如,位置  上已解码的 token 具有时间步 ,而位置  上待解码的 token 具有时间步 。这种方法有效地捕捉了顺序依赖性。受到这一观察的启发,我们引入了 AR-DIFFUSION,一种自回归扩散方法,以适应 token 位置的差异和顺序 token 识别的原则。

在 AR-DIFFUSION 中,我们提出了一种多级扩散策略,包括句子级和 token 级的扩散。我们随机选择一个句子级的时间步长 ,并通过确定每个 token 的位置敏感 token 级时间步长  来分配动态运动速度 。这使得句子左侧的 token 能够更快地从随机高斯噪声转化为 token 嵌入,而句子右侧的 token 则经历较慢的移动,以更好地利用先前去噪的 token 的信息。

在推断过程中,为了减少 Diffusion-LM、SeqDiffSeq 和 GENIE 等模型所需的大量推断步骤(例如 2,000 步),我们引入了一个 Skipping 机制,与多级扩散策略协作以加速该过程。



Methodology




Experiments




Case Study



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ACM MM 2023 | CLE Diffusion:可控光照增强扩散模型人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型ACM MM 2023 | 「噪」不住你的美,美图&国科大联合提出人脸修复方法DiffBFR红色日记 7.21-31NeurIPS 2023 | 王利民团队提出MixFormerV2:首个基于ViT并在CPU设备实时运行的目标跟踪器!【2023 坛庆】暖场 浪人情歌一片干净的地方简单有效!Direct Inversion:三行代码提升基于扩散的图像编辑效果顶刊TMM 2023!中科院提出CLIP-VG:基于自步课程学习实现CLIP在视觉语言理解与定位任务上的无监督迁移研究懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器NeurIPS 2023 | FD-Align:基于特征判别对齐的预训练模型小样本微调ACM MM 2023 | 清华、华为联合提出MISSRec:兴趣感知的多模态序列推荐预训练谷歌新作UFOGen:通过扩散GAN实现大规模文本到图像生成NeurIPS 2023 Spotlight | 半监督与扩散模型结合,实现少标签下可控生成AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!走过纽芬兰NeurIPS 2023 | SlotDiffusion: 基于Slot-Attention和扩散模型的全新生成模型NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusion这国航机上杂志看着无语😓!2023.7这应该还是最新一期【热夏生活随笔】 Texas Sunshine 2023直播预告 | 阿里达摩院算法研究员黄斐:又快又好的非自回归文本生成ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成“万元户”老海归把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架NeurIPS 2023 | 无惧图像中的文字,TextDiffuser提供更高质量文本渲染nǚ hóng?nǚ gōngICCV 2023 | 复旦&微软提出ILA:基于可学习隐式对齐的时序建模方法画你所想!北航港大提出DiffSketcher:基于扩散模型的文本驱动矢量化手绘草图合成ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架:完美把控乘客意图NeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器小模型如何进行上下文学习?字节跳动 & 华东师大联合提出自进化文本识别器Erklärung zur ZusammenarbeitTexas Sunshine 2023NeurIPS 2023 | PointGPT:点云和GPT大碰撞!点云的自回归生成预训练惊心动魄24小时。。。。「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023一日登三峰 2023.07.29
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。