DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索
扩散模型在图像生成任务上取得了较好的生成质量和令人满意的控制能力,因此在学术界和商业界都获得许多关注。然而,扩散模型的应用和理论工作都集中在连续空间上的 2D 图像生成,其他数据类型上的应用仍然在发展初期。文本的扩散生成面临的一个核心问题即如何将现有的连续扩散模型理论应用到离散的文本序列,目前存在两种主流的解决方案:将文本映射到连续空间或者采用广义的离散扩散过程。
机器之心最新一期线上分享邀请到了复旦大学卓博计划入选者贺正夫,为大家解读他们近期的工作 DiffusionBERT。
在这项工作中,作者们注意到离散扩散过程和 MLM 预训练模型的相似性,并利用预训练模型完成扩散生成过程,并针对其生成特性做出了两点针对性改进:首先去除了传统扩散模型 backbone 中的时间步模块,不为预训练模型引入任何新参数;再来,针对文本扩散生成过程的特点,重新调整了训练中的扩散过程,使其更接近采样阶段的输入分布。在无条件生成任务上的实验证明,DiffusionBERT 有远超现有扩散模型的收敛速度,并取得了更好的生成质量和多样性。
分享主题:DiffusionBERT:掩码预训练语言模型的扩散生成探索
分享嘉宾:贺正夫,复旦大学本科生,复旦大学卓博计划入选者。主要研究方向是预训练语言模型及其参数、数据高效的应用。
分享摘要:本次分享将首先介绍扩散模型在 NLP 领域的发展历程,进而介绍我们近期的工作 DiffusionBERT。我们将介绍一些对离散扩散模型和 BERT 类预训练模型结合的思考,并讨论其优势和局限性,以及该领域未来可能的研究方向。
相关链接:
1)SOTA!模型平台项目主页链接:
https://sota.jiqizhixin.com/project/diffusionbert
2)论文链接:
https://arxiv.org/abs/2211.15029
3)代码仓库:
https://github.com/Hzfinfdu/Diffusion-BERT
微信扫码关注该文公众号作者