国际科技财经博客移民网络热点娱乐民生时事公众号

>

DiffusionBERT项目原作解读：掩码预训练语言模型的扩散生成探索

DiffusionBERT项目原作解读：掩码预训练语言模型的扩散生成探索

公众号新闻

2023-01-07 04:01

扩散模型在图像生成任务上取得了较好的生成质量和令人满意的控制能力，因此在学术界和商业界都获得许多关注。然而，扩散模型的应用和理论工作都集中在连续空间上的 2D 图像生成，其他数据类型上的应用仍然在发展初期。文本的扩散生成面临的一个核心问题即如何将现有的连续扩散模型理论应用到离散的文本序列，目前存在两种主流的解决方案：将文本映射到连续空间或者采用广义的离散扩散过程。

机器之心最新一期线上分享邀请到了复旦大学卓博计划入选者贺正夫，为大家解读他们近期的工作 DiffusionBERT。

在这项工作中，作者们注意到离散扩散过程和 MLM 预训练模型的相似性，并利用预训练模型完成扩散生成过程，并针对其生成特性做出了两点针对性改进：首先去除了传统扩散模型 backbone 中的时间步模块，不为预训练模型引入任何新参数；再来，针对文本扩散生成过程的特点，重新调整了训练中的扩散过程，使其更接近采样阶段的输入分布。在无条件生成任务上的实验证明，DiffusionBERT 有远超现有扩散模型的收敛速度，并取得了更好的生成质量和多样性。

分享主题：DiffusionBERT：掩码预训练语言模型的扩散生成探索

分享嘉宾：贺正夫，复旦大学本科生，复旦大学卓博计划入选者。主要研究方向是预训练语言模型及其参数、数据高效的应用。

分享摘要：本次分享将首先介绍扩散模型在 NLP 领域的发展历程，进而介绍我们近期的工作 DiffusionBERT。我们将介绍一些对离散扩散模型和 BERT 类预训练模型结合的思考，并讨论其优势和局限性，以及该领域未来可能的研究方向。

相关链接：

1）SOTA！模型平台项目主页链接：

https://sota.jiqizhixin.com/project/diffusionbert

2）论文链接：

https://arxiv.org/abs/2211.15029

3）代码仓库：

https://github.com/Hzfinfdu/Diffusion-BERT

加群看直播

直播间：关注机器之心机动组视频号，北京时间 1 月 9 日 19:00 开播。

交流群：本次直播设有 QA 环节，欢迎加入本次直播交流群探讨交流。

如群已超出人数限制，请添加机器之心小助手：syncedai2、syncedai3、syncedai4 或 syncedai5，备注「DiffusionBERT」即可加入。

如果你也有最新工作希望分享或提交你感兴趣的内容方向，随时告诉我们吧：https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区，聚焦于学术研究与技术实践主题内容，为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动，欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

MLNLP前沿综述分享第五期 | 胡琳梅@北京理工大学：知识增强的预训练语言模型前沿研究进展 SparK项目原作解读：卷积模型的首个BERT预训练 Galvatron项目原作解读：大模型分布式训练神器，一键实现高效自动并行名字被改，谁之错？NLP大规模语言模型推理实战：大语言模型BLOOM推理工具测试实践与效果分析实录稠密检索新突破：华为提出掩码自编码预训练模型，大幅刷新多项基准 UniMatch项目原作解读：统一光流、立体匹配和深度估计三个任务 Transformer再胜Diffusion！谷歌发布新一代文本-图像生成模型Muse：生成效率提升十倍 DAMO-YOLO项目原作解读：兼顾速度与精度的高效目标检测框架聊聊大火的扩散模型和AIGC Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法 EMNLP 2022 | 稠密检索新突破：华为提出掩码自编码预训练模型畅游法国(37)－德法混血城 MOAT项目原作解读：强大的可扩展视觉骨干网络华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型 CogBERT：脑认知指导的预训练语言模型基于预训练语言模型的可控文本生成只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型加速训练定制化BERT，ExtremeBERT工具包助力轻松快速预训练复旦邱锡鹏：语言模型即服务，走向大模型的未来 Meta发布首个「非参数化」掩码语言模型NPM：吊打500倍参数量的GPT-3 PLM是做题家吗？一文速览预训练语言模型数学推理能力新进展可扩展、可解释，新框架从预训练语言模型中高效提取知识图谱从LLM到MLLM，多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力 Diffusion预训练成本降低6.5倍，微调硬件成本降低7倍！Colossal-AI完整开源方案低成本加速AIGC产业落地 AI画画模型成本被打下来了！预训练成本直降85%，微调只需单张RTX 2070，这个国产开源项目又上新了 Meta最新语言模型LLaMA论文研读：小参数+大数据的开放、高效基础语言模型阅读笔记妈妈病危（二）ICLR 2023 | 扩散生成模型新方法：极度简化，一步生成 MIGA项目原作解读：基于生成式预训练语言模型T5的Text-to-SQL模型恍然已经是东京人了 GENIUS: 根据草稿进行文本生成的预训练模型，可用于多种NLP任务的数据增强 “苍生”只可一见，“血月”红光满面 AudioLDM一作解读：文本生成高质量音频，单GPU即可生成扩散模型漫谈：从万有引力到扩散模型

热点事件追踪