Redian新闻
>
神经图灵机作者提出全新贝叶斯流网络,有效解决离散数据生成问题

神经图灵机作者提出全新贝叶斯流网络,有效解决离散数据生成问题

公众号新闻


©作者 | 小舟、陈萍

来源 | 机器之心


近来,大规模神经网络彻底改变了生成式模型,使模型具有前所未有的捕捉许多变量之间复杂关系的能力,例如建立高分辨率图像中所有像素的联合模型。


大多数神经网络(包括自回归模型、基于流的模型、深度 VAE 和扩散模型)表达能力的关键在于,它们编码的联合分布被分解为一系列步骤,从而避免了「维数灾难(curse of dimensionality)」。也就是说,它们将难题分解成多个简单问题来解决。

自回归网络目前是语言建模领域的 SOTA 方法,并且通常在自然排序的离散数据上表现良好。然而,事实证明自回归网络在图像生成等领域效果较差,因为这些领域的数据是连续的,并且变量之间不存在自然顺序。自回归模型还有一个缺点是,生成样本需要与数据中变量一样多的网络更新。扩散模型是一种应用于图像生成的有效替代框架,但传输过程会变得更加复杂。

然而,当数据是离散的,扩散模型的性能仍不及自回归模型。最近,机器学习领域知名研究者、神经图灵机(NTM)提出者和可微神经计算机的创造者之一 Alex Graves 以第一作者的身份发表了一篇新论文,提出了一种新型生成模型 —— 贝叶斯流网络(Bayesian Flow Networks,BFN)。与扩散模型不同的是,BFN 对数据分布的参数进行操作,而不是对数据本身的噪声版本进行操作。这确保了生成过程是完全连续且可微的,即使数据是离散的。

论文标题:

Bayesian Flow Networks

论文地址:

https://arxiv.org/abs/2308.07037



▲ 论文一作Alex Graves,图灵奖得主Geoffrey Hinton的学生


BFN 方法会根据噪声数据样本使用贝叶斯推断修改一组独立分布的参数,然后将其作为输入传递给神经网络,该神经网络会输出一个相互依赖的分布,然后从简单的先验开始并迭代更新上述两个分布,产生一种类似于扩散模型逆过程的生成过程,但 BFN 在概念上更简单,因为不需要前向过程。

BFN 的整体概览如下图 1 所示。在每一步中,消息发送者(Sender)Alice 都会向消息接收者(Receiver)Bob 发送一条消息,包含关于数据的一些信息。


其中,Bob 会尝试猜测消息是什么:他猜测得越好,传输消息所需的比特数就越少。收到消息后,Bob 使用刚刚获得的信息来改进对下一条消息的猜测。

重复该过程,每一步的预测都会得到改进。传输成本之和是完整文本序列的负对数概率,通过最大似然训练进行损失函数最小化。这也是 Alice 使用算术编码将片段传输给 Bob 所需的最小位数。因此,用最大似然拟合自回归模型与训练数据压缩之间存在直接的对应关系。

上述传输过程定义了一个 n 步损失函数,通过将 n 扩展到∞,就能推广到连续时间。连续时间损失函数在数学上比离散时间损失函数更简单、易于计算。经过连续时间损失训练的 BFN 可以在推断和采样期间运行任意数量的离散步骤,并且性能随着步骤数量的增加而提升。

总的来说,BFN 结合了贝叶斯推断和深度学习的优势,前者为单个变量提供了一种极佳的数学方法,后者则擅长整合多个相关变量的信息。

LSTM 提出者和奠基者 Sepp Hochreiter 表示:「贝叶斯流网络 (BFN) 作为扩散模型的替代者,它更新的两个分布过程可看作是一个生成过程,就像没有前向传递的扩散模型一样。实验显示,在 text8 字符级语言建模上优于离散扩散。」



论文作者之一 Rupesh Kumar Srivastava 表示,「这项研究使得我们可以通过选择合适的分布,轻松地将 BFN 框架适应于连续和离散数据,并且在 MNIST、CIFAR-10 和 text8 任务上得到了很好的结果。」




贝叶斯流网络

接下来我们介绍一下贝叶斯流网络(Bayesian Flow Networks,BFN)的基本数学形式。本节都是公式推导,大家可以参考原论文了解更详细的信息。

输入分布和 Sender 分布:给定 维数 , 为因式输入分布 的参数,则输入分布公式如下:


经过一系列变换后,得到 Sender 分布公式:


输出分布数据传输过程中,输入参数 θ 与过程时间 t 一起作为输入传递给神经网络 Ψ,然后网络输出一个向量,得到输出分布:


与输入分布不同,输出分布可以利用上下文信息,例如图像中的周围像素或文本中的相关单词。

Receiver 分布给定 Sender 分布和输出分布, Receiver 分布可以表述为:


由上式可得,Receiver 分布有两个不确定来源,即 Sender 分布和输出分布。

贝叶斯更新

对于给定的参数 θ,参数更新的方式如下所示,其中 y 为 Sender 样本, α 为准确率:


得到贝叶斯更新分布:


本文认为,从某种意义上讲,准确率 α 是可以相加的,从而得到总的贝叶斯更新分布公式:


通过执行无限多的传输步骤,贝叶斯更新过程可以推广到连续时间。假设 t ∈ [0, 1] 为处理时间,α(t) > 0 为时间 t 的准确率,得到准确率时间表:


贝叶斯流分布


给定先验参数 、贝叶斯更新分布 以及准确率时间表 ,贝叶斯流分布可以表示为:

损失函数

损失函数定义为如下方式:


其中:



L(x) 可以推导为变分自编码器(VAE)的损失函数,经过一系列变化,损失函数表述为:


根据损失函数(16),该研究又推导出了离散损失:


以及连续时间损失:




实验
该研究在以下生成基准上评估了 BFN 网络,包括 CIFAR-10(32×32 8 位彩色图像)、动态二值化 MNIST(28×28 手写数字的二值化图像)以及 text8(长度 256 个字符序列,大小为 27 个字母)。

动态二值化 MNIST

从表 1 可以看出,BFN 在没有数据增强的情况下达到该任务最好的性能。 



下图为 MNIST 损失曲线:表明对于二进制数据,准确率时间表不是最优的。



CIFAR-10

该研究在 CIFAR-10 上进行了两组生成建模实验,一组 bit-depth 为 8 ,对应于颜色通道有 256 个离散 bin,另一组 bit-depth 为 4 ,对应于颜色通道为 16 个 bin。

表 3 显示,对于 16 bins,离散损失比连续损失提供了更好的性能,并且训练时间也快得多。这一结果对应了这样一个假设,即 bin 相对较低时,使用离散损失进行训练是最有益的。此外,对于 16 和 256 个 bin,当步数 n 较低(例如 10 或 25)时,离散训练会给出更好的结果。然而,在 256 个 bin 上,连续损失比离散损失具有更好的性能。



图 15 显示,使用 16 个 bin 进行离散训练比使用 256 个 bin 进行离散训练可提供更好的样本质量。



TEXT8

表 4 显示,BFN 在 text8 测试集上产生了 1.41 BPC,这比其他文献中发现的所有离散扩散模型都要好,并且接近最佳模型 MAC(1.40 BPC)。



表 5 显示,对于步数 n 的减少,BFN 的性能还是相当稳健的,只需 100 步即可达到 1.43 BPC。通过离散时间损失训练可能会改善这个结果。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICML 2023 | 英伟达神奇研究:用别的模型权重训练神经网络,改神经元不影响输出!结合亲和力提高了 28.7 倍,基于端到端贝叶斯语言模型的方法设计大型、多样化的高亲和力抗体库贝叶斯定理:10个让你更厉害的观念减肥困难的原因找到啦!Nature研究揭示肥胖损害人类海马体中的促食欲神经网络,或为极具潜力的肥胖治疗新靶点!美国入籍考试规则明年或更新!难度加大且新增一项测试!英语不好恐成问题!国内首个SIGGRAPH最佳论文奖!山东大学提出全新点云法向估计算法AI「心灵之眼」被看透!大改神经网络,模型生成背后逻辑首现用别的模型权重训练神经网络,改神经元不影响输出:英伟达神奇研究「从未被制造出的最重要机器」,艾伦·图灵及图灵机那些事《阿爸》&《会飞的心》求职干货|S.T.A.R法则,有效解决常见Behavioral Questions必备!重新定义中小网络,“一机一网”解决方案重磅来袭伦敦大学城市学院行前会来袭!贝叶斯商学院新生来找组织!贝叶斯主义投资高手的方法,我总结为三类​华盛顿大学提出全新量化和微调方法,在DB-GPT上享受33B参数的LLMICML 2023 | 英伟达神奇研究:用别的模型权重训练神经网络,改神经元不影响输出云讲堂预告 | 潘俊豪:贝叶斯Lasso验证性因子分析模型对于所有合格的贝叶斯主义者来说,一切事物都只能是某种虚构不用LLM,遗传编程可控Python代码!谷歌DeepMind等提出全新ARZ框架|IROS 2023ICCV 2023 | 华为诺亚提出全新目标检测器Focus-DETR自定义跟踪架构:Slack 高效解决通知问题【提示】聚焦网络谣言、网络暴力等网络乱象,上海警方多措并举维护清朗有序网络环境2D到3D新突破!深度AIGC 技术剖析,一文看懂3D数据生成的历史及现状那年花爸的钱, 谈10块的恋爱明日云讲堂 | 潘俊豪:贝叶斯Lasso验证性因子分析模型颜值爆表,让孩子爱上看书的实木书柜来了!关键超结实,用到18岁不成问题Alex Graves新作贝叶斯流网络,解决离散数据生成问题,满论文都是数学公式那年花爸的钱, 谈10块的恋爱真正的高手,都是贝叶斯主义者TKDE 2023 | 超越共现!大连理工提出全新多模态会话推荐系统Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%我想抱梅西---一场精心导演的戏剧GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法关于大外宣国内团队提出全新RLTF框架,刷新SOTA!大模型生成代码质量更高bug更少
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。