Redian新闻
>
NeurIPS 2023 | 如何从理论上研究生成式数据增强的效果?

NeurIPS 2023 | 如何从理论上研究生成式数据增强的效果?

公众号新闻

©作者 | 郑晨宇
学校 | 中国人民大学
研究方向 | 机器学习理论

论文链接:
https://arxiv.org/abs/2305.17476

代码链接:

https://github.com/ML-GSAI/Understanding-GDA



概述

生成式数据扩增通过条件生成模型生成新样本来扩展数据集,从而提高各种学习任务的分类性能。然而,很少有人从理论上研究生成数据增强的效果。为了填补这一空白,我们在这种非独立同分布环境下构建了基于稳定性的通用泛化误差界。基于通用的泛化界,我们进一步了探究了高斯混合模型和生成对抗网络的学习情况。


在这两种情况下,我们证明了,虽然生成式数据增强并不能享受更快的学习率,但当训练集较小时,它可以在一个常数的水平上提高学习保证,这在发生过拟合时是非常重要的。最后,高斯混合模型的仿真结果和生成式对抗网络的实验结果都支持我们的理论结论。



主要的理论结果

2.1 符号与定义

作为数据输入空间, 作为标签空间。定义 上的真实分布。给定集合 ,我们定义 为去掉第 个数据后剩下的集合, 为把第 个数据换成 后的集合。我们用 表示 total variation distance。


我们让 为所有从 的所有可测函数, 为学习算法从数据集 中学到的映射。对于一个学到的映射 和损失函数 真实误差 被定义为 相应的经验的误差 被定义为 


我们文章理论推导采用的是稳定性框架,我们称算法 相对于损失函数 是一致 稳定的,如果

2.2 生成式数据增强

定带有 个 i.i.d. 样本的 数据集,我们能训练一个条件生成模型 ,并将学到的分布定义为 。基于训练得到的条件生成模型,我们能生成一个新的具有 个 i.i.d. 样本的数据集 。我们记增广后的数据集 大小为 。我们可以在增广后的数据集上学到映射 。为了理解生成式数据增强,我们关心泛化误差 。据我们所知,这是第一个理解生成式数据增强泛化误差的工作。

2.3 一般情况

我们可以对于任意的生成器和一致 稳定的分类器,推得如下的泛化误差:
▲ general
一般来说,我们比较关心泛化误差界关于样本数 的收敛率。将 看成超参数,并将后面两项记为 generalization error w.r.t. mixed distribution,我们可以定义如下的“最有效的增强数量”:

在这个设置下,并和没有数据增强的情况进行对比(),我们可以得到如下的充分条件,它刻画了生成式数据增强何时(不)能够促进下游分类任务,这和生成模型学习分的能力息息相关:

▲ corollary

2.4 高斯混合模型
为了验证我们理论的正确性,我们先考虑了一个简单的高斯混合模型的 setting。

混合高斯分布。我们考虑二分类任务 。我们假设真实分布满足 and 。我们假设 的分布是已知的。

线性分类器。我们考虑一个被 参数化的分类器,预测函数为 。给定训练集, 通过最小化负对数似然损失函数得到,即最小化

学习算法将会推得 ,which satisfies  

条件生成模型。我们考虑参数为 的条件生成模型,其中 以及 。给定训练集,让 为第 类的样本量,条件生成模型学到

它们是 的无偏估计。我们可以从这个条件模型中进行采样,即 ,其中

我们在高斯混合模型的场景下具体计算 Theorem 3.1 中的各个项,可以推得

▲ GMM
  1. 当数据量 足够时,即使我们采用“最有效的增强数量”,生成式数据增强也难以提高下游任务的分类性能。
  2. 当数据量 较小的,此时主导泛化误差的是维度等其他项,此时进行生成式数据增强可以常数级降低泛化误差,这意味着在过拟合的场景下,生成式数据增强是很有必要的。

2.5 生成对抗网络

我们也考虑了深度学习的情况。我们假设生成模型为 MLP 生成对抗网络,分类器为 层 MLP 或者 CNN。损失函数为二元交叉熵,优化算法为 SGD。我们假设损失函数平滑,并且第 层的神经网络参数可以被 控制。我们可以推得如下的结论:

▲ GAN
  1. 当数据量 足够时,生成式数据增强也难以提高下游任务的分类性能,甚至会恶化。
  2. 当数据量 较小的,此时主导泛化误差的是维度等其他项,此时进行生成式数据增强可以常数级降低泛化误差,同样地,这意味着在过拟合的场景下,生成式数据增强是很有必要的。


实验

3.1 高斯混合模型模拟实验

我们在混合高斯分布上验证我们的理论,我们调整数据量 ,数据维度 以及 。实验结果如下图所示:

▲ simulation

  1. 观察图(a),我们可以发现当 相对于 足够大的时候,生成式数据增强的引入并不能明显改变泛化误差。
  2. 观察图(d),我们可以发现当 固定时,真实的泛化误差确实是 阶的,且随着增强数量 的增大,泛化误差呈现常数级的降低。
  3. 另外 4 张图,我们选取了两种情况,验证了我们的 bound 能在趋势上一定程度上预测泛化误差。
这些结果支持了我们理论的正确性。
3.2 深度生成模型实验
我们使用 ResNet 作为分类器,cDCGAN、StyleGANv2-ADA 和 EDM 作为深度生成模型,在 CIFAR-10 数据集上进行了实验。实验结果如下所示。由于训练集上训练误差都接近 0,所以测试集上的错误率是泛化误差的一个比较好的估计。我们利用是否做额外的数据增强(翻转等)来近似 是否充足。

▲ deep

  1. 在没有额外数据增强的时候, 较小,分类器陷入了严重的过拟合。此时,即使选取的 cDCGAN 很古早(bad GAN),生成式数据增强都能带来明显的提升。
  2. 在有额外数据增强的时候, 充足。此时,即使选取的 StyleGAN 很先进(SOTA GAN),生成式数据增强都难以带来明显的提升,在 50k 和 100k 增强的情况下甚至都造成了一致的损害。
  3. 我们也测试了一个 SOTA 的扩散模型 EDM,发现即使在有额外数据增强的时候,生成式数据增强也能提升分类效果。这意味着扩散模型学习分布的能力可能会优于 GAN。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
JMT 2023.08.23数据科学理论专场:前沿数据科学理论在各领域的应用 | 第16届中国R会议暨2023X-AGI大会ICCV 2023 | 通用数据增强技术!适用于任意数据模态的随机量化北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 2023施密德看美中科技竞争历数5年89篇研究,这篇综述告诉我们深度学习中的代码数据增强怎么样了NeurIPS 2023 | SlotDiffusion: 基于Slot-Attention和扩散模型的全新生成模型NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusion2023年8月23日未来科学大奖直播视频之二:室温超导有可能实现吗?专家:不存在理论上的障碍录用率26.1%!NeurIPS 2023论文放榜,马毅田渊栋团队研究被接收疯了吧!价值3000的效果图能一键生成,ENSCAPE要成为渲染界的天花板?(附参数下载)俄乌战况12NeurIPS 2023 | 模仿人类举一反三,数据集扩增新范式GIF框架来了「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023NeurIPS 2023 | 超越YOLO系列!华为提出Gold-YOLO:实时目标检测新SOTA养生诀JMT 2023.08.21港大联合百度 WSDM 2024 | 如何让LLMs助力推荐系统?图数据增强重回廊桥凯捷:生成式AI的收获季节:各行业生成式AI的广泛应用NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成20字一页的PPT,如何改出500元一页的效果?NeurIPS 2023 | 全新机械手算法:辅助花式抓杯子,GTX 1650实现150fps推断让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%NeurIPS 2023 | PointGPT:点云和GPT大碰撞!点云的自回归生成预训练NeurIPS 2023 | 动态组合模型来应对数据分布的变化NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCRNeurIPS 2023 | Backbone之战:计算机视觉任务模型大比较NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!考上研究生的义务兵,选择留队!JMT 2023.08.20连发2篇Science,去年刚评上研究员,今年获国家杰青资助!复旦大学桑庆研究员研究成果集锦!冷却的不止季节(105)— 母女同心NeurIPS 2023 Spotlight | 半监督与扩散模型结合,实现少标签下可控生成流體智力跟晶體智力的轉變人生很痛苦就是已經到了瓶頸無法再更進一步????GACS 2023 | IPU:赋能生成式AI,不止生成式AI接收率26.1%,NeurIPS 2023录用结果出炉增长操盘手:从理论到实践,全面提升能力US News 2023
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。