ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
论文题目:Do Generated Data Always Help Contrastive Learning? 论文地址:https://arxiv.org/abs/2403.12448 代码地址:https://github.com/PKU-ML/adainf
真实数据和生成数据的比例。从人的角度来看,生成数据似乎以假乱真,但对于模型训练而言并非如此。他们发现,真实数据与生成数据的混合比例在 10:1 附近时达到最优,也就是说,1 个真实数据的「训练价值」约等于 10 个生成数据。这侧面说明了二者的差异。 训练策略的设计。他们发现,在使用生成数据进行训练时,如果维持原有的训练参数,则模型几乎没有提升。相反,如果随着数据集的扩充,而相应降低模型训练所使用的数据增广的强度,则可以获得显著提升。
数据扩充:不会改变标签错误,但可以提升图的连通性(增大)(下图 5 (a))。 数据增广:数据增广强度增加,会使得 labeling error 增大(图 5 (b)),但同时使不同样本之间的交叠部分增加,即增广图的连通性增强(增大)(图 5 (c))。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章