Redian新闻
>
首次发现!数据异构影响联邦学习模型,关键在于表征维度坍缩 | ICLR 2023

首次发现!数据异构影响联邦学习模型,关键在于表征维度坍缩 | ICLR 2023

公众号新闻
施宇钧NUS 投稿
量子位 | 公众号 QbitAI

随着深度学习大获成功,保护用户数据隐私变得越来越重要。

联邦学习(Federated Learning)应运而生,这是一种基于隐私保护的分布式机器学习框架。

它可以让原始数据保留在本地,让多方联合共享模型训练。

但它有一个问题——数据的异质化(data heterogeneity),即不同的参与方的本地数据来自不同的分布,这将严重影响全局模型的最终性能,背后原因也十分复杂。

字节跳动、新加坡国立大学及中科院自动化所的学者们首次发现了关键影响因素。

即:数据异质化导致了表征的维度坍缩(dimensional collapse),由此大大限制了模型的表达能力,影响了最终全局模型的性能。

为了缓解这一问题,研究人员提出了一个新联邦学习正则项:FedDecorr

结果表明,使用该方法后,数据异质化带来的维度坍缩问题被有效缓解,显著提升模型在该场景下的性能。

同时这一方法实现简单,几乎不会带来额外计算负担,可以很容易地加入到多种联邦学习算法上。

如何影响?

观察一:更严重的数据异质化会为全局模型(global model)带来更严重的维度坍缩

首先,为了更好理解数据异质化是如何影响全局模型输出表征的,研究人员探索了随着数据异质化越来越严重,全局模型输出表征是如何而变化的。

基于模型输出的表征,估计其表征分布的协方差矩阵(covariance matrix),并且按照从大到小的顺序可视化了该协方差矩阵的特征值。结果如下图所示。α越小,异质化程度越高,α为正无穷时为同质化场景。k为特征值的index。

对于该曲线,如果特征值大部分相对较大,即意味着表征能够更加均匀分布在不同的特征方向上。而如果该曲线只有前面少数特征值较大,而后面大部分特征值都很小,就意味着表征分布被压缩在少数特征方向上,即维度坍缩现象。

因此,从图中可以看到,随着数据异质化程度越来越高(α越来越小),维度坍缩的现象就越来越严重

观察二:全局模型的维度坍缩来自联邦参与各方的局部模型的维度坍缩

由于全局模型是联邦参与各方的局部模型融合的结果,因此作者推断:全局模型的维度坍缩来源于联邦参与各方的局部模型的维度坍缩。

为了进一步验证该推断,作者使用与观察1类似的方法,针对不同程度数据异质化场景下得到的局部模型进行了可视化。结果如下图所示。

从图中可以看到,对于局部模型,随着数据异质化程度的提升,维度坍缩的现象也越来越严重。因此得出结论,全局模型的维度坍缩来源于联邦参与各方的局部模型的维度坍缩

怎么解决?

受到以上两个观察的启发,由于全局模型的维度坍缩来源于本地局部模型的维度坍缩,研究人员提出在本地训练阶段来解决联邦学习中的表征维度坍缩问题。

首先,一个最直观的可用的正则项为以下形式:

其中为第个特征值。该正则项将约束特征值之间的方差变小,从而使得较小的特征值不会偏向于0,由此缓解维度坍缩。

然而,直接计算特征值往往会带来数值不稳定,计算时间较长等问题。因此借助以下proposition来改进方法。

为了方便处理,需要对表征向量做z-score归一化。这将使得协方差矩阵变成相关系数矩阵(对角线元素都是1)。

基于这个背景,可以得到以下proposition:

这一proposition意味着,原本较为复杂的基于特征值的正则化项,可以被转化为以下易于实现且计算方便的目标:

该正则项即是简单的约束表征的相关系数矩阵的Frobenius norm更小。研究人员将该方法命名为FedDecorr

因此,对于每个联邦学习参与方,本地的优化目标为:

其中为分类的交叉熵损失函数,β为一个超参数,即FedDecorr正则项的系数。

实验结果

首先,验证使用FedDecorr是否可以有效缓解维度坍缩。

在α=0.01/0.05这两个强数据异质化的场景下,观察使用FedDecorr对模型输出表征的影响。

结果如下图所示。

可以看到,使用FedDecorr可以有效缓解本地局部模型的维度坍缩,从而进一步缓解全局模型的维度坍缩。

在CIFAR10/100两个数据集上验证方法。研究团队发现FedDecorr可以很方便的加入到之前提出的多个联邦学习方法,并且带来显著提升:

同时,为了展示方法的可扩展性,作者在较大规模数据集(TinyImageNet)上进行了实验,并且也观察到了显著提升:

此外还基于TinyImageNet,验证了FedDecorr在更大规模联邦参与方的场景下的有效性。

结果如下表。通过实验结果展示了FedDecorr可以被用于较大规模联邦参与方的场景。

FedDecorr对正则项系数(超参数β)的鲁棒性结果如下图所示。

通过实验,发现FedDecorr对于其超参数β有较强的鲁棒性。

同时发现将β设为0.1是一个不错的默认值。

最后,研究人员验证了在联邦学习时,使用不同的local epoch下FedDecorr也可以带来普遍的提升:

论文地址:
https://arxiv.org/abs/2210.00226
代码链接:
https://github.com/bytedance/FedDecorr

「中国AIGC产业峰会」启动

邀您共襄盛举

「中国AIGC产业峰会」即将在今年3月举办,峰会将邀请AIGC产业相关领域的专家学者,共同探讨生成新世界的过去、现在和未来。

峰会上还将发布《中国AIGC产业全景报告暨AIGC 50》,全面立体描绘我国当前AIGC产业的竞争力图谱。点击链接或下方图片查看大会详情:

被ChatGPT带飞的AIGC如何在中国落地?量子位邀你共同参与中国AIGC产业峰会


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中年女人穿大衣,气质是“高级”还是“一般”,关键在这些细节上​ICLR 2023 | 用于类别不平衡图表示学习的统一数据模型稀疏性机器学习模型以出色的精度进行有机反应机理分类更年期离异温莎底特律行股权投资如何获得超额回报?关键在于投后管理和退出时机稀疏模型最新进展!马毅+LeCun强强联手:「白盒」非监督式学习|ICLR 2023超越核方法的量子机器学习,量子学习模型的统一框架师姐一年能发表3篇高分SCI,关键在这!90%高分SCI需要用到这个!这十年,关于表格存储 Tablestore 的演进历程15年婚家律师透漏:离婚官司胜诉关键在于这2点!(办案必学)Eruope 2023用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值胡适问:为什么要信仰共产党?2023 春 祝姐妹们周末快乐!如何实现高效联邦学习?跨终端、硬件加速等方案全都有自监督为何有效?243页普林斯顿博士论文「理解自监督表征学习」,全面阐述对比学习、语言模型和自我预测三类方法对话李志飞:大模型的关键在于如何把大模型用起来|年度AI对话AI自给自足!用合成数据做训练,效果比真实数据还好丨ICLR 2023AI驱动运筹优化「光刻机」!中科大等提出分层序列模型,大幅提升数学规划求解效率|ICLR 2023ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型转:2023 回国探亲(5)【手撕代码】当我让深度学习模型吃下一本医学书后,他竟学会了如何“看病”!年夜晚餐ICLR 2023 | MocoSFL: 低成本跨用户联邦自监督学习ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE首次发现!科学家找到「专吃病毒」的生物,网友:能消除人体内病毒吗?|PNAS2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一华为为什么有这么多优秀干部?关键在于这7点!明查| 加拿大埃德蒙顿市辐射数据异常?可能发生核泄漏?股权投资失败,关键在于投后管理与退出时机​ICLR 2023 | LightGCL: 简单且高效的图对比学习推荐系统花百万读双语校,孩子却被教成了“文盲”…顺义妈急了:原来学好英语的关键在于中文?不用很费力,A-level生物也能拿好成绩!关键在于...国际要闻简报,轻松了解天下事(03​NeurIPS 2022 | 外包训练:无需终端上传源数据,无需联邦学习,也能得到好模型?拜登能否连任的关键在于特朗普东西方理性差异与欲望TPAMI 2023 | 无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。