AAAI 2024 | 上交等提出自适应间距强化对比学习,增强多个模型的分类能力
©PaperWeekly 原创 · 作者 | 张剑清
单位 | 上海交通大学、清华大学(AIR)
研究方向 | 联邦学习
论文标题:
FedTGP: Trainable Global Prototypes with Adaptive-Margin-Enhanced Contrastive Learning for Data and Model Heterogeneity in Federated Learning
https://arxiv.org/abs/2401.03230
https://github.com/TsingZ0/FedTGP(含有PPT和Poster)
https://github.com/TsingZ0/PFLlib
运行实验所需仓库-异构联邦学习算法库:
https://github.com/TsingZ0/HtFLlib
异构联邦学习背景
传统联邦学习通过在每一次迭代中传递模型参数的方式实现知识共享,但该方式存在局限,无法适应更广泛的场景,尤其是不易寻找到参与联邦学习的客户机。客户机在参与联邦学习之前,有自己本地的模型训练任务,也有自研的模型架构和训练得到的模型参数。每个客户机参加联邦学习的动机是为了通过联邦学习增强自己模型的表现能力。若强制要求参与的客户机都使用相同的模型结构且进行模型参数共享,则需要每个客户机重新训练模型。
▲ 图2:异构联邦学习中使用prototype作为知识载体
FedProto的局限性
虽然 FedProto 得到了广泛使用,但之前的工作要么将其用在传统联邦学习场景(异构联邦学习技术在传统场景也都适用),要么采用异构性不强的异构模型(比如增减全连接层数和改变 CNN 网络的卷积核等)。在这些场景下,通过加权平均聚合 prototype 的方式确实具有不错的表现。
但当我们考虑更一般的场景:参与联邦学习的客户机训练的模型的架构差异巨大,比如两层 CNN 模型和 ResNet-152 模型。此时 FedProto 的 prototype 聚合方法就出现了一些问题。我们观察到,由于模型架构相差巨大,不同模型的特征提取能力也天差地别,它们生成的 prototype 也天差地别。
▲ 图3:FedProto在模型异构性较大场景下的间距收缩现象(Cifar10)
自适应间距强化的对比学习(ACL)
为了解决上述间距收缩的问题,我们提出了一种自适应间距强化的对比学习方法(ACL),如下图所示。
从而我们得到最终的对比学习目标:
使用 ACL 之后,我们便可以消除间距收缩的问题:
▲ 图5:我们的FedTGP在使用ACL之后,消除了间距收缩的问题(Cifar10)
参考文献
[1] Tan Y, Long G, Liu L, et al. Fedproto: Federated prototype learning across heterogeneous clients[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者