Redian新闻
>
​NeurIPS 2022 | 外包训练:无需终端上传源数据,无需联邦学习,也能得到好模型?

​NeurIPS 2022 | 外包训练:无需终端上传源数据,无需联邦学习,也能得到好模型?

科技

©PaperWeekly 原创 · 作者 | 洪骏远
单位 | 密歇根州立大学
研究方向 | 机器学习隐私、联邦学习



论文标题:
Outsourcing Training without Uploading Data via Efficient Collaborative Open-Source Sampling

论文链接:

https://arxiv.org/abs/2210.12575

作者单位:

Arizona State University (1st, 4th), **Sony AI** (2nd, 3rd, 5th,通讯单位)



研究背景


随着边缘计算和深度学习的流行,通过云端模型训练赋能边缘设备的人工智能成为一个趋势。传统的云上训练需要将智能边缘设备的数据上传到云端,并接收已训练好的模型以进行预测,例如人脸识别、物体分类等。工业界已有很多成功的案例,包括亚马逊 SageMaker、微软 Azure、谷歌的 Cloud Machine Learning Engine,百度 AI Cloud 等,为诸如医疗保健、智能摄像头、可穿戴智能设备等应用的智能化提供了必要的算力基础。


然而,当边缘设备上传的是隐私数据时,该解决方案可能会遇到问题。例如,服务器可以通过在上传的数据库中搜索您的个人资料照片来确定谁在使用该服务。机器学习社区已经开展了大量工作,以防止这种信息泄露。例如,在梯度中添加高斯噪声可以在差分隐私的概念下保护样本隐私。


但是,添加噪音会引起训练的大方差,从而导致准确性和隐私之间的必然制衡。同时,边缘设备通常无法收集大型数据集,而隐私保护学习需要更多的数据或学到的特征 [2]。因此,我们的目标是提供一种新的训练方式,以防御此类风险:不需要向训练或模型添加噪声,而是提供足够的数据进行训练。




隐私学习新思路:外包训练



我们的主要思路是从开源领域找到一个代理数据集,即开源数据集(open-source data)。开源数据集是公开或经过授权可免费使用的数据集。我们可以将所有开源数据发送到边缘客户端,以过滤所需的样本并相应地在云端上进行训练。您可以在网上找到许多示例,例如 ImageNet、DomainNet 和 CIFAR10。还可以使用关键字从互联网(例如 Google,ChatGPT)搜索与任务相关的图像。


由于开源数据的特性,我们可以获取大量的免费图像在云端进行训练,而不必添加任何噪声来保护隐私,同时可以充分利用云端的算力。但与此同时,我们也面临着一些挑战:


● 分布相似性(Proximity):由于开源数据是从异构源收集的,一个良好的代理数据集应该和本地数据有着相似的分布,如同样的图片风格。然而,在云端无法直接观察隐私数据的前提下,找到这样的数据并不容易。


● 高效率(Efficiency)大量开源数据提供了丰富的训练素材,同时传输和过滤大量样本增加了边缘客户端的计算和通信的压力。


● 隐私保护(Privacy)虽然没有上传私人数据,但云端和客户端之间交换的信息仍可能泄露私人信息。




高效合作开源采样助力外包训练



为了提高效率和控制隐私风险,我们提出了一种新的采样范式,称为高效协作开源采样(Efficient Collaborative Open-source Sampling, ECOS)。我们的方法一共分为三步。


(1)压缩(Compress)。在云端,ECOS 首先通过 K-Means 聚类将大量的开源数据压缩成一组低维度的质心特征,作为每个聚类的代表特征。


(2)过滤(Filter)。ECOS 将压缩的质心发送到客户端,客户端将质心特征与本地数据特征进行对比。每个质心将根据本地近邻样本的数量被赋予一个质心分数(Centroid Coverage score)。质心分数描述了云端相应聚类与客户端数据的相似程度。最后,客户端返回经过差分隐私化的质心分数。


(3)多样化解压(Diversely Decompress)。云端按质心分数的高低对每个聚类进行排序,然后按分数比例下采样直到获得预算数量的样本,在这个过程中我们通过贪心算法(K-Center)尽可能地在每个聚类中选取不重复的样本。


我们的方法能够实现前述所述的邻近性,高效率和隐私保护。低维度的质心特征大大降低了通信和计算复杂度。将接收到的质心特征与本地特征进行对比,可以通过聚类覆盖分数(接近簇的样本数量)获得分布相似性。因此,云可以通过聚类覆盖分数来过滤聚类。通过在聚类覆盖分数中注入高斯噪声,从而实现隐私保护。其隐私的损失可由差分隐私来计算。




外包训练应用案例


这里我们展示外包训练的三个应用案例。在实验中,我们采用 DomainNet 10 分类数据集。DomainNet 包含 6 个不同的数据域,如剪贴画,信息图表,油画等等。我们将一个域的数据置于客户端,其余五个域的数据作为云端的开源数据。在不同的应用采集中,我们都用 ECOS 去选取合适的远端数据作为代理数据集,用于后继的训练过程。


根据不同的数据标签方式,我们将后继训练的案例分为三种:选择性外包标签,自适应模型压缩蒸馏,自动化的客户端标签。我们假设云端只采样一定数量的样本(budget)用于附加监督信息(如外包标签)。



(1)ECOS的一个应用是减少远端数据的标注成本(或数量),其中 ECOS 从大量未标记的开源数据中抽取一部分近似数据进行手动标注。标记和未标记的数据一起被用于半监督学习。由于外包标注成本较高,因此通过限制样本数量可以有效控制预算。同时,高质量的多样化的标记数据集对于训练模型的高性能非常重要。

在上表中,我们展示了使用 ECOS 样本训练的模型的测试精度可以超过基线和本地训练(如使用 budget=1000 个样本)。我们还提供了隐私代价的估算,以 - 差分隐私(DP)形式给出,其中 。虽然 ECOS 通过与客户端的通信引入隐私代价,但隐私代价非常低。


(2)ECOS 同时可以用于云端模型压缩。在这个案例中,我们假设模型已经在大量的开源数据上进行了预训练。为了适应适合边缘设备的内存和算力,需要在云端上对大模型进行压缩。考虑到云端数据与客户端数据的差异,我们采用 ECOS 选择相似的数据用于将大模型蒸馏成小模型。


在上表中,我们的方法改善了在有限样本下的模型压缩精度。由于隐私噪声的使用,当客户端有更多样本时,ECOS 能提供更好的采样结果,因而我们看到模型精度在 budget=3000 的时候 ECOS 表现更好。



(3)除了依赖云端去提供标签,我们也可以利用客户端的数据来打标签。这里我们利用 private kNN [3] 方法,用客户端的有标签数据给云端数据打标签。private kNN 引入隐私保护的同时,利用最近邻思想赋予云端数据相应的近邻标签。由于每个标签都需要付出相应的隐私代价,越少的云端样本数量意味着更少的隐私代价。因此在上表中,我们的方法在付出相似的隐私代价的同时,能够有效改善模型的精度。




结语


我们的主要贡献可以总结如下。


● 新的隐私保护训练:我们找到了公共数据,用于云端训练,取代客户端数据。


● 新的抽样范例:ECOS 具有通信和计算效率以及隐私保护性。


● 多个学习任务的灵活性:有选择的手动标注,自动客户端标注和自适应模型压缩。


这里所提出的解决方案还存在着不少开放问题。例如,公共数据集可能需要进行额外的数据处理,例如对齐和裁剪,以提高预测精度。在我们的实证研究中,我们仅考虑了计算机视觉任务,尽管数据结构没有做出任何假设。我们预计可以将这些原则适用于其他数据类型。后续工作将考虑更多的数据类型,包括表格和自然语言数据。



参考文献

[1] Hong, J., Lyu, L., Zhou, J., & Spranger, M. (2022). Outsourcing Training without Uploading Data via Efficient Collaborative Open-Source Sampling. NeurIPS.

[2] Tramer, F., & Boneh, D. (2021). Differentially private learning needs better features (or much more data). ICLR.

[3] Zhu, Y., Yu, X., Chandraker, M., & Wang, Y. X. (2020). Private-knn: Practical differential privacy for computer vision. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11854-11862).



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国内外包原画价大跌,部分国外游戏厂商:禁止外包用AI、必须人画最新报税指南:加州中产级无需缴纳联邦税!退税将减少10%!多州退税款无需联邦申报!NeurIPS 2022 | 基于激活值稀疏化的内存高效迁移学习NeurIPS 2022 | UCLA推出科学问答新基准,大语言模型迎来多模态新挑战!CV发论文的机会来了!南洋理工项目招生(仅限深度学习,AI,机器学习,迁移学习方向)NeurIPS 2022 | 基于结构聚类的异质图自监督学习​比老公管用,比保姆贴心!颠覆传统的“小怪兽”!插上即用,无需联网,“随叫随到"!网友:太实用了!IRS发布新纳税指南:多州退税款无需联邦申报2022 USNEWS发布美国薪酬最高行业TOP25不能细想!《流浪地球2》里的意识上传,上传的到底是谁?今天随意浏览了一下CMU 2019新冠流水记【回顾与展望】2022 后疫情时代的旅游,2023 回家首次发现!数据异构影响联邦学习模型,关键在于表征维度坍缩 | ICLR 2023在线研讨会预告:针对向量计算开发的高性能数据库和云原生开源数据编排技术【回顾与展望】 2022,非洲收宮之旅,阿尔及利亚,埃塞俄比亚,突尼斯NeurIPS 2022 | 训练速度100倍提升!基于PyTorch实现的可微逻辑门网络开源ChatGPT 又遇劲敌!谷歌发布史上最大 AI 模型 PaLM-E:5620 亿参数,无需特殊训练即可操纵机器人​NeurIPS 2022 | 知识蒸馏造成了样本不均衡问题?多多八卦王室《备胎》: (1) 洗脑这位副厅长的工资为何这么高?多模数据库、“Serverless 化” | 开源数据库领域解读春节—鱼冻​NeurIPS 2022 | 仅需3分钟!开源Transformer快速训练后剪枝框架来了​NeurIPS 2022 | 最优脑压缩,训练后剪枝又一力作!插上即用,无需联网,“随叫随到"!网友:太实用了!90年代的美人那么多,只有她最好模仿!IRS发布新纳税指南 多州退税款无需联邦申报风险偏好模型以及股市走牛的关键步骤第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%IRS发布新纳税指南,多州退税款无需联邦申报,退款额同比减少10%,但退款速度会加快NeurIPS 2022 | 用离散对抗训练提高视觉模型的鲁棒性和泛化能力​NeurIPS 2022 | DIST: 少学点反而更好!商汤开源松弛知识蒸馏方法ICLR 2023 Oral | ToMe:无需训练的Token融合模型加速算法注意!国税局IRS发布新纳税指南! 这些州退税款无需联邦申报!!包含纽约新泽西宾州等....税务漫谈——IRS发布新纳税指南 多州退税款无需联邦申报能得到回应的喜欢,真的很甜。2022 湾区公立/私立高中 UCB 录取率排名难民潮:非暴力运动国际化NeurIPS 2022 | 如何度量知识蒸馏中不同数据增强方法的好坏?一种统计学视角
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。