NeurIPS 2022 | 外包训练：无需终端上传源数据，无需联邦学习，也能得到好模型？

科技

2023-03-18 12:03

©PaperWeekly 原创 · 作者 | 洪骏远

单位 | 密歇根州立大学

研究方向 | 机器学习隐私、联邦学习

论文标题：

Outsourcing Training without Uploading Data via Efficient Collaborative Open-Source Sampling

论文链接：

https://arxiv.org/abs/2210.12575

作者单位：

Arizona State University (1st, 4th), **Sony AI** (2nd, 3rd, 5th，通讯单位)

研究背景

随着边缘计算和深度学习的流行，通过云端模型训练赋能边缘设备的人工智能成为一个趋势。传统的云上训练需要将智能边缘设备的数据上传到云端，并接收已训练好的模型以进行预测，例如人脸识别、物体分类等。工业界已有很多成功的案例，包括亚马逊 SageMaker、微软 Azure、谷歌的 Cloud Machine Learning Engine，百度 AI Cloud 等，为诸如医疗保健、智能摄像头、可穿戴智能设备等应用的智能化提供了必要的算力基础。

然而，当边缘设备上传的是隐私数据时，该解决方案可能会遇到问题。例如，服务器可以通过在上传的数据库中搜索您的个人资料照片来确定谁在使用该服务。机器学习社区已经开展了大量工作，以防止这种信息泄露。例如，在梯度中添加高斯噪声可以在差分隐私的概念下保护样本隐私。

但是，添加噪音会引起训练的大方差，从而导致准确性和隐私之间的必然制衡。同时，边缘设备通常无法收集大型数据集，而隐私保护学习需要更多的数据或学到的特征 [2]。因此，我们的目标是提供一种新的训练方式，以防御此类风险：不需要向训练或模型添加噪声，而是提供足够的数据进行训练。

隐私学习新思路：外包训练

我们的主要思路是从开源领域找到一个代理数据集，即开源数据集（open-source data）。开源数据集是公开或经过授权可免费使用的数据集。我们可以将所有开源数据发送到边缘客户端，以过滤所需的样本并相应地在云端上进行训练。您可以在网上找到许多示例，例如 ImageNet、DomainNet 和 CIFAR10。还可以使用关键字从互联网（例如 Google，ChatGPT）搜索与任务相关的图像。

由于开源数据的特性，我们可以获取大量的免费图像在云端进行训练，而不必添加任何噪声来保护隐私，同时可以充分利用云端的算力。但与此同时，我们也面临着一些挑战：

● 分布相似性（Proximity）：由于开源数据是从异构源收集的，一个良好的代理数据集应该和本地数据有着相似的分布，如同样的图片风格。然而，在云端无法直接观察隐私数据的前提下，找到这样的数据并不容易。

● 高效率（Efficiency）大量开源数据提供了丰富的训练素材，同时传输和过滤大量样本增加了边缘客户端的计算和通信的压力。

● 隐私保护（Privacy）虽然没有上传私人数据，但云端和客户端之间交换的信息仍可能泄露私人信息。

高效合作开源采样助力外包训练

为了提高效率和控制隐私风险，我们提出了一种新的采样范式，称为高效协作开源采样（Efficient Collaborative Open-source Sampling, ECOS）。我们的方法一共分为三步。

（1）压缩（Compress）。在云端，ECOS 首先通过 K-Means 聚类将大量的开源数据压缩成一组低维度的质心特征，作为每个聚类的代表特征。

（2）过滤（Filter）。ECOS 将压缩的质心发送到客户端，客户端将质心特征与本地数据特征进行对比。每个质心将根据本地近邻样本的数量被赋予一个质心分数（Centroid Coverage score）。质心分数描述了云端相应聚类与客户端数据的相似程度。最后，客户端返回经过差分隐私化的质心分数。

（3）多样化解压（Diversely Decompress）。云端按质心分数的高低对每个聚类进行排序，然后按分数比例下采样直到获得预算数量的样本，在这个过程中我们通过贪心算法（K-Center）尽可能地在每个聚类中选取不重复的样本。

我们的方法能够实现前述所述的邻近性，高效率和隐私保护。低维度的质心特征大大降低了通信和计算复杂度。将接收到的质心特征与本地特征进行对比，可以通过聚类覆盖分数（接近簇的样本数量）获得分布相似性。因此，云可以通过聚类覆盖分数来过滤聚类。通过在聚类覆盖分数中注入高斯噪声，从而实现隐私保护。其隐私的损失可由差分隐私来计算。

外包训练应用案例

这里我们展示外包训练的三个应用案例。在实验中，我们采用 DomainNet 10 分类数据集。DomainNet 包含 6 个不同的数据域，如剪贴画，信息图表，油画等等。我们将一个域的数据置于客户端，其余五个域的数据作为云端的开源数据。在不同的应用采集中，我们都用 ECOS 去选取合适的远端数据作为代理数据集，用于后继的训练过程。

根据不同的数据标签方式，我们将后继训练的案例分为三种：选择性外包标签，自适应模型压缩蒸馏，自动化的客户端标签。我们假设云端只采样一定数量的样本（budget）用于附加监督信息（如外包标签）。

（1）ECOS的一个应用是减少远端数据的标注成本（或数量），其中 ECOS 从大量未标记的开源数据中抽取一部分近似数据进行手动标注。标记和未标记的数据一起被用于半监督学习。由于外包标注成本较高，因此通过限制样本数量可以有效控制预算。同时，高质量的多样化的标记数据集对于训练模型的高性能非常重要。

在上表中，我们展示了使用 ECOS 样本训练的模型的测试精度可以超过基线和本地训练（如使用 budget=1000 个样本）。我们还提供了隐私代价的估算，以 - 差分隐私（DP）形式给出，其中。虽然 ECOS 通过与客户端的通信引入隐私代价，但隐私代价非常低。

（2）ECOS 同时可以用于云端模型压缩。在这个案例中，我们假设模型已经在大量的开源数据上进行了预训练。为了适应适合边缘设备的内存和算力，需要在云端上对大模型进行压缩。考虑到云端数据与客户端数据的差异，我们采用 ECOS 选择相似的数据用于将大模型蒸馏成小模型。

在上表中，我们的方法改善了在有限样本下的模型压缩精度。由于隐私噪声的使用，当客户端有更多样本时，ECOS 能提供更好的采样结果，因而我们看到模型精度在 budget=3000 的时候 ECOS 表现更好。

（3）除了依赖云端去提供标签，我们也可以利用客户端的数据来打标签。这里我们利用 private kNN [3] 方法，用客户端的有标签数据给云端数据打标签。private kNN 引入隐私保护的同时，利用最近邻思想赋予云端数据相应的近邻标签。由于每个标签都需要付出相应的隐私代价，越少的云端样本数量意味着更少的隐私代价。因此在上表中，我们的方法在付出相似的隐私代价的同时，能够有效改善模型的精度。

结语

我们的主要贡献可以总结如下。

● 新的隐私保护训练：我们找到了公共数据，用于云端训练，取代客户端数据。

● 新的抽样范例：ECOS 具有通信和计算效率以及隐私保护性。

● 多个学习任务的灵活性：有选择的手动标注，自动客户端标注和自适应模型压缩。

这里所提出的解决方案还存在着不少开放问题。例如，公共数据集可能需要进行额外的数据处理，例如对齐和裁剪，以提高预测精度。在我们的实证研究中，我们仅考虑了计算机视觉任务，尽管数据结构没有做出任何假设。我们预计可以将这些原则适用于其他数据类型。后续工作将考虑更多的数据类型，包括表格和自然语言数据。

参考文献

[1] Hong, J., Lyu, L., Zhou, J., & Spranger, M. (2022). Outsourcing Training without Uploading Data via Efficient Collaborative Open-Source Sampling. NeurIPS.

[2] Tramer, F., & Boneh, D. (2021). Differentially private learning needs better features (or much more data). ICLR.

[3] Zhu, Y., Yu, X., Chandraker, M., & Wang, Y. X. (2020). Private-knn: Practical differential privacy for computer vision. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11854-11862).

更多阅读