Redian新闻
>
生成式AI如何告别色情、版权困扰?基于权重显著性的机器遗忘算法有奇效

生成式AI如何告别色情、版权困扰?基于权重显著性的机器遗忘算法有奇效

公众号新闻


AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

近期,硅谷 AI 公司 OpenAI 可谓是话题度拉满,先是一出「宫斗戏」引起舆论哗然,后是公布 Sora 效果炸裂受到了全网的一致好评。在这期间,一桩诉讼案件同样引爆了热点 —— 因 ChatGPT 涉嫌侵犯纽约时报著作权,OpenAI 及微软被起诉并要求支付巨额版权费 [1]。一方是传统新闻行业的代表刊物,一方是新兴人工智能技术发展中的佼佼者。双方展开这场「里程碑式」拉锯战的同时,也将科研圈长期存在的问题再次拉上了台面:

在 AI 高速发展的浪潮中,如何在保持技术创新的同时不失对于数据安全问题的考量?

的确,随着近年来产业化模型的逐步发展,数据安全在个人隐私、模型安全、版权问题等多方面都受到了严峻的挑战,如:语言模型因引入个人信息而埋下的隐私泄露隐患;扩散生成模型因训练数据中涵盖色情、暴力等不良图像而导致具备产生违法内容的能力。此外,诸如国家互联网信息办公室颁布的《生成式人工智能服务管理暂行办法》[2],以及欧盟的《一般数据保护条例》[3](GDPR)等也意味着对于数据安全的约束也逐渐从道德层面转向了法律、法规层面。人们对于数据安全的需求逐渐从幕后转向了台前,对于机器学习相关研究者以及现有人工智能服务的提供者而言也是亟待解决的问题与挑战。

直观而言,移除敏感数据并重新训练(Retrain)是一种合理的消除数据影响并保证模型安全的方法。然而,训练模型对时间和算力的消耗不容小觑,对于一些已经产业化并投入使用的大模型,重新训练的额外开销会急剧增大。如何快速有效的消除数据对模型带来的影响 —— 机器遗忘,便成为了一个新兴的热门研究方向。

什么是机器遗忘?

机器遗忘(Machine Unlearning, 也可称机器「反」学习),这种方法旨消除特定训练数据(如敏感或非法信息)对已完成预训练模型的影响,同时保持该模型的实用性。在评估一种机器遗忘方法时,我们需从三个关键维度出发:

1. 高效:算法是否高效运行;
2. 精准:特定数据是否被精准遗忘;
3. 稳定:遗忘后模型是否具有稳定泛化能力。

遗憾的是,现有的机器遗忘方法都无法同时满足这三个维度的要求。近日,密歇根州立大学(Michigan State University)、宾夕法尼亚大学(University of Pennsylvania)和 IBM 研究院(IBM Research)的研究者们分析了已有机器遗忘方法的局限性,基于权重显著性提出了一种简单、直观但表现优异的机器遗忘框架 ——SalUn(Saliency Unlearn)。实验结果表明,在图像分类和图像生成任务上,SalUn 都能够出色地满足高效、精准和稳定这三个维度的要求,证明了其在机器遗忘领域的创新性和重要性。


  • 论文题目:SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation
  • 论文地址:https://arxiv.org/abs/2310.12508
  • 代码地址:https://github.com/OPTML-Group/Unlearn-Saliency

论文的共同一作樊翀宇在密歇根州立大学交流期间(目前是华中科技大学的本科生,即将加入密歇根州立大学攻读博士学位),与清华姚班毕业生刘剑成协作完成了这项研究。目前,相关论文已被人工智能领域的顶级会议 ICLR 2024 录用为 Spotlight。

「裸体」概念遗忘前后对比;(中)「狗」类遗忘前后对比;(右)「素描」风格遗忘前后对比 [5]

现有机器遗忘方法存在哪些局限?

1. 在分类任务下的不稳定性:现有方法在图像分类中不同遗忘任务下的表现仍存在差异性。从下图可以看到,在遗忘数据量为 10% 时,一些基线方法如 l1-sparse [6] 可以接近理想的遗忘效果,但当遗忘数据量逐步增加,特别是达到 50% 时,现有方法与理想的遗忘差距显著增大。

现有方法在不同遗忘数据量下与理想遗忘效果遗忘效果间的差值

2. 在生成任务下无法泛化:目前已有的机器遗忘方法集中于图像分类任务,不能适应图像生成。如下图所示,当现有的遗忘方法直接迁移到生成模型上时,往往不是过度遗忘就是遗忘不足 —— 模型要么模型对于非遗忘类图像的生成质量不佳,要么仍然具有生成被遗忘类别的能力。

现有方法在生成任务上的表现

SalUn:基于权重显著性的机器遗忘

对于不同任务的分析表明,当遗忘任务逐步变难时,遗忘数据和剩余数据在这些任务下可能产生更强的耦合进而导致已有方法无法在保证遗忘效果的同时维持模型的泛化能力。为了达到更加精准的移除,本文在机器遗忘中引入模块化(modularity)思想,提出了基于权重显著性(Weight Saliency)的机器遗忘方法 ——SalUn。

一般而言,显著性是指模型在做出决策或预测时认为最相关或最重要的数据特征。而权重显著性将此概念扩展到模型的内部权重,确定哪些权重对模型的结果影响最大。SalUn 利用遗忘损失梯度预估相关的权重显著性,筛选出对遗忘数据敏感的权重,并着重对这部分权重进行遗忘。通过对于模型权重的精确掩模,SalUn 在消除模型中对应数据影响的同时尽可能减少对模型泛化能力的损害,以达到遗忘精准度和泛化稳定性之间更好的平衡,在不同任务下的遗忘中达到了一个统一、有效且简单的解决方案。


具体而言,对于机器遗忘更新后的权重(θu)可以经权重掩码(ms)表示为:


其中,权重掩码使用遗忘损失函数ℓf 的梯度作为显著性预估,并基于阈值 γ 进行筛选。文中发现,当ℓf 使用基于梯度上升(Gradient Ascent)的遗忘损失函数时即可取得较好效果,即:


可以发现,SalUn 的一个优点便是它即插即用的能力:权重掩模对于现有的遗忘方法均可无门槛使用,并在遗忘表现上获得一定的提升。特别是,当将权重显著性与随机标签(Random Label)遗忘法相结合时,取得了目前 SOTA 的遗忘效果。随机标签遗忘为需遗忘的数据重分配一个随机标签,然后在重标签的数据集上微调模型。因此,优化过程及损失函数可分别表示如下:


实验结果

在图像分类任务中,两个主要的测试场景为类遗忘和随机数据遗忘。类遗忘是针对特定数据集上训练的模型,遗忘指定类的全部数据;随机数据遗忘则随机指定一定比例的训练数据进行遗忘。在两种场景中,与 Retrain 的表现误差会越小意味着遗忘表现越好。已有文献表明 [6],相较于类移除,随机数据移除更有挑战性,因此文中考虑图像分类时主要关注于 CIFAR-10 中 ResNet-18 模型在不同比例下的随机数据遗忘。相较于其他基线方法,SalUn 在所有实验中与 Retrain 间的平均差距均为最小,取得了目前的 SOTA 效果。


在图像生成任务中,主要的测试场景包含类遗忘和概念遗忘。其中,类遗忘与图像分类中类似,旨在消除模型中针对特定类的生成能力。文中探讨了将 Stable Diffusion 模型消除 ImageNette 数据集中不同类的效果。下图展示了 SalUn 遗忘「教堂」类前后模型生成效果的比较,可以发现在遗忘后模型在保持其余类生成效果的同时,无法根据文本提示「An image of church」(一张教堂图片)正确的生成对应图像。


略区别于类遗忘,生成模型中的概念(concept)遗忘通常指消除更为广泛的「概念」,如暴力、色情等。由于扩散模型训练数据量过于庞大,从中筛选并删除相关数据变得异常困难。如前文所述,目前 Stable Diffusion 仍然存在生成 NSFW 内容的能力,这自然成为了一种机器遗忘的应用场景。对此,文中测试了 SalUn 针对「裸体」概念的移除效果,并使用 I2P [4] 测试集对于遗忘效果进行测试。在此应用场景下,SalUn 相较于已有的概念移除的方法,能更好的消除「裸体」概念。

原论文中展示了更多研究细节以及经过 SalUn 遗忘前后的生成图像示例,感兴趣的读者可参考。


参考文献:
[0] Fan, Liu, et al., "Salun: Empowering machine unlearning via gradient-based weight saliency in both image classification and generation." ICLR’23.
[1] https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
[2] https://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm
[3] https://gdpr-info.eu/
[4] Schramowski, Patrick, et al. "Safe latent diffusion: Mitigating inappropriate degeneration in diffusion models." CVPR’23.
[5] Zhang, et al., "UnlearnCanvas: A Stylized Image Dataset to Benchmark Machine Unlearning for Diffusion Models." arXiv.
[6] Jia, Liu, et al. "Model sparsification can simplify machine unlearning." NeurIPS’23.




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
20年前我在洛杉矶机场的故事原来一天一杯也是多!研究表明:每天喝≥500ml含糖饮料,脱发、多种慢性疾病风险增加,但天然果汁有降低患痴呆症奇效Suno v3音乐生成模型发布,几秒钟生成完整歌曲;富士通用生成式AI加速药物研发丨AIGC日报形成闭环的企业如何打造场景,创业企业如何快速成长,这场围绕生成式AI的大会里藏着答案9.5分年度最佳动画,孤独的人生该如何告别?每日原则:把自己想象成一部在大机器里运转的小机器,并明白你有能力改变你的机器以实现更好的结果极佳科技招聘生成式AI算法实习生首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源国产大模型卷翻机器人!这些火遍全网的机器人,都装上了星火「大脑」蝉军大举入侵美国,哪些地区会不堪其扰?不管你是实胖还是虚胖,教你一招,坚持下来有奇效~咽喉炎成全民困扰?每天清嗓子的你可能也中招了!苹果如何避开生成式人工智能的众多陷阱AI生成内容的版权到底归谁?全国审判业务专家这样回应……香港百年大药房透骨液,多种草本植物萃取,滚珠涂抹方便携带,帮你告别疼痛困扰~绝了!这个英国大牌的空调T恤,亲肤、透气、版型好!今天99两件美股基本面 - 2024_02_18 * 晚报 * 美联储票委暗示对降息三次持开放态度 扎克伯格称美科技业大裁员与AI无关 苹注意!澳洲严打传播AI生成色情内容,最高可判处六年监禁!专家表示要同时追究社交媒体责任每周随机两天只喝水不吃食物有奇效!Cell子刊最新发现:5:2禁食法可改善体重、血糖血脂水平,甚至还能预防肝炎、限制肝癌发展AAAI 2024 | 面向神经网络的全贝叶斯显著性检验方法全版权收购六部科幻作品,构建“航天+科幻”IP体系——万物生华与上海蔻以文化签署科幻作品版权合作框架协议IBV:2024内容供应链变革生成式AI如何增强创造力和生产力研究报告制药公司:如何利用生成式AI创造价值包治百病【如果完美】跟写蝶班以及诗坛众诗友们的唱和ACL 2024 | 如何避免LLM生成有毒回复?基于知识编辑的大模型祛毒初探我们该如何告别呢?北京,万玛才旦导演《雪豹》追思放映活动知名学者与顶级投资人领衔!视频、3D、音乐生成玩家都来了,中国生成式AI大会嘉宾阵容更新,4月开启!东软集团:生成式 AI 时代,如何布局 AI 人力资源战略?| DTDS 全球数字人才发展大会阿尔特曼称GPT-5提升超想象;库克在中国首谈生成式AI;字节推出视频生成新模型丨AIGC大事日报Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放讨厌的Tick蜱虫活跃季来了,真是防不胜防!如何保护自己免受Lyme莱姆病的侵扰?得不到就毁掉!华女被换脸成色情片女主!800多个色情视频网上流传!竟是因为男同学......81、长篇家庭伦理小说《嫁接》第二十一章 初来乍到(5)【快讯】波士顿哈利波特巡演丨AI研究生成健康的色情内容
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。