Redian新闻
>
给机器下「遗忘咒」?谷歌发起首个机器遗忘挑战赛

给机器下「遗忘咒」?谷歌发起首个机器遗忘挑战赛

公众号新闻

机器之心报道

编辑:梓文
给机器来一杯「忘情水」,这算不算机器遗忘?
机器学习经常被提及,那你有听过机器遗忘吗?

机器学习的目的大家都了解,它能够帮助我们的工作提升效率。但是机器遗忘是何目的?难道是「弃学」?


现在,不仅关于机器话题的讨论变得火热,甚至出现专门为机器遗忘组织的挑战。

近日,谷歌 AI 宣布联合广泛的学界与业界研究团队,组织首个机器遗忘挑战赛(Machine Unlearning Challenge)。

至于举办这一机器遗忘挑战赛的目的,谷歌表示希望有助于推进机器遗忘的 SOTA 水平,并鼓励开发高效、有效和合乎道德的遗忘算法。


比赛内容都有啥?

具体地讲,该挑战赛考虑这样一个真实场景:其中一个年龄预测器在人脸图像数据上进行了训练,接着在训练后,训练图像的某个子集必须被遗忘,以保护相关个人的隐私或其他权利。

摘自 Face synaesthetics 数据集的图像以及年龄注释。

比赛将在 Kaggle 平台上举办,提交的作品将根据遗忘质量和模型实用性进行自动评分。

其中对于评估遗忘,本次挑战赛将使用受成员推理攻击(Membership inference attacks, MIAs)启发的工具,如 LiRa。MIAs 最初是在隐私和安全文献中开发,其目的是推断哪些示例是训练集的一部分。

直白地讲,如果遗忘成功,遗忘过的模型中将不包含被遗忘示例的痕迹,这会导致 MIA 失败,即攻击者无法获知被遗忘集实际上是原始训练集的一部分。

此外,评估中还将使用统计测试来量化「遗忘模型的分布」与从头开始重新训练的模型的分布的差异程度。

相关比赛的信息可以查阅以下两个链接:

  • https://unlearning-challenge.github.io/
  • https://groups.google.com/g/unlearning-challenge

或许有读者要问了,为什么在机器学习的浪潮中,还会有这样一股机器遗忘的「逆流」奔涌呢?

什么是机器遗忘

机器遗忘是机器学习的一个新兴领域,最终目的是消除一个训练模型特定训练样本子集的影响,即消除「遗忘集」(forget set)的影响。

此外,较为理想的遗忘算法在消除某些样本影响的同时,还应该保留其他有益的特性,比如在其余训练集上的准确性以及对保留样本的泛化性。

下图为遗忘学习的剖析。遗忘算法将一个预训练模型以及要遗忘的训练集中的一个或多个样本作为输入。然后基于该模型、遗忘集和保留集,遗忘算法会生成一个更新模型。理想遗忘算法生成的模型与没有遗忘集参与训练的模型没有区别。


其实,有一个很「暴力」的方法能够得到这种理想的模型,就是在排除遗忘集样本后,重新训练模型。这个「暴力」手段虽立竿见影,但并不可行,因为重新训练深度模型的成本实在太过高昂。

因此,遗忘学习算法应该是以训练好的模型作为基点,并对其进行调整,来消除所要求数据带来的影响。

机器遗忘学习不仅仅应用于保护用户隐私,还能够通过训练,删除训练模型中不准确或者过时的信息,甚至是异常或者有害的数据。当然,这比消除几个指定遗忘集难度大得多,这也意味着它更有用处,比如它可以通过纠正偏见或对属于不同群体的歧视来提高模型的公平性。

「清扫、清扫,全都扔掉」

为何要发展机器遗忘

大家都受益于网络信息的易得性,但是往往忽略了在整个网络上删除某一信息的艰难。这堪比将一捧沙子撒入海里,再从不断涌动的海水中将沙粒一个个捡起,更重要的是,这些沙粒有不断复制的可能。

由此可见,信息及时被删除了也能通过各种手段有所保留。

在网络中留下的足迹,虽可能不被查询,但印记永存。2012 欧盟委员会就曾公布草案提出数据主体应享有「被遗忘权」。这对大数据背景下互联网产业发展具有深远而广泛的影响。

更别说近期正火热的大型语言模型,更是以海量的数据集作为基础进行发展的。大模型对于训练集的细节内容会进行学习和记忆,其中不乏用户的隐私信息,这导致可能涉及的隐私风险更加严峻。

因此机器学习模型中的安全和隐私问题是研究者必定面临的挑战。

网友表示,这场挑战赛将推动隐私保护。

在这样艰难、复杂的条件下,机器遗忘应运而生,有关于它的讨论和学习也日益成为机器学习领域的焦点之一。

参考链接:
https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.html
https://unlearning-challenge.github.io/

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
顺序决策与基础模型如何交叉互惠?谷歌、伯克利等探讨更多可能中美名氏趣話杨洋再扮消防员:体能上的极限挑战 张柏芝当年失恋暴瘦 靠继母角色大翻身 第17次合作不嫌腻 刘青云、古天乐私下「形同陌路」潜在杀人狂?她非要生下「恶魔之子」?谷歌发大模型PaLM 2对抗GPT-4,生成式AI融入谷歌搜索,急切反击背后,搜索摇钱树要倒?AI「黑箱」被打开?谷歌找到大模型能力涌现机制「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍震惊!年收入超$20万的多伦多人,竟要25年才能付得起首付!机器人可“自我学习”!谷歌DeepMind发布首个机器人算法模型,“潘多拉魔盒”打开了?谷歌发布新AI让股价涨了!不一定是件好事谷歌发布新AI!股价大涨4%!却可能是假象比亚迪或搁置印度建厂计划,16家网约车平台被约谈,推特无法在苹果应用商店改名X,谷歌发布新AI机器人模型这就是今天的其他大新闻!69岁华妇失踪5天!患有老人痴呆 身上跟踪器遗失 竟在鱼池边被发现谷歌发布新大模型!股价大涨4%!像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框对标GPT-4!谷歌发布大语言模型PaLM 2,可在手机运行,云、搜索、电邮等一网打尽!真能听懂人话!机器人ChatGPT来了,谷歌发布又一AI大模型黑科技以退为进?谷歌拟缩减加州140多万平方英尺的办公空间苹果钓鱼执法抓到内鬼;谷歌发布多款新品 升级AI产品;索尼Xperia 1 V发布新冠试药者,被「遗忘」刺痛我的院子:桔黄色的百合花,山丹丹花最新报告:年收入超$20万的多伦多人,竟要25年才能付得起首付!?被​「遗忘」的马蜂窝好想退休挑战TikTok“地铁冲浪” 两名14岁男孩一死一重伤!社媒各类恐怖挑战何时休?“昏迷挑战”、“破颅挑战”已造成多人死亡我的院子:杜鹃,大杜鹃,和丁香花为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了谷歌发布技术报告:PaLM-2 推理超越 GPT-4,训练文本是第一代近 5 倍早财经丨格力称孟羽童已离职;天舟六号与空间站完成交会对接;谷歌发布AI语言模型PaLM 2,挑战GPT-4距今约7000年!江苏兴化发现新石器遗址【限时购票挑战赛】买1张明珠经济舱机票,享高达3次贵宾权益挑战!第十八章清华校友立功!谷歌发布首个全科医疗大模型,14项任务SOTA李 玟告别式香港举行 送别一代天后!李 玟富商夫抢遗产?二姊李思林首谈「遗产、礼服争议」恶评超200万!那英终于受不了了,和高晓松一起首次回应刀郎新歌《罗刹海市》
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。