Redian新闻
>
LeCun、田渊栋参与撰写,70页「自监督学习」大全来了

LeCun、田渊栋参与撰写,70页「自监督学习」大全来了

公众号新闻

机器之心报道

编辑:张倩

「如果你想研究自监督学习,那最好看看这本书。」


「关于自监督学习,你想知道但又不敢问的一切都在这里了。」图灵奖得主、Meta 人工智能首席科学家 Yann LeCun 刚刚发了这样一则推文。



在推文中,LeCun 介绍了他和 Meta 人工智能研究院研究员、研究经理田渊栋等人共同撰写的一份「Cookbook」(非常实用、可操作性强、就像一本菜谱一样的论文)。这本 Cookbook 总共 70 页,涵盖了自监督学习的定义、重要性、起源、家族、训练部署方法、扩展方法等方面知识,是一份不可多得的学习材料。「如果你想研究自监督学习,那最好看看这本书。」田渊栋补充说。



论文链接:https://arxiv.org/pdf/2304.12210v1.pdf


自监督学习可以被看作是机器学习的一种「理想状态」,模型直接从无标签数据中自行学习,无需标注数据。它主要是利用辅助任务(pretext task)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。自监督学习的优势在于它能够利用大量的无标签数据进行训练,而不需要人工标注。这样可以节省大量的人力和时间成本,并且可以利用更多的数据进行训练,从而提高模型的性能。


众所周知,Yann LeCun 一直是自监督学习的积极支持者。近几年,Meta 发表了一系列关于自监督学习的论文。LeCun 坚定地认为,自监督学习是 AI 系统的必要前提,它可以帮助 AI 系统构建世界模型,以获得类似人类的能力,如理性、常识,以及将技能和知识从一个环境迁移到另一个环境的能力。GPT-4 的成功有力地证明了自监督学习的有效性。不过,Yann LeCun 并不看好 GPT 家族所采用的自回归方法(预测下一个词),而是更倾向于构建「世界模型」。


这份 Cookbook 在社交媒体上受到了广泛好评。



自监督学习是什么?为什么如此重要?


2021 年,Yann LeCun 等人发布了一篇题为「Self-supervised learning: The dark matter of intelligence」的博客。在博客中,他们把自监督学习(SSL)称为「智能的暗物质」,认为这是推进机器学习的一条有前途的道路。


自监督学习(SSL)是深度学习在自然语言处理领域取得成功的基础,它带来了从自动机器翻译到在网络规模的无标签文本语料库上训练的大型语言模型的进步。在计算机视觉方面,它推动了数据规模的新边界,如在 10 亿张图像上训练的 SEER 模型。用于计算机视觉的 SSL 方法已经能够媲美或在某些情况下超过在标记数据上训练的模型,甚至在 ImageNet 等竞争激烈的基准上也是如此。SSL 也被成功地应用于其他模态,如视频、音频和时间序列。

 

自监督学习定义了一个基于无标签输入的辅助任务,以产生描述性的、可理解的表示。在自然语言中,一个常见的 SSL 目标是掩盖文本中的一个词并预测周围的词。这种预测一个词周围的上下文的目标鼓励模型捕捉文本中的词之间的关系,而不需要任何标签。同样的 SSL 模型表示可用于一系列下游任务,如跨语言的文本翻译、总结,甚至是生成文本,以及其他许多任务。在计算机视觉中,类似的目标存在于 MAE 或 BYOL 学习等模型中,以预测图像或表征中被遮蔽的内容块。其他 SSL 目标鼓励同一图像的两个视图,例如通过添加颜色或裁剪形成,以映射到类似的表示。


在大量无标签数据上进行训练的能力带来了许多好处。传统的监督学习方法是在一个特定的任务上进行训练,而这个任务通常是基于可用的标记数据而预先知道的,SSL 则是在许多任务中学习有用的通用表征。SSL 在医学等领域特别有用,因为这些领域的标签成本很高,或者具体的任务不能事先知道。也有证据表明,SSL 模型可以学习到对对抗性例子、标签损坏和输入扰动更稳健的表征,而且与有监督的模型相比更公平。因此,SSL 是一个越来越受关注的领域。然而,就像烹饪一样,训练 SSL 的方法是一门精致的艺术,有很高的入门门槛。


为什么要编写自监督学习的 Cookbook


虽然研究人员熟悉 SSL 的许多组件,但成功训练 SSL 的方法涉及从辅助任务到训练超参数的一系列令人眼花缭乱的选择。SSL 研究具有很高的进入门槛,包括:


1、计算成本高;

2、缺乏完全透明的论文来详细说明充分实现 SSL 潜力所需的复杂实现;

3、缺乏统一 SSL 的专业词汇和理论观点。


由于 SSL 建立了与传统的基于重建的无监督学习方法 —— 如(去噪、变分)自编码器 —— 不同的范式,因此我们在统一框架下理解 SSL 的词汇量是有限的。事实上,在单一框架下统一 SSL 方法的尝试直到去年才开始出现 。因为没有一个共同的基础来描述 SSL 方法的不同组成部分,研究人员着手研究 SSL 方法变得更具挑战性。与此同时,SSL 研究迫切需要新的研究人员加入,以将其部署到现实世界中。然而,关于 SSL 泛化性的保证、公平性以及对对抗性攻击甚至自变体的稳健性,仍然存在许多未解之谜。这些问题对于 SSL 方法的可靠性至关重要。


此外,由经验驱动的 SSL 带有许多可变的部分(主要是超参数),它们是可能会影响最终表示的关键属性,而且在已发表的工作中不一定有详细的说明。也就是说,要开始研究 SSL 方法,首先必须详尽地对这些方法进行经验探究,以充分掌握所有这些部件的影响和行为。这种经验盲点有很大的局限性,因为它们需要大量的计算资源和预先存在的实践经验。总而言之,SOTA 的性能来自于看似不同但又重叠的方法,现有的理论研究很少,而这类模型在现实世界中的部署又很广泛。因此,我们需要一本统一这项技术及其有关方法的 cookbook。这对降低 SSL 的研究门槛至关重要。

研究人员的目标是以 cookbook 的形式奠定 SSL 研究的基础,并呈现与 SSL 有关的最新方法,从而降低 SSL 研究的门槛。


比如要成功烹饪,你必须首先学习基本技术:切碎、炒菜等。研究者从第 2 章开始使用通用词汇介绍自监督学习的基本技术。具体来说,他们描述了系统的方法以及理论线索,以统一的视角连接它们的目标。研究者们在概念框中突出显示出关键的概念,例如 loss terms 或 training objectives。


接下来,「厨师们」必须学会熟练地应用这些技术来形成「美味的菜肴」,这需要学习现有的食谱,组合食材并评估菜肴。在第 3 章中,研究人员介绍了成功实现 SSL 方法的实际注意事项,讨论了常见的训练方法,包括超参数选择、如何组装网络架构和优化器等组件,以及如何评估 SSL 的方法。


他们还分享了一些优秀的研究人员关于常见训练配置和躲避陷阱的实用技巧。希望这本 cookbook 能成为大家成功训练和探索自监督学习的实践基础。



更多细节请参见原论文。


参考链接:https://zhuanlan.zhihu.com/p/66063089


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2023 | LeCun世界模型首个研究!自监督视觉像人一样学习和推理!小扎亲自官宣Meta视觉大模型!自监督学习无需微调,多任务效果超OpenCLIP丨开源田渊栋:关于GPT-4的一点感想(后一篇)CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的《西游记》邮票典藏大全来了!历时8年,一次集齐,收官之作未发先火!SRCNN、DRCN、FSRCNN、ESPCN、SRGAN、RED…你都掌握了吗?一文总结超分辨率分析必备经典模型(一)特级教师亲自撰写,讲给孩子的《课本里的中国》,附赠80节精品课!ICLR 2023 | MocoSFL: 低成本跨用户联邦自监督学习​WWW 2023 | 自监督多模态推荐系统田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘抗命击杀操作员的美军无人机,让Yann LeCun、吴恩达震怒了多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构穿过冻雨的是那些鸟儿LeCun 70页长篇巨作!自监督学习「葵花宝典」,手把手教你学会抗命击杀操作员的美军无人机,LeCun、吴恩达怒斥其炒作!LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源钢琴CVPR 2023 | G2SD: 让小模型也能从自监督预训练中受益的蒸馏方法R-FCN、Mask RCNN、YoLo、SSD、FPN、RetinaNet…你都掌握了吗?一文总结目标识别必备经典模型(二)看电影【女人们的谈话】让我想到铁链女Meta视觉大模型来了!完全自监督无需微调,多任务效果超OpenCLIPChatGPT背后的指令学习是什么?PSU发布首篇「指令学习」全面综述VDSR、DRRN、LapSRN、RCAN、DSRN…你都掌握了吗?一文总结超分辨率分析必备经典模型(二)LeCun、吴恩达怒斥「AI 无人机误杀」炒作;华为盘古 Chat只给 B 端客户;迪士尼:乐园落户武汉是假新闻 | 极客早知道田渊栋:关于GPT-4的一些感想​WSDM 2023 | S2GAE: 简单而有效的自监督图自动编码器框架金秋英伦行(5):伦敦掠影 (下篇)LeCun吴恩达开直播,疾呼GPT-5不能停!LeCun:干脆管制凤头鹦鹉6个月LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归SFT-GAN、CSRCNN、CSNLN、HAN+、Config (f)…你都掌握了吗?一文总结超分辨率分析必备经典模型(三)Wide&Deep、DCN、xDeepFM、DIN、GateNet、IPRec…你都掌握了吗?一文总结推荐系统必备经典模型(三)GPT-4苏醒,AI要「杀」人?Hinton、ChatGPT之父预警,LeCun怒怼:不如我家狗GPT-5不能停!吴恩达田渊栋反对千人联名,OpenAI CEO也发声了美国入境档案--梁方仲、桑恒康和许烺光1944年洛杉矶
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。