Redian新闻
>
微软研究员联合Yoshua Bengio推出AIGC数据生成学习范式Regeneration Learning

微软研究员联合Yoshua Bengio推出AIGC数据生成学习范式Regeneration Learning

公众号新闻


(本文阅读时间:12分钟)


在 AIGC 取得举世瞩目成就的背后,基于大模型、多模态的研究范式也在不断地推陈出新。微软研究院作为这一研究领域的佼佼者,与图灵奖得主、深度学习三巨头之一的 Yoshua Bengio 一起提出了 AIGC 新范式——Regeneration Learning。这一新范式究竟会带来哪些创新变革?本文作者将带来他的深度解读。


AIGC(AI-Generated Content)在近年来受到了广泛关注,基于深度学习的内容生成在图像、视频、语音、音乐、文本等生成领域取得了非常瞩目的成就。不同于传统的数据理解任务通常采用表征学习(Representation Learning)范式来学习数据的抽象表征,数据生成任务需要刻画数据的整体分布而不是抽象表征,需要一个新的学习范式来指导处理数据生成的建模问题。


为此,微软研究院的研究员和深度学习/表征学习先驱 Yoshua Bengio 一起,通过梳理典型的数据生成任务以及建模流程,抽象出面向数据生成任务的学习范式 Regeneration Learning。该学习范式适合多种数据生成任务(图像/视频/语音/音乐/文本生成等),能够为开发设计数据生成的模型方法提供新的洞见和指导。



论文:Regeneration Learning: A Learning Paradigm for Data Generation
链接:https://arxiv.org/abs/2301.08846

为什么是Regeneration Learning?


什么是数据理解与数据生成?

机器学习中一类典型的任务是学习一个从源数据 X 到目标数据 Y 的映射,比如在图像分类中 X 是图像而 Y 是类别标签,在文本到语音合成中 X 是文本而 Y 是语音。根据 X 和 Y 含有信息量的不同,可以将这种映射分成数据理解(Data Understanding)、数据生成(Data Generation)以及两者兼有的任务。图1显示了这三种任务以及 X 和 Y 含有的相对信息。

图1:机器学习中常见的三种任务类型以及 X 和 Y 含有的相对信息量

X 和 Y 的信息差异导致了采用不同的方法来解决不同的任务:

  • 对于数据理解任务,X 通常比较高维、复杂并且比 Y 含有更多的信息,所以任务的核心是从 X 学习抽象表征来预测 Y。因此,深度学习中非常火热的表征学习(Representation Learning,比如基于自监督学习的大规模预训练)适合处理这类任务。

  • 对于数据生成任务,Y 通常比较高维、复杂并且比 X 含有更多的信息,所以任务的核心是刻画 Y 的分布以及从 X 生成 Y。

  • 对于数据理解和生成兼有的任务,它们需要分别处理两者的问题。

数据生成任务面临的独特挑战

数据生成任务面临独特的挑战包括:

  • 因为 Y 含有很多 X 不含有的信息,生成模型面临严重的一对多映射(One-to-Many Mapping)问题,增加了学习难度。比如在图像生成中,类别标签“狗”对应不同的狗的图片,如果没有合理地学习这种一对多的映射,会导致训练集上出现过拟合,在测试集上泛化性很差。

  • 对于一些生成任务(比如文本到语音合成,语音到说话人脸生成等),X 和 Y 的信息量相当,会有两种问题,一种是 X 到 Y 的映射不是一一对应,会面临上面提到的一对多映射问题,另一种是 X 和 Y 含有虚假关联(Spurious Correlation,比如在语音到说话人脸生成中,输入语音的音色和目标说话人脸视频中的头部姿态没有太大关联关系),会导致模型学习到虚假映射出现过拟合。

为什么需要Regeneration Learning


深度生成模型(比如对抗生成网络 GAN、变分自编码器 VAE、自回归模型 AR、标准化流模型 Flow、扩散模型 Diffusion 等)在数据生成任务上取得了非常大的进展,在理想情况下可以拟合任何数据分布以实现复杂的数据生成。但是,在实际情况中,由于数据映射太复杂,计算代价太大以及数据稀疏性问题等,它们不能很好地拟合复杂的数据分布以及一对多映射和虚假映射问题。类比于数据理解任务,尽管强大的模型,比如 Transformer 已经取得了不错的效果,但是表征学习(近年来的大规模自监督学习比如预训练)还是能大大提升性能。数据生成任务也迫切需要一个类似于表征学习的范式来指导建模。

因此,我们针对数据生成任务提出了 Regeneration Learning 学习范式。相比于直接从 X 生成 Y,Regeneration Learning 先从 X 生成一个目标数据的抽象表征 Y’,然后再从 Y’ 生成 Y。这样做有两点好处:

  • X→Y’ 相比于 XY 的一对多映射和虚假映射问题会减轻;

  • Y’Y 的映射可以通过自监督学习利用大规模的无标注数据进行预训练。

Regeneration Learning的形式


Regeneration Learning 的基本形式/Regeneration Learning 的步骤

Regeneration Learning 一般需要三步,包括:

  • 将 Y 转化成抽象表征 Y’。转换方法大体上可分为显式和隐式两种,如表1中 Basic Formulation 所示:显式转换包括数学变换(比如傅里叶变换,小波变换),模态转换(比如语音文本处理中使用的字形到音形的变换),数据分析挖掘(比如从音乐数据抽取音乐特征或者从人脸图片中抽取 3D 表征),下采样(比如将256*256图片下采样到64*64图片)等;隐式转换,比如通过端到端学习抽取中间表征(一些常用的方法包括变分自编码器 VAE,量化自编码器 VQ-VAE 和 VQ-GAN,基于扩散模型的自编码器 Diffusion-AE)。

表1:Y→Y’ 转换的不同方法

  • 步骤2:从 X 生成 Y’。可以使用任何生成模型或者转换方法,以方便做 XY’ 映射。

  • 步骤3:从 Y’ 生成 Y。通常采用自监督学习,如果从 Y 转化为 Y’ 采用的是隐式转换学习比如变分自编码器,那可以使用学习到的解码器来从 Y’ 生成 Y。

如表1中 Extended Formulation 所示,一些方法可以看成是 Regeneration Learning 的扩展版本,比如自回归模型 AR,扩散模型 Diffusion,以及迭代式的非自回归模型等。在自回归模型中,Y_{<t} 可以看成是 Y_{<t+1} 的简化表征,在 Diffusion 模型中,Y_{t+1} 可以看成是 Y_{t} 的简化表征,和基础版的 Regeneration Learning 不同的是,它们都需要多步生成而不是两步生成。

Regeneration Learning 和 Representation Learning 的关系

图2:Regeneration Learning 和 Representation Learning 的对比

如图2所示,Regeneration Learning 可以看成是传统的 Representation Learning 在数据生成任务中的对应:

  • Regeneration Learning 处理目标数据 Y 的抽象表征 Y’ 来帮助生成,而传统的 Representation Learning 处理源数据 X 的抽象表征 X’ 来帮助理解;

  • Regeneration Learning 中的 Y’Y 和 Representation Learning 中的 XX’ 都可以通过自监督的方式学习(比如大规模预训练);

  • Regeneration Learning 中的 XY’ 和 Representation Learning 中的 X’Y 都比原来的 XY 更加简单。

Regeneration Learning的方法研究以及实际应用


Regeneration Learning 的研究机会

Regeneration Learning 作为一种面向数据生成的学习范式,有比较多的研究问题。如表2所示,包括如何从 Y 获取 Y’ 以及如何更好地学习 XY’ 以及 Y’Y 等,详细信息可参见论文。

表2:Regeneration Learning 的研究问题

Regeneration Learning 在数据生成任务中的应用条件

Regeneration Learning 在语音、音频、音乐、图像、视频、文本等生成中有着广泛的应用,包括文本到语音合成,语音到文本识别,歌词/视频到旋律生成,语音到说话人脸生成,图像/视频/音频生成等,如表3所示。

表3:一些利用 Regeneration Learning 的数据生成任务

总的来讲,只要满足以下几点要求,都可以使用 Regeneration Learning:

  • 目标数据太高维复杂;

  • X 和 Y 有比较复杂的映射关系,比如一对多映射和虚假映射;

  • X 和 Y 缺少足够的配对数据。

最近流行的数据生成模型及其在 Regeneration Learning 范式下的表示

下面简单梳理了近年来在 AIGC 内容生成领域的一些典型的模型方法,比如文本到图像生成模型 DALL-E 1、DALL-E 2 和 Stable Diffusion,文本到音频生成模型 AudioLM 和 AudioGen,文本到音乐生成模型 MusicLM,文本生成模型 GPT-3/ChatGPT,它们都可以被看作是采用了 Regeneration Learning 类似的思想,如表4所示。

表4:最近比较受关注的数据生成模型及其在 Regeneration Learning 范式下的表示

机器学习/深度学习依赖于学习范式指导处理各种学习问题,例如传统的机器学习,包括有监督学习、无监督学习、强化学习等学习范式。在深度学习中,有针对数据理解任务的表征学习。微软研究员们和深度学习/表征学习先驱 Yoshua Bengio 一起面向数据生成任务提出了针对性的学习范式 Regeneration Learning,希望能指导解决数据生成任务中的各种问题。微软亚洲研究院机器学习组的研究员们将 Regeneration Learning 的思想应用到各类生成任务中,比如文本到语音合成,歌词到旋律生成,语音到说话人脸生成等,详情请见:https://ai-creation.github.io/

结语


本篇文章介绍了微软亚洲研究院机器学习组在 AIGC 数据生成方面的研究范式工作,首先指出了数据生成面临的挑战以及新的学习范式的必要性,然后介绍了 Regeneration Learning 的具体形式、与 Representation Learning 的关系、当前流行的数据生成模型在该范式下的表示,以及 Regeneration Learning 潜在的研究机会。希望 Regeneration Learning 能够很好地指导解决数据生成任务中的各种问题。在这一研究方向上,机器学习组还开展了模型结构和建模方法以及具体的生成任务方面的研究,欢迎继续关注我们的其他文章!

作者简介

谭旭,微软亚洲研究院高级研究员

研究领域为深度学习及 AI 内容生成。发表论文100余篇,研究工作如预训练语言模型 MASS、语音合成模型 FastSpeech、AI 音乐项目 Muzic 受到业界关注,多项成果应用于微软产品中。研究主页:https://ai-creation.github.io/




在进行计算机科研工作和学习的日日夜夜,你或许有些科研中的问题难以开口问询,或许有些焦虑与情绪无处安放,或许在感到迷茫时需要咨询与支持。微软亚洲研究院树洞计划现已开启。你在计算机领域科研、学习、生活中遇到的难题,都可以随时随地倾倒在树洞里。后台会从树洞收到的内容中选择具有代表性的问题匹配到最同频的频道,邀请微软亚洲研究院的研究员们帮忙回答。作为一个半透明的树洞,部分问题与回应会通过微软亚洲研究院账号公开发表。


快来点击上图链接,把你的难题倾倒在树洞里吧!让我们将这些困难封存在过去,轻装上阵,继续科研新旅途!
















你也许还想看:






微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国际青少年创新创业大赛! International Youth Innovation&Entrepreneur Contest科研实习 | 大湾区大学杨斯崑教授招收研究助理/助理研究员/博士后研究员"𝙇𝙚𝙖𝙙 𝙏𝙝𝙚 𝘾𝙝𝙖𝙧𝙜𝙚"广告#创译挑战ICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络Beyond Saving: In China, Young Shoppers Are Locked Out of LuxuryTrends of Sino-US Relations by Professor Yasheng HuangZhejiang Wants Children to Study AI From Younger Age[歪解] thank you for your generous support柏林工大也有自己的Döner店了!Shanghai Bus Ridership Is Down. Does Anyone Care?Young Chinese Love Everything About Sweden. Except Living There.美剧《法官大人》再次冲击道德底线对标ChatGPT,Hugging Face推出开源聊天机器人HuggingChat孩子想学machine learning 和人工智能,大家有好的老师或培训学校推荐吗?China Proposes To Regulate AI-Generated ContentAI-Generated Fashion Models Are Hugely Popular — and SexistFastTrack Universität 2023莱比锡大学公立语言项目招生简章Dining Cars: How an On-Board Snack Became a Guangdong LegendOpenAI再发3D生成模型Shap-E,传Midjourney入局3D模型生成今早的跑步,和每天吃4000卡的兄弟观点丨夏璐等:Leadership,strategic capability and Chinese ModernizationAgustín Hernández:中美洲建筑背景下的未来主义巨构University Dean Sacked After Sharing Lewd Image With ColleaguesMeet the Editor Pushing to Turn the Page on Women’s LiteratureJoin free, user-led events — wherever you are2022南美南极行(20)阿根廷 布宜诺斯艾利斯中科院深圳先进院合成所 连祺周 课题组诚聘干细胞方向-博士后/副研究员/助理研究员/研究助理/技术员/实习生爱在蓝天下 - 曲唱编:茜西杭州内推 | 西湖大学机器感知与学习实验室招聘研究员/副研究员/助理研究员闲说跨年在墨西哥城 (6c) 博物馆-瓦哈卡+奥尔梅克展厅想给孩子学machine learning 。去哪里找in person的class呢?坐标nj天赋“易昺(bǐng)”,创造历史!微软研究院:人工通用智能的星星之火-GPT-4的早期实验(101页)对标ChatGPT!Hugging Face推出开源聊天机器人HuggingChatChinese Climbers Scale Everest, Tragedy and Daring Rescue Ensue明明学习科目比IGCSE少,为什么Alevel学习状况反而比IGCSE糟糕?清华领衔多模态人机交互与AIGC数字生成,让「元宇宙GPT」落地千行百业
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。