Redian新闻
>
寻找领域不变量:从生成模型到因果表征

寻找领域不变量:从生成模型到因果表征

公众号新闻


©作者 | 张鸿宇
单位 | 哈尔滨工业大学(深圳)
研究方向 | 联邦学习、图机器学习




领域不变的表征


在迁移学习/领域自适应中,我们常常需要寻找领域不变的表征(Domain-invariant Representation),这种表示可被认为是学习到各领域之间的共性,并基于此共性进行迁移。而获取这个表征的过程就与深度学习中的“表征学习”联系紧密。生成模型,自监督学习/对比学习和最近流行的因果表征学习都可以视为获取良好的领域不变表征的工具。




生成模型的视角


生成模型的视角是在模型中引入隐变量(Latent Variable),而学到的隐变量为数据提供了一个隐含表示(Latent Representation)。如下图所示,生成模型描述了观测到的数据 由隐变量 的一个生成过程:


▲ 数据x的生成过程


也即



求和(或积分)项



常常难以计算,而 的后验分布



也难以推断,导致 EM 算法不能使用。


VAE 的思想是既然后验 难以进行推断,那我们可以采用其变分近似后验分布 (对应重参数化后的编码器),而数据的生成过程 则视为解码器。如下图所示。

▲ VAE架构示意图

变分自编码器的优化目标为最大化与数据 相关联的变分下界:



上面的第一项使近似后验分布 和模型先验 (一般设为高斯)尽可能接近(这样的目的是使解码器的输入尽可能服从高斯分布,从而使解码器对随机输入也有很好的输出);第二项即为解码器的重构对数似然。

接下来我们说一下如何从近似后验分布 中采样获得 ,因为这 不是由一个函数产生,而是由一个随机采样过程产生(它的输出会随我们每次查询而发生变化),故直接用一个神经网络表示 是不行的,这里我们需要用到一个重参数化技巧(reparametrization trick):



这样我们即能保证 来自随机采样的要求,也能通过反向传播进行训练了。

这里提一下条件变分自编码器,它在变分自编码器的基础上增加了条件信息 (比如数据 的标签信息),如下图所示

▲ CVAE架构示意图

变分自编码器所要最大化的函数可以表示为:



关于自编码器和变分自编码在 MNIST 数据集上的代码实现可以参照 GitHub 项目。


训练完成后,VAE的隐向量 和CVAE的隐向量 的对比如下:

▲ VAE和CVAE隐向量对比示意图


可以看到 CVAE 的隐空间相比 VAE 的隐空间并没有编码标签信息,而是去编码其它的关于数据 的分布信息,可视为一种解耦表征学习(disentangled representation learning)技术。

就我们的迁移学习/领域自适应任务而言,训练生成模型获得了隐向量之后就已经完成目标,之后可以将隐向量拿到其它领域的任务中去用了。不过有时训练生成模型的最终目的还是为了生成原始数据。接下来我们来对比两者的图像生成效果。移除编码器部分,随机采样 ,VAE 的生成  和 CVAE 的生成 如下图所示,其中 CVAE 会将图像的标签信息 做为解码器的输入。
▲ VAE和CVAE生成图像对比示意图

可以看到其中所编码的标签信息发挥的重要作用。

这里补充一下,提取领域不变的表示也可以通过简单的特征提取器 + GAN 对抗训练机制来得到。如在论文中,设置了一个生成器根据随机噪声和标签编码来生成“伪”特征,并训练判别器来区分特征提取器得到的特征和“伪”特征。此外,作者还采用了随机投影层来使得判别器更难区分这两种特征,使得对抗网络更稳定。其架构如下图所示:

▲ 用GAN获取领域不变特征



自监督学习/对比学习的视角

在自监督预训练中,其实也可以看做是在学习 的结构,我们要求该过程能够学习出一些对建模 (对应下游的分类任务)同样有用的特征(潜在因素)。因为如果 的成因之一非常相关,那么 也会紧密关联,故试图找到变化潜在因素的自监督表示学习会非常有用。自然语言处理中的经典模型 BERT 便是基于自监督学习的思想。

而对比学习也可以视为自监督学习的一种,它是通过构造锚点样本、正样本和负样本之间的关系来学习表征。对于任意锚点样本 ,我们用 分别表示其正样本和负样本,然后 表示要训练的特征提取器。此时,学习目标为限制锚点样本与负样本之间的距离远大于其与正样本之间的距离(此处的距离为在表征空间的距离),即:



其中, 为一可定制的距离度量函数,常用的是如下的余弦相似度: 



当向量 归一化后,余弦相似度等价于向量内积。此外,互信息也可以作为相似度的度量。在经典的 SimCLR 架构按照如下图所示的图像增强(比如旋转裁剪等)方式产生正样本:


▲ SimCLR架构图


如上图所示,它对每张输入的图片进行两次随机数据增强(如旋转剪裁等)来得到 。对于 而言, 为其配对的正样本,而其它 个样本则视为负样本。

对比学习损失函数 InfoNCE 如下所示:



这里 表示第 个负样本。

对比学习一般也是用来获取 embeddings,然后用于下游的有监督任务中,如下图所示:

▲ 整体的对比学习上下游任务示意图



因果推断的视角


前面我们提到在对比学习中可以运用数据增强来捕捉域不变特征,然而这种数据增强的框架也可以从因果表征学习的视角来看。因果推断中的因果不变量同样也可以对应到领域不变的表征。

如今年 CVPR 22 的一篇论文所述,原始数据 由因果因子 (如图像本身的语义)和非因果因子 (如图像的风格)混合决定,且只有 能够影响原始数据的类别标签。注意,我们不能直接将原始数据量化为 ,因为因果因子/非因果因子一般不能观测到并且不能被形式化。


▲ 结构化因果模型(SCM)建模

这里的任务为将因果因子 从原始数据中提取出来,而这可以在因果干预 的帮助下完成,具体的措施类似于我们前面所说的图像增强,如下图所示:


▲ 对应do算子的数据增强


如图,论文对非因果因子采用因果介入来生成增强后的图像,然后将原始和增强图像的表征送到因子分解模块,该模块使用分解损失函数来迫使图像表征和非因果因子分离。最后,通过对抗掩码模块让生成器和掩码器之间形成对抗,使得表征更适用于之后的分类任务。




参考文献

[1] 王晋东,陈益强. 迁移学习导论(第2版)[M]. 电子工业出版社, 2022.
[2] Goodfellow I, Bengio Y, Courville A. Deep learning[M]. MIT press, 2016.
[3] Kingma D P, Welling M. Auto-encoding variational bayes[C]. ICLR, 2014.
[4] Sohn K, Lee H, Yan X. Learning structured output representation using deep conditional generative models[J]. Advances in neural information processing systems, 2015, 28.
[5] github.com/timbmg/VAE-C
[6] Zhang L, Lei X, Shi Y, et al. Federated learning with domain generalization[J]. arXiv preprint arXiv:2111.10487, 2021.
[7] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. NAACL, 2018.
[8] Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//International conference on machine learning. PMLR, 2020: 1597-1607.
[9] Jaiswal A, Babu A R, Zadeh M Z, et al. A survey on contrastive self-supervised learning[J]. Technologies, 2020, 9(1): 2.
[10] Lv F, Liang J, Li S, et al. Causality Inspired Representation Learning for Domain Generalization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 8046-8056.


    更多阅读



    #投 稿 通 道#

     让你的文字被更多人看到 



    如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


    总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


    PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


    📝 稿件基本要求:

    • 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

    • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

    • PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


    📬 投稿通道:

    • 投稿邮箱:[email protected] 

    • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

    • 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


    △长按添加PaperWeekly小编




    🔍

    现在,在「知乎」也能找到我们了
    进入知乎首页搜索「PaperWeekly」
    点击「关注」订阅我们的专栏吧

    ·

    微信扫码关注该文公众号作者

    戳这里提交新闻线索和高质量文章给我们。
    相关阅读
    从多篇论文看扩散模型在文本生成领域的应用希腊圣岛-1:行走在蓝白世界(住/行信息)GAN、扩散模型应有尽有,CMU出品的生成模型专属搜索引擎Modelverse来了找领导签字,学问太大了!图像生成模型 Stable Diffusion 现已开源 | Linux 中国清华CodeGeeX项目原作解读:大规模多语言代码生成模型写好剧本直接出片!Google发布首个「讲故事」的视频生成模型浙大开源快速扩散语音合成模型FastDiff和ProDiff扩散模型在文本生成领域的应用当下最强的 AI art 生成模型 Stable Diffusion 最全面介绍我们老中说秃噜嘴的那些英文!用一个动作拥有全世界(多图)AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出首个自动匹配排名系统从生到死,人生如此 | 人间日签本来高高兴兴,一回头,惊险的一幕发生了卷!MIT泊松流生成模型击败扩散模型,兼顾质量与速度如何生成「好」的图?面向图生成的深度生成模型系统综述|TPAMI202297年北航学霸:从贝斯手到傲娇CEO|寻找95后创业者穆斯林女性的发型到底长啥样?7 Papers & Radios | 扩散模型只用文字PS照片;MIT泊松流生成模型击败扩散模型3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot疆亘资本胡仲江:S市场引入新变量,未来几年将诞生最佳回报3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!2折起!留学生超爱的12个品牌黑五折扣出炉!Costco苹果表特卖!校友风采丨清华经管EMBA焦腾:从创业者到投资人,找寻时代中的慢变量,预测未来创造未来八月的故事,母女爱恨难解难分卷!MIT提出泊松流生成模型击败扩散模型,兼顾质量与速度谷歌Imagen首次开放测试,安卓苹果都能玩,还有AI写作助手、超长连贯性视频生成模型朱俊彦团队推出首个基于内容的深度生成模型搜索算法!​生成扩散模型漫谈:条件控制生成结果深度 | 中期选举前,370名共和党候选人对2020年大选结果表示怀疑
    logo
    联系我们隐私协议©2024 redian.news
    Redian新闻
    Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。