国际科技财经博客移民网络热点娱乐民生时事公众号

>

VALSE 2023 | 左旺孟教授：预训练模型和语言增强的零样本视觉学习

VALSE 2023 | 左旺孟教授：预训练模型和语言增强的零样本视觉学习

公众号新闻

2023-06-15 05:06

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【目标检测和Transformer】交流群

作者：煎饼果子不要果子 | 源：知乎（已授权转载）
https://zhuanlan.zhihu.com/p/636548901

零样本学习，最经典的模型——CLIP

在一些非自然图像中要比传统模型表现更好

CoOp 增加一些 prompt 会让模型能力进一步提升

怎么让能力更好？可以引入其他知识，即其他的预训练模型，包括大语言模型、多模态模型

也包括 Stable Diffusion 多模态预训练模型

考虑多标签图像分类任务——每幅图像大于一个类别

如果已有图文对齐模型——能否用文本特征代替图像特征

训练的时候使用文本组成的句子

对齐总会有 gap，选 loss 的时候使用 rank loss，对模态 gap 更稳定

拿到文本后有几种选择，比如 Coco 只要其中的 caption 不要图像，或是 Google 搜句子，抑或是语言模型生成

最后选择第一种，因为稳定性和效果更好，能够保证同样数据集（同分布？）

可以建一个同义词表

两种 prompt，global 关注句子里有没有猫，local 关心这个词是不是跟猫有关系

测试的时候就将句子变成图像，global 不变，local 变成了跟图像里的 token 做比较

如果再加上少量文本（大量句子和少量文本）性能会进一步提升

一些相关工作，提完文本特征加一些噪声提高鲁棒性，消解图文 gap

3d 样本较难，因为点云-文本对较少，很难获取

投影后的 3d 点云可以被视作 2d 图像处理，使用图像 encoder

但投影点云依然与图像存在 gap，于是采取另一种思路

投影的确与图像相关，但依然有调整空间，所以转换成某个方向的图像和该方向点云的投影图像做匹配

投影和图像对齐，图像和文本对齐，因此就可以实现零样本学习

如果有一些少量的有标签监督，相当于 few-shot，效果也相当好

全监督效果也很好

当时觉得图像可以做中介，那么红外、热成像等其他模态都可以

ImageBind 以图像为中介将六种模态对齐到一起，重新训练

但大家依然可以做自己领域相关的方向，以图像作为中介对比，还有很大的空间

用想象的方式开展学习

假设有一些类别，使用语言模型生成一些句子，再根据句子使用生成模型生成图像

因此有了图像和类别匹配对（弱监督目标检测）

希望即使使用合成图像，模型在真实图像上也可以比较好

因为类别本身和图像会比较简单，但如果使用语言模型，比如猫变成趴着的猫，这样图像多样性会很高

考虑 SAM 和 Stable diffusion 特定完成分割任务

通过 SAM 得到的 proposal 提取特征

点击进入—>【目标检测和Transformer】交流群

最新CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者ransformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer333，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！

▲扫码进星球

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

OpenAI将用新方法来训练模型，以对抗人工智能“幻觉”2023 希腊陆地游 ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册 QUERT：基于旅行搜索领域Query理解的预训练语言模型楼继伟建言增加财政赤字和不搞大规模债务置换，如何看？ACL 2023 | 达摩院、NTU提出多视图压缩表示，显著提升预训练语言模型鲁棒性第四范式开源强化学习研究通用框架，支持单智能体、多智能体训练，还可训练自然语言任务！训练速度提升17%ACL 2023长文 | 先计划再求解：提升大型语言模型的零样本链式推理健行放弃RLHF吧！无需手动训练模型价值观，达特茅斯学院华人领衔发布全新对齐算法：「AI社会」是最好的老师【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条！巨巨巨好穿！！简直就是辣妹顶配，食品级冰箱收纳盒【一日团】ACL 2023 | AD-KD：归因驱动的预训练语言模型知识蒸馏框架人类创造的数据太贵了！开发者悄悄使用AI合成数据训练模型从零训练一个多模态LLM：预训练+指令微调+对齐+融合多模态+链接外部系统告春鸟、春告鸟 CVPR 2023 | 谷歌提出CLIPPO：仅从像素理解图像和语言用SAM做零样本视频对象分割！港科大等开源首个「稀疏点传播」方法SAM-PT，性能直追有监督SOTA 2013 CVPR 2023 | 浙大&南洋理工提出PADing：零样本通用分割框架 2023 希腊陆地游单张A100，50亿步训练！英伟达开源最强虚拟角色定制模型，超逼真动作零样本生成，游戏动画行业要变天 𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤，软弹有度，上身0束缚~OpenAI：已不再使用客户数据训练模型给大语言模型“开个眼”，看图说话性能超CLIP！斯坦福等新方法无需多模态预训练丨开源慢跑练习 2023.04.22 遇罗克，中华的马丁.路德. 金一个通用的自适应prompt方法，突破了零样本学习的瓶颈 650亿参数大模型预训练方案开源可商用！LLaMA训练加速38%，来自明星开源项目 KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型放弃RLHF吧！无需手动训练模型价值观，达特茅斯学院发布全新对齐算法南洋理工最新视觉语言模型综述：预训练、迁移学习和知识蒸馏啥都有顶会审稿人精选：40篇大型预训练语言模型应用论文南洋理工大学最新视觉语言模型综述：预训练、迁移学习和知识蒸馏啥都有图片平台Shutterstock与OpenAI延续六年合作允许DALL-E用图库作品训练模型北京内推 | 腾讯微信事业群招聘NLP算法工程师/预训练模型加速工程师 2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一大语言模型的视觉天赋：GPT也能通过上下文学习解决视觉任务 XTREME榜单第一，多粒度对齐的多语言预训练模型VECO 2.0 火星乐园第三部《灰界》第六章末日精英《乘梦去飞》&《江南柳》

热点事件追踪