Redian新闻
>
LLM里的Transformer还可以这么用?

LLM里的Transformer还可以这么用?

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【大模型和Transformer】交流群

作者:庞子奇(源:知乎,已授权)| 编辑:CVer

https://zhuanlan.zhihu.com/p/663023589

在CVer微信公众号后台回复:LM4,可以下载本论文pdf、代码,学起来!

宣传一下最近的新工作,个人感觉是读博以来做得最难最累但是成就感也最大的一个项目。它起源自一个很简单的问题——自LLM诞生以来,我们见到了很多把LLM接到Vision Backbone后面的算法,那么有两个自然的问题:

  • LLM的Transformer是否可以直接处理视觉Token?

  • LLM的Transformer是否可以提升处理视觉Token的Performance?

我们的工作回答了这两个问题 (答案是Yes) 而且解释了其中的原因:在语言模型中Pretrain的Transformer可以用作视觉任务的Encoder Layer。代码已经开源,欢迎大家点赞关注我们的Paper和GitHub。

Frozen Transformers in Language Models Are Effective Visual Encoder Layers
代码:github.com/ziqipang/LM4VisualEncoding

论文:https://arxiv.org/abs/2310.12973

1. LLM的Transformer可以处理视觉Token吗?

在LLM的加持下,很多Vision-language Model 会直接把来自图像的Embedding输入给LLM,并让LLM作为Decoder输出文字、类别、检测框等。但是在这些模型中,LLM并不会直接处理来自图像的Token,它们更多地是 (1) 处理提前设计好的语义Token,例如CLIP中的cls token;(2) 处理被压缩过的Token,例如BLIP里面经过information bottleneck的token。那么LLM是否可以直接作用于其它模态的Token呢,即LLM是否可以用作Encoder,而不只是Decoder呢?

1.1 实验方法

验证这个事情非常简单,以ViT为例,我们只需要:

  • 取出某一个LLM的Transformer Layer (例如LLaMA的最后一个Transformer),请注意这里只需要一个Transformer Block而不是整个LLM;

  • 把它加入到最后一个Encoder Block后面,只需要额外两个Linear Layers把Feature Dimensions拉齐;

  • 冻结LLM的Transformer,但是正常训练其它部分。

以ViT为例,我们的模型结构非常简单,只需要额外两个线性层

1.2 和现在的Vision-language Model的异同

  • 是否需要Pretraining?我们的方法重在提升Encoding能力,所以我们既支持Train-from-scratch,也支持Finetune,而不是必须要依赖预训练好的Backbones。

  • 是否需要Language?虽然我们用的是LLM的Transformer,但是我们的Framework独立于使用Language (比如Prompts或者Alignment),而不是像Vision-language Models一样必须要Language。

  • 可以处理多少模态?我们的Framework可以泛化到多个模态和任务,而不是只能处理图像。

  • Encoder和Decoder有什么区别?Encoder需要直接和Visual tokens打交道,比如和HxW个图像token的信息做Cross-attention去改变cls token。

  • 现在已经有这么多Vision-language Models了,你们的研究有什么用?首先,我们的研究和现在的vision-language Models不矛盾而且互相补充——现在vision-language model研究如何把视觉embedding输入给LLM,而我们的研究聚焦如何提供更好的embedding。

1.3 一个预训练的LLaMA Transformer在许多不同模态、任务的Encoder上都有用

在论文中,我们发现把LLM的Transformer用作视觉Encoder可以泛化到极其多样的场景。

  • 2D语义:图像分类 (image classification)

  • 点云:点云分类 (point cloud classification)

  • 视频:动作识别 (action recognition)

  • 无语义,回归任务:轨迹预测 (motion forecasting)

  • 2D多模态:2D VQA和图像搜索 (2D VQA and Retrieval)

  • 3D多模态:3D VQA

在这些任务中,我们的模型不只要处理图像上像patch一样的Token,还要处理

  • 点云中无规则的3D点

  • 视频中形状是TxHxW的长方体形状的token

  • 轨迹预测里面来自Agent和高精地图的Polylines

  • 多模态任务中混合了图像和语言的Token

ImageNet, 图像分类

2D/3D 语言多模态任务


自动驾驶,轨迹预测

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用发论文强推!


2. 为什么预训练的LLM Transformer有用:Information Filtering Hypothesis

虽然我们在许多任务和模态上都看到了性能的提升,但是如何解释这一点呢?我们在研究的过程中感觉如果把加了LLM的提升都归结于"LLM包含了可以泛化的知识",其实比较偷懒而且不一定正确。所以我们研究了Token在加LLM transformer前后的变化提出了Information Filtering假设:

LLM Transformer模块能够在训练的过程中筛选和目标任务相关的Visual Tokens并且放大他们的贡献。

这个结论是我们paper里面可能最重要的发现。

2.1 在ViT上的观察 —— LLM Transformer筛选出了前景

为什么可以这么说呢?我们看下图中我们对ViT的Token Activation的可视化:为了体现不同Token的贡献,我们从本身Activation的大小(L2-norm)和频率大小进行了可视化(做傅里叶变换后算角度的L2-norm)。

可以看到:在有了LLM Transformer之后,ViT的Activation能更干净地集中到前景区域,而这个性质只有在无监督学习的ViT中(e.g. DINO)中可以见到,在监督学习的ViT中很少见。

另一方面,我们对比了有/没有LLM transformer对于Attention weight的影响:普通的ViT的Attention Weight几乎是完全Noisy的 (和DINO的观察吻合),在加了LLMTransformer之后 (1) 有极少的Attention Head体现出了干净的前景分割的样子,但是 (2) 它们的数量较少不足以解释Token Activation更显著地好。

因此,我们观察到的提升来自有用的Feature被放大了,这也是为什么我们称之为information filtering hypothesis

2.2 在其它任务的也可以筛选有用的Token

类似的“information filtering”现象不只在ViT和图像分类上有,在其它任务上,LLM Transformer也有效地提升了对目标任务最有用的Token。这里我们举两个例子:

  • 动作识别中,加了LLaMA的Transformer可以更好地集中到前景的手和物体(low threshold),也更多地筛选出了手和物体有实际动作的帧(high threshold)。

  • 3D VQA中,我们可视化了点云Token的大小。可以看到,那些真正和预测目标、或者问题相关的点得到了更大的关注:比如在左图中,"behind me"的点云显著得到了更大的Activation (颜色更亮了)。

3. 一点Ablation Study

那么我们观察到的现象,即LLM的Transformer可以提升Visual Encoding,是否和不同的层、LLM有关呢?

  • 多种LLM Transformer都可以提升Visual Encoding。例如用LLaMA和OPT的不同Transformer层都会有提升,而且不同层之间也会体现不同的规律。

  • 只有足够大的LLM才有提升Visual Encoding的效果。例如只有足够大的OPT才会提升Visual Encoding的效果。

4. 后记

最后写一些没有写在Paper里面的自己的感受和思考:

  • 在论文中最让我感到兴奋的不是结合了LLM在很多Task上都有提升,而是在我们Information filtering假设的分析中看到了质变:神经网络能够更好地学习到那些和任务最相关的Token

  • 那么为什么会有这样的效果?我猜测是LLM的Transformer的参数矩阵,例如FFN的矩阵,有一些很好的性质,例如在某些情况下是一个高通滤波器。我们可以从反面思考,如果一个参数矩阵是随机初始化(低通滤波器),或者干脆就是一个单位矩阵,那么必然不可能去筛选出来有用的Token,并且放大他们的贡献。

  • 在尝试解释这个现象的时候,我们发现用transfer learning的工具来分析会非常有难度,因为我们不能保证vision和language确实在一层transformer之后就align了。最终,一个比较合理的直觉是受到了我本科同学许逸伦"A Theory of Usable Information Under Computational Constraints"这篇Paper的启发:我们可以把LLM Transformer看作一种Decipher,它提升了Feature的有用性,使得一层MLP或者Decoder的有限计算资源可以把Feature映射到和真实结果Mutual Information更高的空间中。事实上,这也契合我们Information filtering的观察。

最后感谢我的Co-authors @Ziyang Xie@Yunze MAN 。感谢 @Baifeng提供了很多技术支持,他的Paper AbsViT 非常有insight启发了我们的分析,也感谢Shoufa Chen同学提供了很多模型训练的指导。

最后再放一个GitHub链接:

https://github.com/ziqipang/LM4VisualEncoding

在CVer微信公众号后台回复:LM4,可以下载本论文pdf、代码,学起来!

ICCV / CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

大模型和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-大模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如大模型或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Mamba可以替代Transformer,但它们也能组合起来使用NeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法Transformer一年一次,生日走走跑跑听我说,Transformer它就是个支持向量机大语言模型里的Transformer还可以这么用?屠榜顶会!Transformer中文视频教程发布日本的“小卷追随者”起底PC新机皇:高通4nm芯片,Arm架构Windows系统,内置Transformer加速,还配了5G和WiFi7当下一代Transformer遇上ViT:Vision RetNet已来!奥本海默的采访豆腐鸡蛋韭菜饺子MIT研究人员将Transformer与图神经网络结合,用于设计全新蛋白质矩阵成真!Pytorch最新工具mm,3D可视化矩阵乘法、Transformer注意力NeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器Transformer就是个支持向量机NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!如何降低视觉Transformer计算成本?时间冗余方法让人大吃一惊LLM-as-Agent、VLAM的机会、「算力困境」和对Transformer的质疑PyTorch最新工具mm来了!3D可视化矩阵乘法、Transformer注意力!Transformer+强化学习,DeepMind让大模型成为机器人感知世界的大脑Transformer的上下文学习能力是哪来的?Transformer变革3D建模!MeshGPT来了!效果惊动专业建模师。。。Yann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构智能的本质就是压缩?马毅团队5年心血提出「白盒」Transformer, 打开LLM黑盒!玻璃缸里的孙凤 (29)用 Transformer 评估蛋白质结合界面,区分天然蛋白复合物和不正确构象ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干特斯拉为什么全力押注Transformer?Transformer 一起动手编码学原理卢涛:后登纳德时代,IPU架构引领Transformer向高阶版演进Meta对Transformer架构下手了:新注意力机制更懂推理Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性ideaTransformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。