Redian新闻
>
大语言模型里的Transformer还可以这么用?

大语言模型里的Transformer还可以这么用?

公众号新闻

©作者 | 庞子奇

单位 | UIUC

研究方向 | 计算机视觉


宣传一下最近的新工作,个人感觉是读博以来做得最难最累但是成就感也最大的一个项目。它起源自一个很简单的问题——自 LLM 诞生以来,我们见到了很多把 LLM 接到 Vision Backbone 后面的算法,那么有两个自然的问题:
  • LLM 的 Transformer 是否可以直接处理视觉 Token?
  • LLM 的 Transformer 是否可以提升处理视觉 Token 的 Performance?


我们的工作回答了这两个问题(答案是 Yes)而且解释了其中的原因:在语言模型中 Pretrain 的 Transformer 可以用作视觉任务的 Encoder Layer代码已经开源,欢迎大家点赞关注我们的 Paper 和 GitHub。

论文题目:

Frozen Transformers in Language Models Are Effective Visual Encoder Layers

论文链接:

https://arxiv.org/abs/2310.12973

代码链接:

https://github.com/ziqipang/LM4VisualEncoding



LLM的Transformer可以处理视觉Token吗?

在 LLM 的加持下,很多 Vision-language Model 会直接把来自图像的 Embedding 输入给 LLM,并让 LLM 作为 Decoder 输出文字、类别、检测框等。但是在这些模型中,LLM 并不会直接处理来自图像的 Token,它们更多地是(1)处理提前设计好的语义 Token,例如 CLIP 中的 cls token;(2)处理被压缩过的 Token,例如 BLIP 里面经过 information bottleneck 的 token。

那么 LLM 是否可以直接作用于其它模态的 Token 呢,即 LLM 是否可以用作 Encoder,而不只是 Decoder 呢?

1.1 实验方法

验证这个事情非常简单,以 ViT 为例,我们只需要:

  • 取出某一个 LLM 的 Transformer Layer(例如 LLaMA 的最后一个 Transformer),请注意这里只需要一个 Transformer Block 而不是整个 LLM;
  • 把它加入到最后一个 Encoder Block 后面,只需要额外两个 Linear Layers 把Feature Dimensions 拉齐;
  • 冻结 LLM 的 Transformer,但是正常训练其它部分。

▲ 以 ViT 为例,我们的模型结构非常简单,只需要额外两个线性层

1.2 和现在的Vision-language Model的异同

  • 是否需要 Pretraining?我们的方法重在提升 Encoding 能力,所以我们既支持 Train-from-scratch,也支持 Finetune,而不是必须要依赖预训练好的 Backbones。
  • 是否需要 Language?虽然我们用的是 LLM 的 Transformer,但是我们的 Framework 独立于使用 Language(比如 Prompts 或者 Alignment),而不是像 Vision-language Models 一样必须要 Language。
  • 可以处理多少模态?我们的 Framework 可以泛化到多个模态和任务,而不是只能处理图像。
  • Encoder 和 Decoder有什么区别?Encoder 需要直接和 Visual tokens 打交道,比如 H×W 个图像 token 的信息做  Cross-attention 去改变 cls token。

  • 现在已经有这么多 Vision-language Models 了,你们的研究有什么用?首先,我们的研究和现在的 vision-language Models 不矛盾而且互相补充——现在 vision-language model 研究如何把视觉 embedding 输入给 LLM,而我们的研究聚焦如何提供更好的 embedding。

1.3 一个预训练的LLaMA Transformer在许多不同模态、任务的Encoder上都有用

在论文中,我们发现把 LLM 的 Transformer 用作视觉 Encoder 可以泛化到极其多样的场景。

  • 2D 语义:图像分类(image classification)

  • 点云:点云分类(point cloud classification)

  • 视频:动作识别(action recognition)

  • 无语义,回归任务:轨迹预测(motion forecasting)

  • 2D 多模态:2D VQA 和图像搜索(2D VQA and Retrieval)

  • 3D 多模态:3D VQA

在这些任务中,我们的模型不只要处理图像上像 patch 一样的 Token,还要处理

  • 点云中无规则的 3D 点
  • 视频中形状 T×H×的长方体形状的 token

  • 轨迹预测里面来自 Agent 和高精地图的 Polylines
  • 多模态任务中混合了图像和语言的 Token

▲ ImageNet 图像分类
▲ 2D/3D 语言多模态任务

▲ 自动驾驶,轨迹预测



为什么预训练的LLM Transformer有用:Information Filtering Hypothesis

虽然我们在许多任务和模态上都看到了性能的提升,但是如何解释这一点呢?我们在研究的过程中感觉如果把加了 LLM 的提升都归结于 “LLM 包含了可以泛化的知识”,其实比较偷懒而且不一定正确。所以我们研究了 Token 在加 LLM transformer 前后的变化提出了 Information Filtering 假设:

LLM Transformer 模块能够在训练的过程中筛选和目标任务相关的 Visual Tokens 并且放大他们的贡献。

这个结论是我们 paper 里面可能最重要的发现。

2.1 在ViT上的观察——LLM Transformer筛选出了前景

为什么可以这么说呢?我们看下图中我们对 ViT 的 Token Activation 的可视化:为了体现不同 Token 的贡献,我们从本身 Activation 的大小(L2-norm)和频率大小进行了可视化(做傅里叶变换后算角度的 L2-norm)。

可以看到:在有了 LLM Transformer 之后,ViT 的 Activation 能更干净地集中到前景区域,而这个性质只有在无监督学习的 ViT 中(e.g. DINO)中可以见到,在监督学习的 ViT 中很少见。

另一方面,我们对比了有/没有 LLM transformer 对于 Attention weight 的影响:普通的 ViT 的 Attention Weight 几乎是完全 Noisy 的(和 DINO 的观察吻合),在加了 LLMTransformer 之后(1)有极少的 Attention Head 体现出了干净的前景分割的样子,但是(2)它们的数量较少不足以解释 Token Activation 更显著地好。

因此,我们观察到的提升来自有用的 Feature 被放大了,这也是为什么我们称之为 information filtering hypothesis

2.2 在其它任务的也可以筛选有用的Token

类似的 “information filtering” 现象不只在 ViT 和图像分类上有,在其它任务上,LLM Transformer 也有效地提升了对目标任务最有用的 Token。这里我们举两个例子:

  • 在动作识别中,加了 LLaMA 的 Transformer 可以更好地集中到前景的手和物体(low threshold),也更多地筛选出了手和物体有实际动作的帧(high threshold)。

  • 在 3D VQA 中,我们可视化了点云 Token 的大小。可以看到,那些真正和预测目标、或者问题相关的点得到了更大的关注:比如在左图中,“behind me” 的点云显著得到了更大的 Activation(颜色更亮了)。



一点Ablation Study

那么我们观察到的现象,即 LLM 的 Transformer 可以提升 Visual Encoding,是否和不同的层、LLM 有关呢?

  • 多种 LLM Transformer 都可以提升 Visual Encoding。例如用 LLaMA 和 OPT 的不同 Transformer 层都会有提升,而且不同层之间也会体现不同的规律。

  • 只有足够大的 LLM 才有提升 Visual Encoding 的效果。例如只有足够大的OPT才会提升 Visual Encoding 的效果。



后记

最后写一些没有写在 Paper 里面的自己的感受和思考:

在论文中最让我感到兴奋的不是结合了 LLM 在很多 Task 上都有提升,而是在我们 Information filtering 假设的分析中看到了质变:神经网络能够更好地学习到那些和任务最相关的 Token。

那么为什么会有这样的效果?我猜测是 LLM 的 Transformer 的参数矩阵,例如 FFN 的矩阵,有一些很好的性质,例如在某些情况下是一个高通滤波器。我们可以从反面思考,如果一个参数矩阵是随机初始化(低通滤波器),或者干脆就是一个单位矩阵,那么必然不可能去筛选出来有用的 Token,并且放大他们的贡献。

在尝试解释这个现象的时候,我们发现用 transfer learning 的工具来分析会非常有难度,因为我们不能保证 vision 和 language 确实在一层 transformer 之后就 align 了。

最终,一个比较合理的直觉是受到了我本科同学许逸伦 “A Theory of Usable Information Under Computational Constraints” 这篇 Paper 的启发:我们可以把 LLM Transformer 看作一种 Decipher,它提升了 Feature 的有用性,使得一层 MLP 或者 Decoder 的有限计算资源可以把 Feature 映射到和真实结果 Mutual Information 更高的空间中事实上,这也契合我们 Information filtering 的观察。

最后感谢我的 Co-authors  @Ziyang Xie @Yunze MAN 。感谢 @Baifeng 提供了很多技术支持,他的 Paper AbsViT 非常有 insight 启发了我们的分析,也感谢 Shoufa Chen 同学提供了很多模型训练的指导。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
老爷车里的故事基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化设计NeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型Yann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理Transformer的上下文学习能力是哪来的?「GPT-4只是在压缩数据」,马毅团队造出白盒Transformer,可解释的大模型要来了吗?Mamba可以替代Transformer,但它们也能组合起来使用NeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法TransformerTransformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办特斯拉为什么全力押注Transformer?“有人” 是一个什么样的王八下的蛋?Transformer+强化学习,DeepMind让大模型成为机器人感知世界的大脑南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构LLM里的Transformer还可以这么用?Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性ideaMIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力《青玉案 - 白露为霜》ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!Transformer是唯一选择吗?无Attention和MLP的语言模型反而更强了Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑Transformer变革3D建模!MeshGPT来了!效果惊动专业建模师。。。仅根据蛋白质序列便可预测相互作用界面,一种基于Transformer的蛋白预测模型起底PC新机皇:高通4nm芯片,Arm架构Windows系统,内置Transformer加速,还配了5G和WiFi7Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%《风入松 - 向月》谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化MIT研究人员将Transformer与图神经网络结合,用于设计全新蛋白质GourmetCarte | 用人工智能和大语言模型打造的美食菜品推荐平台Meta对Transformer架构下手了:新注意力机制更懂推理那些挑战Transformer的模型架构都在做些什么ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干谷歌DeepMind力证:Transformer模型无法超越训练数据进行泛化!GPT-4终局是人类智慧总和!矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见【圣路骑行】葡萄牙的小渔村
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。