Redian新闻
>
CV开启大模型时代!谷歌发布史上最大ViT:220亿参数,视觉感知力直逼人类

CV开启大模型时代!谷歌发布史上最大ViT:220亿参数,视觉感知力直逼人类

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】ViT模型何时才能破万亿?


Transformer无疑是促进自然语言处理领域繁荣的最大功臣,也是GPT-4等大规模语言模型的基础架构。

 

不过相比语言模型动辄成千上万亿的参数量,计算机视觉领域吃到Transformer的红利就没那么多了,目前最大的视觉Transformer模型ViT-e的参数量还只有40亿参数。

 

最近谷歌发布了一篇论文,研究人员提出了一种能够高效且稳定训练大规模Vision Transformers(ViT)模型的方法,成功将ViT的参数量提升到220亿。

 

论文链接:https://arxiv.org/abs/2302.05442

 

为了实现模型的扩展,ViT-22B结合了其他语言模型(如PaLM模型)的思路,使用 QK 归一化改进了训练稳定性,提出了一种异步并行线性操作(asynchronous parallel linear operations)的新方法提升训练效率,并且能够在硬件效率更高的Cloud TPU上进行训练。

 

在对ViT-22B模型进行实验以评估下游任务性能时,ViT-22B也表现出类似大规模语言模型的能力,即随着模型规模的扩大,性能也在不断提升。

 

ViT-22B 还可以应用于PaLM-e中,与语言模型结合后的大模型可以显著提升机器人任务的技术水平。

 

研究人员还进一步观察到规模带来的其他优势,包括更好地平衡公平性和性能,在形状/纹理偏见方面与人类视觉感知的一致性,以及更好的稳健性。

 

模型架构

 

ViT-22B 是一个基于Transformer架构的模型,和原版ViT架构相比,研究人员主要做了三处修改以提升训练效率和训练稳定性。

 

并行层(parallel layers)

 

ViT-22B并行执行注意力块和MLP块,而在原版Transformer中为顺序执行。

 

 

PaLM模型的训练也采用了这种方法,可以将大模型的训练速度提高15%,并且性能没有下降。

 

query/key (QK) normalization

 

在扩展ViT的过程中,研究人员在80亿参数量的模型中观察到,在训练几千步之后训练损失开始发散(divergence),主要是由于注意力logits的数值过大引起的不稳定性,导致零熵的注意力权重(几乎one-hot)。

 

为了解决这个问题,研究人员在点乘注意力计算之前对Query和Key使用LayerNorm

 

 

在80亿参数模型上的实验结果如下图所示,归一化可以缓解发散问题。

 

 

删除QKV投影和LayerNorms上的偏置项

 

和PaLM模型一样,ViT-22B从QKV投影中删除了偏置项,并且在所有LayerNorms中都没有偏置项(bias)和centering,使得硬件利用率提高了3%,并且质量没有下降。

 

 

不过与PaLM不同的是,ViT-22B对(内部和外部)MLP稠密连接层使用了偏置项,可以观察到质量得到了改善,并且速度也没有下降。

 

ViT-22B的编码器模块中,嵌入层,包括抽取patches、线性投影和额外的位置嵌入都与原始ViT中使用的相同,并且使用多头注意力pooling来聚合每个头中的per-token表征。

 

ViT-22B的patch尺寸为14×14,图像的分辨率为224×224(通过inception crop和随机水平翻转进行预处理)。

 

异步并联线性运算(asynchronous parallel linear operations)

 

大规模的模型还需要分片(sharding),即将模型参数分布在不同的计算设备中,除此之外,研究人员还把激活(acctivations,输入的中间表征)也进行分片。

 

 

因为输入和矩阵本身都是分布在各种设备上的,即使是像矩阵乘法这样简单的操作也需要特别小心。

 

研究人员开发了一种称为异步并行线性运算的方法,可以在矩阵乘法单元(在TPU 中占据绝大多数计算能力的单元)中计算时,同时对设备之间的激活和权值进行通信。

 

异步方法最小化了等待传入通信的时间,从而提高了设备效率。

 

异步并行线性运算的目标是计算矩阵乘法 y = Ax,但矩阵 A 和激活 x 都分布在不同的设备上,需要通过跨设备的重叠通信和计算来实现这一点。矩阵 A 在设备之间进行列分片(column-shard),每个矩阵包含一个连续的切片,每个块表示为 Aij,更多细节请看原始论文。

 

 

实验结果

 

为了说明ViT-22B学习到的表征非常丰富,研究人员使用LiT-tuning训练一个文本模型来生成一些表征用来对齐文本和图像。

 

下面是用Parti 和 Imagen 生成的分布外(out-of-distribution)图像得到的实验结果,可以看到ViT-22B的zero-shot图像分类泛化能力非常强,仅从web上爬取的自然图像就能识别出没见过的物体和场景。

 

 

 

论文中还讨论了ViT-22B在视频分类、深度估计和语义分割任务上的效果。

 

与人类目标识别对齐

 

为了验证 ViT-22B 分类决策与人类分类决策的一致性,研究人员对 ViT-22B 进行了微调,对分布外(OOD)数据集的不同分辨率进行了微调,其中人类比较数据可通过model-vs-human toolbox获得。

 

该工具箱主要衡量三个关键指标: 模型如何处理失真(准确性) ?人和模型的精度(精度差)有什么不同?人和模型的错误模式(错误一致性)有多相似?

 

形状偏差评估(值越大代表更多的形状偏差)。许多视觉模型具有低形状/高纹理偏差,而在 ImageNet 上进行微调的 ViT-22B具有迄今为止在 ML 模型中记录的最高形状偏差,更接近于人类形状偏见

 

实验结果显示,虽然并非所有的微调解决方案都表现得很好,但 ViT-22B 变体在所有三个指标上都达到了新高。

 

此外,ViT-22B 模型在视觉模型中也有最高的形状偏差记录。这意味着他们主要使用目标的形状,而不是目标的纹理来进行分类决策,策略结果类似于人类的感知(其形状偏差为96%)。

 

标准模型(例如,ResNet-50有20-30% 的形状偏差)通常根据纹理来分类,而高形状偏差的模型则倾向于关注形状(下图识别为猫),尽管人类和模型的感知之间仍然存在许多差异,但是 ViT-22B 显示出与人类视觉对象识别更多的相似性。

 

还是大象?车还是钟?鸟还是自行车?具有某个物体的形状和另一个不同物体纹理的图像,可用于测量形状/纹理偏差

 

分布外(out-of-distribution)性能

 

测量 OOD 数据集的性能有助于评估模型泛化性。

 

在这个实验中,研究人员构建了从 JFT 到 ImageNet 的标签映射,以及从 ImageNet 到不同的分布外数据集(如 ObjectNet)的标签映射。

 

对这些数据进行预训练后的结果如下图所示,然后在 ImageNet 上对模型进行完全微调。

 

 

可以观察到缩放 Vision Transformers 可以提高 OOD 性能: 即使 ImageNet 的精度达到饱和,也可以看到 ObjectNet 上从 ViT-e 换成 ViT-22B 模型可以显著提升性能。

 

线性探测Linear Probe

 

线性探测是一种将单个线性层置于冻结模型之上的技术,与完全微调相比,这种方法的训练成本更低,设置起来也更容易。

 

在 ImageNet 上训练的线性探测结果,在 ImageNet-Real,ImageNet-v2,ObjectNet,ImageNet-R 和 ImageNet-A 数据集上评估,提供高分辨率微调 ViT-e/14作为参考

 

从结果中可以观察到,ViT-22B 的线性探测性能接近于使用高分辨率图像对较小模型进行全面微调的最先进水平,其中具有较高分辨率的训练通常要昂贵得多,但可以在许多任务上取得更好的结果。

 

蒸馏

 

利用蒸馏法,可以将较大模型的知识转化为较小模型的知识,可以提升成本更高、运行速度更慢的大模型的运行效率。

 

 

从实验结果中可以发现,ViT-22B 的知识可以迁移到更小的模型,如 ViT-B/16和 ViT-L/16,并在同等模型尺寸下在ImageNet上刷新了性能记录。

 

公平性与偏见

 

机器学习模型容易受到意想不到的不公平偏见的影响,例如找到错误的相关性或者在各个子群体之间存在性能差距,研究人员发现,扩大模型规模有助于缓解这些问题。

 

首先,规模是一个有前景的权衡方式,即使模型经过训练后再进行后处理,将其人口平等(demographic parity)水平控制在规定的、可容忍的水平之下,性能也会随着规模的增加而提高。

 

上图: 去偏前 CelebA 中每个子组的精度。下图: y 轴显示了在这个例子中突出显示的两个特定亚组(女性和男性)的表现的绝对差异。与较小的 ViT 模型相比,ViT-22B 在性能的差距很小。

 

更重要的是,这不仅适用于以准确性衡量性能的情况,而且适用于其他度量,例如校准,即对模型估计概率的真实性的统计测量,所有子群的分类随着规模的增大而趋于改善,并且ViT-22B 降低了各子群之间的性能差距。

 

结论

 

研究人员提出了一个目前最大的视觉Transformer模型 ViT-22B,包含220亿参数。

 

通过对原始模型架构进行微小但关键的修改后,实现了更高的硬件利用率和训练稳定性,从而得到了一个在几个基准测试上提高了模型的上限性能。

 

使用冻结模型生成嵌入,只需要在顶部训练几层,即可获得很好的性能,并且评估结果进一步表明,与现有模型相比,ViT-22B 在形状和纹理偏差方面显示出与人类视知觉更多的相似性,并且在公平性和稳健性方面提供了优势。


参考资料:
https://ai.googleblog.com/2023/03/scaling-vision-transformers-to-22.html





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
第三个iOS 16.4公测版发布/魅族20悦动黄曝光/Google发布史上最大「通才」模型又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源参数是 ChatGPT 的近 6 倍!英特尔公布 AI 大模型 Aurora genAI,具备 1 万亿参数最大的ViT来了!谷歌提出ViT-22B:视觉Transformer扩展到220亿参数谷歌报复性砸出5620亿参数大模型!比ChatGPT更恐怖,机器人都能用,学术圈已刷屏巴黎的地铁与巴士票DriveGPT自动驾驶大模型中国玩家首发!1200亿参数,毫末智行出品谷歌发大模型PaLM 2对抗GPT-4,生成式AI融入谷歌搜索,急切反击背后,搜索摇钱树要倒?【友情转发】突破创新的边界:大学生亲临Web3.0和AI峰会,开启大语言模型时代王兴投资王慧文 ChatGPT 项目;谷歌发布全球最大视觉语言模型 PaLM-E;自如考虑赴港上市 | 极客早知道过个元宵节化了我不少银子(多图)奇瑞回应要求员工周六上班/AITO问界宣发更名HUAWEI问界/Google发布史上最大「通才」模型阿里云打响大模型时代价格战!开启史上最大规模降价,核心产品直降50%CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型金融GPT来了:500亿参数,但用来投资还是跑不赢大盘ChatGPT 又遇劲敌!谷歌发布史上最大 AI 模型 PaLM-E:5620 亿参数,无需特殊训练即可操纵机器人Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式复旦MOSS升级版开源上线;马斯克启动TruthGPT;海康训练出百亿参数CV大模型丨AIGC大事周报再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿王小川官宣大模型创业!5000万美元启动资金,年中发布首个产品,目前在训500亿参数版本绝美挪威荷兰夏日之旅(十)达尔斯尼巴-高山湖泊Djupvatnet击败OpenAI!谷歌公布20亿参数通用语音模型,支持100+语种检测翻译国产乾元2大模型来了:可编程金融文生图,120亿参数,超对称联手复旦出品中国大模型时代新Linux初显!FlagOpen大模型技术开源体系发布ChatGPT 开源平替来了,开箱即用!200 亿参数,采用 4300 万条指令集微调模型次韻啓江兄《卯兔年新正題詩》二首对标GPT-4!谷歌发布大语言模型PaLM 2,可在手机运行,云、搜索、电邮等一网打尽!终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人智源发布FlagOpen大模型技术开源体系,要做大模型时代的“新Linux”GPT- 4 标注能力直逼人类,成本大砍90%,数据众包危矣?乡关一万亿参数,512个昇腾910训练,华为PanGu-Σ大模型来了参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。