Redian新闻
>
图像识别更准确!尤洋团队最新研究:全新自适应计算模型AdaTape

图像识别更准确!尤洋团队最新研究:全新自适应计算模型AdaTape

公众号新闻



  新智元报道  

编辑:桃子
【新智元导读】谷歌最新提出的自适应计算模型,能够提升图像识别性能。

自适应计算(adaptive computation)是指ML统根据环境变化调整其行为的能力。

传统神经网络具有固定的功能和计算能力,即用相同数量的FLOP来处理不同的输入。

但具有自适应和动态计算的模型,根据输入的复杂性调节其专用于处理每个输入的计算预算。

神经网络中的自适应计算之所以吸引人,有两个关键原因。

首先,引入自适应的机制提供了一种归纳偏差,可以在解决一些具有挑战性的任务中发挥关键作用。

例如,为不同的输入启用不同数量的计算步骤对于解决需要对不同深度的层次结构进行建模的算术问题至关重要。

其次,它使从业者能够通过动态计算,提供的更大灵活性来调整推理成本。

来自谷歌团队发表的论文中,介绍了一种全新自适应计算的新模型——AdaTape。

论文地址:https://arxiv.org/pdf/2301.13195.pdf

最新模型是基于Transverter架构,用动态tape token和自适应Tape读取算法来生成输入序列,可提高图像识别任务的性能。

AdaTape使用自适应tape读取机制,来确定根据输入的复杂性,添加到每个输入中的不同数量的tape token。

AdaTape实现起来非常简单,在需要时提供了一个有效的knob来提高准确性。

与其他自适应基线相比,AdaTape也更高效,因为它直接将适应性注入输入序列而不是模型深度。

最后,Adatape在标准任务(如图像分类)以及算法任务上提供了更好的性能,同时保持良好的质量和成本权衡。

弹性输入序列的自适应计算


AdaTape使用自适应函数类型和动态计算预算。

具体来说,对于分词后的一批输入序列,AdaTape使用表示每个输入的向量来动态选择可变大小的tape token序列。

AdaTape使用称为「tape bank」的token库,来存储通过自适应tape读取机制与模型交互的所有候选tape token。

研究人员称,创建tape库的2种不同方法:输入驱动库和可学习库。

输入驱动库的总体思想,是从输入中提取一组token库,同时采用与原始模型分词器不同的方法,将原始输入映射到一系列输入token序列。

这使得动态、按需访问从使用不同图像分辨率获得的输入信息。

AdaTape整体架构

在某些情况下,由于不同抽象级别的分词化是不可能的,因此输入驱动的tape库是不可行的。

例如当很难进一步拆分图Transformer中的每个节点时。

为了解决这个问题,AdaTape提供了一种更通用的方法,通过使用一组可训练向量作为tape token来生成tape库。

这种方法被称为「可学习库」,可以被视为嵌入层,其中模型可以根据输入示例的复杂性动态检索token。

可学习库使AdaTape能够生成更灵活的tape库,使其能够根据每个输入示例的复杂性动态调整其计算预算。

例如,更复杂的示例从库中检索更多token,这使得模型不仅使用存储在库中的知识,而且花费更多的FLOP来处理它,因为输入现在更大了。

最后,选定的tape token被附加到原始输入,并馈送到以下Transformer层。

对于每个Transformer层,在所有输入和tape token上使用相同的多头注意力。

但是,使用了两种不同的前馈网络(FFN):一种用于来自原始输入的所有token,另一种用于所有tape token。

研究人员观察到,通过对输入和tape token使用单独前馈网络,质量略好一些。

归纳偏差

我们在奇偶校验上评估AdaTape,这对标准Transformer来说是一项非常具有挑战性的任务,以研究AdaTape中归纳偏差的影响。

对于奇偶校验任务,给定序列1、0和-1,模型必须预测序列中1的数量的均匀性或奇异性。

奇偶校验是周期性正则语言,但也许令人惊讶的是,这项任务是标准Transformer无法解决的。

对奇偶校验任务的评估

尽管在短而简单的序列上进行了评估,但标准Transformer和通用Transformer都无法执行奇偶校验任务,因为它们无法在模型中维护计数器。

然而,AdaTape的性能优于所有基线,因为它在其输入选择机制中结合了轻量级递归,提供了归纳偏差,可以隐式维护计数器,这在标准Transformer中是不可能的。

图像分类评估

就图像分类任务,研究人员在ImageNet-1K上从头开始训练AdaTape。

下图显示了AdaTape和基线方法的准确性,包括A-ViT和通用Transformer ViT(UViT和U2T)与其速度(以每秒每个代码处理的图像数量衡量)。

在质量和成本权衡方面,AdaTape的表现,比替代的自适应Transformer基线要好得多。

在效率方面,较大的AdaTape模型(就参数计数而言)比较小的基线更快。

通过在ImageNet上从头开始训练来评估AdaTape

这样的结果与之前的研究发现一致,即自适应模型深度架构不太适合许多加速器,如TPU。

对AdaTape行为研究

除了测试在奇偶校验任务和ImageNet-1K上的性能,研究人员还评估了AdaTape在JFT-300M验证集上,使用输入驱动库的token选择行为。

为了更好地理解模型的行为,将输入驱动库上的token选择结果可视化为热图,其中较浅的颜色意味着位置被更频繁地选择。

热图显示AdaTape更频繁地选择中心patch。

这同样符合先验知识,因为中心patch通常信息更丰富。

尤其是在自然图像数据集的上下文中,其中主要对象位于图像中间。

这一结果凸显了AdaTape的智能性,因为它可以有效地识别和优先考虑更多信息patch,以提高其性能。

可视化AdaTape-B/32(左)和AdaTape-B/16(右)的tape token选择热图

AdaTape的特点是,自适应tape读取机制产生的弹性序列长度。

这也引入了一种新的感应偏置,使AdaTape有潜力解决,对标准Transformer和现有自适应Transformer都具有挑战性的任务。

通过对图像识别基准进行综合实验,研究证明,当计算保持不变时,AdaTape优于标准和自适应Transformer。

作者介绍


尤洋目前是新加坡国立大学校长青年教授。

2021年4月,入选亚洲福布斯30岁以下精英榜。他曾获得了清华大学计算机系获得硕士学位,还获得了美国加利福尼亚大学伯克利分校计算机系获得博士学位。

参考资料:
https://ai.googleblog.com/2023/08/adatape-foundation-model-with-adaptive.html 




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
DeepMind推出AI图像识别工具;华为Mate 60 Pro接入盘古大模型;传谷歌Gemini算力达GPT-4五倍BioMed Central | 孙洋团队在食蟹猴模型上揭示诗碧曼精华液激活毛囊干细胞进而促进毛发再生的机制纽约新版“等车神器”上线!MTA全新App出炉 路线规划更准确既然永不相见,何不一拍两散 ?分解大模型的神经元!Claude团队最新研究火了,网友:打开黑盒不公布数据,或许会得到更准确的数据2023 樱花之约(五)雨中涉成园AI读脑成真,延迟仅0.25秒!Meta里程碑新研究:MEG实时解码大脑图像,LeCun转赞高福团队最新研究: 我国结束动态清零后,普遍存在长新冠症状,疫苗改善了新冠感染新研究表明COVID废水信号能更准确地预测住院情况不要予人有大恩,不要非奸即盗AutoFocusFormer:摆脱传统栅格,采用自适应下采样的图像分割一文速览ICML 2023测试时自适应/在线学习相关论文NUS、NTU团队发布医疗大模型综述,全面介绍大模型在医疗领域的最新研究进展自适应流媒体智能传输优化研究ChatGPT新增两种交互方式,加入语音对话和图像识别功能ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法Nat Med丨斯坦福团队利用twitter资源,开发出“病理图像文本对应”的自然语言-图像预训练模型文末送书 | 深度学习之图像识别:详解核心算法与12个经典实战案例ICCV 2023 | DomainAdaptor:测试阶段自适应新方法《月光下的诉说》&《你可听见我这颗心》瑞马唑仑全身麻醉期间的镇静水平,用什么指标评估更准确?AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队文学城才女 艰难的奋斗史钟南山团队最新研究:氢/氧气疗法治疗新冠添新实证警惕口罩危害健康?宁光院士团队最新研究:长时间佩戴N95口罩,或对健康产生负面影响!语言模型悄悄偷懒?新研究:​上下文太长,模型会略过中间不看移民局官宣!H1B二轮抽签来了:中签率多少?3种演算模型不能不看!大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割命运的看法比我们更准确大语言模型会偷懒?新研究:上下文太长,模型会略过中间不看 | 本周论文推荐性能强劲又通用!Meta-CoT: 混合问题场景下的自适应思维链推理田渊栋团队最新研究:不到1000步微调,将LLaMA上下文扩展到32K一文速览ICML 2023域自适应/域泛化相关论文
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。