Redian新闻
>
DeepMind“反向”搭建Transformer方法火了:由可解释程序设计AI,项目已开源

DeepMind“反向”搭建Transformer方法火了:由可解释程序设计AI,项目已开源

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

先搭个模型,效果好就试着解释它,是我们常见的AI设计套路。

但,有人已经受够了这样“莫名其妙”的流程——

既然人类总是试图解释AI模型,那为什么不能反过来,直接用看得懂的程序来设计AI模型权重呢?

这样做出来的模型,既提升了它的可解释性,又降低了设计架构的复杂度。

这是DeepMind针对Transformer模型设计的最新工具,被po到网上后爆火:

有网友惊讶表示:

这真有意思。它或许是第一个能将代码(软件1.0)变模型(软件2.0)的系统。

所以它究竟是如何实现的?

将可读代码转变成AI权重的“编译器”

这个将可读性较高的代码“翻译”成Transformer模型的工具,名叫Tracr

具体来说,它有点像是一个“编译器”,懂得将一种名叫RASP(Restricted Access Sequence Processing Language)的编程语言转换成Transformer模型权重。

RASP,是此前在ICLR 2021一篇论文中提出的“编程语言”,专门根据Transformer架构(编解码器-注意力机制等)设计。

Tracr则在此基础上更进一步,不仅简单优化了原有的RASP语言,而且能将基于RASP编写的程序很好地转换为Transformer模型的权重。

具体来说,Tracr会先将“编程语言”RASP转换成“汇编语言”craft,后者表示向量空间以及其间的对应操作,再进一步地,将craft转变成“机器码”模型权重。

具体实现过程如下,一共分为5步:

基于它,作者们创建了一系列人工编写程序的基准Transformer,包括计算token频率、排序以及Dyck-n括号识别等。

据一作介绍,Tracr最大的亮点在于,可以“从0开始搭建你自己的Transformer模型”。

还提出了配套压缩方法

不过,基于Tracr打造的模型可能效率很低,因此作者们又提出了一种配套的“压缩”方法。

基于案例来看,这种方法不仅能让Tracr模型更高效,而且允许将D维特征压缩到小于D维的特征空间中。

例如这是基于RASP语言编写的程序示例:

在对模型进行压缩后,同样能很好地完成原来的任务,且效果相差不大:

同时作者们还观察到,在对模型进行压缩后,它甚至保留了更重要的特征,学会自动筛掉一些不重要的特征:

与此同时也能保证一个不错的精度:

目前对应的Tracr模型已经开源,感兴趣的小伙伴们可以去查看一波~

作者介绍

论文作者们分别来自DeepMind和苏黎世联邦理工学院。

一作David Lindner,苏黎世联邦理工学院在读博士生,这份工作是他在DeepMind实习期间完成,目前感兴趣的研究方向是AI鲁棒性、强化学习等。

你想好用它设计一个怎样的Transformer模型了吗?

论文地址:
https://arxiv.org/abs/2301.05062

项目地址:
https://github.com/deepmind/tracr

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
扩散模型和Transformer梦幻联动!一举拿下新SOTA,MILA博士:U-Net已死清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下谷歌新作!Transformer杀入机器人领域!RT-1:97%成功率,轻松完成700多条控制指令!超越ConvNeXt!Conv2Former:用于视觉识别的Transformer风格的ConvNet全球首个面向遥感任务设计的亿级视觉Transformer大模型​NeurIPS 2022 | IPMT:用于小样本语义分割的中间原型挖掘Transformer毛泽东说错误常常是正确的先导​NeurIPS 2022 | 仅需3分钟!开源Transformer快速训练后剪枝框架来了NeurIPS 2022 | 大图上线性复杂度的节点级TransformerICLR盲审阶段被审稿人赞不绝口的论文:会是Transformer架构的一大创新吗?统治扩散模型的U-Net要被取代了,谢赛宁等引入Transformer提出DiTEeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(二)看这样的直播很享受——川爷能赢2024年总统大选?Transformer如何做扩散模型?伯克利最新《transformer可扩展扩散模型》论文7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本更快更强!EfficientFormerV2来了!一种新的轻量级视觉Transformer即插即用!Skip-Attention:一种显著降低Transformer计算量的轻量化方法雪天遐思7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former首次!无残差连接或归一化层,也能成功训练深度Transformer天花板的高度决定于组织度顶会上的热宠:TransformerICLR盲审阶段就被评审赞不绝口的论文:会是Transformer架构的一大创新吗?Meta发布ConvNeXt V2!仅用最简单的卷积架构,性能不输Transformer学完这个教程,小白也能构建Transformer模型,DeepMind科学家推荐Treg的功能鉴定:构建Treg和Responder T共培养体系7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AIICRA 2023 | CurveFormer:基于Transformer的3D车道线检测新网络CF-ViT:用于视觉Transformer的由粗到细的两阶段动态推理架构 | AAAI 2023强化学习中的Transformer发展到哪一步了?清北联合发布TransformRL综述清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。