Redian新闻
>
特斯拉为什么全力押注Transformer?

特斯拉为什么全力押注Transformer?

公众号新闻

Transformer 如今已经成为主流,为各种任务创造了 SOTA 结果,它是一种新型的神经网络架构,用于处理多种感知模态数据(如图像、文本、音频等),比如机器翻译和文本生成。最新的特斯拉FSD Beta V12背后技术就是使用了Transformer,特别是特斯拉引领风潮的Occupancy Network的整体架构就是基于Transformer。


9.14-9.15日我们邀请到哈工大博士李老师为大家直播分享——基于Transformer的视觉语言新SOTA,为大家解决Transformer基础模型原理、难点痛点以及Vision transformer的变式等问题!


扫码预约直播(附老师授课PPT)

免费领100篇多模态顶会论文



部分授课ppt页面及论文展示


导师简介


-哈工大计算机博士

-共发表7篇SCI国际期刊和EI会议论文

-专业领域:人工智能、机器学习、深度学习、多模态表征学习和脉冲神经网络等

-担任国际顶级会议 AAAI, NeurIPS,期刊 IEEE TCSVT 的常任审稿人

直播大纲


第一天—Vision Transformer的前世今生


①Transformer基础模型原理

②Transformer难点痛点 

③Vision transformer的变式


第二天—多模态Transformer的七十二变    
①Transformer用于多模态的背景及优势
②多模态Transformer的各种变式及原因

扫码预约直播(附老师授课PPT)

免费领100篇多模态顶会论文


(文末有福利)



多模态Transformer的特点是能够同时考虑输入序列中所有位置的信息,并且具有非常好的并行化性能。它使用了自注意力机制进行序列建模的神经网络架构,也采用了残差连接和层归一化等技术,以加快模型收敛速度和提高模型的泛化能力。


前段时间,清华团队提出了一个为多模态设计的概率建模框架 UniDiffuser,并采用该团队提出的基于 transformer 的网络架构 U-ViT,在开源的大规模图文数据集 LAION-5B 上训练了一个十亿参数量的模型,使得一个底层模型能够高质量地完成多种生成任务。


多模态Transformer的基本原理


输入编码

首先,每种感知模态的数据都会经过独立的编码层进行表示学习。对于文本数据,通常使用词嵌入技术将单词映射为向量表示。对于图像数据,可以使用卷积神经网络(CNN)提取特征。对于音频数据,可以使用卷积神经网络或者音频处理技术提取特征。


模态融合

经过编码的不同模态数据会被融合在一起,以便进行联合表示。常用的融合方式是使用注意力机制,通过计算模态间的相互注意力权重来自适应地融合不同模态的信息。这样可以使模型更好地关注重要的模态信息。


位置编码

和经典的Transformer一样,位置编码用于为模型提供序列中每个元素的位置信息。这样可以帮助模型理解输入数据中的顺序关系。


Transformer层

多模态Transformer通常由多个Transformer层组成。每个Transformer层由多头自注意力机制和前馈神经网络组成。自注意力机制能够捕捉输入序列中元素之间的关系,而前馈神经网络能够对每个元素进行非线性变换和映射。


输出解码

最后一个Transformer层的输出将被传递给输出解码层,以生成模型的最终输出。输出解码层的具体形式取决于所解决的任务,可以是分类、生成、检测等。


扫码预约直播(附老师授课PPT)

免费领100篇多模态顶会论文


(文末有福利)



部分授课ppt页面及论文展示


同时向大家推荐一个1v6科研小班,由哈工大计算机博士,多个顶会审稿人李老师授课——计算机视觉可解释性与前沿交叉应用研究

研究课题介绍

计算机视觉是一门迅速发展的领域,它致力于让计算机能够像人类一样“看”并理解图像和视频。然而,尽管计算机视觉在图像分类、物体检测和人脸识别等任务上取得了巨大的成功,却面临一个重要的挑战:缺乏可解释性。我们常常希望了解计算机是如何做出决策的,但传统的计算机视觉算法往往只能给出结果,而无法解释其背后的原因。

近年来,计算机视觉可解释性成为了该领域的热点话题。可解释性是指计算机视觉算法能够向人类用户解释其决策过程,使得用户能够理解为什么一个特定的图像被分类为某个类别,或者为什么一个特定的区域被认定为某个对象。例如,目标检测是计算机视觉中的重要任务,它旨在识别和定位图像或视频中的特定对象。我们将研究如何提高目标检测算法的可解释性,使其能够向用户解释为什么一个特定的区域被认定为目标,并提供相关的决策依据。


在本课题中,我们还将探索计算机视觉可解释性的前沿研究,并将其与交叉应用相结合以解决复杂的现实问题。利用多种感知模态的信息进行综合分析和理解,提供更全面和准确的视觉理解。这些技术的应用范围广泛,包括智能交通、医疗诊断、智能家居等领域。


为了实现这一目标,我们将利用当前领域的研究成果和方法,如深度学习、卷积神经网络(CNN)、生成对抗网络(GAN)、注意力机制和Transformer等。这些方法不仅可以提高目标检测算法的准确性和效率,还可以增强多模态计算机视觉的表达能力和解释性。我们将探索如何利用这些方法来解决计算机视觉可解释性和多模态交叉应用中的挑战,并为解决现实世界中的复杂问题提供新的解决方案。








授课导师介绍:李老师

-哈工大计算机博士

-在IEEE TCSVT等中科院一区期刊和国际顶级会议上发表多篇论文

-担任国际顶级会议 AAAI, NeurIPS,期刊 IEEE TCSVT 的常任审稿人

-研究方向:人工智能、机器学习、深度学习、多模态表征学习、脉冲神经网络和信源信道联合编码等 


扫描二维码
了解课程详情


 ✦ 

文末福利

作为日常为了论文而忙碌的科研人,小编知道大家一定很需要一些资料。因此,小编精心整理了一份Transformer论文&代码合集!包含最新顶会论文、书籍等资料,以及英文论文写作指导保姆级资料,从文献阅读到论文写作,全部免费帮你整理好~




扫码免费领课程资料
-END-

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型ICML 2023 | UPop: 使用统一渐进剪枝压缩视觉-语言TransformersNeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器长篇小说《如絮》第一百五十九章 旧金山-1967年 避难所让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升Transformer能解释一切吗?NeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法Transformer吹尽黄沙不见金(五十六): 逃出生天云原生 AI 工程化实践:FasterTransformer 加速 LLM 推理让注意力提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升!Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%Transformer取代者登场!微软、清华刚推出RetNet:成本低、速度快、性能强降龙十八掌:这套优化transformer内存占用的组合技值得收藏8年了,Transformer注意力机制一直有Bug?华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报《百年》&《生死契阔》起底PC新机皇:高通4nm芯片,Arm架构Windows系统,内置Transformer加速,还配了5G和WiFi7能胜任统计学家?Transformers超强学习机制「自动算法选择」一定要养盆这么美的吊钟海棠12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统最新NaViT模型炸场!适用任何长宽比+分辨率,性能能打的Transformer揭秘Transformer基于上下文学习的能力:看它如何学到正确的线性模型?ICCV 2023 | token过度聚焦暴露注意力机制弱点,两种模块设计增强视觉Transformer鲁棒性ChatGPT危了!注意力机制的神秘bug曝光!Transformer模型恐大受冲击...斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升用 Transformer 和 RLHF「炼」大模型,危?​Transformer升级之路:RoPE是一种β进制编码Attention机制竟有bug,Softmax是罪魁祸首,影响所有TransformerChatGPT危了!「注意力公式」8年神秘bug首曝光,Transformer模型恐大受冲击我是不是一个很绝情的人?Attention机制竟有bug?Softmax是罪魁祸首,影响所有TransformerTransformer论文「重磅更新」!八子全部离职,谷歌删除Attention Is All You Need所有作者邮箱ACL 2023 Findings | 概率句法角度的Transformer诠释Transformer作者创立,Hinton、李飞飞青睐,明星创企Cohere推出打工人专用知识助手ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。