Redian新闻
>
清华开源全球首个基于U-ViT的多模态扩散大模型UniDiffuser

清华开源全球首个基于U-ViT的多模态扩散大模型UniDiffuser

公众号新闻

Transformer 如今已经成为主流,为各种任务创造了 SOTA 结果,它是一种新型的神经网络架构,用于处理多种感知模态数据(如图像、文本、音频等),比如机器翻译和文本生成。


我们邀请到哈工大博士李老师为大家分享——基于Transformer的视觉语言新SOTA,为大家解决Transformer基础模型原理、难点痛点以及Vision transformer的变式等问题!


扫码参与课程(附老师授课PPT)

免费领导师推荐100篇多模态顶会论文

部分授课ppt页面及论文展示

导师简介


-哈工大计算机博士

-共发表7篇SCI国际期刊和EI会议论文

-专业领域:人工智能、机器学习、深度学习、多模态表征学习和脉冲神经网络等

-担任国际顶级会议 AAAI, NeurIPS,期刊 IEEE TCSVT 的常任审稿人

课程大纲


第一节—Vision Transformer的前世今生


①Transformer基础模型原理

②Transformer难点痛点 

③Vision transformer的变式


第二节—多模态Transformer的七十二变    
①Transformer用于多模态的背景及优势
②多模态Transformer的各种变式及原因

扫码参与课程(附老师授课PPT)

免费领导师推荐100篇多模态顶会论文

(文末有福利)



多模态Transformer的特点是能够同时考虑输入序列中所有位置的信息,并且具有非常好的并行化性能。它使用了自注意力机制进行序列建模的神经网络架构,也采用了残差连接和层归一化等技术,以加快模型收敛速度和提高模型的泛化能力。


前段时间,清华团队提出了一个为多模态设计的概率建模框架 UniDiffuser,并采用该团队提出的基于 transformer 的网络架构 U-ViT,在开源的大规模图文数据集 LAION-5B 上训练了一个十亿参数量的模型,使得一个底层模型能够高质量地完成多种生成任务。


多模态Transformer的基本原理


输入编码

首先,每种感知模态的数据都会经过独立的编码层进行表示学习。对于文本数据,通常使用词嵌入技术将单词映射为向量表示。对于图像数据,可以使用卷积神经网络(CNN)提取特征。对于音频数据,可以使用卷积神经网络或者音频处理技术提取特征。


模态融合

经过编码的不同模态数据会被融合在一起,以便进行联合表示。常用的融合方式是使用注意力机制,通过计算模态间的相互注意力权重来自适应地融合不同模态的信息。这样可以使模型更好地关注重要的模态信息。


位置编码

和经典的Transformer一样,位置编码用于为模型提供序列中每个元素的位置信息。这样可以帮助模型理解输入数据中的顺序关系。


Transformer层

多模态Transformer通常由多个Transformer层组成。每个Transformer层由多头自注意力机制和前馈神经网络组成。自注意力机制能够捕捉输入序列中元素之间的关系,而前馈神经网络能够对每个元素进行非线性变换和映射。


输出解码

最后一个Transformer层的输出将被传递给输出解码层,以生成模型的最终输出。输出解码层的具体形式取决于所解决的任务,可以是分类、生成、检测等。


扫码参与课程(附老师授课PPT)

免费领导师推荐100篇多模态顶会论文

(文末有福利)



部分授课ppt页面及论文展示


全民积极向(内)上(卷)的时代,江湖常有传言:SCI在手,升职加薪、前程无忧。

发论文的门槛,说高不高,说低不低。不管你是科研经验丰富的研二研三学生还是研0小白都可以发论文的。有时候限制你发论文的,不是写作技巧、不是实验,往往是最初但是最重要的idea。


对于想要发表论文,对科研感兴趣或正在为科研做准备的同学,想要快速发论文有两点至关重要!

1.紧跟风口。

想发文章最容易的方法就是紧跟风口,顺着领域内的研究趋势确定自己的方向,毕竟在热门领域内,创新点和idea远比其他非热门领域多。


2.有一位有经验有能力的前辈指导

大家都在努力的设计新网络、新策略、新training算法,只要能够在某一问题上做到一个很好的performance,论文就水到渠成。而想要快速达到,来自前辈的指点不可或缺。


所以,要解决的问题就是

1.找到风口

2.找到领域内的大神做导师


扫描二维码

与大牛导师1v1meeting

(文末有福利)


 ✦ 

文末福利

给大家送一波大福利!我整理了100节计算机全方向必学课程,包含CV&NLP&论文写作经典课程,限时免费领!免费送GPU


扫码免费领课程资料
-END-



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
我的岁月(二十八)上海AI Lab开源首个可替代GPT-4V的多模态大模型AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作扩散模型和多模态学习微信群成立!《梦圆》&《貌美如花》薇塔的城堡和花园 (上)扩散模型和多模态微信群成立!全球首个芯片设计开源大模型诞生!5年重塑5000亿美元半导体行业国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet联汇科技OmChat:突破长视频理解极限的多模态大模型自驾从SF到LA: 赫斯特城堡上交&阿里:掀开多模态大模型的头盖骨,解密黑盒模型推理过程全球首个自主进化多模态MoE震撼登场!写真视频击败Sora,人大系团队自研底座VDT元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入剑桥大学:基于语音的大模型攻击,轻松“操纵”多模态大模型Diffusion4D:首个4D视频生成扩散模型!数分钟内实现4D内容生成,超81K的4D数据集已开源!国内首款鸿蒙人形机器人正在蔚来、亨通等工厂检测验证;华为发布全球首个基于R18的5G-A商用版本Apollo丨智能制造日报​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!今日arXiv最热大模型论文:复旦提出基于diffusion的虚拟试衣模型,模特一键换装国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题新的多模态盲测榜单来了,一眼望过去全是国产模型 | AI鲜测CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计老街Hatton GardenICLR上新 | 强化学习、扩散模型、多模态语言模型,你想了解的前沿方向进展全都有看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性AI成功改写人类DNA:全球首个基因编辑器开源;浙江大学首次实现汉字书写脑机接口,“意念写字”成现实丨AIGC日报清华推出首个通用城市时空预测模型UniST,零样本场景开箱即用|KDD2024AI成功改写人类DNA,全球首个基因编辑器震撼开源!近5倍蛋白质宇宙LLM全生成扩散模型和多模态学习微信群来了!首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源[旅游] Día de la Independencia | 2017年9月游墨西哥城第3-4天
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。