大厂都在研究的多模态学习 , 到底有多强?
多模态生成是指综合使用图像,视频,文本等多种模态信息,进而自动化地生成符合人类视觉,文化的文本片段描述。
这要求其不仅仅考虑文本生成的流畅性,语言丰富性,更要与视觉模态相结合,综合考量时空位置信息。
因此,综合使用视频片段、图片等多种信息实现文本生成是CV与NLP交叉的前沿热点领域。
这次我邀请到了在多家大厂担任算法研究员的朋友John老师,利用1小时左右的时间,给大家做一次多模态生成的系统分享。
John老师是计算机视觉全球前十机构高校联合培养博士,在多家大厂担任算法研究员,研究方向为多模态领域,如多模态检索,视音文多模态融合与生成,视觉问答等。
此次分享的时间在12月15日晚20:00开始分享时长大约1小时。以下是分享的大纲:
Part1.未来AI研究发展趋势—多模态
· 多模态的发展
· 为什么要学习多模态
Part2.多模态生成的发展与未来
· 发展历程
· 有哪些坑?
· 多模态生成
· 预备知识
· Image caption
· Image generation
· Video caption
· Video generation
扫描下方二维码,支付0.01元预约直播
支付后务必添加客服微信进直播群
扫码领取【多模态生成论文】
1.Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds
2.X-Trans2Cap_ Cross-Modal Knowledge Transfer using Transformerfor 3D Dense Captioning
3.A Comprehensive Survey of Deep Learning for ImageCaptioning
4.Image Captioning with Semantic Attention
5.Knowing When to Look_ Adaptive Attention viaA Visual Sentinel for Image Captioning
6.Learning to Evaluate Image Captioning
7.SCA-CNN_ Spatial and Channel-wise Attention in Convolutional Networksfor Image Captioning
8.Show and Tell_ A Neural Image Caption Generator
9.Show, Attend and Tell_ Neural Image CaptionGeneration with Visual Attention
10.CLIP4Caption - CLIP for Video Caption
篇幅有限,仅展示前10篇
扫描下方二维码,支付0.01元预约直播
支付后务必添加客服微信进直播群
如果你想找个大牛带着你学习,在图神经领域快速发文,我给大家推荐下John老师。
以下是招生信息:
微信扫码关注该文公众号作者