最新!多模态论文汇总
多模态生成是指综合使用图像,视频,文本等多种模态信息,进而自动化地生成符合人类视觉,文化的文本片段描述。
这次我整理了16篇多模态生成领域的论文,希望对大家的学习有所启发。
3D caption系列论文
1.Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds
2.X-Trans2Cap_ Cross-Modal Knowledge Transfer using Transformerfor 3D Dense Captioning
Image caption系列论文
3.A Comprehensive Survey of Deep Learning for ImageCaptioning
4.Image Captioning with Semantic Attention
5.Knowing When to Look_ Adaptive Attention viaA Visual Sentinel for Image Captioning
6.Learning to Evaluate Image Captioning
7.SCA-CNN_ Spatial and Channel-wise Attention in Convolutional Networksfor Image Captioning
8.Show and Tell_ A Neural Image Caption Generator
9.Show, Attend and Tell_ Neural Image CaptionGeneration with Visual Attention
Multi-tasks caption系列论文
10.CLIP4Caption - CLIP for Video Caption
11.VisualGPT_ Data-efficient Adaptation of Pretrained Language Models for ImageCaptioning
Video caption系列论文
12.Frame- and Segment-Level Features and Candidate PoolEvaluation for Video Caption Generation
13.Multi-Task Video Captioning with Video and Entailment Generation
14.Sequence to Sequence – Video to Text
15.Video Description Generation Incorporating Spatio-Temporal Features and aSoft-Attention Mechanism
16.Weakly Supervised Dense Video Captioning
扫描下方二维码,支付0.01元领论文
支付后务必添加客服微信预约直播
另外这次我还邀请到了在多家大厂担任算法研究员的朋友John老师,利用1小时左右的时间,给大家做一次多模态生成的系统分享。
John老师是计算机视觉全球前十机构高校联合培养博士,在多家大厂担任算法研究员,研究方向为多模态领域,如多模态检索,视音文多模态融合与生成,视觉问答等。
此次分享的时间在12月15日晚20:00开始分享时长大约1小时。以下是分享的大纲:
Part1.未来AI研究发展趋势—多模态
· 多模态的发展
· 为什么要学习多模态
Part2.多模态生成的发展与未来
· 发展历程
· 有哪些坑?
· 多模态生成
· 预备知识
· Image caption
· Image generation
· Video caption
· Video generation
扫描下方二维码,支付0.01元领论文
支付后务必添加客服微信预约直播
如果你想找个大牛带着你学习,在多模态生成及应用快速发文,我给大家推荐下John老师。
以下是招生信息:
微信扫码关注该文公众号作者