Redian新闻
>
最新!多模态论文汇总

最新!多模态论文汇总

公众号新闻

多模态生成是指综合使用图像,视频,文本等多种模态信息,进而自动化地生成符合人类视觉,文化的文本片段描述。


这次我整理了16篇多模态生成领域的论文,希望对大家的学习有所启发。


3D caption系列论文


1.Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds

2.X-Trans2Cap_ Cross-Modal Knowledge Transfer using Transformerfor 3D Dense Captioning


Image caption系列论文


3.A Comprehensive Survey of Deep Learning for ImageCaptioning

4.Image Captioning with Semantic Attention

5.Knowing When to Look_ Adaptive Attention viaA Visual Sentinel for Image Captioning

6.Learning to Evaluate Image Captioning

7.SCA-CNN_ Spatial and Channel-wise Attention in Convolutional Networksfor Image Captioning

8.Show and Tell_ A Neural Image Caption Generator

9.Show, Attend and Tell_ Neural Image CaptionGeneration with Visual Attention


Multi-tasks caption系列论文


10.CLIP4Caption  - CLIP for Video Caption

11.VisualGPT_ Data-efficient Adaptation of Pretrained Language Models for ImageCaptioning


Video caption系列论文


12.Frame- and Segment-Level Features and Candidate PoolEvaluation for Video Caption Generation

13.Multi-Task Video Captioning with Video and Entailment Generation

14.Sequence to Sequence – Video to Text

15.Video Description Generation Incorporating Spatio-Temporal Features and aSoft-Attention Mechanism

16.Weakly Supervised Dense Video Captioning



扫描下方二维码,支付0.01元领论文

支付后务必添加客服微信预约直播


另外这次我还邀请到了在多家大厂担任算法研究员的朋友John老师,利用1小时左右的时间,给大家做一次多模态生成的系统分享。

John老师是计算机视觉全球前十机构高校联合培养博士,在多家大厂担任算法研究员,研究方向为多模态领域,如多模态检索,视音文多模态融合与生成,视觉问答等。

此次分享的时间在12月15日晚20:00开始分享时长大约1小时。以下是分享的大纲:



01
多模态生成的发展与未来


Part1.未来AI研究发展趋势—多模态

· 多模态的发展

· 为什么要学习多模态


Part2.多模态生成的发展与未来

· 发展历程

· 有哪些坑?

· 多模态生成

· 预备知识

· Image caption

· Image generation

· Video caption

· Video generation




扫描下方二维码,支付0.01元领论文

支付后务必添加客服微信预约直播




02
主讲老师介绍



如果你想找个大牛带着你学习,在多模态生成及应用快速发文,我给大家推荐下John老师。


以下是招生信息:



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
基于自监督学习的多模态推荐算法AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA投稿招募 | 首届多模态可穿戴信号理解AmbientAI Workshop @ ICASSP 2023「多模态处理技术」最新2022研究进展综述离婚的亢奋《悠悠岁月》(5)秋游河溪--看不够的 Erindale 公园迈微医疗:全球首台第三代脉冲电场心脏消融系统nsPFA完成全国首例临床入组,以20年技术积累发力多模态组织消融领域北京内推 | 百度AIG知识图谱部招聘多模态算法实习生上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策北京内推 | 微软研究院科学智能中心招聘多模态学习方向研究实习生吸进屏为何能绑架中共百万民众涌入悉尼港狂欢!跨年烟花秀最全攻略快收好,观赏地点、出行指南、封路信息一文汇总多模态再次统一!Meta发布自监督算法data2vec 2.0:训练效率最高提升16倍!开放域多轮、多模态融合、拟人化情感...智能对话技术的下半场究竟在哪儿?| Q推荐NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链多模态与认知相遇,探索更像孩子一样的学习方式 | CNCC 专家谈业界首个!快手提出亿级别多模态短视频百科体系快知NTU教授:多模态传感器融合算法|收获一作论文与导师推荐信!老太太活到122岁的秘诀[干货] “牛仔裤”各种裤型英文汇总:紧身款、松垮款、直桶款...超越CLIP!谷歌大脑多模态学习新作CLIPPO:仅从像素理解图像和语言大厂都在研究的多模态学习 , 到底有多强?李飞飞两位高徒联合指导:能看懂「多模态提示」的机器人,zero-shot性能提升2.9倍面向社交媒体的多模态属性级情感分析研究周日凌晨在哪观看世界杯?一文汇总全澳各地观赛场所!悉尼将在达令港直播比赛,公共交通全免费!从视音角度看多模态学习的过去与未来TPAMI 2023 特刊征稿!大规模多模态学习!在美国北方,荷花(莲藕)怎么过冬?令人心动的AI offer(四):AIGC、多模态、强化学习、高性能计算等职位,来自腾讯、博世、超参数、智源研究院、MSRARTE2022 生态论坛:新视野、新节奏、新生态医疗多模态预训练:如何利用非天然配对的医疗图像和文本做对比学习?北京内推 | 北京智源人工智能研究院招聘NLP/多模态算法研究员MMDialog: 微软&北大发布首个百万量级多模态开放域多轮对话数据集超越BEiT-3!谷歌提出多模态大模型PaLI:刷新多个数据集SOTA!直播课预告:多模态预训练大模型OmModel及视觉应用开发
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。