大厂都在研究的多模态学习 , 到底有多强?

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>公众号

公众号新闻

2022-12-13 05:12

多模态生成是指综合使用图像，视频，文本等多种模态信息，进而自动化地生成符合人类视觉，文化的文本片段描述。

这要求其不仅仅考虑文本生成的流畅性，语言丰富性，更要与视觉模态相结合，综合考量时空位置信息。

因此，综合使用视频片段、图片等多种信息实现文本生成是CV与NLP交叉的前沿热点领域。

这次我邀请到了在多家大厂担任算法研究员的朋友John老师，利用1小时左右的时间，给大家做一次多模态生成的系统分享。

John老师是计算机视觉全球前十机构高校联合培养博士，在多家大厂担任算法研究员，研究方向为多模态领域，如多模态检索，视音文多模态融合与生成，视觉问答等。

此次分享的时间在12月15日晚20:00开始分享时长大约1小时。以下是分享的大纲：

多模态生成的发展与未来

Part1.未来AI研究发展趋势—多模态

· 多模态的发展

· 为什么要学习多模态

Part2.多模态生成的发展与未来

· 发展历程

· 有哪些坑？

· 多模态生成

· 预备知识

· Image caption

· Image generation

· Video caption

· Video generation

扫描下方二维码，支付0.01元预约直播

支付后务必添加客服微信进直播群

主讲老师介绍

扫码领取【多模态生成论文】

论文列表

1.Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds

2.X-Trans2Cap_ Cross-Modal Knowledge Transfer using Transformerfor 3D Dense Captioning

3.A Comprehensive Survey of Deep Learning for ImageCaptioning

4.Image Captioning with Semantic Attention

5.Knowing When to Look_ Adaptive Attention viaA Visual Sentinel for Image Captioning

6.Learning to Evaluate Image Captioning

7.SCA-CNN_ Spatial and Channel-wise Attention in Convolutional Networksfor Image Captioning

8.Show and Tell_ A Neural Image Caption Generator

9.Show, Attend and Tell_ Neural Image CaptionGeneration with Visual Attention

10.CLIP4Caption - CLIP for Video Caption

篇幅有限，仅展示前10篇

扫描下方二维码，支付0.01元预约直播

支付后务必添加客服微信进直播群

如果你想找个大牛带着你学习，在图神经领域快速发文，我给大家推荐下John老师。

以下是招生信息：

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

热点事件追踪