Redian新闻
>
多模态大模型进展及应用 | 8月10日TF116报名

多模态大模型进展及应用 | 8月10日TF116报名

公众号新闻
以大模型为核心技术的生成式AI方兴未艾,融合计算机视觉、自然语言处理等技术的跨模态大模型技术蓬勃发展。8月10日,TF116邀请到来自中国科学院自动化研究所、字节跳动、百度的专家学者,深入探讨多模态大模型的技术进展及产业应用。欢迎报名,并参与讨论。

为工程师提供顶级交流平台
CCF TF第116期

时间:2023年8月10日 19:00-21:00
主题:多模态大模型进展及应用

大模型技术的蓬勃发展极大地推动了人工智能领域的技术进步和产业应用。国内外巨头公司、高校、研究单位等纷纷在此领域加大投入,基于大模型的丰富应用悄然进入人们的生产生活。
与此同时,结合计算机视觉、语音处理、自然语言处理等技术的多模态大模型技术也呈现出勃勃生机。多模态预训练联合图文音等多模态内容统一学习,突破了单一模态的限制,在内容理解、内容生成、人机交互等领域具有巨大的应用价值。同时,多模态大模型也面临模态表示、模态融合等方面的挑战。
8月10日,CCF TF第116期活动将围绕多模态大模型话题,邀请来自学术界和产业界的专家学者共同研讨,回顾多模态大模型的历史,介绍其发展现状和丰富的产业应用,探讨所面临的挑战并展望未来发展前景。以期能够激发讨论,促进技术进步。

会议安排

TF116:多模态大模型进展及应用

主持人:何中军 CCF TF算法与AI SIG主席,百度人工智能技术委员会主席

时间

主题

讲者

19:00-19:05

活动介绍及致辞

何中军

CCF TF算法与AI SIG主席,百度人工智能技术委员会主席

19:05-19:35

《多模态预训练模型的技术回顾与展望》

郭龙腾

中国科学院自动化研究所 副研究员

19:35-20:05

《多模态技术与应用》

曾妍

字节跳动AI-LAB算法工程师

20:05-20:35

《多模态内容生成技术与应用》

肖欣延

百度杰出架构师

20:35-20:55

参会者提问互动


20:55-21:00

活动总结


所属SIG

CCF TF 算法与AI SIG

特邀讲者

郭龙腾
中国科学院自动化研究所 副研究员
主题:《多模态预训练模型的技术回顾与展望》
主题简介:近年来,从预训练模型到预训练大模型,从文本、音频、视觉等单模态大模型,到现在的图文、图文音等多模态预训练大模型,无论在学术界还是企业界预训练模型都得到了广泛关注与爆发式发展。多模态预训练通过联合图文音等多模态内容进行通用模型学习,并应用于跨模态分析、检索、转换等下游任务上,其在内容理解、搜索、推荐、问答、人机交互、AIGC、具身智能等场景领域中具有巨大的应用价值。本报告主要包含三方面内容:分析多模态预训练模型的研究背景与必要性;回顾当前多模态预训练模型的研究进展,并介绍多模态大模型的架构设计、学习优化、下游应用,以及最新前沿研究方向如多模态大语言模型、多模态具身智能等;最后分析多模态预训练模型所面临的技术挑战与未来展望。
个人简介:郭龙腾,中科院自动化所副研究员,紫东太初大模型研究中心团队成员。主要研究兴趣包括图像分析与理解、多模态预训练模型、跨模态生成等。在相关领域发表高水平学术论文二十余篇,包括CVPR、IJCAI、ACM MM、SIGIR等。相关成果在ICCV COCO-Place场景解析、CVPR VATEX视频描述、ACM MM预训练视频理解等国际竞赛中取得多项冠军。

曾妍
字节跳动AI-LAB算法工程师
主题:《多模态技术与应用》
主题简介:多模态理解和生成的应用范围广泛。本次分享首先将介绍我们提出的多模态预训练技术(涵盖图像/视频和文本)以及该技术在多模态场景下的应用,同时探讨多语言场景下的多模态应用,分享研究工作应用到实际业务中的挑战和解决方案。本次还将介绍我们在多模态大语言模型方面的尝试,我们发现如何同时做到视觉信号的准确理解和开放式文本生成是一个难点。因此,我们研究了如何训练大语言模型使得其更好地具备这两方面能力,从而提高其在基于视觉信息的开放式文本生成任务中的表现。
个人简介:曾妍,字节跳动AI-LAB算法工程师,工作期间参与多模态预训练、多模态大语言模型,视频理解和生成等相关研究,以第一作者身份在国际顶级会议 ICML, ACL, NAACL 发表五篇相关论文,并担任了TPAMI, ICML, NIPS, ACL, EMNLP的审稿人。其研发的多个模型在业界处于领先地位,为字节跳动的短视频审核、电商客服、今日头条、教育解题等多个业务提供了有力服务。

肖欣延
百度杰出架构师
主题:《多模态内容生成技术与应用》
主题简介:随着大模型的革命性突破,基于人工智能的内容创作,也就是AIGC,逐渐兴起并受到广泛关注。多模态内容生成是AIGC中最重要的方向之一,能够极大提升图像、视频等内容的生产效率,在数字经济中具备广泛的应用价值。本报告介绍百度在多模态内容生成的技术与应用,重点介绍从自然语言到视觉内容的生成,同时探讨当前面临的主要挑战和未来的发展趋势。
个人简介:肖欣延博士,正高级工程师,百度杰出架构师,内容生成与AIGC技术负责人。长期从事自然语言处理相关研究和应用,已发表CCF A/B类论文30余篇,获授权发明专利90余项并获中国专利优秀奖1项,相关成果已在百度的搜索、推荐、百家号、百度云、小度、输入法等业务中得到广泛应用。

SIG主席

何中军
CCF TF算法与AI SIG主席,百度人工智能技术委员会主席
个人简介:长期从事机器翻译研究与开发,研发了全球首个互联网神经网络机器翻译系统及语义单元驱动的机器同传系统。曾获国家科技进步二等奖、中国电子学会科技进步一等奖、北京市科技进步一等奖、中国专利银奖等多项奖励。

参会说明

1、如报名后无法参加,请及时于活动开始前发送邮件申请取消(联系邮箱:[email protected]),无故缺席将影响下一期活动的参与。
2、活动采用线上模式:腾讯会议。移动端可在微信小程序中搜索“腾讯会议”登录会议,或下载“腾讯会议”APP登录。客户端请搜索“腾讯会议”下载并登录。
3、会议链接和密码将在活动当天通过邮件、短信通知。可点击腾讯会议链接,输入密码参加。
4、请于活动前一天12:00前完成报名,及时获取会议链接。
5、CCF会员免费参加,非会员99元/次,加入会员可免费参与全年20场线上活动。

会员权益

会员免费参加CCF TF全年20场线上活动,优惠价参加14场线下活动,为自己的技术成长做一次好投资,用高性价比获取专业知识的绝佳路径!

  • 专业会员/高级会员/杰出会员/会士:360元/年

  • 学生会员:50元/年。
    具体权益请点击查看:CCF个人会员权益

  • 申请公司会员,可享受更多免费名额、品牌宣传及其他权益,详情点击查看:CCF公司会员权益或咨询电话0512-65900856转27

报名联系方式

报名请联系:
手机:18852405453
电话:0512-6590 0856转分机号27
邮箱:[email protected]

合作单位


*本文系量子位获授权刊载,观点仅为作者所有。


—  —

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」能「说」会「画」, VisCPM:SOTA 开源中文多模态大模型独家 | 哈工深新跑出一家多模态大模型公司,聂礼强、张民等 AI 大牛加盟关于医学多模态大模型,你需要来学习这些最新研究多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页格拉古:为无土地自由民奋斗的激进改革者专访生数科技唐家渝:清华系团队拿到上亿融资,用Transformer来做多模态大模型多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型TF106报名 | 技术团队成长的关键因素是什么?SRE自动化工程实践和稳定性运营 | 8月3日TF115 报名多模态大语言模型综述来啦!一文带你理清多模态关键技术开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星多模态大模型迸发,创业机会和挑战在哪?丨GAIR 2023更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」何三坡:美国最好的诗人们多模态大模型的幻觉问题与评估多模态大模型的下一站在哪里?理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了企业级DevOps实践与案例 | 7月15日TF113 报名腾讯云公布行业大模型进展;美图推出视觉大模型;华为高管称AI算力将增500倍丨AIGC大事日报从电影“满江红”看老谋子的闹剧中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型多模态大模型能力测评:Bard 是你需要的吗?从感知到理解-融合语言模型的多模态大模型研究多模态大模型向前,机器人领域的新机遇在哪里?曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中两情难相知中文版开源Llama 2同时有了语言、多模态大模型,完全可商用AIGC时代,前端低代码平台的实践与挑战 | 6月15日TF109报名LaVIN-lite:单张消费级显卡微调多模态大模型《草原心》&《几度夕阳红》
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。