Redian新闻
>
[COLING 2024教程] 多模态大语言模型MLLM系列教程

[COLING 2024教程] 多模态大语言模型MLLM系列教程

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

近年来,随着大语言模型(LLMs)的出现(如OpenAI的ChatGPT系列,Meta的LLAMA系列,以及Flan-T5、Vicuna和Alpaca等等),全世界目睹了人工智能(AI)前所未有的智能能力。这些LLMs在理解语言方面展示了卓越的能力,预示着实现真正的通用人工智能(AGI)的日期不远。但实际上,我们人类生活在一个包含视觉、听觉、感觉等多种信息模态共存的世界里。这赋予了研究LLMs多模态感知和理解能力的必要性,以更快更好地实现与人类类似水平的AI,即AGI。这催生了多模态大语言模型(MLLMs)研究话题和热点。MLLMs通过启用多感官学习,使多模态以及多任务能力相辅相成。研究人员在文本LLMs前后增设了额外的编码器和解码器以接收其他模态的输入甚至生成,推动了如BLIP-2、Flamingo、Visual-ChatGPT、MiniGPT-4、LLaVA、PandaGPT、SpeechGPT、Emu、NExT-GPT、Gemini等一系列MLLMs的火热发展。通过相关的survey可以看到,仅2023年一年,各种新颖的MLLMs喷涌而出,揭示了多模态大语言模型研究研发热潮以及其重要性。

在这个MLLM教程系列中,我们将深入探讨MLLMs的最新进展,旨在面向各类相关研究群体,尤其是初学者们提供一个全面的、深入的MLLM的介绍,以帮助构建更强大、更高效、更接近人类智能水平的MLLMs和系统。

教程团队来自于新加坡国立大学、上海交通大学以及马里兰大学的各名学者,其都在MLLM方向上具备丰富的研究经验。

教程相关的所有资料将会公开发布到:https://mllm2024.github.io/COLING2024/

教程的内容将包括四个关键部分;这也是我们共同的认识:要实现更强大的MLLMs则需要注意以下四个方面:

● 首先是MLLM的架构设计,我们将详述设计能够无缝整合多种模态的前沿架构的方法,使MLLMs能有效处理各种感官输入。

● 其次是多模态指令微调学习,我们将深入指令学习的复杂性,讨论用于准确地按照人类指令在多模态下训练模型的方法和策略。

● 第三是多模态推理,我们将介绍多模态推理背后的技术和方法论,这使MLLMs能够利用它们的认知能力执行跨不同模态的复杂推理任务。

● 最后是MLLMs的效率问题,我们将简要概述高效模型开发,探索构建能够平衡性能与计算资源的MLLMs的策略,使其更广泛地适用于研究应用。

对于每个部分,我们将充分介绍现有技术和研究的进展,并同时指出现存的挑战,最后分别展望未来可能的方向。

第一部分:MLLM架构设计

这部分我们主要探讨:“当前MLLMs的架构是什么?MLLMs支持哪些模态和功能?MLLMs可以如何分类?下一代MLMs将会是什么样子?” 本部分的主讲者为Hao Fei(费豪)和Yuan Yao(姚远), 均来自新加坡国立大学。

Hao Fei (http://haofei.vip/) 为新加坡国立大学的博后研究员,兼任Skywork AI联合研究员。其研究方向为视觉语言学习、多模态大语言模型、自然语言处理。代表作为NExT-GPT、Vitron等系列的通用统一MLLMs,为下一代通用多模态大模型的形态奠定了基础。近年来在大模型和多模态学习方面的研究成果发表在顶级会议期刊论文,谷歌学术被引超3000次,H指数33。曾获得2022年中国中文信息学会优秀博士论文奖励、2023年世界人工智能大会云帆奖明日之星,常担任社区顶级会议(如ICML、NeurIPS、ACL、AAAI、IJCAI、MM)的领域主席、高级程序委员或会议组委会,以及期刊(如ACM TALLIP和Neurocomputing)编委。

Yuan Yao(https://yaoyuanthu.github.io)的研究方向为多模态大语言模型、自然语言处理。代表作为MiniCPM-V系列高效端侧多模态大模型、VisCPM多语言多模态大模型等,相关成果Google Scholar 引用量 3000 余次, 相关模型在国际开源平台下载量13万余次。近年来在多模态大模型方面发表多篇顶级会议期刊论文,相关成果入选 ICLR Spotlight、ECCV Oral、Nature Communications Editors' Highlights 等亮点推荐专栏。构建多模态大模型MiniCPM-V,在国际开源平台Hugging Face 60万余模型中,连续多天登上Trending榜单前三名(其余2名为Meta Llama3系列模型),连续十余天登顶多模态大模型Trending榜单。曾获清华大学计算机系优秀博士及本科毕业生、清华大学综合优秀一等奖学金、腾讯犀牛鸟精英人才培养计划一等奖学金等。博士学位论文《基于多模态大模型和结构化知识的图文理解方法研究》获 2023 年度吴文俊人工智能科学技术奖优秀博士学位论文奖。

本部分会给出现有的MLLM的通用技术框架,并总结归纳现有MLLM的模态和功能支持情况。

并将探讨下一步MLLM的发展方向。

第二部分:多模态指令微调学习

这部分主要探讨:“为什么我们需要多模态指令调整?多模态指令调整的训练策略有哪些?我们如何获取高质量的指令调整数据?当前多模态指令调整面临的挑战是什么?” 本部分的主讲者为Fuxiao Liu (刘赋骁), 来自马里兰大学,帕克分校。

Fuxiao Liu (https://fuxiaoliu.github.io)目前是马里兰大学帕克分校计算机科学学院的博士研究生。他的研究兴趣包括视觉与语言任务,包括图像/视频captioning、多模态语义对齐、事实核查和文档理解,最近的研究重点是构建可定制的大型模型,以对齐人类意图。他的研究成果已发表在多个顶级会议上,诸如CVPR、ICLR、EMNLP以及EACL,其中代表作包括HallusionBench、MMC。他曾在多家公司实习,包括Adobe Research、腾讯AI实验室和微软研究院。

第三部分:多模态推理

这部分我们主要探讨:“最新的多模态推理研究有哪些范式变化?思维链技术如何增强多模态推理?多模态智能体有哪些发展,如何用于复杂任务求解?在推进多模态推理方面还有哪些关键挑战?” 本部分的主讲者为Zhuosheng Zhang(张倬胜), 上海交通大学长聘教轨助理教授。

Zhuosheng Zhang(https://bcmi.sjtu.edu.cn/~zhangzs/的研究方向为自然语言处理、预训练语言模型、自主智能体与安全。代表作为Auto-CoT自动思维链推理、MM-CoT多模态思维链推理和SemBERT语义增强的语言模型。近年来在大规模预训练模型、多模态推理、大模型安全等方面发表多篇顶级会议期刊论文,论文总被引超过4000次,多篇文章入选全球高影响力论文列表,开源成果在GitHub社区获得超过9000星标。入选中国中文信息学会优博、世界人工智能大会云帆奖明日之星、全球AI华人百强学术新星。曾在日本国立情报研究机构(NICT)、澜舟科技、微软雷德蒙德研究院、亚马逊云科技实习或访问。担任领域内重要会议ACL Rolling Review执行编委,LREC-COLING 2024领域主席、中国计算语言学大会CCL 2022分委会主席。

第四部分:MLLMs效率问题

最后这部分主要探讨:“什么是最高性能、高效的MLLM架构?如何选择和组织数据来构建强大的MLLM?有无训练策略来高效构建新的MLLM或扩展功能范围?” 本部分的主讲者为Ao Zhang(张傲), 新加坡国立大学三年级博士生。

Ao Zhang(https://waxnkw.github.io/的研究方向为多模态大语言模型,多模态提示学习等。代表作为高效多模态大模型构建框架VPGTrans,可以定位检测分割的多模态大模型NExT-Chat,多模态提示学习方法CPT等等。近些年来在多模态理解领域发表多篇论文,论文发表在NeurIPS,ICML,ECCV,EMNLP等多个国际顶尖会议。谷歌学术总引用量超过1000。

我们将本MLLM教程做出了一个系列,并会在未来的相关会议上陆续展开。本次教程我们背靠COLING 2024(https://lrec-coling-2024.org/)给出。COLING 2024会在5月20号到25号期间,意大利都灵举办。本教程的时间是21日,当地时间14:00-18:00(对应北京时间:21日,20:00-24:00)。欢迎感兴趣的同学们通过线上或者线下的方式积极参与。

也欢迎所有人对相关的话题进行讨论。

访问官网获取更多与本教程系列相关的资料和推荐阅读列表:https://mllm2024.github.io/COLING2024/

本系列的后续教程将会在CVPR 2024依托举办,也欢迎关注:https://mllm2024.github.io/CVPR2024/


关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计腾讯 PCG 自研高性能大语言模型推理引擎「一念 LLM」正式开源希腊圣托里尼岛(Santorini),满眼白墙文末送书!大语言模型应用指南:以ChatGPT为起点,从入门到精通的实践教程​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!深圳/香港/上海内推 | 商汤研究院基础语言模型团队招聘大语言模型算法研究员NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生万字长文总结多模态大模型最新进展(Modality Bridging篇)李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 20242024年AIGC行业研究:多模态大模型与商业应用|36氪研究院国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题ICLR上新 | 强化学习、扩散模型、多模态语言模型,你想了解的前沿方向进展全都有土耳其以弗所(Ephesus),梦幻海景ACL 2024 Findings | 视频大语言模型能理解视频中的时序信息吗?HuggingFace烧钱做了一大批实验,揭示多模态大模型哪些trick真正有效国际华文桂冠诗人评选揭晓LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」ICML 2024 | 大语言模型预训练新前沿:最佳适配打包重塑文档处理标准WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型使用 IPEX-LLM 加速英特尔®至强®可扩展处理器上的大语言模型推理ICML 2024 | 大语言模型预训练新前沿:「最佳适配打包」重塑文档处理标准元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入美国斯坦福大学,有趣校园ICML 2024 | 探究知识编辑对大语言模型的近邻扰动核心代码仅三行!即插即用的视觉语言连接器,一键提升多模态大模型以色利历史学家尤瓦尔·赫拉利陷入了自己讲的故事之中ICML 2024 | 大语言模型如何表征不同信念?腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源LLM综述出书了!人大高瓴赵鑫老师组发布全新大语言模型中文书上交&阿里:掀开多模态大模型的头盖骨,解密黑盒模型推理过程中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响ACL 2024 | 多模态大模型能揭示图像背后的深意吗?AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。