Redian新闻
>
LAMM:多模态指令微调数据集、框架、评测基准

LAMM:多模态指令微调数据集、框架、评测基准

科学

最近,大型语言模型(LLM)因其在实现通用人工智能智能体(AI Agent)方面的出色表现而备受瞩目。蓬勃发展的开源 LLM 社区极大地推动了通过自然语言处理实现人机对话交互的代理系统的发展。

但是,人类与世界的互动不仅仅局限于文本,视觉等其他模态也同样重要。针对多模态大语言模型(MLLM),如 GPT-4V 和 Bard 等模型和应用,已经展示了它们在处理视觉信息方面的有效性。不过,这些研究的透明度不足以学术研究的需求。

来自上海人工智能实验室的学者推出该领域中最早的开源尝试之一,名为 LAMM(Language-Assisted Multi-Modal)。该项目提供了一个包含数据集、框架和基准的语言辅助多模态指导微调的开源平台。我们的目标是将 LAMM 发展成一个不断迭代和更新的生态系统,专注于训练和评估 MLLM,并进一步支持 MLLM 赋能 AI Agent 的平台和框架。

论文地址:

https://arxiv.org/pdf/2306.06687.pdf

项目地址:

https://openlamm.github.io

代码地址:

https://www.github.com/OpenGVLab/LAMM


LAMM 模型的多模态能力部分展示如下:

1. 阅读球场瞬息万变的动作

2. 强大的识别能力和知识检索能力
3. 敏锐的观察力
4. 三维空间导航



Dataset
作为第一批开源的多模态指令微调数据集,LLaVA-Instruct-150K、MiniGPT4 等工作采用了一种独特的方法,即使用 Bounding Box 作为图片替代输入 GPT4 API 生成和图片匹配的指令数据。同样,InstructionBLIP 通过模板重组现有的图像文本数据集,将其转换成对话形式。

然而,这些方法存在一些限制。首先,仅使用图片标签和边界框来表达图像信息是不够的,因为这些方法不能充分捕捉到图像的全部细节和复杂性。其次,预设的文本模板过于简单,可能导致模型过度拟合特定形式的数据。最后,这些方法仅限于图片模态,没有包含其他类型的模态,这限制了它们在多模态学习领域的应用范围。

我们进一步扩展了多模态指令数据集的生成方法,并包括了图片、点云等模态。LAMM 数据集可以分为三部分:基于图片内容的对话、基于通用知识的对话、基于视觉任务的对话。

除了标签和 bounding box,我们进一步引入物体属性、场景图等信息,然后调用 GPT API 生成多轮日常对话和单轮详细描述数据。

为了拓展多模态大模型对于感知等视觉任务的能力,我们进一步引入了分类、检测、视觉问答等任务,用模板将已有数据集重组为对话数据。

对于通用知识,我们将图片类别作为关键词调用 Wikidata 中的详细解释,作为上下文输入 GPT API,生成基于客观知识的对话数据。

LAMM 数据集一共包含了 180K 图片-指令数据对以及 10K 点云-指令数据对分别用于训练 2D 模型和 3D 模型。


Benchmark

虽然多模态指令微调技术已经实现了多模态交互能力,但面向多模态大型语言模型的评估仍是一个相对未开发的领域。为了填补这一空白,LAMM 项目提出了一个新的多维评估框架,该框架基于现有的视觉任务,并已对 LLaVA、MiniGPT4 等模型进行了零样本迁移评估。这种评估方法从更细粒度的感知层面对现有的多模态大型模型进行了测试。

此外,我们还开发了 ChEF 框架,进一步完善了对多模态大型语言模型的评价体系。这不仅包括扩展评估数据集和任务,还包括引入了 in-context learning 和 chain-of-thought 等测试模式。这些测试模式的加入使得评估机制变得更加全面和可靠。


网络框架

LAMM 采用了一种端到端的训练方法,对不同的输入模态使用了一个统一的框架。这个框架包括编码器、特征映射层以及基于 LoRA 的大型语言模型微调等核心组件。其代码架构灵活地支持单个或多个模态的输入。此外,这些组件也可以根据特定需求进行相应的调整或替换,提供了高度的定制化和适应性。


Open Source

基于多模态大型语言模型(MLLM)的强大功能和广泛的应用潜力,LAMM 项目致力于创建一个促进多模态大模型研究的开源社区。为了便利用户,LAMM 的代码库设计了统一的数据集格式、模块化的模型架构和简便的一键式分布式训练功能。这些特性使得用户能够轻松启动并定制自己的多模态语言模型。


结语

最近,大型语言模型在多模态领域取得了显著进展,展示出了令人瞩目的能力。作为这一领域的先行者之一,LAMM 项目不仅在 2D 和 3D 应用中探索了多模态语言模型的潜力,而且从应用角度对模型的性能进行了评估,为研究社区提供了重要参考。

此外,我们还开源了全部模型、数据集和训练、评测代码,以支持将这些代码应用于各种下游任务的训练中。我们期望这些资源能为后续的研究和开发工作提供有益的指导和帮助。关于 LAMM 的更多信息,欢迎访问我们的项目主页以了解详细内容。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista杭州/北京内推 | 阿里达摩院多模态团队招聘多模态方向全职研究员/实习生华为查询建议新范式MMQS入选WWW 2024,解锁基于人类反馈的多模态查询建议宾州福吉谷(Valley Forge),秋景相框2023年夏旅行 - 那些坑GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评CNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!果敢同盟军给以色列国防军上了一次实战课更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力国内多所高校共建开源社区LAMM,加入多模态语言模型大家庭的时候到了ICLR 2024 | 图领域首个通用框架!任意数据集、分类问题都可搞定!华盛顿大学&北大&京东出品北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-GAI鲜测 | Claude 3全面升级:多模态+100万Token上下文长度,OpenAI也拦不住了​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先最强开源多模态生成模型MM-Interleaved:首创特征同步器LLaVA-MoLE:稀疏混合LoRA专家缓解指令微调MLLM中的数据冲突《歌德堡变奏曲1460》刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!理想汽车发布史上最大更新:多模态大模型首次上车,无人泊车即将推送腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法最强开源多模态生成模型MM-Interleaved:首创特征同步器,刷新多项SOTA「人车交互」新突破!普渡大学发布Talk2Drive框架:可学习/定制的「指令识别」系统周蕙/于文文深情演唱《约定》 狂野与柔美的碰撞普林斯顿博士生高天宇指令微调进展速览:数据、算法和评估NeurIPS 2023 | 模仿人类举一反三,数据集扩增新范式GIF框架来了编码数据集生成框架 UnitGen 0.4.0:代码文档生成、测试代码生成斯里兰卡最新民调数据,显示以下情况看见这张图没有,你就照着画:谷歌图像生成AI掌握多模态指令超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。