Redian新闻
>
天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题

天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

国产大模型,登顶多模态榜单!

昆仑万维最近在大模型圈可谓“风生水起”。

几天前刚被曝挖来了AI大牛颜水成,出任天工智能联席CEO。

现在,其「天工」大模型Skywork-MM又登顶多模态榜单,在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一

MME感知榜第一,认知榜第二,总榜第一

腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。

MME数据集是一个最近发布的多模态语言模型测评基准。

它通过大型多模态语言模型在涵盖感知和认知任务的14个子任务上的表现来全面评估模型。

而Skywork-MM只用了不到50M的图文数据——远小于其他大模型(>100M),拿下了第一(榜单地址见文末)

如何做到?

主要是解决了现有多模态大模型中颇为困扰的两大问题:

幻觉和较弱的跨语言能力。

多模态两大难

所谓幻觉,是指多模态大模型在回答问题时,倾向于肯定的答案,即使我们所给的问题中根本没有相关特征。

例如面对下面这张图像。

如果问它“这个男人的头发是什么颜色?”,即使优秀如LLaVA、MiniGPT-4等多模态大模型,也会“睁着眼说瞎话”:黑色。

再如这张图片:一个玻璃杯、一个茶杯、一个浴缸里面有条小金鱼。

如果问它“图片中的所有物品都是黄色的吗?”,没有谁能答对。

至于跨语言能力问题,主要表现在应对中文场景中的问题回答不尽如人意。

比如辨认下面这张图片是“科罗拉多大峡谷还是苏州园林时,3个双语多模态语言模型:LLaVA、 LLaVA-Chinese、ImageBind-LLm全部回答成前者。

问它们从哪里能观赏到该景色,就更是一言难尽了。

甚至有时,模型还会直接回复纯英文。

这两大问题严重影响着现有多模态大模型的性能。

怎么解决?

三方面入手

昆仑万维天工大模型Skywork-MM从分别从数据、模型和训练流程三方面入手。

其中重点是数据和模型。

先看数据。

首先对于幻觉问题。

从本质出发,该问题主要是整个模型训练过程中使用的数据太偏重正样本

也就是说,模型描述的都是图片中有什么,而没有学习图片中没有什么。

如果训练过程中再碰上弱相关的图文数据,模型就更加放飞联想、形成较严重的幻觉。

为此,天工大模型多模态团队提出以图像为中心,喂给模型既包含正样本也包含负样本的多模态指令微调数据:

这使得模型既能够学习一张图像中存在的视觉特征,也能学习到不存在的特征。

这样,模型的指令跟随能力便得到增强:问什么答什么,没有的也不胡编。

其次,对于跨语言中的中文问题,一共有两个解决思路:

(1)增强中文的指令追随能力。

由于“微调指令的文化gap很小”,只需将上面解决幻觉问题中构造的英文指令微调数据翻译成中文使用。

(2)增强中文相关场景的识别能力。

需要注意的是,在解决跨语言问题时,我们重点关注的点是文化偏差——

即通用的视觉特征和语言特征可以通过共有的语料进行关联,但是各个语言文化中专有的视觉特征和语言特征的关联需要大量特殊学习。

因此我们需要加入大规模的中文图像-文本对数据。

不过,这样的中文语料并不好收集,一是囿于数据质量,而是困于数量。

怎么办?

引出Skywork-MM在模型架构上的改进。

为了不让低质量的图文数据影响模型效果,天工大模型多模态团队在设计上选择将视觉模型和大语言模型完全冻结。

这样做的目的是保持视觉模型在前置CLIP训练中学习到的视觉特征不损失,以及大语言模型的语言能力不损失。

同时,为了更好的关联不同文化环境中的视觉特征和语言特征,模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器。

如下图所示,Skywork-MM一共包含四大模块:

给定一张图像,LVM先提取图像特征,然后将图像特征输入到重采样器中,计算出可为LLM输入的token。

LLM接收token和指令提示(如果有),然后输出图像描述或对问题的回答。

至于训练流程,主要分为两阶段:

第一阶段使用双语的大规模图文对数据进行图像概念和语言概念的关联学习。

第二阶段使用多模态微调数据进行指令微调。

此时,各种类型的指令微调数据(包括正样本和负样本)就组成统一的Chat Prompt形式。

Ps. 上图中的重采样器和LoRA适配器标记了火焰,它们是可训练的。

登顶MME综合榜单

如下表所示,Skywork-MM一共用了大约50M图文数据,这比当前的同类大模型都要少得多。

但经过以上数据、模型和训练流程三方面的改进,Skywork-MM效果拔群。

如下图所示:

它能够准确理解图片中的反常行为;

也能听明白一些特殊的指令(根据选项回答问题,根据风景写诗,写广告词,写获奖感言等等)

对于中文场景问题,表现得也不再像个“歪果仁”了。

可谓拥有了良好的指令跟随和中文场景问答能力

因此像第一段展示的那些幻觉和跨语言问题,它完全可以信手拈来:

孟非没有头发就没有,不会说成黑色;苏州园林、非诚勿扰节目一眼认出;三个物体没有一个是黄色。

而如开头所示,在与其他模型的横向测试中,Skywork-MM直接荣登MME榜单综合第一,包括感知榜单第一(且与第二名有着43分的差距)、认知榜单第二。

这个榜单大约今年6月上线、目前GitHub 4k标星,是当前多模态大模型最新的测评基准之一。

它一共包含14个子任务,其中感知任务除OCR,还包括粗粒度和细粒度对象识别,前者识别对象的存在与否、数量、位置和颜色;后者识别电影海报、名人、场景、地标和艺术品。

认知任务则包括常识推理、数值计算、文本翻译和代码推理。

下表显示Skywork-MM在该榜单感知任务中的OCR+粗粒度识别上的具体得分:

细粒度识别得分:

以及认知任务得分:

可以看到,能与Skywork-MM偶尔“平分秋色”的只有MiniGPT-4和BLIP系列。

而除了MME榜单,Skywork-MM还在另一多模态基准MMBench的开发集上表现出色:

进步空间

需要注意的是,尽管昆仑万维天工大模型这一最新成果,代表了当前多模态大模型的最高水平,但它还是存在很多进步空间。

例如:

文化和语言障碍仍然存在,还需要我们开发一种多语言的LVM,更有效地提取不同文化特有的视觉特征,或者再收集更多各语言的大规模、高质量图像文本对,确保模型准确掌握视觉概念和文本概念的关联。

除此之外,目前的成果只建立在较小规模的基础之上(13B),如果研究更大的多模态模型,我们在使用数据、参数设置、训练策略等方面可能都需要进一步探索。

评估基准也还可以更全面,目前MME和MMBench的测试范围都有限。

以及从上面的粗粒度感知识别任务榜单来看,现有所有多模态大模型对于根据图片准确识别物体位置的能力(对实现机器人感知意义重大)都比较欠缺:

最高的模型得分才33.33,离满分100还有很大的差距。

这个缺陷从下图也可以看出:

毫无疑问的是,人工智能的未来一定是多模态的。

以上这些问题说明,我们才刚刚开始探索它真正的潜力

然而,我们相信,在一次又一次的榜单排名更迭之中,属于多模态大模型的“ChatGPT时刻”终将会到来。

论文地址:
https://github.com/will-singularity/Skywork-MM/blob/main/skywork_mm.pdf
榜单地址:
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型从感知到理解-融合语言模型的多模态大模型研究实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型森林大火见闻离谱!加拿大又将合法化一毒品!比大麻更容易出现幻觉、更未知!有公司已经在食物中添加了!更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」造访新开张的温哥华唐人街的华裔博物馆度小满“轩辕70B”金融大模型开源!登顶两大权威测评榜单,所有用户均可下载谈谈李玟与抑郁症的治疗用语言建模世界:UC伯克利多模态世界模型利用语言预测未来幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker3年个人戒烟残酷史 回头一看都是认知问题?多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生|中科大多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞八声甘州 时事多模态大模型的幻觉问题与评估清华&中国气象局大模型登Nature:解决世界级难题,「鬼天气」预报时效首次达3小时Adobe推出三个新的生成式AI模型;AMD收购AI软件公司Nod.ai;百度文心生物计算大模型登Nature子刊丨AIGC日报曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中注意!加拿大又将合法化一毒品!比大麻更容易出现幻觉、更未知!有公司已经在食物中添加了!UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源国产AI大模型登顶“双榜”,意味着什么?击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统中文版开源Llama 2同时有了语言、多模态大模型,完全可商用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。