Redian新闻
>
哈工大讯飞联合实验室发布图文多模态预训练模型VLE

哈工大讯飞联合实验室发布图文多模态预训练模型VLE

公众号新闻

来自:HFL实验室

进NLP群—>加入NLP交流群

哈工大讯飞联合实验室(HFL)开源预训练模型家族迎来首个多模态预训练模型VLEVision-Language Encoder)。借助更强的单模型编码器、更细致的预训练目标和更契合下游任务的适配方案,VLE模型不仅具有良好的多模态理解能力,还具备了出色的多模态推理能力,此前荣登VCR评测榜首,相比其他同等规模模型具有显著的优势。此外,借助大型语言模型(LLM)出色的零样本学习能力,本项目设计了一种VQA+LLM方案,将大型语言模型集成到视觉问答任务中,帮助视觉问答模型生成更准确和流畅的答案。目前VLE相关预训练模型、精调模型、源代码等资源已开源,欢迎读者下载使用。

项目地址:https://github.com/iflytek/vle

演示地址:https://huggingface.co/spaces/hfl/VQA_VLE_LLM

简介

多模态预训练模型通过在多种模态的大规模数据上的预训练,可以综合利用来自不同模态的信息,执行各种跨模态任务。本项目提出图像-文本多模态预训练模型VLE(Vision-Language Encoder),可应用于如视觉问答、图像-文本检索等多模态判别式任务。特别地,VLE在对语言理解和推理能力有更强要求的视觉常识推理(VCR)任务中取得了公开模型中的最佳效果。

  • 模型结构

VLE模型采用双流结构,与METER模型结构类似,由两个单模态编码器(图像编码器和文本编码器)和一个跨模态融合模块构成。文本编码器初始化采用了DeBERTa-v3,图像编码器初始化采用了CLIP-ViT。输入的图片和文本分别经过图像编码器和文本编码器进行编码,送入跨模态融合模块进行信息交互,再经由任务特定的预测模块得到最终输出。

  • 预训练任务
VLE使用图文对数据进行预训练。在预训练阶段,VLE采用了四个预训练任务:
    • MLM (Masked Language Modeling):掩码预测任务。给定图文对,随机遮掩文本中的部分单词,训练模型还原遮掩的文本。
    • ITM (Image-Text Matching):图文匹配预测任务。训练模型判断图像和文本是否匹配。
    • MPC (Masked Patch-box Classification):遮掩Patch分类任务,给定图文对,并遮掩掉图片中包含具体对象的patch,训练模型预测对象种类。
    • PBC (Patch-box Classification):Patch分类任务。给定图文对,预测图片中的哪些patch与文本描述相关。

这些预训练任务各有侧重:MLM任务提升模型的语言理解能力;ITM和MPC任务提升模型的图文交互能力;PBC任务提升模型的精确定位能力。下图展示了模型的结构和部分预训练任务(MLM、ITM和MPC)的流程。
VLE模型结构与预训练任务示意图

  • 下游任务适配
本项目将VLE应用于视觉问答(VQA)和视觉常识推理(VCR)两个多模态任务。对于VCR任务,我们采用了基于目标信息的图文对齐增强机制,并扩展了token_type_ids,为图片和文本中的对象添加了对象表示嵌入,实现“物”与“名”的对应。

效果对比

下表中对比了VLE、METER以及其他多模态模型的参数量、预训练数据和下游任务效果。其中VQA任务展示的的是test-dev集效果,VCR任务展示的是dev集效果。通过观察实验结果可以发现,
    • VLE的预训练更高效:与大小相近的模型相比,VLE使用了更少的预训练数据,并在视觉问答上取得了相当的效果。
    • VLE有更强的推理能力:在对推理能力要求更高的视觉常识推理VCR任务上,VLE显著地超过了具有相似结构的METER。

†:复现效果

* :Pairs: 图文对数量;I:图片数据数量;T:文本数据大小

VQA+LLM:结合大模型的视觉问答

近期,随着指令微调、RLHF等技术的发展,LLM在多种文本任务中取得了显著性能提升。虽然大多数LLM是单模态模型,但它们的能力也可用于辅助多模态理解任务。具体而言,本项目提出了一种VQA + LLM方案,将多模态模型与LLM集成到视觉问答任务中,从而帮助VQA模型生成更准确和流畅的答案。下图展示了系统流程。

首先,本项目利用captioning模型生成图片的描述,然后将图片描述、问题以及VQA模型的预测结果进行拼接,构造合适的prompt送入LLM,最后要求LLM模型回复最合理的答案。下面给出了两组示例,不难看出VQA+LLM生成的答案更准确并且具有更好的可读性。读者可通过以下链接体验视觉问答Demo。
视觉问答Demo:https://huggingface.co/spaces/hfl/VQA_VLE_LLM


模型下载与使用

目前,本项目发布了VLE-base和VLE-large两个版本的预训练模型,还公开了VQA和VCR两个任务上的精调模型。请访问以下🤗transformers模型库页面获取更多详细信息,并了解更多HFL开源预训练模型。
https://huggingface.co/HFL
模型的具体使用方式和更详细的技术内容,请访问本项目GitHub地址。
https://github.com/iflytek/vle




进NLP群—>加入NLP交流群


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPUOFA-Chinese:中文多模态统一预训练模型杭州内推 | 之江实验室招聘多模态算法实习生《更多的诗歌》:26: 敬请注意登顶对话式语义解析国际权威榜单SParC和CoSQL,全新多轮对话表格知识预训练模型STAR解读科大讯飞正式发布星火认知大模型,刘庆峰:多题型可解析数学能力已领先 ChatGPTCVPR 2023 | 中山大学HCP实验室新突破:用因果范式再升级多模态大模型中文多模态对话数据集-TikTalk谈争执(36)Yahoo! NewsTPAMI 2023 | 无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型《山居续忆》:第二十九章:我最早的“日记” —— 有关我出生后头两年的记录 (一)中山大学HCP实验室新突破:用因果范式再升级多模态大模型实验室系列:辽宁材料实验室CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型科大讯飞公布讯飞星火认知大模型;羊了个羊涉“欺骗误导强迫用户”被通报 ;苹果手机或被欧盟禁售……COVID让她失去双腿多模态 | 视觉-语言预训练入门指南科大讯飞年营收188亿:将于5月6日发布认知大模型“星火”科大讯飞高建清:「底座+能力+应用」是科大讯飞AIGC整体布局的三层架构上海人工智能实验室发布「风乌」大模型,全球气象有效预报时间首破10天CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏MLNLP前沿综述分享第五期 | 胡琳梅@北京理工大学:知识增强的预训练语言模型前沿研究进展令人心动的AI offer(七):科大讯飞、旷视、达摩院、上海人工智能实验室等春招补录、社招与实习生科大讯飞发布星火认知大模型,预计10月底赶超ChatGPT!XTREME榜单第一,多粒度对齐的多语言预训练模型VECO 2.0AAAI 2023 | 基于T5的两阶段的多任务Text-to-SQL预训练模型MIGA女博士半年没进实验室发5分SCI!这个方法也太好用了吧!?自称中文水平超越ChatGPT,科大讯飞发布星火认知大模型!!!零门槛复现ChatGPT:预训练模型数据集直接用,包含完整RLHF流程,在线可体验绝美挪威荷兰夏日之旅(序)行程路线-照片预览AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力北京/深圳内推 | 华为云招聘多模态预训练方向研究型实习生多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。