Redian新闻
>
微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型

微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型

公众号新闻


©作者 | LRS 好困
来源 | 新智元


当前一个显著的趋势是致力于构建更大更复杂的模型,它们拥有数百/数千亿个参数,能够生成令人印象深刻的语言输出。


然而,现有的大型语言模型主要集中在文本信息上,无法理解视觉信息。


因此多模态大型语言模型(MLLMs)领域的进展旨在解决这一限制,MLLMs将视觉和文本信息融合到一个基于Transformer的单一模型中,使该模型能够根据这两种模态学习和生成内容。


MLLMs在各种实际应用中显示出潜力,包括自然图像理解和文本图像理解。这些模型利用语言建模作为处理多模态问题的通用接口,使其能够根据文本和视觉输入处理和生成响应。


不过,现有的MLLMs主要关注分辨率较低的自然图像,对于文本密集图像的MLLM研究还不多见,因此充分利用大规模多模态预训练来处理文本图像是MLLM研究的一个重要的研究方向。


通过将文本图像纳入训练过程并开发基于文本和视觉信息的模型,我们可以开辟涉及高分辨率文本密集图像的多模态应用的新可能性。




论文地址:

https://arxiv.org/abs/2309.11419


KOSMOS-2.5是一个基于文本密集图像的多模态大型语言模型,它是在KOSMOS-2的基础上发展而来的,突出了对于文本密集图像的多模态阅读和理解能力(Multimodal Literate Model)。


该模型的提出突显了其在理解文本密集型图像方面的卓越性能,弥合了视觉和文本之间的差距。


与此同时,它也标志着该任务范式的演变,从以前的编码器-解码器(encoder-decoder)架构转变为纯解码器(decoder only)架构。


KOSMOS-2.5的目标是在文本丰富的图像中实现无缝的视觉和文本数据处理,以便理解图像内容并生成结构化文本描述。


▲ 图1. KOSMOS-2.5概览图


如图1所示,KOSMOS-2.5是一个多模态模型,旨在使用统一的框架处理两个紧密相关的任务。


第一个任务涉及生成具有空间感知的文本块,即同时生成文本块的内容与坐标框;


第二个任务涉及以Markdown格式生成结构化的文本输出,同时捕捉各种样式和结构。


▲ 图2. KOSMOS-2.5架构图


如图2所示,两个任务利用共享的Transformer架构与任务特定的提示。


KOSMOS-2.5将基于ViT(Vision Transformer)的视觉编码器与基于Transformer架构的解码器相结合,通过一个重采样模块连接起来。

 

▲ 图3. 预训练数据集


如图3所示,为了训练这个模型,作者准备一个庞大的共324.4M的数据集进行预训练。


▲ 图4. 带有边界框的文本行的训练样本示例



▲ 图5. Markdown格式的训练样本示例

 

该数据集包含各种类型的文本密集图像,其中包括带有边界框的文本行和纯文本的Markdown格式,图4和图5为训练样本示例可视化。


这种多任务的训练方法增强了KOSMOS-2.5在整体上的多模态能力。


▲ 图6. 端到端的文档级文本识别实验

▲ 图7. 从图像中生成Markdown格式文本实验


如图6和图7所示,KOSMOS-2.5在两个任务上进行评估:端到端的文档级文本识别和从图像中生成Markdown格式文本。


实验结果展示了KOSMOS-2.5在理解文本密集的图像任务方面的出色表现。


▲ 图8. KOSMOS-2.5的输入和输出样例展示


此外,KOSMOS-2.5在少样本学习和零样本学习的场景中展现了有前景的能力,使其成为处理文本丰富图像的实际应用的多功能工具。


作者指出,指令微调是一个很有前景的方法,可以实现模型更广泛的应用能力。


在更广泛的研究领域中,一个重要的方向在于进一步发展模型参数的扩展能力。


随着任务范围的不断扩大和复杂性的不断提高,扩展模型以处理更大量的数据对于文字密集的多模态模型的发展至关重要。


最终目标是开发出一种能有效解释视觉和文本数据的模型,并在更多文本密集型多模态任务中顺利推广。


参考资料:
https://arxiv.org/abs/2309.11419


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
贾佳亚团队开源全球首个70B长文本大语言模型,读论文看小说直接ProMax曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报当今外国人在中国的境遇,一言难尽多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟DreamLLM:多功能多模态大型语言模型,你的DreamLLM~实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了Nat Med丨斯坦福团队利用twitter资源,开发出“病理图像文本对应”的自然语言-图像预训练模型破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型学术成果 | EMNLP2023:MMEdit——如何编辑多模态大语言模型?正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述ACL23 | 基于检索的大语言模型-陈丹琦报告阅读文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页优雅的观叶植物,瓜叶海棠大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友第九章 政府公权力的组织运作 (1)科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体如何判别大语言模型生成的文本?清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%EMNLP 2023 | MMEdit——如何编辑多模态大语言模型?华为提出Sorted LLaMA:SoFT代替SFT,训练多合一大语言模型NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!两行代码解决大语言模型对话局限!港中文贾佳亚团队联合 MIT 发布超长文本扩展技术ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成吹尽黄沙不见金(七十二):豆腐锅CNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!越得不到,越念念不忘。。。。。中科大&微软提出DragNUWA:拖拽下图像就能生成视频!语言模型战胜扩散模型!谷歌提出MAGVIT-v2:视频和图像生成上实现双SOTA!低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。