Redian新闻
>
文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型

文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型

公众号新闻



  新智元报道  

编辑:LRS 好困
【新智元导读】文字也是一种视觉信息,多模态大语言模型KOSMOS-2.5不光能读懂论文,还能输出markdown格式!


当前一个显著的趋势是致力于构建更大更复杂的模型,它们拥有数百/数千亿个参数,能够生成令人印象深刻的语言输出。


然而,现有的大型语言模型主要集中在文本信息上,无法理解视觉信息。


因此多模态大型语言模型(MLLMs)领域的进展旨在解决这一限制,MLLMs将视觉和文本信息融合到一个基于Transformer的单一模型中,使该模型能够根据这两种模态学习和生成内容。


MLLMs在各种实际应用中显示出潜力,包括自然图像理解和文本图像理解。这些模型利用语言建模作为处理多模态问题的通用接口,使其能够根据文本和视觉输入处理和生成响应。


不过,现有的MLLMs主要关注分辨率较低的自然图像,对于文本密集图像的MLLM研究还不多见,因此充分利用大规模多模态预训练来处理文本图像是MLLM研究的一个重要的研究方向。


通过将文本图像纳入训练过程并开发基于文本和视觉信息的模型,我们可以开辟涉及高分辨率文本密集图像的多模态应用的新可能性。


论文地址:https://arxiv.org/abs/2309.11419


KOSMOS-2.5是一个基于文本密集图像的多模态大型语言模型,它是在KOSMOS-2的基础上发展而来的,突出了对于文本密集图像的多模态阅读和理解能力(Multimodal Literate Model)。


该模型的提出突显了其在理解文本密集型图像方面的卓越性能,弥合了视觉和文本之间的差距。


与此同时,它也标志着该任务范式的演变,从以前的编码器-解码器(encoder-decoder)架构转变为纯解码器(decoder only)架构。


KOSMOS-2.5的目标是在文本丰富的图像中实现无缝的视觉和文本数据处理,以便理解图像内容并生成结构化文本描述。


图1:KOSMOS-2.5概览图


如图1所示,KOSMOS-2.5是一个多模态模型,旨在使用统一的框架处理两个紧密相关的任务。


第一个任务涉及生成具有空间感知的文本块,即同时生成文本块的内容与坐标框;


第二个任务涉及以Markdown格式生成结构化的文本输出,同时捕捉各种样式和结构。


图2:KOSMOS-2.5架构图


如图2所示,两个任务利用共享的Transformer架构与任务特定的提示。


KOSMOS-2.5将基于ViT(Vision Transformer)的视觉编码器与基于Transformer架构的解码器相结合,通过一个重采样模块连接起来。

 

图3:预训练数据集


如图3所示,为了训练这个模型,作者准备一个庞大的共324.4M的数据集进行预训练。


图4:带有边界框的文本行的训练样本示例


图5:Markdown格式的训练样本示例

 

该数据集包含各种类型的文本密集图像,其中包括带有边界框的文本行和纯文本的Markdown格式,图4和图5为训练样本示例可视化。


这种多任务的训练方法增强了KOSMOS-2.5在整体上的多模态能力。


 [图6] 端到端的文档级文本识别实验

图7:从图像中生成Markdown格式文本实验


如图6和图7所示,KOSMOS-2.5在两个任务上进行评估:端到端的文档级文本识别和从图像中生成Markdown格式文本。


实验结果展示了KOSMOS-2.5在理解文本密集的图像任务方面的出色表现。


图8:KOSMOS-2.5的输入和输出样例展示


此外,KOSMOS-2.5在少样本学习和零样本学习的场景中展现了有前景的能力,使其成为处理文本丰富图像的实际应用的多功能工具。


作者指出,指令微调是一个很有前景的方法,可以实现模型更广泛的应用能力。


在更广泛的研究领域中,一个重要的方向在于进一步发展模型参数的扩展能力。


随着任务范围的不断扩大和复杂性的不断提高,扩展模型以处理更大量的数据对于文字密集的多模态模型的发展至关重要。


最终目标是开发出一种能有效解释视觉和文本数据的模型,并在更多文本密集型多模态任务中顺利推广。


参考资料:
https://arxiv.org/abs/2309.11419





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
提早退休(二)大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生独家对话智谱:开源的大模型越来越多,但智谱选择慢慢来第七章 科学的兴起和神权的衰落(全文)全新注意力算法PagedAttention:LLM吞吐量提高2-4倍,模型越大效果越好破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型大语言模型会偷懒?新研究:上下文太长,模型会略过中间不看 | 本周论文推荐如何判别大语言模型生成的文本?学毛著心得笔记贾佳亚团队开源全球首个70B长文本大语言模型,读论文看小说直接ProMax用语言建模世界:UC伯克利多模态世界模型利用语言预测未来从感知到理解-融合语言模型的多模态大模型研究科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind大语言模型真能“理解”语言吗?男人越胖女人越兴奋??这里是如此....LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention学术成果 | EMNLP2023:MMEdit——如何编辑多模态大语言模型?清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?他被虐得越狠,网友嗑得越兴奋??'闪电侠“、”巴比伦“之人生逆转也无用论DreamLLM:多功能多模态大型语言模型,你的DreamLLM~两行代码解决大语言模型对话局限!港中文贾佳亚团队联合 MIT 发布超长文本扩展技术EMNLP 2023 | MMEdit——如何编辑多模态大语言模型?ACL23 | 基于检索的大语言模型-陈丹琦报告阅读ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成回国日记(2)Nat Med丨斯坦福团队利用twitter资源,开发出“病理图像文本对应”的自然语言-图像预训练模型中文版开源Llama 2同时有了语言、多模态大模型,完全可商用阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。