国际科技财经博客移民网络热点娱乐民生时事公众号

>

TextBind：在开放世界中多轮交织的多模态指令跟随

TextBind：在开放世界中多轮交织的多模态指令跟随

2023-09-19 09:09

论文：TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild
地址：https://arxiv.org/abs/2309.08637
进NLP群—>加入NLP交流群

摘要

拥有指令跟随能力的大型语言模型已经彻底改变了人工智能领域。这些模型通过其自然语言界面展现出卓越的通用性，能够应对各种现实世界任务。

然而，它们的性能在很大程度上依赖于高质量的示例数据，通常难以获得。当涉及到多模态指令跟随时，这一挑战进一步加剧。

我们介绍了TextBind，这是一个几乎无需注释的框架，用于赋予更大型的语言模型多轮交织的多模态指令跟随能力。

我们的方法仅需要图像描述对，并从语言模型生成多轮多模态指令-响应对话。我们发布了我们的数据集、模型和演示，以促进未来在多模态指令跟随领域的研究。

数据

TextBind提供了处理和生成任意交织的图像和文本内容的示例，使语言模型能够在开放世界场景中与用户进行自然互动。

模型

我们的模型包括一个图像编码器、一个图像解码器、一个语言模型，以及连接它们的桥接网络，支持多轮交织的多模态指令跟随。它可以生成并处理任意交织的图像和文本内容。

demo

语言模型能够执行各种任务，包括根据一组图像创作引人入胜的故事，比较多个图像中的共同和不同之处，用生动的图像解释概念，生成带有插图的长篇连贯故事等等。最有趣的是，我们模型的核心创新在于其能够在广泛的真实场景中与用户自然互动。欢迎访问我们的demo^[1]。

例子

参考资料

[1]

demo: https://ailabnlp.tencent.com/research_demos/textbind

进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

国产大邮轮交付，西方工业上的明珠又少了一颗从感知到理解-融合语言模型的多模态大模型研究传任天堂正在开发VR眼镜，谷歌参与其中； VR生存类Roguelike游戏《Bootstrap Island》正在开发中直播预约 | 在多领域交织的商业时代，教练式领导力如何帮助企业横跨周期？沐潼开门红后，朝夕光年又一款TeamRPG下月发布，还是开放世界？NeurIPS 2023 | MQ-Det：首个支持多模态查询的开放世界目标检测大模型 ACL 2023 |信息减加法：基于特征去噪和主题增强的多模态关系抽取 CTPN、TextBoxes、SegLink、RRPN、FTSN、DMPNet…你都掌握了吗？一文总结OCR必备经典模型（一）从零训练一个多模态LLM：预训练+指令微调+对齐+融合多模态+链接外部系统 Llama2 7B中文魔改PK：「雅意」百万指令集微调 VS「伶荔」扩词+增量预训练+指令微调你好，我是筚（bì）篥（ lì）！EAST、PixelLink、TextBoxes++、DBNet、CRNN…你都掌握了吗？一文总结OCR必备经典模型（二）钗头凤 - 爱的星空墨尔本新一轮交通中断又要来了！哪些线路会受影响？陈翠梅：在野蛮世界中寻找“我”清华系ChatGLM3现场怼脸演示！多模态直逼GPT-4V，国产Code Interpreter来了长篇小说《如絮》第一百六十二章旧金山-1967年反战口号中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型 “长三角水平都市：交织的资本” 国际城市设计展｜杭州 11.18-12.10 【万水千山，一起走遍】台北故宫博物院，至善园 NeurIPS 2023 | InstructBLIP：指令微调训练通用视觉-语言模型北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind 精确率提升7.8%！首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023 GPT-4完成正确率仅6%！北大等提出首个「多轮、多模态」PPT任务完成基准PPTC 实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT，最接近AGI的大一统多模态大模型来了港大&百度提出LLMRec：基于LLM增强的多模态图神经网络推荐上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生北京大学：2023数字生态指数文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型微软提出KOSMOS-2.5，能阅读「文本密集图像」的多模态大语言模型破解一切模态，无限接近AGI！新加坡华人团队开源全能「大一统」多模态大模型 ACM MM 2023 | 清华、华为联合提出MISSRec：兴趣感知的多模态序列推荐预训练这座理想与现实交织的小城，太有生活了更加与主接近环法第十九天----催人泪下的兔子

热点事件追踪