Redian新闻
>
TextBind:在开放世界中多轮交织的多模态指令跟随

TextBind:在开放世界中多轮交织的多模态指令跟随

科技

论文:TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild
地址:https://arxiv.org/abs/2309.08637

进NLP群—>加入NLP交流群

摘要

拥有指令跟随能力的大型语言模型已经彻底改变了人工智能领域。这些模型通过其自然语言界面展现出卓越的通用性,能够应对各种现实世界任务。

然而,它们的性能在很大程度上依赖于高质量的示例数据,通常难以获得。当涉及到多模态指令跟随时,这一挑战进一步加剧。

我们介绍了TextBind,这是一个几乎无需注释的框架,用于赋予更大型的语言模型多轮交织的多模态指令跟随能力

我们的方法仅需要图像描述对,并从语言模型生成多轮多模态指令-响应对话。我们发布了我们的数据集、模型和演示,以促进未来在多模态指令跟随领域的研究。

数据

TextBind提供了处理和生成任意交织的图像和文本内容的示例,使语言模型能够在开放世界场景中与用户进行自然互动。

模型

我们的模型包括一个图像编码器、一个图像解码器、一个语言模型,以及连接它们的桥接网络,支持多轮交织的多模态指令跟随。它可以生成并处理任意交织的图像和文本内容。

demo

语言模型能够执行各种任务,包括根据一组图像创作引人入胜的故事,比较多个图像中的共同和不同之处,用生动的图像解释概念,生成带有插图的长篇连贯故事等等。最有趣的是,我们模型的核心创新在于其能够在广泛的真实场景中与用户自然互动。欢迎访问我们的demo[1]

例子

参考资料

[1]

demo: https://ailabnlp.tencent.com/research_demos/textbind


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
沐潼开门红后,朝夕光年又一款TeamRPG下月发布,还是开放世界?破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型直播预约 | 在多领域交织的商业时代,教练式领导力如何帮助企业横跨周期?EAST、PixelLink、TextBoxes++、DBNet、CRNN…你都掌握了吗?一文总结OCR必备经典模型(二)国产大邮轮交付,西方工业上的明珠又少了一颗港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐环法第十九天----催人泪下的兔子传任天堂正在开发VR眼镜,谷歌参与其中; VR生存类Roguelike游戏《Bootstrap Island》正在开发中墨尔本新一轮交通中断又要来了!哪些线路会受影响?CTPN、TextBoxes、SegLink、RRPN、FTSN、DMPNet…你都掌握了吗?一文总结OCR必备经典模型(一)【万水千山, 一起走遍】台北故宫博物院, 至善园微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生北京大学:2023数字生态指数NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越ImagebindLlama2 7B中文魔改PK:「雅意」百万指令集微调 VS「伶荔」扩词+增量预训练+指令微调清华系ChatGLM3现场怼脸演示!多模态直逼GPT-4V,国产Code Interpreter来了文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型钗头凤 - 爱的星空“长三角水平都市:交织的资本” 国际城市设计展|杭州 11.18-12.10陈翠梅:在野蛮世界中寻找“我”ACL 2023 |信息减加法:基于特征去噪和主题增强的多模态关系抽取NeurIPS 2023 | InstructBLIP:指令微调训练通用视觉-语言模型这座理想与现实交织的小城,太有生活了你好,我是筚(bì)篥( lì)!长篇小说《如絮》第一百六十二章 旧金山-1967年 反战口号GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTCACM MM 2023 | 清华、华为联合提出MISSRec:兴趣感知的多模态序列推荐预训练更加与主接近从感知到理解-融合语言模型的多模态大模型研究实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。