Redian新闻
>
图文并茂,三步速出「原神」文稿!首个70亿参数图文混合创作大模型正式开源,一键生成神作

图文并茂,三步速出「原神」文稿!首个70亿参数图文混合创作大模型正式开源,一键生成神作

公众号新闻



  新智元报道  

编辑:桃子 好困
【新智元导读】AI动嘴的时代,创意文稿谁还用手写。上海人工智能实验室推出了首个图文混合创作大模型「书生·浦语灵笔」,三步就能生成图文并茂的神作,现正式开源。


解放双手,动嘴码字时代真的来了。
当你想写一份「原神」的宣传文稿时,根本完全不用上网翻找收集各种材料,只需要给模型一个指令「帮我以原神为题写一篇文章」。
游戏背景现、上市时间、影响力等要点已经成文。接下来,你还可以让LLM自动插入趣味、生动的配图。
一眨眼的功夫,专属定制的神作就完成了。
那么,究竟是什么模型有如此神力?
它就是,书生·浦语灵笔(InternLM-XComposer,以下简称「浦语灵笔」)。这是上海人工智能实验室(上海AI实验室)推出的首个图文混合创作大模型。

依托强大的多模态性能,可以解锁「一键生成」图文混合文章的创作能力,为大模型落地应用提供更多可能。

目前,浦语灵笔已开源其中的智能创作和对话(InternLM-XComposer-7B)及多任务预训练(InternLM-XComposer-VL-7B)版本,并提供免费商用。

开源链接:https://github.com/InternLM/InternLM-XComposer

技术报告:https://arxiv.org/abs/2309.15112

今年7月以来,上海AI实验室陆续开源了书生·浦语大语言模型的7B(InterLM-7B)及20B(InternLM-20B)版本,为业界提供了完整的大模型研发与应用基座,以及全链条工具体系。
基于书生·浦语大语言模型(InternLM),浦语灵笔接受视觉和语言模态输入,不仅在图文对话方面表现优秀,更具备图文并茂文章的「一键生成」能力。

准确图文理解,一键图文并茂


浦语灵笔能够进行流利的中英文图文对话,准确理解图像内容。得益于书生·浦语高质量多语言预训练的优势,浦语灵笔表现出对中国文化深厚的知识积淀。

例如,向浦语灵笔输入相关画作,其迅速识别并反馈画作表现主题为《赤壁之战》典故,亦能准确介绍影响成败的关键因素,体现出在图像内容理解和知识储备方面的优秀性能。

浦语灵笔识别中国文化典故

在多模态图文对话的「基本功」之上,浦语灵笔更是解锁了图文并茂文章创作的全新能力。

大语言模型(LLM)具备文本写作的能力,然而高质量文章往往需要准确且有趣的插图才「更显生动」。

浦语灵笔团队将书生·浦语强大的语言能力向多模态拓展,使其能够完成多模态文章创作。用户仅需提供主题,便可一键生成图文并茂的文章,体验全新的视觉与文本创作范式。

例如,向浦语灵笔提出创作一篇旅游攻略,该模型可迅速生成涵盖历史沿革、主要景点文物介绍的长篇文章,并在适当位置自动插入与文字信息对应的图片。

除自动配图能力外,浦语灵笔还提供了配图推荐和更换功能,根据用户实际需求定制图文内容。

浦语灵笔生成中文旅游攻略

目前,浦语灵笔已支持科普文稿、营销广告、新闻稿件、影视评论、生活指南等类型文章的图文并茂生成,并将逐渐开放更多能力,适应更多样化任务需求。

浦语灵笔生成英文电影评论

图文文章创作「三步走」


浦语灵笔为图文文章创作设计了「三步走」的算法流程。

浦语灵笔图文文章创作流程

理解用户指令,创作符合主题要求的长文章:浦语灵笔具有强大的写作能力,根据用户输入的主题,创作出文采斐然的文章。

智能分析文章,模型自动规划插图的理想位置,并生成所需图像的内容要求:浦语灵笔自动分析文章内容和段落布局,规划需要插图图片的位置。对于每个模型判断需要插图的位置,同时生成对图片内容需求的描述。

多层次智能筛选,利用多模态大模型的图像理解能力,从图库中锁定最完美的图片:采用从粗筛到精选的配图策略,根据生成图像内容需求,浦语灵笔会首先采用图文检索(Text-Image Retrieval)方式从海量图库中选择出一组候选图片。随后,利用多模态大模型强大的图像理解能力,将候选图片作为输入内容,让模型自动选择最符合文章上下文内容和整体图像风格的图片,完成文章的自动配图。

能力评测:综合领先开源多模态大模型


浦语灵笔出色的图文创作效果,得益于其多任务预训练模型(InternLM-XComposer-VL-7B)强大的多模态理解能力。

研究人员采用5个主流的多模态大模型评测对InternLM-XComposer-VL-7B的能力进行了详细测试,包含:

- MME Benchmark:包括14个子任务的多模态模型全面评测,关注模型的感知(Perception)和认知(Recognition)能力;
- MMBench:包括20个能力纬度和使用ChatGPT循环评估策略的多模态评测;
- MMBench-CN:简体中文版本问题和答案的MMBench评测;
- Seed-Bench:提供包括人工标注的1.9万道多模态多选题目的多模态评测;

- CCBench:针对中国文化理解的中文多模态评测。

评测结果显示,在上述5项中英文多模态评测中,浦语灵笔均体现出卓越性能。

浦语灵笔与其他开源模型的性能对比

MME Benchmark关注模型的感知(Perception)和认知(Recognition)能力,浦语灵笔综合性能领先。

MMBench包括了20个能力项,浦语灵笔取得了最佳成绩。

MMBench-CN是中文版本的MMBench评测,关注模型的中文多模态理解能力,浦语灵笔亦取得了最佳成绩,体现了强大的中文能力。

SEED-Bench 提供包括人工标注的1.9万道多模态多选题目,覆盖12个评测维度,浦语灵笔在图像内容理解上准确率表现出色。

在针对中国文化理解设计的多模态评测CCBench,浦语灵笔评测成绩均大幅度领先,生动体现其在中国文化方面深厚的知识积淀。

浦语灵笔现已开源,同时上线GitHub、Hugging Face及魔搭社区(ModelScope),欢迎开发者下载试用。





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国产720亿参数开源免费模型来了!对标Llama2 70B,一手实测在此1300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源AMD王宏强:700亿参数大模型单个GPU部署,做好AI软件和生态实现“开箱即用”丨GACS 2023贾佳亚团队开源全球首个70B长文本大语言模型,读论文看小说直接ProMax国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4K2乔戈里,上交大团队推出一个70亿参数的地球科学大语言模型MiniGPT-5来了!图文并茂的全新生成方式!百度网盘变了!进化成学习神器:音视频转文稿、加字幕,还能一键生成PPT!又鸟马户米田共这些玩意儿太低级了吧新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学全球最强CPU一夜易主,130亿参数大模型被塞进PC,没网也能生成邮件周报PPT感時二首第一次和走线偷渡人士面对面正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维孩子的学校装上了金属探测器720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑AI早知道|微软Copilot将可免费使用GPT-4Turbo; 国产670亿参数大模型DeepSeek亮相首款生成式AI移动芯片天玑9300:能跑330亿参数大模型英伟达英特尔推改良版芯片重回中国市场?产业链人士称属实;阿里巴巴CEO吴泳铭:即将开源国内最大的720亿参数大模型丨AIGC日报全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens古斯塔夫·克林姆特(Gustav Klimt)的金色《封神演义》插画典藏版,图文并茂展现封神世界,看懂中国人的英雄史诗打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训中文在线宣布发布“逍遥”大模型,可一键生成万字小说;谷歌称将保护生成式人工智能用户免受版权索赔丨AIGC日报传滴滴造车VP创业大模型;澜舟科技推出400亿参数通用大模型;商汤AIGC相关收入增长670.4%疯了吧!价值3000的效果图能一键生成,ENSCAPE要成为渲染界的天花板?(附参数下载)11人狂训2个月,马斯克精准狙击OpenAI!xAI首个大模型Grok炸场,330亿参数每月16刀图文并茂,HashMap 这篇写得太好了!!阿拉伯语AI大模型Jais正式开源,参数达130亿1800亿参数,性能碾压Llama 2,世界最强开源大模型Falcon 180B发布7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023李开复旗下340亿参数开源大模型被指“套壳LLaMA”,最新回应来了!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。