Redian新闻
>
阿里云开源通义千问多模态视觉模型,号称“远超同等规模通用模型表现”

阿里云开源通义千问多模态视觉模型,号称“远超同等规模通用模型表现”

公众号新闻
随着ChatGPT的快速进化吸引了全球网友的眼球,国内厂商也纷纷表示将推出相似的产品。
而在前段时间,小编曾给大家整理过现在已经宣布推出的国产AI,包括百度“文心一言”、阿里巴巴“通义千问”、360“360智脑”等多款产品,其中百度的AI产品最早进行测试,目前已经可以在一些场景进行实际的应用。
而就在昨晚,阿里云推出了大规模视觉语言模型Qwen-VL,目前已经在 ModeScope 开源,并且据相关媒体之前报道,阿里云此前已经开源通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。
据悉,Qwen-VL是一款支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。
Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的LVLM模型通常仅支持224分辨率。
官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。
此外,在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。
通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基GPT-4打分机制的测试集“试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。
而据之前的介绍,此前阿里云已经开源了通义千问70亿参数模型,包括通用模型Qwen-7B和对话模型Qwen-7B-Chat,两款模型均已上线魔搭社区,开源、免费、可商用。
在今年4月时,阿里云发布了最新大语言模型“通义千问”。阿里云智能 CTO 周靖人曾表示,将开放通义千问的能力,帮助每家企业打造自己的专属大模型。据悉,阿里所有产品未来将接入通义千问进行全面改造,钉钉、天猫精灵率先接入测试,将在评估认证后正式发布新功能。
周靖人还介绍,未来每一个企业在阿里云上既可以调用通义千问的全部能力,也可以结合企业自己的行业知识和应用场景,训练自己的企业大模型,“所有软件都值得接入大模型升级改造”。
通过阿里云一步步操作来看,正在逐渐实现其之前的说法,对后续发展感兴趣的小伙伴可以保持关注。

近期文章精选

苹果 iPhone 15外观也有新调整,多款新配色、金色下线

曝小米汽车进入生产阶段,或明年上半年上市

苹果iPhone15或涨价?USB-C接口、全新静音按钮加持

曝华为Mate60支持卫星电话,继续“向上捅破天”!

华为Mate 60、苹果iPhone 15同天发布?旗舰竞争一触即发

高端手机哪款卖得好?苹果占一半,还有华为、小米

商务合作  [email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
阿里云通义千问开源;腾讯混元大模型开始应用内测;马斯克或从OpenAI买入域名Ai.com丨AIGC大事日报爱奇艺VR公司业务停滞,员工或被欠薪;阿里云开源通义千问 70 亿参数模型,免费可商用;华为正式发布鸿蒙 4,接入大模型|Q资讯免费、可商用,阿里云开源70亿参数通义千问大模型阿里云开源通义千问,曲阜师大室温超导实验未得出零电阻,特斯拉或年底完全自动驾驶,印度限制进口笔记本平板,这就是今天的其他大新闻!阿里云 CTO 周靖人:AI 时代,为什么阿里云一定要做开源阿里云通义千问140亿参数Qwen-14B发布;TCL中环签约首个绿电园区项目|绿研院日报大模型访问链接汇总:通义千问开放!Meta发布大规模视觉模型评估基准FACET!开源视觉模型DINOv2允许商用破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型LangChain+通义千问+AnalyticDB向量引擎保姆级教程阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报阿里将继续对阿里云进行分拆上市,传阿里云考虑从国有公司融资至多28亿美元腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统未央播报 | 25日起存量首套房贷利率批量下调 阿里云宣布开源通义千问14B模型阿里大模型又开源!能读图会识物,基于通义千问7B打造,可商用上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生多模态大语言模型综述来啦!一文带你理清多模态关键技术说一个在中国不知名的世界知名大学(272)他是独裁者吗?更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」用 Rust 编写核心组件!独家揭露阿里云开源 GraphScope 如何成为全球最快图计算引擎智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手苹果已研究生成式AI多年/阿里云开源通义千问70亿参数模型/新一代Switch最早本月宣布通义千问能看图了!阿里云开源视觉语言大模型 Qwen-VL ,支持图文双模态输入纽约州莫霍克山屋(Mohonk Mountain House),湖边山顶通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入苹果公布第三财季业绩:营收818亿美元;马斯克:有望年底实现完全自动驾驶;阿里云宣布通义千问开源;星巴克中国回应被瑞幸反超...小镇、垂樱、雪雀,玫瑰,丁香阿里云开源「通义千问」大模型;马斯克:特斯拉有望年底实现完全自动驾驶;妙鸭相机上线 B 端工作站 | 极客早知道阿里云通义千问全面开放|首席资讯日报数之联发表通用深度视觉模型可解释性工具,助力破解人工智能模型“黑箱”知乎 CEO 周源回应匿名功能下线;腾讯光子收购英国游戏开发商;Meta 开发新文生图大模型,号称业界最佳 | 极客早知道阿里云通义千问向全社会开放;OpenAI被作家起诉侵犯版权;工信部启动AGI等4大未来产业揭榜挂帅|AIGC周观察第十九期
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。