Redian新闻
>
元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

公众号新闻

人类获取的信息83%来自视觉,图文多模态大模型能感知更丰富和精确的真实世界信息,构建更全面的认知智能,从而向AGI(通用人工智能)迈出更大步伐。

元象今日发布多模态大模型 XVERSE-V ,支持任意宽高比图像输入,在主流评测中效果领先。该模型全开源,无条件免费商用,持续推动海量中小企业、研究者和开发者的研发和应用创新。

XVERSE-V 性能优异,在多项权威多模态评测中超过零一万物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等开源模型,在综合能力测评MMBench中超过了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名闭源模型。

图. 多模态大模型综合评测



1

融合整体和局部的高清图像表示

传统的多模态模型的图像表示只有整体,XVERSE-V  创新性地采用了融合整体和局部的策略,支持输入任意宽高比的图像。兼顾全局的概览信息和局部的细节信息,能够识别和分析图像中的细微特征,看的更清楚,理解的更准确。

注:Concate* 表示按列进行拼接

这样的处理方式使模型可以应用于广泛的领域,包括全景图识别、卫星图像、古文物扫描分析等。

示例- 高清全景图识别 、图片细节文字识别

免费下载大模型

  • Hugging Face:https://huggingface.co/xverse/XVERSE-V-13B

  • ModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-V-13B

  • Github:https://github.com/xverse-ai/XVERSE-V-13B

  • 问询发送:[email protected]

商业合作

微信添加:lixing_lixing

元象持续打造国内开源标杆,在国内最早开源最大参数65B全球最早开源最长上下文256K以及国际前沿的MoE模型, 并在SuperCLUE测评全国领跑。此次推出MoE模型, 填补 国产开源空白,更将其 推向了国际领先水 平。

商业应用上,元象大模型是广东最早获得国家备案的模型之一,可向全社会提供服务。元象大模型去年起已和多个腾讯产品,包括QQ音乐、虎牙直播、全民K歌、腾讯云等,进行深度合作与应用探索,为文化、娱乐、旅游、金融领域打造创新领先的用户体验。



2

 多方向实际应用表现突出

模型不仅在基础能力上表现出色,在实际的应用场景中也有着出色的表现。具备不同场景下的理解能力,能够处理信息图、文献、现实场景、数理题目、科学文献、代码转化等不同需求。

  • 图表理解

不论是复杂图文结合的信息图理解,还是单一图表的分析与计算,模型都能够自如应对。

  • 视障真实场景

在真实视障场景测试集VizWiz中,XVERSE-V 表现出色,超过了InternVL-Chat-V1.5、DeepSeek-VL-7B 等几乎所有主流的开源多模态大模型。该测试集包含了来自真实视障用户提出的超过31,000个视觉问答,能准确反映用户的真实需求与琐碎细小的问题,帮助视障人群克服他们日常真实的视觉挑战。

VizWiz测试示例

  • 看图内容创作

XVERSE-V 具备多模态能力的同时保持强大的文本生成能力,能够很好胜任理解图像后创造性文本生成的任务。

  • 教育解题

模型具备了广泛的知识储备和逻辑推理能力,能够识别图像解答不同学科的问题。

  • 百科解答

模型储备了历史、文化、科技、安全等各类主题的知识。

  • 代码撰写

  • 自动驾驶

  • 情感理解与识别

元象公司介绍

一元复始,万象更新。元象 XVERSE 于 2021 年初在深圳成立,是国内领先的 AI 与 3D 技术服务公司,致力于打造 AI 驱动的 3D 内容生产与消费一站式平台,愿景为“定义你的世界”。


元象创始人姚星是前腾讯副总裁和腾讯 AI Lab 创始人、国家科技部新一代人工智能战略咨询委员会成员。元象累计融资金额超过 2 亿美元,投资机构包括腾讯、高榕资本、五源资本、高瓴创投、红杉中国、淡马锡和CPE源峰等。


元象获国家“专精特新”、“高新技术企业”认证,团队目前有75%为研发人员(60%为硕博学历)。公司积极推动前沿技术自主研发,在3D领域,自研行业引领性的“端云协同” 3D 互动技术,开创零门槛(轻)、一站式(快)、高品质(美)全新 3D 体验;在AI领域,公司最早开源国内最大参数大模型(650亿)、世界最长上下文长度(256K)在内的一系列高性能大模型,免费可商用,将国产开源提升至国际一流水平,积极推动大模型国产可替代和行业应用发展。


元象已经为多家龙头企业提供一站式技术与服务,包括:澳门大三巴、南京大报恩寺、央视、腾讯音乐TMELAND、华为、一汽大众、阿迪达斯、中国平安、中科院深圳先进院等。


公司注册名:深圳元象信息科技有限公司

官网:www.XVERSE.cn

官微:元象 XVERSE


Logo下载

链接: https://pan.baidu.com/s/1fB-zoITVJZ7Znv5IVe-fZg 

提取码: rav0 

更多内容,点击下方关注:

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
只要千元级,人人可用百亿级多模态大模型!国产「AI模盒」秒级训练推理熵泱——第二十九章8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare两轮游中国 - 我的所见,所闻和所想 中华大地任我行 西江千户苗寨(2)国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 2024统一角色、百变场景,视频生成神器PixVerse被网友玩出了花,超强一致性成「杀招」上海AI Lab开源首个可替代GPT-4V的多模态大模型2024年AIGC行业研究:多模态大模型与商业应用|36氪研究院AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准GPT-4o仅排第二!北大港大等6所高校联手,发布权威多模态大模型榜单!荐书丨中山大学 HCP 实验室专著《多模态大模型》重磅发布Apple多模态最新工作4M-21:搞定21种模态!刷新多个SOTA!文末送书 | 中山大学HCP实验室专著《多模态大模型》重磅发布清华开源全球首个基于U-ViT的多模态扩散大模型UniDiffuser​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!美股基本面 - 2024_02_28 * 午报 * 比特币狂飙至60,000美元上方 追捧者看好它再创新高。越来越多的美国大学中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响北京内推 | 中国电信人工智能研究院招聘多模态大模型算法研发实习生「国家队」入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度北京/上海内推 | 小红书智能创作团队招聘多模态大模型算法工程师/实习生北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便带着“奶奶和外婆”进军奥斯卡颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑无需OpenAI数据,跻身代码大模型榜单!UIUC发布StarCoder-15B-Instruct双林奇案录第三部之校园疑案:第十三节多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告HuggingFace烧钱做了一大批实验,揭示多模态大模型哪些trick真正有效万字长文总结多模态大模型最新进展(Modality Bridging篇)五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。