Redian新闻
>
国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet

国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet

公众号新闻
简曈 发自 凹非寺
量子位 | 公众号 QbitAI

又一个国产多模态大模型开源!

XVERSE-V,来自元象,还是同样的无条件免费商用

此前元象曾率先发布国内规模最大的开源大模型,如今开源家族系列又多了一个。

最新的多模态大模型支持任意宽高比图像输入,在主流评测中保持着效果领先——

在多项权威多模态评测中,XVERSE-V超过零一万物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等开源模型。

在综合能力测评MMBench中超过了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名闭源模型。

支持任意长宽比图像输入

传统的多模态模型的图像表示只有整体,XVERSE-V 采用了融合整体和局部的策略,支持输入任意宽高比的图像。

兼顾全局的概览信息和局部的细节信息,能够识别和分析图像中的细微特征,看的更清楚,理解的更准确

这样的处理方式使模型可以应用于广泛的领域,包括全景图识别、卫星图像、古文物扫描分析等。

示例- 高清全景图识别
示例-图片细节文字识别

除了基本能力表现不错,也能轻松应对各种不同的实际应用场景,比如图表、文献、代码转化、视障真实场景等。

图表理解


不论是复杂图文结合的信息图理解,还是单一图表的分析与计算,模型都能够自如应对。

自动驾驶

代码撰写

还有视障真实场景

在真实视障场景测试集VizWiz中,XVERSE-V的表现超过了InternVL-Chat-V1.5、DeepSeek-VL-7B等几乎所有主流的开源多模态大模型。该测试集包含了来自真实视障用户提出的超过31000个视觉问答,能准确反映用户的真实需求与琐碎细小的问题,帮助视障人群克服他们日常真实的视觉挑战。

来自元象

元象XVERSE于2021年初在深圳成立。累计融资金额超过2亿美元,投资机构包括腾讯、高榕资本、五源资本、高瓴创投、红杉中国、淡马锡和CPE源峰等。

元象创始人姚星是前腾讯副总裁和腾讯AI Lab创始人、国家科技部新一代人工智能战略咨询委员会成员。

此前,元象在国内最早开源最大参数65B、全球最早开源最长上下文256K的MoE模型, 并在SuperCLUE测评全国领跑。

商业应用上,元象大模型是广东最早获得国家备案的模型之一 ,可向全社会提供服务。

元象大模型去年起已和多个腾讯产品,包括QQ音乐 、虎牙直播、全民K歌、腾讯云等,进行深度合作与应用探索,为文化、娱乐、旅游、金融领域打造创新领先的用户体验。

项目链接:
Hugging Face:https://huggingface.co/xverse/XVERSE-V-13B

ModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-V-13B
Github:https://github.com/xverse-ai/XVERSE-V-13B

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 2024轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare奇语共欣赏,疑义相与析—为“清场式遥遥领先”释义CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE2024年AIGC行业研究:多模态大模型与商业应用|36氪研究院【Poem Reading Tuesday】Sonnet 116 by William Shakespeare全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响万字长文总结多模态大模型最新进展(Modality Bridging篇)​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!HuggingFace烧钱做了一大批实验,揭示多模态大模型哪些trick真正有效长篇小说 侦破小组之迷案追踪 第三十五章北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生[龙年卜卦]退休的年纪国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑青烟一缕入大漠(八)北碚的记忆:多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告只要千元级,人人可用百亿级多模态大模型!国产「AI模盒」秒级训练推理新旧家具的联想荐书丨中山大学 HCP 实验室专著《多模态大模型》重磅发布「国家队」入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资北京/上海内推 | 小红书智能创作团队招聘多模态大模型算法工程师/实习生上海AI Lab开源首个可替代GPT-4V的多模态大模型0门槛免费商用!孟子3-13B大模型正式开源,万亿token数据训练Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂文末送书 | 中山大学HCP实验室专著《多模态大模型》重磅发布
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。