Redian新闻
>
跟着开源的InternVL,学习如何做自己的GPT-4V

跟着开源的InternVL,学习如何做自己的GPT-4V

公众号新闻


随着人工智能生成内容(AIGC)的快速发展,多模态大型语言模型(MLLM)在理解和生成结合视觉与语言的信息方面展现出巨大潜力。然而,现有的开源MLLM与商业模型之间存在性能差距。为了应对这一挑战,书生图像大模型InternVL 1.0模型作为早期的开源尝试,通过将视觉基础模型扩展到6亿参数,并与大型语言模型进行对齐,为缩小这一差距奠定了基础。

在1.0模型的基础上,InternVL 1.5引入了三项创新设计,进一步提升了模型的性能:

1.强大的视觉编码器:通过连续学习策略,InternViT-6B模型的视觉理解能力得到了显著提升,使其能够在不同的大型语言模型中进行迁移和重用。

2.动态高分辨率:InternVL 1.5能够根据输入图像的宽高比和分辨率,将图像动态划分为不同数量的448×448图像块,最高支持4K分辨率的输入,这为处理高分辨率图像提供了更高的灵活性和效率。

3.高质量双语数据集:研究团队精心构建了一个覆盖常见场景和文档图像的高质量双语数据集,并用英语和中文进行了问答对标注,显著增强了模型在OCR和中文相关任务中的性能。这些创新使得InternVL 1.5在多模态任务中的性能得到了显著提升,有效地缩小了开源模型与商业模型之间的性能差距。

为了更好的帮助大家了解这项工作,机器之心最新一期线上分享将带来最新的书生图像大模型InternVL系列模型的全面介绍。

分享主题:我们离GPT-4V还有多远?通过开源套件缩小与商用多模态模型之间的差距

嘉宾介绍:

王文海:南京大学博士,香港中文大学博士后。研究方向为视觉基础模型研究,上海人工智能实验室“书生”系列视觉基础模型核心开发者。主要成果发表在顶级期刊和会议TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共43篇论文,其中19篇为一作/共一/通信。研究成果获得了总共超1.6万次引用,单篇最高引用超3000次。研究成果分别入选CVPR 2023最佳论文,世界人工智能大会青年优秀论文奖,CVMJ 2022最佳论文提名奖,两次入选ESI高被引论文(前1%)和热点论文(前0.1%),6次入选Paper Digest CVPR、ICCV、NeurIPS、ECCV年度十大最具影响力论文,一次入选Zeta Alpha 2022年百篇最高引AI论文。入选斯坦福大学2023年度全球前2%顶尖科学家,CSIG优博提名。担任CSIG VI编委,IJCAI 2021的高级程序委员会委员,以及TPAMI、IJCV、CVPR、ICCV、ECCV等多个顶级国际会议/期刊的程序委员会委员/审稿人。

陈喆:南京大学二年级在读博士,导师是路通教授。在顶级国际期刊和会议上发表学术论文11篇,谷歌学术总引用1120余次。所发表工作InternImage入选CVPR2023年度十大最有影响力论文,InternVL入选CVPR2024 Oral论文,并有多篇工作被选为CVPR Highlight、ICLR Spotlight论文。入选国家自然科学基金青年学生基础研究项目(博士研究生),在NAIC 2020、WSDM Cup 2023等竞赛中取得冠军。

分享摘要:在本次分享中,将全面介绍最新的书生图像大模型InternVL系列模型,包括InternVL 1.0和1.5。讨论1.0版本在视觉基础模型以及多模态大型语言模型(MLLM)领域的初步探索和所取得的进展。重点介绍1.5版本的核心改进,如视觉编码器的连续学习策略、动态高分辨率处理以及高质量双语数据集的构建。此外,将展示这些改进如何推动模型在多模态任务上的性能提升,并探讨InternVL系列模型在AIGC领域的应用潜力和未来发展。
相关链接:
  • InternVL 1.0: https://arxiv.org/abs/2312.14238

  • InternVL 1.5: https://arxiv.org/abs/2404.16821

  • 项目代码:https://github.com/OpenGVLab/InternVL

直播间:关注机器之心机动组视频号,立即预约直播。

机动组技术交流群:添加小助手好友备注「研究方向」,获取行业一手资讯,欢迎大家进群聊聊。



机器之心 · 机动组
机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。


点击阅读原文,直达机动组官网,查看往期回顾。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
目标G5,学习4门Alevel已是“常态”?如何做好Alevel预习准备?完全开源!谢赛宁发布最新SOTA多模态模型Cambrian-1,“不与GPT-4V媲美”BVLGARI宝格丽于罗马发布AETERNA华彩永续高级珠宝系列多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键A-Level脱产1年申UCL,成功了!!他是如何做到?Twitter的中国人,机器学习玩SQL,牛逼大了。。。上海AI Lab开源首个可替代GPT-4V的多模态大模型一眼假!GPT4V可有效识别DeepFake图像!爆胎以後的流水帳端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?完全开源的现代化IDE正式发布:支持云端和桌面、兼容VS Code扩展、全球最大开源基金会打造Tencent America | 超多Intern机会!含金量高!留子速戳投递!How a Student’s Fake Exercise Book Broke the Chinese Internet今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准《阴阳鱼》连载第42章:时间如刀,空间如砧板,而你我都不过是鱼肉降薪潮下,如何做自媒体成功变现?毯叔5年IP实操心法,首次直播公开GLM-4开源版本终于来了:超越Llama3,多模态比肩GPT4V,MaaS平台也大升级一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V零一万物 API 上线,用户反馈多模态中文图表体验超过 GPT-4V参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑品牌周报|​​​珀莱雅母亲节策划又戳心窝子、HBN走进「一个」妈妈的真实生活、ubras 8周年邀请女性做自己的头号粉T100比赛,pro们惊人的实力[日签] ​我不惧怕风暴,因为我在学习如何驾驶风帆LangChain与Semantic Kernel,大模型开发应用的框架,都用上了吗?超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源今日实习|亚马逊开启Tech Business Developer Intern,学士学位即可报名!花了35年时间,我才懂得如何做自己向水蛭学习如何更好地“吸血”,新型采血设备想让你不用再害怕针头……安远AI&北京大学:2024基础模型的负责任开源-超越开源闭源的二元对立:负责任开源的内涵、实践与方案报告Her Boyfriend Killed Himself. The Internet Blamed Her.国产端侧小模型超越 GPT-4V,「多模态」能力飞升美股基本面 - 2024_03_12 * 晚报 * 美国核心通胀高于预期 市场仍预测6月最可能降息 欧洲股指创新高 丰田成亚洲1959-1961 famine predisposed on diabetes...8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。