Redian新闻
>
基础模型定义视觉新时代:综述与展望

基础模型定义视觉新时代:综述与展望

公众号新闻

在本次综述中,我们对视觉基础模型进行了全面回顾,包括结合不同模态(视觉、文本、音频等)的典型架构设计、训练目标(对比、生成)、预训练数据集、微调机制,以及常见的提示模式。

进NLP群—>加入NLP交流群


论文:Foundational Models Defining a New Era in Vision: A Survey and Outlook

地址:https://arxiv.org/pdf/2307.13721.pdf

项目:https://https://github.com/awaisrauf/Awesome-CV-Foundational-Modelsesome-CV-Foundational-Models

用于观察和推理视觉场景的组成性质的视觉系统是理解我们的世界的基础。现实世界环境中物体及其位置、模糊性和变化之间的复杂关系可以用人类语言更好地描述,自然地受到语法规则和其他模式(例如音频和深度)的控制。


这些模型学会了弥合这些模式之间的差距,并与大规模训练数据相结合,促进测试时的上下文推理、泛化和提示能力。这些模型被称为基础模型。



此类模型的输出可以通过人类提供的提示进行修改,而无需重新训练,例如,通过提供边界框来分割特定对象,通过询问有关图像或视频场景的问题来进行交互式对话,或者通过语言指令来操纵机器人的行为。



在本次调查中,我们对此类新兴基础模型进行了全面回顾,包括结合不同模态(视觉、文本、音频等)的典型架构设计、训练目标(对比、生成)、预训练数据集、微调机制 ,以及常见的提示模式;文本、视觉和异构。





我们讨论计算机视觉基础模型的开放挑战和研究方向,包括评估和基准测试的困难、现实世界理解的差距、上下文理解的局限性、偏见、对抗性攻击的脆弱性和可解释性问题。



我们回顾了该领域的最新发展,系统、全面地涵盖了基础模型的广泛应用。

















进NLP群—>加入NLP交流群


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法NLP七十年!斯坦福教授Manning长文梳理:十年后的基础模型能成AGI吗?财报会议新时代:如何将 AI 训练成资深 CFO大规模视觉基础模型应用在线研讨会上线!南开、港中文、南京理工和微软亚洲研究院的四位青年学者将直播讲解Nat Immunol:综述了新冠病毒的储存库研究斯坦福大学教授 Jure Leskovec:基础模型在全科医学人工智能中的应用潜力那条令人生更完整的T线新时代•新财富•新价值 招商银行携手富国基金等合作伙伴探讨把握新时代发展趋势云岫资本:2023中国半导体投资深度分析与展望报告College Essay系列(三十二):Waitlist 文书 之 Williams 和 Vanderbilt【双养日课】视觉|视觉激发,塑造认知基础浙大滨江院Om中心发布首个大规模图文配对遥感数据集,让通用基础模型也能服务遥感领域美女口述与黑学生的不堪往事!美联储暂停加息:原因、影响与展望文革“G”与“P”辨转发 | 大模型驱动的创新时代:技术、应用与创投机遇the juxtaposition of these two images-juxtaposing hard and soft,基础模型自监督预训练的数据之谜:大量数据究竟是福还是祸?Meta发布大规模视觉模型评估基准FACET!开源视觉模型DINOv2允许商用比亚迪旗下方程豹汽车公布品牌 LOGO,首款车型定位新能源硬派越野上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊OpenAI劲敌融资13亿美元;中国团队推首颗AI全自动设计CPU;全球首个医疗多模态基础模型群发布丨AIGC大事日报清华人工智能研究院「基础模型研究中心」成立!唐杰任研究中心主任,孙茂松任首席科学家视觉新任务!ReVersion:图像生成中的Relation定制化剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型“伶荔(Linly)”项目团队全新发布中文Falcon基础模型ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干里斯本唐路易斯花园(Jardim Dom Luis),城中花园综述 | 多模态大模型最全综述来了!IBM:拥抱基础模型与生成式AI,迎接“AI+”新时代ICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干iPhone15及Plus新增青绿色 / 卢伟冰爆料小米MIX Fold3下月发布 / 比亚迪方程豹首款车型定名“豹5”...展望后摩尔时代:中国芯片科学十大进展全解析ACL 2023 | 持续进化中的语言基础模型最新综述!南洋理工和上海AI Lab提出基于Transformer的视觉分割综述
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。