国际科技财经博客移民网络热点娱乐民生时事公众号

>

基础模型定义视觉新时代：综述与展望

基础模型定义视觉新时代：综述与展望

公众号新闻

2023-07-31 15:07

在本次综述中，我们对视觉基础模型进行了全面回顾，包括结合不同模态（视觉、文本、音频等）的典型架构设计、训练目标（对比、生成）、预训练数据集、微调机制，以及常见的提示模式。

进NLP群—>加入NLP交流群

论文：Foundational Models Defining a New Era in Vision: A Survey and Outlook

地址：https://arxiv.org/pdf/2307.13721.pdf

项目：https://https://github.com/awaisrauf/Awesome-CV-Foundational-Modelsesome-CV-Foundational-Models

用于观察和推理视觉场景的组成性质的视觉系统是理解我们的世界的基础。现实世界环境中物体及其位置、模糊性和变化之间的复杂关系可以用人类语言更好地描述，自然地受到语法规则和其他模式（例如音频和深度）的控制。

这些模型学会了弥合这些模式之间的差距，并与大规模训练数据相结合，促进测试时的上下文推理、泛化和提示能力。这些模型被称为基础模型。

此类模型的输出可以通过人类提供的提示进行修改，而无需重新训练，例如，通过提供边界框来分割特定对象，通过询问有关图像或视频场景的问题来进行交互式对话，或者通过语言指令来操纵机器人的行为。

在本次调查中，我们对此类新兴基础模型进行了全面回顾，包括结合不同模态（视觉、文本、音频等）的典型架构设计、训练目标（对比、生成）、预训练数据集、微调机制，以及常见的提示模式；文本、视觉和异构。

我们讨论计算机视觉基础模型的开放挑战和研究方向，包括评估和基准测试的困难、现实世界理解的差距、上下文理解的局限性、偏见、对抗性攻击的脆弱性和可解释性问题。

我们回顾了该领域的最新发展，系统、全面地涵盖了基础模型的广泛应用。

进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

展望后摩尔时代：中国芯片科学十大进展全解析文革“G”与“P”辨 ICCV 2023 | 新注意力！清华黄高团队提出FLatten Transformer视觉新主干 Unity暴林超：Unity引擎在AIGC技术有哪些新趋势与展望？美联储暂停加息：原因、影响与展望大规模视觉基础模型应用在线研讨会上线！南开、港中文、南京理工和微软亚洲研究院的四位青年学者将直播讲解 “伶荔（Linly）”项目团队全新发布中文Falcon基础模型 College Essay系列（三十二）：Waitlist 文书之 Williams 和 Vanderbilt 斯坦福大学教授 Jure Leskovec：基础模型在全科医学人工智能中的应用潜力 the juxtaposition of these two images-juxtaposing hard and soft,最新综述！南洋理工和上海AI Lab提出基于Transformer的视觉分割综述上交大&上海AI lab研发胸部X-ray疾病诊断基础模型，成果入选Nature子刊新时代•新财富•新价值招商银行携手富国基金等合作伙伴探讨把握新时代发展趋势基础模型自监督预训练的数据之谜：大量数据究竟是福还是祸？ICCV 2023 | 中科大&微软提出AFFNet：轻量级视觉新主干【双养日课】视觉｜视觉激发，塑造认知基础 ACL 2023 | 持续进化中的语言基础模型美女口述与黑学生的不堪往事！云岫资本：2023中国半导体投资深度分析与展望报告视觉新任务！ReVersion：图像生成中的Relation定制化 IBM：拥抱基础模型与生成式AI，迎接“AI+”新时代长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法 OpenAI劲敌融资13亿美元；中国团队推首颗AI全自动设计CPU；全球首个医疗多模态基础模型群发布丨AIGC大事日报里斯本唐路易斯花园(Jardim Dom Luis)，城中花园比亚迪旗下方程豹汽车公布品牌 LOGO，首款车型定位新能源硬派越野剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型 Nat Immunol：综述了新冠病毒的储存库研究 iPhone15及Plus新增青绿色 / 卢伟冰爆料小米MIX Fold3下月发布 / 比亚迪方程豹首款车型定名“豹5”...浙大滨江院Om中心发布首个大规模图文配对遥感数据集，让通用基础模型也能服务遥感领域财报会议新时代：如何将 AI 训练成资深 CFO Meta发布大规模视觉模型评估基准FACET！开源视觉模型DINOv2允许商用清华人工智能研究院「基础模型研究中心」成立！唐杰任研究中心主任，孙茂松任首席科学家 NLP七十年！斯坦福教授Manning长文梳理：十年后的基础模型能成AGI吗？那条令人生更完整的T线转发 | 大模型驱动的创新时代：技术、应用与创投机遇

热点事件追踪