Redian新闻
>
CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻

CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻

科技新闻
机器之心报道

机器之心编辑部

CV 研究者接下来的路要怎么走?

「这下 CV 是真不存在了。< 快跑 >」这是知乎网友对于一篇 Meta 新论文的评价。

如标题所述,这篇论文只做了一件事情:(零样本)分割一切。类似 GPT-4 已经做到的「回答一切」。


Meta 表示,这是第一个致力于图像分割的基础模型。自此,CV 也走上了「做一个统一某个(某些?全部?)任务的全能模型」的道路。


在此之前,分割作为计算机视觉的核心任务,已经得到广泛应用。但是,为特定任务创建准确的分割模型通常需要技术专家进行高度专业化的工作,此外,该项任务还需要大量的领域标注数据,种种因素限制了图像分割的进一步发展。

Meta 在论文中发布的新模型名叫 Segment Anything Model (SAM) 。他们在博客中介绍说,「SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』上即开即用,无需额外的训练。」在深度学习领域,这种能力通常被称为零样本迁移,这也是 GPT-4 震惊世人的一大原因。

  • 论文地址:https://arxiv.org/abs/2304.02643

  • 项目地址:https://github.com/facebookresearch/segment-anything

  • Demo 地址:https://segment-anything.com/

除了模型,Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B),据称这是有史以来最大的分割数据集。该数据集可用于研究目的,并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。

我们先来看看效果。如下面动图所示,SAM 能很好的自动分割图像中的所有内容:

SAM 还能根据提示词进行图像分割。例如输入 Cat 这个提示词,SAM 会在照片中的几只猫周围绘制框并实现分割:

SAM 还能用交互式点和框的方式进行提示:

此外,SAM 还能为不明确的提示生成多个有效掩码:

英伟达人工智能科学家 Jim Fan 表示:「对于 Meta 的这项研究,我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)和模棱两可的情况下也能进行很好的图像分割。最重要的是,模型和数据都是开源的。恕我直言,Segment-Anything 已经把所有事情(分割)都做的很好了。」


推特地址:https://twitter.com/DrJimFan/status/1643647849824161792

还有网友表示,NLP 领域的 Prompt 范式,已经开始延展到 CV 领域了,可以预想,今年这类范式在学术界将迎来一次爆发。

更是有网友表示蚌不住了,SAM 一出,CV 是真的不存在了。投稿 ICCV 的要小心了。


不过,也有人表示,该模型在生产环境下的测试并不理想。或许,这个老大难问题的解决仍需时日?

方法介绍

此前解决分割问题大致有两种方法。第一种是交互式分割,该方法允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。第二种,自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(例如,数千甚至数万个分割猫的例子)。这两种方法都没有提供通用的、全自动的分割方法。

SAM 很好的概括了这两种方法。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、boxes、文本等),就可以完成范围广泛的分割任务。

总而言之,这些功能使 SAM 能够泛化到新任务和新领域。这种灵活性在图像分割领域尚属首创。

Meta 表示,他们受到语言模型中提示的启发,因而其训练完成的 SAM 可以为任何提示返回有效的分割掩码,其中提示可以是前景、背景点、粗框或掩码、自由格式文本,或者说能指示图像中要分割内容的任何信息。而有效掩码的要求仅仅意味着即使提示不明确并且可能指代多个对象(例如,衬衫上的一个点可能表示衬衫或穿着它的人),输出也应该是一个合理的掩码(就如上面动图「SAM 还能为为不明确的提示生成多个有效掩码」所示)。此任务用于预训练模型并通过提示解决一般的下游分割任务。

如下图所示 ,图像编码器为图像生成一次性嵌入,而轻量级编码器将提示实时转换为嵌入向量。然后将这两个信息源组合在一个预测分割掩码的轻量级解码器中。在计算图像嵌入后,SAM 可以在 50 毫秒内根据网络浏览器中的任何提示生成一个分割。


在 web 浏览器中,SAM 有效地映射图像特征和一组提示嵌入以产生分割掩码

1100 万张图片,1B+ 掩码

数据集是使用 SAM 收集的。标注者使用 SAM 交互地注释图像,之后新注释的数据又反过来更新 SAM,可谓是相互促进。

使用该方法,交互式地注释一个掩码只需大约 14 秒。与之前的大规模分割数据收集工作相比,Meta 的方法比 COCO 完全手动基于多边形的掩码注释快 6.5 倍,比之前最大的数据注释工作快 2 倍,这是因为有了 SAM 模型辅助的结果。

最终的数据集超过 11 亿个分割掩码,在大约 1100 万张经过许可和隐私保护图像上收集而来。SA-1B 的掩码比任何现有的分割数据集多 400 倍,并且经人工评估研究证实,这些掩码具有高质量和多样性,在某些情况下甚至在质量上可与之前更小、完全手动注释的数据集的掩码相媲美 。

Segment Anything 对使用数据引擎收集的数百万张图像和掩码进行训练的结果,得到一个包含 10 亿个分割掩码的数据集,是以往任何分割数据集的 400 倍。

SA-1B 的图像来自跨不同地理区域和收入水平的多个国家或地区的照片提供者,在拥有更多图像的同时对所有地区的总体代表性也更好。Meta 分析了其模型在感知性别表现、感知肤色和年龄范围方面的潜在偏差,结果发现 SAM 在不同群体中的表现类似。

SA-1B 可以帮助其他研究人员训练图像分割的基础模型。Meta 也进一步希望这些数据能够成为带有附加注释的新数据集的基础,例如与每个 mask 相关的文本描述。

未来展望

通过研究和数据集共享,Meta 希望进一步加速对图像分割以及更通用图像与视频理解的研究。可提示的分割模型可以充当更大系统中的一个组件,执行分割任务。作为一种强大的工具,组合(Composition)允许以可扩展的方式使用单个模型,并有可能完成模型设计时未知的任务。

Meta 预计,与专门为一组固定任务训练的系统相比,基于 prompt 工程等技术的可组合系统设计将支持更广泛的应用。SAM 可以成为 AR、VR、内容创建、科学领域和更通用 AI 系统的强大组件。比如 SAM 可以通过 AR 眼镜识别日常物品,为用户提供提示。


SAM 还有可能在农业领域帮助农民或者协助生物学家进行研究。


未来在像素级别的图像理解与更高级别的视觉内容语义理解之间,我们将看到更紧密的耦合,进而解锁更强大的 AI 系统。

参考链接:

https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/

https://www.zhihu.com/question/593914819

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
来源: qq
相关阅读
假开源真噱头?Meta再陷「开源」争议,LeCun被炮轰Meta只是开放模型思维链不存在了?纽约大学最新研究:推理步骤可「省略」舔狗不存在了ChatGPT 语音酷似「寡姐」,本人回应/微软发布「Copilot + PC」/理想今年不再发布新纯电车型“GPT-5”发布时间曝光!GPT-3是幼儿,GPT-4像高中生,新一代大模型将达博士水平用GPT-4纠错GPT-4!OpenAI推出CriticGPT模型;谷歌Gemma 2发布,与第一代相比性能更高丨AIGC日报Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了Google 发布「AI 全家桶」反击 GPT-4o !搜索引擎罕见大更新, 121 句「AI 」道尽焦虑今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5“所想即所得”变革3D分割!浙大等团队联合推出基于LLM的3D物品分割微信上线「分期」付款功能;搭载 ChatGPT-4o 的智能眼镜出现;「被美女包围了」手机版将上线 | 极客早知道CVPR 24|ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!李飞飞亲自撰文:大模型不存在主观感觉能力,多少亿参数都不行李飞飞亲自撰文:大模型不存在主观感觉能力,多少亿参数都不行!李飞飞:大模型不存在主观感觉能力,多少亿参数都不行|首席资讯日报CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型Meta发布3D Gen AI模型,可在1分钟内生成高质量3D内容;马斯克称特斯拉将消灭所有空头:比尔盖茨也不例外....
原创公众号
淘汰赛后母婴渠道有触底迹象,高度整合是出路吗?出征奥运!美国大学参赛人数大汇总!不知道哪儿出了问题,但凑合着也能活。。。中考成绩的虚假繁荣,是一场教育困局,困住了所有孩子和家长仍称“同志”,意味着什么?好闻不贵的四款香薰必须凑齐!让居家出行更有仪式感,持久留香,空气清新。数据显示:同意器官捐献后,意外死亡率大大提高广告牌掉落,3死7伤!事因曝光,责任人身份被扒,死者家属发声日本团队研发“长牙”新药,注入液体可长新牙!9月开始人体试验赵薇母亲魏启颖:儿媳妇卷走5.2亿,女儿彻底封杀,丈夫也去世…6亿人围观!搞学术的人大王叫兽,大概要改行踩缝纫机了!司机们注意!悉尼一主干道临时封路,引发大堵车澳洲超800人患上癌症,或与这一热门除草剂有关!目前仍在使用中国女子入境澳洲被拦,当场取消签证并遣返3G网络即将关闭,数十万澳人受影响!000都无法拨一个东北小城的微小文艺复兴刚刚,六大行集体宣布:下调!今年数百家中国企业涌入迪拜,最大Mall开出唐人街奋斗逢人就推的“精华水”,好用不输神仙水,囤再多都不够~大理洱海边,农学生的诗与远方即将赴美,你都准备好了吗?让这份清单帮助你吧~附带北美反诈指南&心理预期“鼓手”杨植麟坚持长期主义是很困难的事加拿大今年狂发21万份学签破纪录,中国留学生数量暴增!华南四少出海二十年沉浮刚刚,拜登退选后首发全国演说!川普立刻回应…突发:加拿大客机爆炸坠毁,乘客全部遇难!现场惨不忍睹…加拿大联邦政府又被告了!移民部长无视警告,开破坏性重大先例刚刚!加拿大央行又降息了!行长发话:还要降!房奴终于缓口气警惕!加拿大华人旅行前找人帮付交通罚单,半年后回来傻眼了…
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。