Redian新闻
>
CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻

CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻

科技新闻
机器之心报道

机器之心编辑部

CV 研究者接下来的路要怎么走?

「这下 CV 是真不存在了。< 快跑 >」这是知乎网友对于一篇 Meta 新论文的评价。

如标题所述,这篇论文只做了一件事情:(零样本)分割一切。类似 GPT-4 已经做到的「回答一切」。


Meta 表示,这是第一个致力于图像分割的基础模型。自此,CV 也走上了「做一个统一某个(某些?全部?)任务的全能模型」的道路。


在此之前,分割作为计算机视觉的核心任务,已经得到广泛应用。但是,为特定任务创建准确的分割模型通常需要技术专家进行高度专业化的工作,此外,该项任务还需要大量的领域标注数据,种种因素限制了图像分割的进一步发展。

Meta 在论文中发布的新模型名叫 Segment Anything Model (SAM) 。他们在博客中介绍说,「SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』上即开即用,无需额外的训练。」在深度学习领域,这种能力通常被称为零样本迁移,这也是 GPT-4 震惊世人的一大原因。

  • 论文地址:https://arxiv.org/abs/2304.02643

  • 项目地址:https://github.com/facebookresearch/segment-anything

  • Demo 地址:https://segment-anything.com/

除了模型,Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B),据称这是有史以来最大的分割数据集。该数据集可用于研究目的,并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。

我们先来看看效果。如下面动图所示,SAM 能很好的自动分割图像中的所有内容:

SAM 还能根据提示词进行图像分割。例如输入 Cat 这个提示词,SAM 会在照片中的几只猫周围绘制框并实现分割:

SAM 还能用交互式点和框的方式进行提示:

此外,SAM 还能为不明确的提示生成多个有效掩码:

英伟达人工智能科学家 Jim Fan 表示:「对于 Meta 的这项研究,我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)和模棱两可的情况下也能进行很好的图像分割。最重要的是,模型和数据都是开源的。恕我直言,Segment-Anything 已经把所有事情(分割)都做的很好了。」


推特地址:https://twitter.com/DrJimFan/status/1643647849824161792

还有网友表示,NLP 领域的 Prompt 范式,已经开始延展到 CV 领域了,可以预想,今年这类范式在学术界将迎来一次爆发。

更是有网友表示蚌不住了,SAM 一出,CV 是真的不存在了。投稿 ICCV 的要小心了。


不过,也有人表示,该模型在生产环境下的测试并不理想。或许,这个老大难问题的解决仍需时日?

方法介绍

此前解决分割问题大致有两种方法。第一种是交互式分割,该方法允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。第二种,自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(例如,数千甚至数万个分割猫的例子)。这两种方法都没有提供通用的、全自动的分割方法。

SAM 很好的概括了这两种方法。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、boxes、文本等),就可以完成范围广泛的分割任务。

总而言之,这些功能使 SAM 能够泛化到新任务和新领域。这种灵活性在图像分割领域尚属首创。

Meta 表示,他们受到语言模型中提示的启发,因而其训练完成的 SAM 可以为任何提示返回有效的分割掩码,其中提示可以是前景、背景点、粗框或掩码、自由格式文本,或者说能指示图像中要分割内容的任何信息。而有效掩码的要求仅仅意味着即使提示不明确并且可能指代多个对象(例如,衬衫上的一个点可能表示衬衫或穿着它的人),输出也应该是一个合理的掩码(就如上面动图「SAM 还能为为不明确的提示生成多个有效掩码」所示)。此任务用于预训练模型并通过提示解决一般的下游分割任务。

如下图所示 ,图像编码器为图像生成一次性嵌入,而轻量级编码器将提示实时转换为嵌入向量。然后将这两个信息源组合在一个预测分割掩码的轻量级解码器中。在计算图像嵌入后,SAM 可以在 50 毫秒内根据网络浏览器中的任何提示生成一个分割。


在 web 浏览器中,SAM 有效地映射图像特征和一组提示嵌入以产生分割掩码

1100 万张图片,1B+ 掩码

数据集是使用 SAM 收集的。标注者使用 SAM 交互地注释图像,之后新注释的数据又反过来更新 SAM,可谓是相互促进。

使用该方法,交互式地注释一个掩码只需大约 14 秒。与之前的大规模分割数据收集工作相比,Meta 的方法比 COCO 完全手动基于多边形的掩码注释快 6.5 倍,比之前最大的数据注释工作快 2 倍,这是因为有了 SAM 模型辅助的结果。

最终的数据集超过 11 亿个分割掩码,在大约 1100 万张经过许可和隐私保护图像上收集而来。SA-1B 的掩码比任何现有的分割数据集多 400 倍,并且经人工评估研究证实,这些掩码具有高质量和多样性,在某些情况下甚至在质量上可与之前更小、完全手动注释的数据集的掩码相媲美 。

Segment Anything 对使用数据引擎收集的数百万张图像和掩码进行训练的结果,得到一个包含 10 亿个分割掩码的数据集,是以往任何分割数据集的 400 倍。

SA-1B 的图像来自跨不同地理区域和收入水平的多个国家或地区的照片提供者,在拥有更多图像的同时对所有地区的总体代表性也更好。Meta 分析了其模型在感知性别表现、感知肤色和年龄范围方面的潜在偏差,结果发现 SAM 在不同群体中的表现类似。

SA-1B 可以帮助其他研究人员训练图像分割的基础模型。Meta 也进一步希望这些数据能够成为带有附加注释的新数据集的基础,例如与每个 mask 相关的文本描述。

未来展望

通过研究和数据集共享,Meta 希望进一步加速对图像分割以及更通用图像与视频理解的研究。可提示的分割模型可以充当更大系统中的一个组件,执行分割任务。作为一种强大的工具,组合(Composition)允许以可扩展的方式使用单个模型,并有可能完成模型设计时未知的任务。

Meta 预计,与专门为一组固定任务训练的系统相比,基于 prompt 工程等技术的可组合系统设计将支持更广泛的应用。SAM 可以成为 AR、VR、内容创建、科学领域和更通用 AI 系统的强大组件。比如 SAM 可以通过 AR 眼镜识别日常物品,为用户提供提示。


SAM 还有可能在农业领域帮助农民或者协助生物学家进行研究。


未来在像素级别的图像理解与更高级别的视觉内容语义理解之间,我们将看到更紧密的耦合,进而解锁更强大的 AI 系统。

参考链接:

https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/

https://www.zhihu.com/question/593914819

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
来源: qq
相关阅读
CVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计硅谷恐慌:Open AI发布全新视频模型Sora!现实,不存在了只会写代码的程序员要不存在了?大模型浪潮下开发者概念泛化 | InfoQ 研究中心思维链不存在了?纽约大学最新研究:推理步骤可「省略」Llama 3 超大杯有何惊喜?Meta 会一直开源吗?当初为何笃信元宇宙?扎克伯格新访谈回应一切舔狗不存在了Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动小模型时代来了?微软推出其最小参数 AI 模型,性能逼近 GPT-3.5微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准“智爱法律大模型”小程序上线啦!快来get使用攻略→AI早知道|知乎发布「发现・AI 搜索」功能;百度智能云发布3款轻量级大模型神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5Google 发布「AI 全家桶」反击 GPT-4o !搜索引擎罕见大更新, 121 句「AI 」道尽焦虑苹果计划为 iPad 推出计算器应用/特斯拉被曝毁约应届生/小米纯电 SUV或将在 2025 年推出CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNetCVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型
原创公众号
生活明朗,万物可爱是什么让大使“如听仙乐耳暂明”?突发!澳洲惊现致命病毒,无药可治!21岁男子感染住进ICU,有人瘫痪甚至死亡...新州卫生厅发出警告富人才当得起tradies?大批澳人抱怨培训费成“绊脚石”!直呼根本负担不起澳洲房价“狂飙”93.5%,工资涨幅相形见绌!不背巨债只能靠“父母银行”“他掏刀子,那就完了!”澳洲市中心流浪汉群聚,中国女生频遇袭!更手举火机喷汽油,“幸好跑得快!”澳洲严查学签,中国学生获签率仍超97%!印巴申请人遭重创...Medicare卡还能这么用!澳男分享“隐藏用途”,海外旅行千万带上悉尼网红餐厅宣布关闭!粉丝难过不已,但好消息是...澳公共巴士与卡车相撞,多人受伤送院!事发路段交通堵塞周末带娃去哪儿玩?5/18-5/19 各地活动太丰富啦!!快带娃去看看!留学党狂喜!UCL重新认可PTE Online成绩!这条路又通了!避雷!IG/AS学生选牛剑G5研学营,千万要小心!读了一年国际学校感觉钱白花了...高二转轨Alevel,一年考出4A*,他怎么做到的?AI巨浪,终究让艺术学科变天了!致每一个想申请英国私校的亚裔学生:你的优势比你想象的更大!最损耗阳气的日子要来了,男女这样做!强体质,补气血,一年少生病!福建贫困小渔村,批量生产“霸道总裁”非洲工作的26岁女孩离世:她到死都被亲人抛弃大量澳洲儿童在日本遭”绑架“!日本政府宣布改革这一法律,外籍父母泪奔...炸锅! 大S药检结果出来 汪小菲爆料锤了? 她喊"还我们清白" 评论区沦陷日薪$2300!澳洲地铁被曝养了大量高薪合同工!一年2.5亿!终于知道为什么成本总是超支了……如松:超级魔鬼已经出笼,中国孕育了暴富机遇谁家孩子有完整的周末啊,来南京过吧 | 一席游学002 招募翻新国产APP,二手APP工厂估值25.5亿美元这届年轻人,能整顿顶流水果吗?鹰小美日记 | 在美国大使馆的小菜园里种呀种呀种机票:暑假后淡季赴美国机票看板(2024年9月似乎目前价格还可以)5G异网漫游启动商用推广,手机和物联网终端都可以合法合理地“蹭网”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。