Redian新闻
>
分割一切还不够,还要检测一切、生成一切,SAM二创开始了

分割一切还不够,还要检测一切、生成一切,SAM二创开始了

公众号新闻
机器之心报道

机器之心编辑部

论文刚发布两天,「二创」就开始了。

AI 技术的迭代,已经以天为单位。所以,如果你有什么好的想法,最好赶紧做,不然睡一觉可能就被抢先了。



这个被很多人看好的 idea 源于 Meta 两天前发布的「分割一切」AI 模型(Segment Anything Model,简称 SAM)。Meta 表示,「SAM 已经学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』即开即用,无需额外的训练。」



这一模型的发布在计算机视觉领域引发轰动,预示着 CV 也将走向「一个全能基础模型统一某个(某些?全部?)任务」的道路。当然,大家对此早有预感,但没想到这一天来得如此之快。


比基础模型迭代更快的是研究社区「二创」的速度。论文才刚刚发布两天,几位国内工程师就基于此想出了新的点子并将其付诸实践,组建出了一个不仅可以「分割一切」,还能「检测一切」、「生成一切」的视觉工作流模型。




具体来说,他们使用一个 SOTA 的 zero-shot 目标检测器(Grounding DINO)提取物体 box 和类别,然后输入给 SAM 模型出 mask,使得模型可以根据文本输入检测和分割任意物体。另外,他们还将其和 Stable Diffusion 结合做可控的图像编辑。


这个三合一模型项目名叫 Grounded Segment Anything,三种类型的模型既可以分开使用,也可以组合使用。



项目链接:https://github.com/IDEA-Research/Grounded-Segment-Anything


对于 Grounded Segment Anything 未来的用途,项目作者构想了几种可能:


  • 可控的、自动的图像生成,用于构建新的数据集;

  • 提供更强的基础模型与分割预训练;

  • 引入 GPT-4,进一步激发视觉大模型的潜力;

  • 一条自动标记图像(带 box 和 mask)并生成新图像的完整 pipeline;

  • ……


安装


要实现 SAM+Stable Diffusion 需要一些安装步骤。首先该项目要求 Python 3.8 以上版本,pytorch 1.7 以上版本,torchvision 0.8 以上版本,并安装相关依赖项。项目作者还建议安装支持 CUDA 的 PyTorch 和 TorchVision。


然后,按照如下代码安装 Segment Anything:


python -m pip install -e segment_anything

安装 GroundingDINO:


python -m pip install -e GroundingDINO


以下是可选依赖项,这些对于掩码后处理、以 COCO 格式保存掩码、example notebook 以及以 ONNX 格式导出模型是必需的。另外,该项目还需要 jupyter 来运行 example notebook。


pip install opencv-python pycocotools matplotlib onnxruntime onnx ipykernel


运行 GroundingDINO demo


下载 groundingdino 检查点:


cd Grounded-Segment-Anything
wget https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

运行 demo:


export CUDA_VISIBLE_DEVICES=0python grounding_dino_demo.py \  --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py \  --grounded_checkpoint groundingdino_swint_ogc.pth \  --input_image assets/demo1.jpg \  --output_dir "outputs" \  --box_threshold 0.3 \  --text_threshold 0.25 \  --text_prompt "bear" \  --device "cuda"


模型预测可视化将保存在 output_dir 中,如下所示:



运行 Grounded-Segment-Anything Demo


下载 segment-anything 和 ground- dino 的检查点:


cd Grounded-Segment-Anything
wget https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pthwget https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth


运行 demo:


export CUDA_VISIBLE_DEVICES=0python grounded_sam_demo.py \  --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py \  --grounded_checkpoint groundingdino_swint_ogc.pth \  --sam_checkpoint sam_vit_h_4b8939.pth \  --input_image assets/demo1.jpg \  --output_dir "outputs" \  --box_threshold 0.3 \  --text_threshold 0.25 \  --text_prompt "bear" \  --device "cuda"


模型预测可视化将保存在 output_dir 中,如下所示:



运行 Grounded-Segment-Anything + Inpainting Demo


CUDA_VISIBLE_DEVICES=0python grounded_sam_inpainting_demo.py \  --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py \  --grounded_checkpoint groundingdino_swint_ogc.pth \  --sam_checkpoint sam_vit_h_4b8939.pth \  --input_image assets/inpaint_demo.jpg \  --output_dir "outputs" \  --box_threshold 0.3 \  --text_threshold 0.25 \  --det_prompt "bench" \  --inpaint_prompt "A sofa, high quality, detailed" \  --device "cuda"


运行 Grounded-Segment-Anything + Inpainting Gradio APP


python gradio_app.py


参考链接:

https://zhuanlan.zhihu.com/p/620271321

https://www.zhihu.com/question/593914819/answer/2972925421


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型看电影《造梦之家》早财经丨国常会重磅!新能源汽车产业迎利好;FF首位车主曝光,不是贾跃亭;卖洗发水还不够,任泽平开始卖白酒分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型针对中国游客,日韩又有新动作了?人民币还不够,还需要更多份额基础研究光靠“砸钱”还不够,“科技自立”还有这些招数分割一切又一力作!北京智源提出通用分割模型SegGPT重磅!CV不存在了?CV或迎来GPT-3时刻,Meta发布「分割一切」AI 模型看美国人的眩富。。。7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型SAM分割一切最全论文大盘点CV不存在了?Meta发布"分割一切"AI模型,CV或迎来GPT-3时刻!华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」分割一切后,SAM又能分辨类别了:Meta/UTAustin提出全新开放类分割模型AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种Meta新模型“分割一切”:抠图完成究极进化,计算机视觉迎来GPT-3时刻当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了卷爆CV!46篇分割一切模型(SAM)二创论文大盘点邓小平给毛泽东写信谋再次上台Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下干货|免费送机票还不够,香港又迎来一波福利!这菜妥妥的米饭杀手!好吃到夸上天还不够,鲜辣浓郁吃爽了!视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达​Segment-and-Track Anything!视频版SAM来了,分割/跟踪/编辑一切,现已开源!50万出国留学够不够?在美国够,在小红书不够古巴行 (3)世遗小镇Trinidad + 潜水天堂-猪湾分割一切模型SAM首篇全面综述:28页、200+篇参考文献取消AP不够,还要取消荣誉课程,教育公平对华人学生产生什么样的影响?用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。