Redian新闻
>
检测一切!Visual Prompting:视觉提示扩展检测模型能力

检测一切!Visual Prompting:视觉提示扩展检测模型能力

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

宣传一下最近我们 做的几个工作,集中在通过视觉提示(visual prompt)来扩展检测模型的能力,例如open-set和counting的English。code/demo/API都已经可用!

DINOv:

论文:arxiv.org/pdf/2311.13601

主页:github.com/UX-Decoder/DINOv


T-Rex:

论文:arxiv.org/abs/2311.13596

主页:github.com/IDEA-Research/T-Rex


T-Rex2: 

论文:arxiv.org/pdf/2403.14610

主页:deepdataspace.com/playground/ivp

DINOv

大型语言模型(LLMs)中的上下文提示(in-context prompting) 已成为提高模型能力的方法,但在视觉领域,这个想法被探索得较少。现有的视觉提示方法专注于refering segmentation来分割最相关的对象,未能解决许多通用视觉任务,如open-set分割和检测

DINOv探索的是通过visual prompt来实现visual in-context learning,例如要检测一个新的物体或者某些难以描述的物体,只需要给模型几个样例,模型就可以在target image里面把想要的物体都检测出来。

T-Rex

T-Rex探索的是通过visual prompt来解决counting问题。counting问题往往比较密集且物体不太好用文本描述,把counting问题转化为检测问题并通过visual prompt能更加高效地处理counting问题。

T-Rex

T-Rex2则进一步把visual prompt和text prompt融合到一个模型里面,进一步提升检测能力。

T-Rex2接受多种格式的输入,包括文本提示、视觉提示以及两者的组合,因此它可以通过在两种提示模式之间切换来处理不同的场景。我们的实验表明,T-Rex2在各种场景下展现出出色的zero-shot目标检测能力。我们展示了文本提示和视觉提示可以在协同作用中相互受益,这对于覆盖大规模且复杂的实际场景至关重要。

欢迎关注!

在CVer公众号后台回复:检测一切,即可下载上面论文和代码,感觉学起来!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


多模态和目标检测交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-多模态和目标检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Meta官方的Prompt工程指南:Llama 2这样用更高效[评测]ASUS ProArt GeForce RTX 4080 Super OC Edition 16GB GDDR6X 评测曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板Over 70% of Trip.com Staff Choose Working From HomeSiri 将获大模型能力,已内置 AI 代码;马斯克回应研发支出低于苹果:效率不同;苹果推出贺岁片《小蒜头》|极客早知道OpenAI、斯坦福大学提出Meta-Prompting,有效提升语言模型的性能吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率Mamba再下一城!VideoMamba:高效视频理解的状态空间模型CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别Npj Comput. Mater.: 裂纹扩展vs位错发射—bcc铁裂纹尖端变形机制临时还是永久?美国配偶绿卡申请,时机决定一切!准确率超过90%的预测模型为什么不靠谱?外公LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokensCVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型China Clamps Down on Drug Price Differences Across ProvincesAI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿亲历:空气炸锅两分钟变火团!20分钟摧毁一个家!除身上衣服和手机,一家三口没了一切!AI早知道|淘天集团自研大模型“淘宝星辰”上线;Gemini Pro1.5向所有人开放;Suno正式发布V3音乐生成模型AI早知道|百度将免费开放长文本能力;Suno推出音乐生成模型Suno V3冬日絮语今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术我在投坛的最后一帖六月雪.雏菊斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力Mamba视觉新主干!悉尼大学&商汤提出LocalMamba:新的视觉状态空间模型联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型美股基本面: 特斯拉无可奈何花落去?半导体股如日中天!对冲基金押注黄金和铀。美原油产量与库存同时下降。量化时空动能美股TOP10提示词专场:从调整提示改善与LLMs的沟通,到利用LLMs优化提示效果美特斯邦威还有救吗?创始人复出回应一切!超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。