Redian新闻
>
检测一切!Visual Prompting:视觉提示扩展检测模型能力

检测一切!Visual Prompting:视觉提示扩展检测模型能力

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

宣传一下最近我们 做的几个工作,集中在通过视觉提示(visual prompt)来扩展检测模型的能力,例如open-set和counting的English。code/demo/API都已经可用!

DINOv:

论文:arxiv.org/pdf/2311.13601

主页:github.com/UX-Decoder/DINOv


T-Rex:

论文:arxiv.org/abs/2311.13596

主页:github.com/IDEA-Research/T-Rex


T-Rex2: 

论文:arxiv.org/pdf/2403.14610

主页:deepdataspace.com/playground/ivp

DINOv

大型语言模型(LLMs)中的上下文提示(in-context prompting) 已成为提高模型能力的方法,但在视觉领域,这个想法被探索得较少。现有的视觉提示方法专注于refering segmentation来分割最相关的对象,未能解决许多通用视觉任务,如open-set分割和检测

DINOv探索的是通过visual prompt来实现visual in-context learning,例如要检测一个新的物体或者某些难以描述的物体,只需要给模型几个样例,模型就可以在target image里面把想要的物体都检测出来。

T-Rex

T-Rex探索的是通过visual prompt来解决counting问题。counting问题往往比较密集且物体不太好用文本描述,把counting问题转化为检测问题并通过visual prompt能更加高效地处理counting问题。

T-Rex

T-Rex2则进一步把visual prompt和text prompt融合到一个模型里面,进一步提升检测能力。

T-Rex2接受多种格式的输入,包括文本提示、视觉提示以及两者的组合,因此它可以通过在两种提示模式之间切换来处理不同的场景。我们的实验表明,T-Rex2在各种场景下展现出出色的zero-shot目标检测能力。我们展示了文本提示和视觉提示可以在协同作用中相互受益,这对于覆盖大规模且复杂的实际场景至关重要。

欢迎关注!

在CVer公众号后台回复:检测一切,即可下载上面论文和代码,感觉学起来!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


多模态和目标检测交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-多模态和目标检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型六月雪.雏菊Over 70% of Trip.com Staff Choose Working From Home临时还是永久?美国配偶绿卡申请,时机决定一切!OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折美股基本面: 特斯拉无可奈何花落去?半导体股如日中天!对冲基金押注黄金和铀。美原油产量与库存同时下降。量化时空动能美股TOP10我在投坛的最后一帖docker-compose部署Prometheus+Alertmanager并配置企业微信告警Mamba再下一城!VideoMamba:高效视频理解的状态空间模型李飞飞揭秘创业方向“空间智能”:视觉化为洞察,看见成为理解,理解导致行动CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF美特斯邦威还有救吗?创始人复出回应一切!斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术Siri 将获大模型能力,已内置 AI 代码;马斯克回应研发支出低于苹果:效率不同;苹果推出贺岁片《小蒜头》|极客早知道吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024准确率超过90%的预测模型为什么不靠谱?首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率外公基于互补学习系统的时空预测模型,实现时空预测模型自适应进化李飞飞揭秘创业方向“空间智能”:视觉化为洞察!看见成为理解,理解导致行动!曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了苹果计划明年推更薄iPhone,定价超Pro Max/《黑神话:悟空》定价268元 / 小米SU7 Pro提前开启交付GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板提示词专场:从调整提示改善与LLMs的沟通,到利用LLMs优化提示效果OpenAI、斯坦福大学提出Meta-Prompting,有效提升语言模型的性能小米 SU7 Pro 已提前开始交付/iPhone 17 Slim 定价或高于 Pro Max/ChatGPT支持分析Excel视觉prompt工程!无需微调、无需任何模型修改,让一个通用模型可以执行多种指定任务Mamba视觉新主干!悉尼大学&商汤提出LocalMamba:新的视觉状态空间模型亲历:空气炸锅两分钟变火团!20分钟摧毁一个家!除身上衣服和手机,一家三口没了一切!大模型开闭源争吵不休:开源落后闭源一年,决定模型能力的不是技术?冬日絮语LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokensCVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。