Redian新闻
>
检测一切!Visual Prompting:视觉提示扩展检测模型能力

检测一切!Visual Prompting:视觉提示扩展检测模型能力

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

宣传一下最近我们 做的几个工作,集中在通过视觉提示(visual prompt)来扩展检测模型的能力,例如open-set和counting的English。code/demo/API都已经可用!

DINOv:

论文:arxiv.org/pdf/2311.13601

主页:github.com/UX-Decoder/DINOv


T-Rex:

论文:arxiv.org/abs/2311.13596

主页:github.com/IDEA-Research/T-Rex


T-Rex2: 

论文:arxiv.org/pdf/2403.14610

主页:deepdataspace.com/playground/ivp

DINOv

大型语言模型(LLMs)中的上下文提示(in-context prompting) 已成为提高模型能力的方法,但在视觉领域,这个想法被探索得较少。现有的视觉提示方法专注于refering segmentation来分割最相关的对象,未能解决许多通用视觉任务,如open-set分割和检测

DINOv探索的是通过visual prompt来实现visual in-context learning,例如要检测一个新的物体或者某些难以描述的物体,只需要给模型几个样例,模型就可以在target image里面把想要的物体都检测出来。

T-Rex

T-Rex探索的是通过visual prompt来解决counting问题。counting问题往往比较密集且物体不太好用文本描述,把counting问题转化为检测问题并通过visual prompt能更加高效地处理counting问题。

T-Rex

T-Rex2则进一步把visual prompt和text prompt融合到一个模型里面,进一步提升检测能力。

T-Rex2接受多种格式的输入,包括文本提示、视觉提示以及两者的组合,因此它可以通过在两种提示模式之间切换来处理不同的场景。我们的实验表明,T-Rex2在各种场景下展现出出色的zero-shot目标检测能力。我们展示了文本提示和视觉提示可以在协同作用中相互受益,这对于覆盖大规模且复杂的实际场景至关重要。

欢迎关注!

在CVer公众号后台回复:检测一切,即可下载上面论文和代码,感觉学起来!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


多模态和目标检测交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-多模态和目标检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
临时还是永久?美国配偶绿卡申请,时机决定一切!GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板六月雪.雏菊苹果计划明年推更薄iPhone,定价超Pro Max/《黑神话:悟空》定价268元 / 小米SU7 Pro提前开启交付视觉prompt工程!无需微调、无需任何模型修改,让一个通用模型可以执行多种指定任务李飞飞揭秘创业方向“空间智能”:视觉化为洞察,看见成为理解,理解导致行动李飞飞揭秘创业方向“空间智能”:视觉化为洞察!看见成为理解,理解导致行动!Mamba视觉新主干!悉尼大学&商汤提出LocalMamba:新的视觉状态空间模型Over 70% of Trip.com Staff Choose Working From HomeOpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折美特斯邦威还有救吗?创始人复出回应一切!LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokensSiri 将获大模型能力,已内置 AI 代码;马斯克回应研发支出低于苹果:效率不同;苹果推出贺岁片《小蒜头》|极客早知道Mamba再下一城!VideoMamba:高效视频理解的状态空间模型提示词专场:从调整提示改善与LLMs的沟通,到利用LLMs优化提示效果今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术基于互补学习系统的时空预测模型,实现时空预测模型自适应进化大模型开闭源争吵不休:开源落后闭源一年,决定模型能力的不是技术?斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了小米 SU7 Pro 已提前开始交付/iPhone 17 Slim 定价或高于 Pro Max/ChatGPT支持分析Excel外公CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率准确率超过90%的预测模型为什么不靠谱?CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型docker-compose部署Prometheus+Alertmanager并配置企业微信告警CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别美股基本面: 特斯拉无可奈何花落去?半导体股如日中天!对冲基金押注黄金和铀。美原油产量与库存同时下降。量化时空动能美股TOP10OpenAI、斯坦福大学提出Meta-Prompting,有效提升语言模型的性能曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了冬日絮语我在投坛的最后一帖简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024亲历:空气炸锅两分钟变火团!20分钟摧毁一个家!除身上衣服和手机,一家三口没了一切!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。