Redian新闻
>
吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚

吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚

公众号新闻
白交 发自 凹非寺
量子位 | 公众号 QbitAI

还记得黑客帝国经典的子弹时间吗?

IDEA研究院最新检测模型T-Rex2,可以齐刷刷给全部识别出来~

而面对难倒一众大模型「吉娃娃or松饼」的难题,它只需被投喂一张吉娃娃的照片,就能瞬间迎刃而解。

此前,也是同样的团队,推出了基于视觉提示的检测模型T-Rex

如今,他们将视觉和文本提示融合,相互弥补各自的缺陷,实现了更强的目标检测能力。

并且与多目标跟踪模型结合后,各种视频检测任务也不在话下。

来看新研究到底说了什么。

打通文本和视觉提示

在开集目标检测领域,尽管文本提示受到一定的青睐,但也存在一定的局限性。

比如长尾数据短缺。稀有或者全新的物体类别的数据稀缺可能会削弱其学习效率。还有描述上的局限性,对于一些难以用语言描绘的对象,因受限于无法精确描述,也会削弱效果。

而视觉提示提供了更直观且直接的对象表示方法,但在捕捉常见对象的概念时效果就会很差。

T-Rex2通过对比学习在单个模型中整合两种提示,因此接受多种格式的输入,包括文本提示、视觉提示以及两者的组合。

在不同场景中,它可以通过在两种提示方式之间切换来处理。

因此,它大致有三种工作模式:

文本提示模式、交互式视觉提示模式、通用视觉提示模式。

以通用视觉提示模式为例,用户可以通过向模型提供任意数量的示例图片,来自定义特定对象的视觉嵌入,然后使用这个嵌入来检测任意图像中的对象。

也就是不需要用户与模型直接互动,就能完成检测任务。

最终在在四个学术基准测试集 COCO, LVIS, ODinW, 和Roboflow100 上取得了 Zero-Shot SOTA的性能。

开箱即用诸多领域

无需重新训练或微调,T-Rex2即可检测模型在训练阶段从未见过的物体。

该模型不仅可应用于包括计数在内的所有检测类任务,还为智能交互标注领域提供新的解决方案。

除此之外,结合现有的多目标跟踪模型( 如ByteTrack ),T-Rex2还可用于视频检测任务。

事实上,这种跨图检测能力,让目标检测技术在生产生活中可以真正开始广泛应用。

比如工业生产流水线器件检测,交通航运领域的船舶、飞机检测,农业领域的农作物、果蔬检测,生物医学领域的细胞、组织检测,物流领域的货物检测,环境领域的野生动物监测等。

现在,T-Rex2让通用物体检测又迈出了新的一步。

试玩链接:
https://deepdataspace.com/playground/ivp

T-Rex2 API:https://github.com/IDEA-Research/T-Rex
论文链接:
https://arxiv.org/abs/2403.14610

评选报名即将截止!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选评选报名 截至2024年3月31日 

中国AIGC产业峰会「你好,新应用!」已开启报名!点击报名参会 同时,峰会将进行线上直播 ⬇️


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
张立群同志任西安交通大学校长, 王树国卸任; 物理学百年难题被破解 | 学界速递开源模型打败GPT-4!LLM竞技场最新战报,Cohere Command R+上线2024年AIGC行业研究:多模态大模型与商业应用|36氪研究院Mamba视觉新主干!悉尼大学&商汤提出LocalMamba:新的视觉状态空间模型陀螺研究院发布《Vision Pro开启全新计算时代,全面解读苹果发展史》CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFdaycare、preschool、kindergarten、pre-k傻傻分不清楚?一篇文章带你了解美国的教育体制纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画主人无家可归!带63只吉娃娃"一起住在车里",毛球塞爆前座玻璃谷歌连放大招:Gemini Pro支持中文,Bard学会画画,还上新了新模型给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力北京内推 | 微软亚洲研究院WWE大模型团队招聘大模型研究实习生澳洲三岁娃被困“夹娃娃机” ,警方迅速解救!网友:娃娃机中的“真人娃娃”! (视频)斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别旧文新感--和润涛阎的曾经对话首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率新媒体研究院&新浪AI媒体研究院:中国智能媒体创新发展报告2022-20233D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题【五絕】讀詩小感吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源冰岛印象(5)全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型太突然!金宝集团董事长李秀恒中风离世!他从一名普通文员做到“钟表大王”Over 70% of Trip.com Staff Choose Working From Home“报”:华人世界第一行为准则检测一切!Visual Prompting:视觉提示扩展检测模型能力联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型看今年奥斯卡提名电影"留守者"吉娃娃身着英伦风大衣和超炫墨镜在街头走秀,超模气质拉满!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。