Redian新闻
>
吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚

吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚

公众号新闻
白交 发自 凹非寺
量子位 | 公众号 QbitAI

还记得黑客帝国经典的子弹时间吗?

IDEA研究院最新检测模型T-Rex2,可以齐刷刷给全部识别出来~

而面对难倒一众大模型「吉娃娃or松饼」的难题,它只需被投喂一张吉娃娃的照片,就能瞬间迎刃而解。

此前,也是同样的团队,推出了基于视觉提示的检测模型T-Rex

如今,他们将视觉和文本提示融合,相互弥补各自的缺陷,实现了更强的目标检测能力。

并且与多目标跟踪模型结合后,各种视频检测任务也不在话下。

来看新研究到底说了什么。

打通文本和视觉提示

在开集目标检测领域,尽管文本提示受到一定的青睐,但也存在一定的局限性。

比如长尾数据短缺。稀有或者全新的物体类别的数据稀缺可能会削弱其学习效率。还有描述上的局限性,对于一些难以用语言描绘的对象,因受限于无法精确描述,也会削弱效果。

而视觉提示提供了更直观且直接的对象表示方法,但在捕捉常见对象的概念时效果就会很差。

T-Rex2通过对比学习在单个模型中整合两种提示,因此接受多种格式的输入,包括文本提示、视觉提示以及两者的组合。

在不同场景中,它可以通过在两种提示方式之间切换来处理。

因此,它大致有三种工作模式:

文本提示模式、交互式视觉提示模式、通用视觉提示模式。

以通用视觉提示模式为例,用户可以通过向模型提供任意数量的示例图片,来自定义特定对象的视觉嵌入,然后使用这个嵌入来检测任意图像中的对象。

也就是不需要用户与模型直接互动,就能完成检测任务。

最终在在四个学术基准测试集 COCO, LVIS, ODinW, 和Roboflow100 上取得了 Zero-Shot SOTA的性能。

开箱即用诸多领域

无需重新训练或微调,T-Rex2即可检测模型在训练阶段从未见过的物体。

该模型不仅可应用于包括计数在内的所有检测类任务,还为智能交互标注领域提供新的解决方案。

除此之外,结合现有的多目标跟踪模型( 如ByteTrack ),T-Rex2还可用于视频检测任务。

事实上,这种跨图检测能力,让目标检测技术在生产生活中可以真正开始广泛应用。

比如工业生产流水线器件检测,交通航运领域的船舶、飞机检测,农业领域的农作物、果蔬检测,生物医学领域的细胞、组织检测,物流领域的货物检测,环境领域的野生动物监测等。

现在,T-Rex2让通用物体检测又迈出了新的一步。

试玩链接:
https://deepdataspace.com/playground/ivp

T-Rex2 API:https://github.com/IDEA-Research/T-Rex
论文链接:
https://arxiv.org/abs/2403.14610

评选报名即将截止!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选评选报名 截至2024年3月31日 

中国AIGC产业峰会「你好,新应用!」已开启报名!点击报名参会 同时,峰会将进行线上直播 ⬇️


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力视觉prompt工程!无需微调、无需任何模型修改,让一个通用模型可以执行多种指定任务OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源开源模型打败GPT-4!LLM竞技场最新战报,Cohere Command R+上线主人无家可归!带63只吉娃娃"一起住在车里",毛球塞爆前座玻璃今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型检测一切!Visual Prompting:视觉提示扩展检测模型能力神秘模型gpt2-chatbot实力被赞超越GPT-4:sam亲自确认,或是OpenAI全新模型北京内推 | 微软亚洲研究院WWE大模型团队招聘大模型研究实习生新媒体研究院&新浪AI媒体研究院:中国智能媒体创新发展报告2022-2023冰岛印象(5)“报”:华人世界第一行为准则吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速澳洲三岁娃被困“夹娃娃机” ,警方迅速解救!网友:娃娃机中的“真人娃娃”! (视频)男主人用吉娃娃牌刮胡刀蹭脸颊,狗露出礼貌的微笑:感谢光临【求职战报】全球金融交易平台Deutsche Börse Systems销售运营面试邀约!李彦宏称百度11%搜索结果由AI生成/iPhone 16 Pro Max电池密度或提升/智源研究院发布多模型评估结果吉娃娃身着英伦风大衣和超炫墨镜在街头走秀,超模气质拉满!张立群同志任西安交通大学校长, 王树国卸任; 物理学百年难题被破解 | 学界速递看今年奥斯卡提名电影"留守者"CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF旧文新感--和润涛阎的曾经对话【五絕】讀詩小感首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA17岁吉娃娃穿塑料袋雨衣,眼神超嫌弃拒绝散步:丑死了深圳/香港/上海内推 | 商汤研究院基础语言模型团队招聘大语言模型算法研究员纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了【教育】法国家长协会:年年说解决,从来没解决!Mamba视觉新主干!悉尼大学&商汤提出LocalMamba:新的视觉状态空间模型太突然!金宝集团董事长李秀恒中风离世!他从一名普通文员做到“钟表大王”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。