Redian新闻
>
吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚

吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚

公众号新闻
白交 发自 凹非寺
量子位 | 公众号 QbitAI

还记得黑客帝国经典的子弹时间吗?

IDEA研究院最新检测模型T-Rex2,可以齐刷刷给全部识别出来~

而面对难倒一众大模型「吉娃娃or松饼」的难题,它只需被投喂一张吉娃娃的照片,就能瞬间迎刃而解。

此前,也是同样的团队,推出了基于视觉提示的检测模型T-Rex

如今,他们将视觉和文本提示融合,相互弥补各自的缺陷,实现了更强的目标检测能力。

并且与多目标跟踪模型结合后,各种视频检测任务也不在话下。

来看新研究到底说了什么。

打通文本和视觉提示

在开集目标检测领域,尽管文本提示受到一定的青睐,但也存在一定的局限性。

比如长尾数据短缺。稀有或者全新的物体类别的数据稀缺可能会削弱其学习效率。还有描述上的局限性,对于一些难以用语言描绘的对象,因受限于无法精确描述,也会削弱效果。

而视觉提示提供了更直观且直接的对象表示方法,但在捕捉常见对象的概念时效果就会很差。

T-Rex2通过对比学习在单个模型中整合两种提示,因此接受多种格式的输入,包括文本提示、视觉提示以及两者的组合。

在不同场景中,它可以通过在两种提示方式之间切换来处理。

因此,它大致有三种工作模式:

文本提示模式、交互式视觉提示模式、通用视觉提示模式。

以通用视觉提示模式为例,用户可以通过向模型提供任意数量的示例图片,来自定义特定对象的视觉嵌入,然后使用这个嵌入来检测任意图像中的对象。

也就是不需要用户与模型直接互动,就能完成检测任务。

最终在在四个学术基准测试集 COCO, LVIS, ODinW, 和Roboflow100 上取得了 Zero-Shot SOTA的性能。

开箱即用诸多领域

无需重新训练或微调,T-Rex2即可检测模型在训练阶段从未见过的物体。

该模型不仅可应用于包括计数在内的所有检测类任务,还为智能交互标注领域提供新的解决方案。

除此之外,结合现有的多目标跟踪模型( 如ByteTrack ),T-Rex2还可用于视频检测任务。

事实上,这种跨图检测能力,让目标检测技术在生产生活中可以真正开始广泛应用。

比如工业生产流水线器件检测,交通航运领域的船舶、飞机检测,农业领域的农作物、果蔬检测,生物医学领域的细胞、组织检测,物流领域的货物检测,环境领域的野生动物监测等。

现在,T-Rex2让通用物体检测又迈出了新的一步。

试玩链接:
https://deepdataspace.com/playground/ivp

T-Rex2 API:https://github.com/IDEA-Research/T-Rex
论文链接:
https://arxiv.org/abs/2403.14610

评选报名即将截止!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选评选报名 截至2024年3月31日 

中国AIGC产业峰会「你好,新应用!」已开启报名!点击报名参会 同时,峰会将进行线上直播 ⬇️


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
李彦宏称百度11%搜索结果由AI生成/iPhone 16 Pro Max电池密度或提升/智源研究院发布多模型评估结果超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速【教育】法国家长协会:年年说解决,从来没解决!纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF开源模型打败GPT-4!LLM竞技场最新战报,Cohere Command R+上线视觉prompt工程!无需微调、无需任何模型修改,让一个通用模型可以执行多种指定任务【求职战报】全球金融交易平台Deutsche Börse Systems销售运营面试邀约!【五絕】讀詩小感今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术张立群同志任西安交通大学校长, 王树国卸任; 物理学百年难题被破解 | 学界速递曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了神秘模型gpt2-chatbot实力被赞超越GPT-4:sam亲自确认,或是OpenAI全新模型吉娃娃身着英伦风大衣和超炫墨镜在街头走秀,超模气质拉满!旧文新感--和润涛阎的曾经对话看今年奥斯卡提名电影"留守者"主人无家可归!带63只吉娃娃"一起住在车里",毛球塞爆前座玻璃Mamba视觉新主干!悉尼大学&商汤提出LocalMamba:新的视觉状态空间模型首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率澳洲三岁娃被困“夹娃娃机” ,警方迅速解救!网友:娃娃机中的“真人娃娃”! (视频)OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA新媒体研究院&新浪AI媒体研究院:中国智能媒体创新发展报告2022-2023给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力17岁吉娃娃穿塑料袋雨衣,眼神超嫌弃拒绝散步:丑死了检测一切!Visual Prompting:视觉提示扩展检测模型能力OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折北京内推 | 微软亚洲研究院WWE大模型团队招聘大模型研究实习生男主人用吉娃娃牌刮胡刀蹭脸颊,狗露出礼貌的微笑:感谢光临斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了深圳/香港/上海内推 | 商汤研究院基础语言模型团队招聘大语言模型算法研究员“报”:华人世界第一行为准则冰岛印象(5)太突然!金宝集团董事长李秀恒中风离世!他从一名普通文员做到“钟表大王”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。