Redian新闻
>
Caption Anything来了!可以解读清明上河图,细粒度可控的图像描述!

Caption Anything来了!可以解读清明上河图,细粒度可控的图像描述!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像分割】微信技术交流群

作者:yougeii |(已授权转载)编辑:CVer
https://zhuanlan.zhihu.com/p/622314514

Github(已开源): 

https:// https://github.com/ttengwang/Caption-Anything

Hugging Face Demo: 

https://huggingface.co/spaces/TencentARC/Caption-Anything

清明上河图demo

近日南方科技大学和腾讯ARC Lab开源了一款交互式图像描述工具, 基于Segment Anything, BLIP-2 Captioning和chatGPT实现, 通过视觉控制(鼠标点击)获取特定区域的object, 并以多样化的语言风格描述出来.

传统图像描述或密集描述通常以解析全图为目的, 如果遇到清明上河图等场景丰富且object交互特别复杂的图像, 一个简单的句子或非常长的段落, 对用户阅读很不友好. Caption Anything想看哪里即点击哪里, 根据用户需求定制化地关注局部区域, 进行细节描述及后续推理任务. 同时具有速度优势.

描述一幅图是一对多的映射, 不同用户对图像区域关注重点不同, 语言风格需求也不同. 面对如此多样的文本输出空间, 交互式控制模型输出可以与用户的需求更加对齐. 如下图所示, Caption Anything提供了视觉控制和语言控制. 

Caption Anything支持视觉控制和语言控制

用户界面: 支持鼠标点击(连续或单次点击), 输出描述的语言风格控制(情感, 语种, 想象), 利用chatGPT输出物体对应的wiki知识, 同时支持chatGPT进行对话. 代码同时支持Linux和Windows平台.

用户界面

Github(已开源): 

https:// https://github.com/ttengwang/Caption-Anything

点击进入—>【计算机视觉】微信技术交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


图像分割和多模态交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者多模态 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者多模态+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群

CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
来了!《千里江山图》+《清明上河图》手帐:记录点滴生活,艺术滋养日常五万字综述!Prompt Tuning:深度解读一种新的微调范式CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征Young Chinese Love Everything About Sweden. Except Living There.民间故事:偷阴术分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了NGS平台「赛纳生物」获数亿元C+轮融资,研发专利可控的测序仪丨36氪首发UMBRO 推出 Anytime Anywhere 品牌概念 ,「总结」正被 YE 等玩家认可、探索的品牌美学合成新进展|Nature子刊:娄春波/欧阳颀/钱珑团队合作提出精准可控的哺乳动物细胞基因表达系统柏林工大也有自己的Döner店了!用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPTAnthony"Tony" Ciaravino:Build the safest Chinatown in America!李嫣不再隐瞒,说出王菲李亚鹏分手真相!怪不得谢霆锋不肯娶王菲​Segment-and-Track Anything!视频版SAM来了,分割/跟踪/编辑一切,现已开源!欧洲实现自主可控的一大制约:原材料问题梦红薯每天学一句英语台词|If anything goes wrongACL 2023 | 从平面图像中理解空间语义:视觉空间位置描述宇宙人(1263期)航天南湖成功登陆上交所科创板;超5000亿元;北京5.5G来了;SpaceX披露星舰二次升空测试的发射时间表老人说“闰月清明不上坟,上坟祸事临门”,有啥说法吗?今年清明不能上坟?摸老师屁股+打飞机被开除,学生委屈:那是不可控的生理反应…完美世界TA谈Stable Diffusion插件,ControlNet、Segment Anything华为宣布实现自主可控的MetaERP研发和替换;中国移动一季度营收2507亿元;vivo折叠系列旗舰新品发布……等比微缩复刻的《千里江山图》《清明上河图》,我们搞到了故宫盖章版!无花无酒不清明,清明节后,为什么适合藏点小酒?​视觉AI能力大一统!自动化图像检测分割,还能可控文生图,华人团队出品Agustín Hernández:中美洲建筑背景下的未来主义巨构男子离婚后,花5万买“硅胶娃娃”当老婆,一年后却发现不对劲!Relate Anything来了!帮你搞定一切关系!太清闲了,学人做卡通玩斯坦福5.5万人研究:30年,男人长(cháng)了3厘米,但并非好事麻省理工Python增强编译器Codon 让Python像C\\C++一样高效分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型《清明上河图》和宋官窑里的悠悠宋韵
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。