Redian新闻
>
Caption Anything来了!可以解读清明上河图,细粒度可控的图像描述!

Caption Anything来了!可以解读清明上河图,细粒度可控的图像描述!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像分割】微信技术交流群

作者:yougeii |(已授权转载)编辑:CVer
https://zhuanlan.zhihu.com/p/622314514

Github(已开源): 

https:// https://github.com/ttengwang/Caption-Anything

Hugging Face Demo: 

https://huggingface.co/spaces/TencentARC/Caption-Anything

清明上河图demo

近日南方科技大学和腾讯ARC Lab开源了一款交互式图像描述工具, 基于Segment Anything, BLIP-2 Captioning和chatGPT实现, 通过视觉控制(鼠标点击)获取特定区域的object, 并以多样化的语言风格描述出来.

传统图像描述或密集描述通常以解析全图为目的, 如果遇到清明上河图等场景丰富且object交互特别复杂的图像, 一个简单的句子或非常长的段落, 对用户阅读很不友好. Caption Anything想看哪里即点击哪里, 根据用户需求定制化地关注局部区域, 进行细节描述及后续推理任务. 同时具有速度优势.

描述一幅图是一对多的映射, 不同用户对图像区域关注重点不同, 语言风格需求也不同. 面对如此多样的文本输出空间, 交互式控制模型输出可以与用户的需求更加对齐. 如下图所示, Caption Anything提供了视觉控制和语言控制. 

Caption Anything支持视觉控制和语言控制

用户界面: 支持鼠标点击(连续或单次点击), 输出描述的语言风格控制(情感, 语种, 想象), 利用chatGPT输出物体对应的wiki知识, 同时支持chatGPT进行对话. 代码同时支持Linux和Windows平台.

用户界面

Github(已开源): 

https:// https://github.com/ttengwang/Caption-Anything

点击进入—>【计算机视觉】微信技术交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


图像分割和多模态交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者多模态 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者多模态+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群

CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
太清闲了,学人做卡通玩用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了男子离婚后,花5万买“硅胶娃娃”当老婆,一年后却发现不对劲!Relate Anything来了!帮你搞定一切关系!李嫣不再隐瞒,说出王菲李亚鹏分手真相!怪不得谢霆锋不肯娶王菲UMBRO 推出 Anytime Anywhere 品牌概念 ,「总结」正被 YE 等玩家认可、探索的品牌美学华为宣布实现自主可控的MetaERP研发和替换;中国移动一季度营收2507亿元;vivo折叠系列旗舰新品发布……民间故事:偷阴术Young Chinese Love Everything About Sweden. Except Living There.斯坦福5.5万人研究:30年,男人长(cháng)了3厘米,但并非好事《清明上河图》和宋官窑里的悠悠宋韵柏林工大也有自己的Döner店了!合成新进展|Nature子刊:娄春波/欧阳颀/钱珑团队合作提出精准可控的哺乳动物细胞基因表达系统NGS平台「赛纳生物」获数亿元C+轮融资,研发专利可控的测序仪丨36氪首发梦红薯每天学一句英语台词|If anything goes wrongAgustín Hernández:中美洲建筑背景下的未来主义巨构等比微缩复刻的《千里江山图》《清明上河图》,我们搞到了故宫盖章版!CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征无花无酒不清明,清明节后,为什么适合藏点小酒?​ACL 2023 | 从平面图像中理解空间语义:视觉空间位置描述分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型摸老师屁股+打飞机被开除,学生委屈:那是不可控的生理反应…老人说“闰月清明不上坟,上坟祸事临门”,有啥说法吗?今年清明不能上坟?完美世界TA谈Stable Diffusion插件,ControlNet、Segment Anything麻省理工Python增强编译器Codon 让Python像C\\C++一样高效Anthony"Tony" Ciaravino:Build the safest Chinatown in America!五万字综述!Prompt Tuning:深度解读一种新的微调范式欧洲实现自主可控的一大制约:原材料问题来了!《千里江山图》+《清明上河图》手帐:记录点滴生活,艺术滋养日常分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下宇宙人(1263期)航天南湖成功登陆上交所科创板;超5000亿元;北京5.5G来了;SpaceX披露星舰二次升空测试的发射时间表​Segment-and-Track Anything!视频版SAM来了,分割/跟踪/编辑一切,现已开源!视觉AI能力大一统!自动化图像检测分割,还能可控文生图,华人团队出品
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。