Redian新闻
>
计算机视觉走向何方?参会ICCV的一些感想

计算机视觉走向何方?参会ICCV的一些感想

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉和Transformer】交流群

作者:Haiwen Huang | 转载自:Architistics

ICCV结束了。对我来说,这次的highlight就是第一天下午的 "Quo vadis, computer vision“ workshop。“Quo vadis"是拉丁语,意思是“我们去向何方“。

四年前的CVPR,也有过一场类似的workshop(Computer Vision After 5 Years),今年这次workshop,主办方也让四年前也在的大佬们回顾了自己当年的predictions,看看谁是大预言家(spoiler: Jitendra Malik)。这场 workshop是我这几年来参加的各种会议里最有意思的。可惜因为听的太投入,并没有很多的图片记录,现在我意识到似乎主办方并不会上传slides。所以这篇文章里我就简单谈谈我自己的一些感想,而不是记录这个会议。

Ignorance or faith on LLM?

今年最火的莫过于LLM。LLM的成功刺激了很多相关的vision research。然而许多的vision-language的研究其实都是基于一种对LLM的faith,而并没有在深入思考这一切的合理性。David Forsyth问道:why would anyone believe that:

  • Visual knowledge is the same as linguistic knowledge

  • You can describe the world of an image properly in words

  • LLMs can do vision (anything)? if you ask nicely.

深入来看,这其实是一个关于vision和language区别的问题。但其实在我看来这些问题都很奇怪,可能因为我自己也觉得这些想法都很absurd。对我来说,更有意思的问题可能是:vision systems的什么knowledge是LLM做不了的,我们又该怎么做?在这里提一个idea,不知道未来有没有机会去好好做:我们有没有可能对稠密的vision空间进行一个approximate decomposition,分解成几个子空间的积?(其中一个子空间就可以是离散的language空间)

Data over algorithms

这个主题是我非常认同的。四年前,我写过一篇文章(Andre:思考无标注数据的可用极限 ),提出的也是我们要重视数据的研究,而不是算法的研究。今天依然适用。Alyosha Efros这次也再次强调了这个方向的本质性。

需要解释的是,什么是"data research"。并不是说直接去做数据集才是data research,而是说从data层面开始思考模型的有效性,learning process,generalization ability,等等。从这个角度讲,从data中学习知识 (self-supervised learning)是data research,研究如何克服data shift的影响(OOD, open-world)当然也是data research,这里不再赘述了。

Video与视觉大模型

这个主题是今年开始进入我的视野的。年初随着stable diffusion, segment anything model的出现,我们不少人开始思考视觉大模型该是什么形态,我与组里不少同学聊天后的感受就是要做video。在五月份的ICLR时,我与Ben Poole还有3DGP的作者也交流了不少(顺带表示ICLR的参会体验比ICCV好太多了),感受就是现在3D问题大概就是两个思路:1. 希望随着depth camera的引入,会有更多海量的3D data,直接训出3D大模型;2. 希望video大模型直接绕开explicit 3D modeling的需求,建成vision大模型。这次ICCV另一个MMFM上,Vincent Sitzman也提出了一个类似的思路,但是他直接把video和3d modeling结合了起来(然而我并没有特别跟上他讲的东西,希望之后talk能有slides让我再学习学习)。

讲了上面这么多,我就是想说video很可能是我们走向视觉大模型的路。这次quo vadis workshop上,Jitendra的分享主要也是指出video的重要性。他指出:video有两个用处:

  • Exteroception:建立对外部世界的认识。We build mental models of behavior (physical, social ...) and use them to interpret, predict, and control

  • Proprioception:建立对自己的认识。Helps produce an episodic memory situated in space and time, and guides action in a context-specific way。

他还给出了一个对video的思考框架,短video对应了movement/physical action,长video对应了goal/intention,而一个完整的action就是movement + goal。

当然,这些都是比较高屋建瓴的观点了。但对于我们这些正在地上爬的人当然还是有好处的。(另外,Jitendra还认为token-based LLM可能不是最终的模型,因为它不能很好地capture 4D world,同时complexity也太高)。

Embodied AI?

最后,可能大家从上面一段论述中也已经能感觉出来了,许多大佬们正把embodied AI作为一个最终的目标。Antonio Torralba给了一个很有意思的talk,说我们是时候要返璞归真,从focus on performance on benchmarks回到"the original goal"。对他来说,这个goal就是embodied AI。有意思的是, Antonio提出的设想是 small network, big sensing,他称作embodied perception。他举了个例子:人光光味蕾上的传感器就比我们现在最先进的机器人身上全部的传感器要多。然而就在第二天的BRAVO workshop上,Wayve的Jamie Shotton给出了完全相反的框架:lightweight sensors + big model。考虑到传感器的价格,Jamie的想法可能现在这个时候是更合适的。不过也许最终Antonio的想法才最make sense。

Antonio的小模型,大感知

Jamie的大模型,小感知

闲话就说到这里了。这次ICCV还是有不少有意思的talks,希望之后能有公开的videos/slides。最后,祝愿各位同仁们都能继续做自己感兴趣的方向,做出令自己满意的工作!

点击进入—>【计算机视觉和Transformer】交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型和ChatGPT对计算机视觉的影响 | RACV 2023 观点集锦计算机视觉迎来GPT时刻!UC伯克利三巨头祭出首个纯CV大模型!"世界最大露天监狱"加沙:巴勒斯坦人要走向何方?这所985高校首次在计算机视觉领域顶级会议ICCV上发表论文!“反骨仔”上台,斯洛伐克将走向何方?魔幻!一边是计算机就业哀鸿遍野,一边是高考生疯狂涌向计算机专业北京内推 | 百度AIGC团队招聘多模态方向计算机视觉算法工程师/实习生穆迪默默地捅刀子博士申请 | 香港科技大学(广州)李昊昂老师招收计算机视觉方向全奖博士/RA/实习生IPO收紧严控减持风暴来袭,医疗投资走向何方?实习招聘 | Intel -「研究生实习-电气工程、计算机科学、计算机工程」招聘资本风云|“苏酒老二”今世缘,百亿之后走向何方?车联网联盟CCC:CCC数字钥匙进入汽车的未来白皮书BCD技术,走向何方?枕枪睡觉走火穿墙,美国男子被控重罪,自称毫不知情出租房里真假租客 (多图)官方发话了!“史上最强”风暴,3500亿销售费用走向何方红颜从来非祸水,妖孽原是自本心快手招聘计算机视觉算法实习生计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花果敢战争走向何方?Offer捷报 l 卡耐基梅隆大学 计算机视觉 Offer+1!祝贺来自美本TOP50的常青藤学子斩获梦校录取!上千名美国科学家呼吁续签,《中美科技合作协定》未来会走向何方?AI时代下,打工人的命运走向何方?App监管走向何方?个保法落地难点何解?专访苹果高级副总裁Craig和副总裁Alan:iPhone诞生16年,交互设计走向何方?走向计算机视觉的通用人工智能:GPT和大语言模型带来的启发162万套!600万恒大烂尾楼业主走向何方?硬核观察 #1144 量子计算机正在重演真空管计算机的历史吗?计算机视觉大牛卢湖川教授当选IEEE Fellow!狂欢开场,摇滚落幕:视频号内容走向何方?AI时代下,打工人的命运走向何方是“又鸟”,还是“鸡”,普罗旺斯人说“蒜了吧!”NeurIPS 2023 | Backbone之战:计算机视觉任务模型大比较(蜂巢里的)假面(长篇小说)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。