Redian新闻
>
GPT-4来了,计算机视觉科研,何去何从?

GPT-4来了,计算机视觉科研,何去何从?

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

作者:Mike Shou  |(已授权转载)编辑:CVer
https://zhuanlan.zhihu.com/p/616966879

最近上课被学生问,“GPT-4来了,计算机视觉何去何从?“

我有被惊到,因为这还只是本科生的课,不是研究生、博士生的课。有同学开玩笑说,CV不复存在了。虽然是玩笑,但明显大家感觉到了危机,尤其对于我们,计算机视觉科研人员。但危中有机,谁能摈弃旧的模式,迅速打开思路,勇敢创新,这就是个极好的机会。甚至这个机,还前所未有的大。毕竟ChatGPT没出来前,人人都在抱怨CV太卷,什么知乎人均CVPR投3中2。GPT-4的到来,或许是个机会,让咱换个卷法。

那何去何从呢?我下面斗胆,分享下我的2点思考。因为被GPT辐射到的,主要还是CV里的understanding任务,所以下面也主要是针对理解任务来讲的。当然,更多还是想抛砖引玉,想跟大家探讨,跟大家学习。

1/ 从做Paper,到做系统

GPT-4给CV,尤其是给多模态领域,带来的危机感从何而来?可能就是以前某些,大家习惯的发paper模式,比如对着几个benchmark刷点,可能不好用了。因为过不了多久,GPT-567可能就在这些benchmark上领先SOTA一大截,实现降维打击;甚至我们还在做paper,人家都已经有了ChatGPT插件,实现商用落地了。

这听起来很可怕,但是,如果我们看看计算机的其他领域,就会发现当下的NLP/CV,不过是在走CS其他领域,已经走过的路罢了。GPT对于NLP/CV来说,就像Google对于信息检索,就像Oracle、Azure对于数据库,语音识别各个大厂也早有自己的solution。我跟这些领域的前辈老师聊,他们分享说,他们对paper尤其是纯count paper数量的关注度会变小,反之,会看有没有做出一个系统,有technology-driven的real-world impact。

都说现在是AI的iPhone 时刻,GPT是AI时代的IOS操作系统,在其之上,会有各类app/插件,面向各个垂类的应用:教育,医疗,太空…… 这些深耕的垂类,是GPT很难全cover的;就像手机上有原装的日历、计算器等app,但更多的是第三方的app。研究怎么tune好基础大模型,研究怎么加入expert knowledge,跨学科进行合作,将是重中之重。然后需要开发一个working system,不断收集真实用户domain data,壁垒就越来越强了。

而这一条路,前期还是做基础研究,但最终会逐步地走向商业化,需要有这样的心理预期。当然在这种新模式下,我们对于一个科研人员,是否成功的评价模式,可能也会发生改变,变得更加多元。

2/ Research需要做难一点的问题

如果不太想做系统,还是想保持突突突发paper的传统模式,职业目标就是冲教职,其实也大有可为;只是需要focus在更难一些的问题,那种几年后才能解决,而不是当下就知道该怎么做的问题上。

那,什么是这样的难的问题?我是做视频的,视频理解里最难的问题,就是长视频理解。套用Jitendra Malik教授近期的评价,“Core vision problems like long range video understanding are no closer to a solution“。

过去一两年,我们在推AI Assistant这个新的方向,去年时候大家还觉得天方夜谭,现在看来技术上非常可行。这个方向是,给一段很长的instructional/tutorial视频,比如某个相机的讲解视频,某个洗衣机的讲解视频,让AI学会如何使用某个具体的相机、洗衣机,甚至能去教新用户使用。详见AssistQ,AssistSR。现在大家说GPT开始联网了,能看网页学习,我们的AI Assistant就是下一步,想让GPT不光看网页,还能看YouTube,看b站进行学习。

因为这些视频都很长,对当下GPU硬件条件很有挑战,需要有更高效的模型设计;以及视频是多模态的,讲解视频、其transcript、用户实际情况中的视频、用户跟AI的对话,这些数据相互之间的correspondence还很复杂。我们在CVPR 2023也继续在办LOVEU Workshop,聚焦长视频的理解和生成。

其他难的理解任务,还有哪些?我想还不少:比如3D的问题还很难 -- 当然有人会argue我说,这只是available的训练数据量不够;CV跟机器人的结合还很难,让AI不只是网上冲浪,而是真的在real world产生作用,比如让机器人照顾老人 -- 当然我也承认,这还depends on硬件的发展。此外,连续学习,模型攻击技术,等等我就不一一赘述了,欢迎大佬们在评论区集思广益。

结语

GPT-4的出现,有人兴奋,纷纷下场;有人悲观,打算退圈。因人而异,都能理解。我想,我属于兴奋多一些。对于被GPT赋能的未来世界,I look forward to it very much.


点击进入—>【多模态学习】微信技术交流群


最新CVPP 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


多模态和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
横店20万群演现状:美女泛滥、懒汉遍地,他们到底何去何从?韦神出的这道题火了,GPT北京内推 | 微软亚洲研究院媒体计算组招聘计算机视觉实习生GPT今日直播 | AI侵袭下的UI/UX,何去何从?硅谷裁员【2023版】杀到,留学生们何去何从?芯片未来,何去何从?“中大纺织商圈”城中村工厂面临搬迁,30万制衣工何去何从?Meta新模型“分割一切”:抠图完成究极进化,计算机视觉迎来GPT-3时刻美元基金将何去何从?不再猜tsla虽然是包办婚姻,他却拒绝纳妾跌破2000美元关键点位后,金价何去何从?今夜利率决议见分晓豆瓣9.1,如果人类服从于算法,我们该何去何从?退休在即,您的小型企业将何去何从?美国硅谷银行破产,留学生恐面临大面积失业?CS专业留学生将何去何从?美国1月通胀降速不及预期,美股将何去何从?华人赴澳投资,近期应注意哪些税务问题?《文革武斗》《枪击案》的异同ChatGPT之后何去何从?LeCun新作:全面综述下一代「增强语言模型」GPT的威胁!咨询行业该何去何从?重访西班牙(6)-光辉的太阳海岸Gpt 4一出,谁与争锋硅谷裁员潮仍将持续,科技巨头何去何从?二年级选课,忽闻一夜 GPT 来,千课 万课 AI 开硅谷银行“猝死”后,市场何去何从? | 经济学人财经内忧外患的Unity该何去何从?财政部:严禁新设政府融资平台、坚持中央不救助、全面清理隐性债务!城投何去何从?草案被质疑,德国新积分移民体系何去何从?居龙:全球产业链加速重整,中国半导体何去何从?美国将结束疫情紧急状态!医疗补助面临取消,在这种情况下,普通人该何去何从?(深度)ChatGPT来势汹汹,计算机专业会变“天坑”吗?卡内基梅隆计算机教授揭秘读书人的志向揭秘﹗安省迎来医疗史上最大逆袭﹗巨款何去何从?只看这篇就懂了﹗突发!美国百年名校宣布倒闭!在校生该何去何从?十年首次下降,CIS何去何从?SaaS趋势追踪丨人工智能冲击商业模式,十大SaaS股该何去何从?近期开讲 | 在ChatGPT和裁员潮的夹击下,UI/UX岗将何去何从?SaaS趋势追踪丨IT市场乌云密布,十大SaaS股该何去何从?多家券商暂停内地身份港股开户,跨境证券何去何从?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。