Redian新闻
>
ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!

ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【CV技术和求职】交流群

扫码加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

作者:周俊昇 | 已授权CVer转载(源于知乎)

https://zhuanlan.zhihu.com/p/678856210

我们近期的工作:3D视觉大模型Uni3DICLR 2024的评审中获得了688分,被选为Spotlight Presentation

在本文中,我们第一次将3D基础模型成功scale up到了十亿(1B)级别参数量,并使用一个模型在诸多3D下游应用中取得SoTA结果。代码和各个scale的模型(从6M-1B)均已开源,欢迎大家关注和使用:

论文:https://https://arxiv.org/pdf/2310.06773

代码:https://https://github.com/baaivision/Uni3D

我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域,scale up大模型(GPT-4,SAM,EVA等)已经取得了很impressive的结果,但是在3D视觉中模型的scale up始终没有成功。我们旨在将NLP/2D中scale up的成功复现到3D表征模型上。

在这项工作中,我们提出了一个3D基础大模型Uni3D,直接将3D backbone统一为ViT(Vision Transformer),以此利用丰富和强大的2D预训练大模型作为初始化。Uni3D使用CLIP模型中的文本/图像表征作为训练目标,通过学习三个模态的表征对齐(点云-图像-文本)实现3D点云对图像和文本的感知。同时,通过使用ViT中成功的scale up策略,我们将Uni3D逐步 scale up,训练了从Tiny到giant的5个不同scale的Uni3D模型,成功地将Uni3D扩展到10亿级别参数。

Uni3D模型不同scale下的参数量和zero-shot分类结果

Uni3D在多个3D任务上达到SoTA,如:zero-shot classification, few-shot classification,open-world understanding, open-world part segmentation.

Zero-shot classification

Real-world zero-shot recognition

由于学到了强大的多模态表征能力,Uni3D还能够做一些有意思的应用,如point cloud painting(点云绘画),text/image-based 3D shape retrieval(基于图像/文本的3D模型检索),point cloud captioning(点云描述):

Point cloud painting

Image-based 3D shape retrieval

Text-based 3D shape retrieval

Point cloud captioning.

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

点击进入—>【CV技术和求职】交流群

3D视觉交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-3D视觉微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如3D视觉+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源ICLR 2024 | LLM Agent领域第一高分论文,全网Star数最高的多智能体框架LLaMA2+RLHF=脆皮大模型?ICLR 2024高分投稿:多样性驱动的红蓝对抗伦敦2月UNCLE合租,仅£369/周;适合UCL/LSE/KCL的Studio仅£304/周;转租更便宜! (1月22日更新)Runner’s Tradition——2024 OpeningICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型54、长篇民国小说《永泰里》第十一章 铁蹄之下(3)多模态LLM多到看不过来?先看这26个SOTA模型吧央企第一家:中国电信开源星辰语义大模型,共享超1T 高质基础数据《感恩》&《忘不了的温存》千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024Strong start 2024ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3桃花依旧笑春风港澳上新多个艺术专业!现在赶24秋季入学,还来得及!!360安全大模型3.0来了!垂直大模型,他们这么训AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务央企第一家:中国电信开源星辰语义大模型,共享超1T高质基础数据台湾政坛上新的两位女将· 蓝白合破局倒计时计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点最强开源多模态生成模型MM-Interleaved:首创特征同步器,刷新多项SOTA【美坛综艺秀假日篇】Best wishes for 2024!刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型!2024 rav4 油车 le四驱New Year's fireworks 2024 LIVE: NYC's Times Square ball dropStability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩3个金奖、n个实践...拿到24Fall牛津offer的他们,刷新了课外背提“卷”门极限?小学好同学,白血病ICLR 2024 | 机器人领域首个开源视觉-语言操作大模型!RoboFlamingo框架激发开源VLMs更大潜能EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发Agent像人一样分工协作,还能“群聊”交换信息|ICLR2024 Oral今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。