更大更强!有请智源 Uni3D 视觉大模型,从「最强2D」升维「最强3D」
三维视觉能力雷达图
论文链接:
更新更强的Uni3D
胜任各种三维任务
全面发展,全面超越,看看 Uni3D 的各项成绩怎么样?
01
零样本/少样本分类任务,是衡量视觉模型通用能力的关键性指标
Uni3D在ModelNet上实现了88.2%的零样本分类准确率,甚至接近了有监督学习方法的结果(如PointNet 89.2 %); 在最困难的Objaverse-LVIS基准下,Uni3D取得了55.3%的零样本分类准确率,大幅刷新了该榜单。 而在Objaverse-LVIS基准的少样本分类测试中,Uni3D实现了83.1%的准确率(16样本下),明显超过了以往的最先进基准OpenShape 32%。
零样本分类任务下评估Uni3D,分别在 ModelNet(包含15个类别) 、ScanObjNN(包含40个类别) 、Objaverse-LVIS(包含1156个LVIS类别中的46832个形状)三个基准下进行实验。
02
对开放世界的理解,可以评估Uni3D对真实世界的形状和场景的三维理解能力
图中不同颜色代表了模型对于3D场景中不同物体的理解和类别识别,可以看到Uni3D对于场景的理解和真实Ground Truth(地面实况)更加接近,而先前方法如PointCLIP V2和CLIP2Point则有大量的错误识别。
03
表征迁移能力,体现了Uni3D迁移表征到不同任务的能力
04
开放词汇分割,体现了对于未知信息的推测能力
05
点云绘画:体现了在3D AIGC上的潜在能力
06
文本驱动/图像驱动的三维形状检索:体现在构建多模态检索库上的潜在能力
07
Uni3D 还可根据输入文本来检索 3D 形状
ViT撬动从「最强2D」 到「最强3D」转折点
Uni3D 是这样炼成的
一方面以前的方法为追求性能提升设计了特定的骨干网络结构,这些3D骨干结构在不同下游任务的数据集上,每个骨干结构都需要专门设计的扩展策略,需要繁复的人工设计工作,不易实现; 另一方面,扩大模型规模将导致在没有有效参数初始化的情况下难以实现收敛和训练不稳定。
01
统一的三维表示
02
多模态对齐
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章