Redian新闻
>
Meta发布大规模视觉模型评估基准FACET!开源视觉模型DINOv2允许商用

Meta发布大规模视觉模型评估基准FACET!开源视觉模型DINOv2允许商用

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 夕小瑶科技说
作者 | 谢年年
近日,Meta宣布开源计算机视觉模型DINOv2现在可商业化应用了,并发布了全新的视觉模型评估新基准FACET。
DINOv2是Meta AI继「分割一切」SAM模型之后发布的一重磅视觉基础模型,在今年4月份宣布开源,但之前只能用于技术研究,这次Meta宣布其可在 Apache 2.0 许可证下进行商业化。意味着开发者、研究人员可以灵活地探索其在业务中的应用,给实际业务提供解决方案。
DINOv2是高性能计算机视觉基础模型,能产生高性能的视觉表征,具备自我监督学习,无需微调就能用于分类、分割、图像检索、深度估计等下游任务。该模型的应用范围非常广泛,例如,世界资源研究所通过DINOv2绘制虚拟森林地图。
相较于其他模型,DINOv2在执行视觉任务时能够更准确地处理人物的年龄、性别、肤色等特征,提供更一致的结果。
体验demo:
https://dinov2.metademolab.com/
论文地址:
https://arxiv.org/abs/2304.07193
GitHub地址:
https://github.com/facebookresearch/dinov2
让我们通过一些例子来看看DINOv2的表现吧!

深度估计(Depth Estimation)

一般很少有预训练模型展示自己在深度估计方面的能力,DINOv2 模型表现出强大的分布外泛化能力(strong out-of-distribution performance)。

语义分割(Semantic Segmentation)

DINOv2 的冻结特征(frozen features)可以很容易地用于语义分割任务。

实例检索(Instance Retrieval)

给定目标图像,从大量的艺术图像中找到与给定图像相似的艺术作品。
原图:

检索结果:

稠密匹配(Dense Matching)

在检索到与目标图像相似的多个图像后,可从中选择一张图片进行像素点到像素点更细粒度的匹配。在两张图像中找到最相似的对应点。

稀疏匹配(Sparse Matching)

稀疏匹配相对于稠密匹配,其匹配的单位更大一些。

视觉模型评估基准——FACET

虽然DINOv2等计算机视觉模型在分类、检测、分割等任务中展现出令人印象深刻的能力。然而,由于训练数据的限制,这些模型可能会学习到社会偏见,并在下游任务中传递这些有害的刻板印象。
以往的研究表明,计算机视觉公平性评估非常具有挑战性,并且可能存在误差。为了应对这个问题,Meta发布了一项全新的综合基准测试工具——FACET。
FACET提供了一种新的方法来评估计算机视觉模型的公平性。它不仅考虑了人口统计和物理属性,还考虑了与人类相关的类别,例如评估图片人物的性别、肤色、光线等,从而能够进行更深入的评估,揭示模型中存在的偏见。
通过引入FACET,我们能够更全面地评估计算机视觉模型的公平性,打破刻板印象,推动公正和包容的计算机视觉技术发展。
FACET论文链接:
https://ai.meta.com/research/publications/facet-fairness-in-computer-vision-evaluation-benchmark/
FACET数据集下载地址:
https://ai.meta.com/datasets/facet-downloads/

FACET数据集

该数据集包含32,000张图像,涵盖了50,000个人的信息。这些图像由专家进行标注,包括人口统计属性(如性别、年龄)、额外的身体属性(如肤色、发型)以及与职业和活动相关的细粒度类别,如医生、唱片骑师或吉他手等。FACET还包含了SA-1B数据集中69,000个戴口罩的人的头发和服装标签。
FACET提供了评估视觉基础模型在分类、检测、实例分割以及跨个体和交叉人口统计属性方面的能力,从而具体、定量地理解计算机视觉模型的潜在公平性问题。
通过使用FACET初步评估发现,目前最先进的模型在展示不同人口群体之间的性能差异方面存在一些倾向。例如,对于肤色较深的人,识别他们的照片可能更具挑战性,而对于卷发而非直发的人来说,这种挑战可能会更加显著。
通过发布FACET,研究人员和从业人员执行此基准测试以更好地了解其模型存在的差异,并帮助他们更好地理解和处理模型中的偏见和不公平现象。这为研究人员提供了一个有力的工具,使他们能够更深入地探索和解决计算机视觉模型中的公平性问题。

在FACET上评估DINOv2

为了验证DINOv2模型的公平性,研究人员运用FACET评估了DINOv2在不同属性上的性能差异,并将其与SEERv2模型和OpenCLIP视觉编码器进行了比较,这些属性包括分类、年龄组和肤色等。
研究结果显示,DINOv2在性能上与其他模型相当:在感知性别方面略逊于OpenCLIP,但在感知年龄组和肤色方面优于其他模型。
FACET评估能够更深入地研究模型的潜在偏见,这是FACET相对于以往的公平性评估基准的优势所在。
尽管SEERv2、OpenCLIP和DINOv2在大多数属性上表现良好,但在某些特定属性上仍存在性别、年龄和肤色方面的偏见。例如,在性别偏见最严重的职业中,如"护士",这三种模型都表现出不同程度的偏见,其中SEERv2和OpenCLIP的偏见更为显著。
这可能是因为SEERv2是在未经筛选的社交媒体内容上进行预训练,导致数据源缺乏多样性。而OpenCLIP使用CLIP视觉语言模型进行数据过滤,但这可能会放大已存在于图像、文本训练数据和模型中的职业和性别之间的关联。
而DINOv2的预训练数据集可能无意中复制了参考数据集中的偏见。例如,如果一个数据集的图像分布不足以代表某些群体,那么会从ImageNet中选择一部分数据作为主要参考,从而导致偏见的产生。
由此可见,计算机视觉模型在某种程度上存在偏见,这对下游任务将会造成了巨大的危害。因此,我们仍然需要进一步改进模型,以确保计算机视觉模型的公平性和公正性。

One More thing

Meta在2021年开源DINO模型,2023年4月开源了DINOV2版本,本次宣布可商用化足以看出Meta在开源上的决心,希望越来越多的优秀模型可以引入到开源社区,开发者一起推进AI技术进步和应用。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报改写游戏规则!Meta开源大语言模型Llama 2,可免费商用;微软Copilot定价每月每用户30美元 | 环球科学要闻650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目PyTorch大更新!编译代码速度暴增35倍!视觉模型一键部署,头显Quest 3可用百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元全面的中文大语言模型评测来啦!香港中文大学研究团队发布爱奇艺VR公司业务停滞,员工或被欠薪;阿里云开源通义千问 70 亿参数模型,免费可商用;华为正式发布鸿蒙 4,接入大模型|Q资讯古巴Cayo Coco八天游日记 (7)也议李玟之死陈丹琦新作:一个LLM的评估基准LLMBarMeta发布首个开源可商用LLM,硬刚OpenAI和谷歌两大巨头给大模型评分的基准靠谱吗?Anthropic来了次大评估阿里云在AI大模型评估中获6项满分 | 绿研院日报通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入人老了,路是不是越走越窄潮流 | 《芭比》官方周边产品释出;Kiko Kostadinov 发布 ASICS NOVALIS 服装系列Meta被曝明年发布「开源版GPT-4级」全新大模型!参数量比Llama 2大数倍,可免费商用面向真实用户需求的中文大语言模型评测第二期(LLMEVAL-2)发布大规模视觉基础模型应用在线研讨会上线!南开、港中文、南京理工和微软亚洲研究院的四位青年学者将直播讲解值得一试的开源模型!开源社区上季度都有哪些靠谱项目?阿里云开源通义千问多模态视觉模型,号称“远超同等规模通用模型表现”晚讯 |HIV首个长效注射治疗方案在中国获批、美国FDA将评估基因组编辑疗法的安全性上海交大发布大模型双语编程评估基准CodeApex,机器真的开始挑战人类写代码了吗?通义千问能看图了!阿里云开源视觉语言大模型 Qwen-VL ,支持图文双模态输入摄影教程:如何拍出星光芒SuperAlignment in Medical Science: 中文医疗大模型评估基准CMB刷榜13个暗光增强基准!清华大学联合ETH等开源Retinexformer:亮、暗都有细节 | ICCV 2023PyTorch大更新,编译代码速度暴增35倍!视觉模型一键部署,头显Quest 3可用Meta为什么要发布开源Llama 2大模型;2027上市,Meta AR眼镜放弃MicroLED技术幻象 or 事实 | HaluEval:大语言模型的幻象评估基准【时间简史】周末书香抓穿越数之联发表通用深度视觉模型可解释性工具,助力破解人工智能模型“黑箱”昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源微软赢麻了!联合Meta 重磅发布开源、可直接商用大模型Llama 2,网友:OpenAI 感觉如何?Meta“搞大事”了:发布GPT“平替”Llama 2,开源、免费、还可商用!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。