Redian新闻
>
数之联发表通用深度视觉模型可解释性工具,助力破解人工智能模型“黑箱”

数之联发表通用深度视觉模型可解释性工具,助力破解人工智能模型“黑箱”

公众号新闻


导语:

近期,高新技术企业成都数之联科技股份有限公司算法团队在SCI顶级期刊(中科院一区)《knowledge based systems》上发表了题为《基于联合高斯混合模型的通用深度视觉模型可解释性方法》的学术论文。论文对深度学习的可解释建模进行了深入的研究和探索,提出了一种通用的深度视觉模型可解释性工具——联合高斯混合模型(Joint Gaussian Mixture Model, JGMM),为破解人工智能大模型生成的“黑箱”,真正理清算法、模型和生成结果之间的逻辑关系提供方法。

以深度学习为代表的人工智能技术的迅速发展推动了计算机视觉诸多领域的革命。目前人工智能的发展主要依赖于深度学习模型,它们重要的特点就是模型大、参数多(上亿参数)、计算复杂。比如现在发展如火如荼的语言大模型GPT-4,达到了上千亿参数。其他用于视觉识别、自动控制、人机交互的深度学习模型也有越来越大的趋势。

然而在深度学习模型中,由于神经网络的结构和参数复杂性,导致了人们难以理解模型从数据学习到了哪些概念、逻辑、知识、规则。数之联的专家告诉记者,这就好比一位运动员能熟练地完成技术动作,背后涉及了人体上百亿个神经细胞;但运动员自己却不一定知道自己复杂的身体是如何运转的、这些神经元是如何作为协作的、它们的能力范围如何。

对于人工智能而言,人们用大规模数据和特定的任务去训练复杂的人工智能模型,却并不真的理解它学习到了什么概念和知识、内部在运行着什么规则、哪些场景是它还不理解的。这个问题被称做模型的不可解释性问题。而对于用于生产生活的人工智能模型来说,这种不可解释性会带来安全性、公平性等方面的问题。

数之联近期的这项研究工作就是针对深度学习模型,特别是视觉模型的可解释性研究。数之联提出的联合高斯混合模型(Joint Gaussian Mixture Model, JGMM)是一种基于高斯混合模型(Gaussian Mixture Model)的概率模型,对深度模型的中间层特征建模,挖掘特征分布规律和特征间的关联关系。并利用混合高斯分布良好的性质,生成直观、可理解的代理模型和可解释样本。

图1 JGMM对深度模型中间特征x和y建模,训练以条件分布q关联的两个高斯混合模型

包括如:

(1)代理模型,用一个更简单、更容易理解的逻辑关系替代复杂的黑盒模型。

(2)原型样本,让AI用典型的例子来说明自己学习到的概念。

(3)反事实样本,让AI告诉我们如何通过修改数据来改变它的决策。


目前深度视觉模型领域流行的模型注意力可视化、对抗样本生成、深度特征可视化等方法,往往专用于某一种模型解释类型,难以确保模型解释的一致性、不同类型的模型解释之间缺乏关联,无法用统一的框架进行验证。JGMM从概率模型出发,利用其在概率密度可计算性、模型复杂度可扩展性、采样高效性等方面的良好性质,提供了更丰富、更具有一致性的模型解释方法。并且,JGMM具有良好的可扩展性,基于改进的EM算法进行训练,可以面对深度模型高维度、大数据量的中间层特征。

图2 MNIST数据集训练的VGG模型中间层表征的隐变量条件概率分布和可解释样本

图3  ImageNet数据集训练的ResNet模型可解释样本

实验验证显示,JGMM具有较高的模型解释真实性(Faithfulness,通过代理模型在测试集数据的准确率体现),同时可以高效地利用代理模型解释特征间的关联、生成全局和局部可解释样本,可以作为研究者、工程师或普通使用者理解深度视觉模型、引导人类-模型交互、提升模型效果的有力工具。

专家还告诉记者,目前基于深度学习的人工智能打一个不太恰当比方就像历史上的炼金术。AI研究者们也会自嘲是“炼丹”。大多数人都在讨论加什么料(数据)、用什么炉子(模型)、用多大火候(GPU)。但站在后世的角度看,炼丹术无疑是经验主义的、缺乏系统的科学理论指导的。我们需要的是化学,是认识到物质作为分子、原子这种基本组成元素,并研究它的结构和性质,理解分子间的转化规律,最后再来解释宏观现象。回到AI,AI要继续长远发展下去,就必须要找到一个科学的理论框架来用理论替代经验。而模型可解释性研究正涵盖了一些有希望探索人工智能底层原理的方向。

下一步,数之联会将模型解释应用到缺陷检测、遥感图像解译、语义检索、问答模型等具体业务中,让它真正能服务于AI的使用者,促进技术研究发展。

据了解,近年来数之联除了在模型可解释性这一前沿方向发力并取得成果外,在其他方向也在积极投入,在轻量化、多模融合、未知目标识别、复杂背景下的微小目标识别及信号处理等方向上取得了初步研究成果。数之联表示,接下来将结合自身在知识表示、知识图谱领域的技术和工程优势,向知识+数据联合驱动模型方向开展研究。特别是,将大模型和知识图谱结合,建立解释性更好的领域大模型和领域知识图谱,支撑各类垂直应用。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
视觉模型+大语言模型:首个支持10K+帧长视频理解任务的新型框架打破大模型黑盒,彻底分解神经元!OpenAI对头Anthropic击破AI不可解释性障碍走向计算机视觉的通用人工智能:GPT和大语言模型带来的启发战国故事《定风波》卷二(24):山鬼突破 | 欧盟《人工智能法案》: 欧盟理事会和欧洲议会达成协议!全球首个人工智能法律只差临门一脚!【机器学习保姆级求职指南】7分钟,带你了解人工智能时代的核心行业!浙大团队用深度学习方法进行高效、准确的大型文库配体对接,助力药物开发阿里云开源通义千问多模态视觉模型,号称“远超同等规模通用模型表现”重磅!拜登签署人工智能领域人才留美新政策,利好留学生!人工智能行业将迎来大增长!Meta花500万美元购买一明星形象,只为打造人工智能助理;中国网络空间安全协会人工智能安全治理专业委员会成立丨AIGC日报通义千问爆甩开源全家桶!最强720亿参数超车Llama 2,新上视觉模型看图直出代码PyTorch大更新,编译代码速度暴增35倍!视觉模型一键部署,头显Quest 3可用北京/上海/深圳内推 | 百度视觉技术部招聘内容理解/3D视觉等方向算法实习生Time reversal文末送书 | 深度生成模型:详解AIGC模型的技术基石,稳步迈进通用人工智能NeurIPS 2023 | 港科大提出EAC:"可解释一切"图像概念解释器阿根廷人有点意思Meta发布大规模视觉模型评估基准FACET!开源视觉模型DINOv2允许商用PyTorch大更新!编译代码速度暴增35倍!视觉模型一键部署,头显Quest 3可用「简报」Shapiro 州长访问卡耐基梅隆大学——人工智能的诞生地,签署关于生成式人工智能的行政命令;拓展:以新方式建模神经元硬核观察 #1210 人工智能聊天机器人被用来越狱其它人工智能一份新报告称Meta将GPT-4作为其下一个人工智能模型的标杆解锁通用听觉人工智能!清华电子系联合火山语音,开源全新认知导向听觉大语言模型谷歌人工智能推出新工具,遗传病研究新路径?中央网信办发布《全球人工智能治理倡议》;微软正式发布AI内容审核工具;OpenAI开发可高精度检测AI生成图像工具丨AIGC日报OpenAI 更新企业价值观:强调通用人工智能;阿里云、华为成立人工智能安全委员会;周杰伦演唱会 4 黄牛被抓 | 极客早知道大模型可解释性你能理得清吗?综述已来,一文解你疑惑CVPR 2023 | MovieChat: 集成视觉模型和LLM的长视频理解新型框架人工智能教程(二):人工智能的历史以及再探矩阵 | Linux 中国大哥养成记Spotify推新付费推广工具,Stability AI发布AI音乐工具,大型演出活动面向公众销售门票比例不得低于85%“56.9元1箱”写成“10元6箱”,商家损失上千万仍承诺发货!网友点赞,股民却怒了:凭啥我们买单?英国国家机器人实验室王教授:医学成像中机器学习的有效解释性|收获一作论文与导师推荐信!每周硅闻 | 突发!新员工薪资整体缩水;又有巨头宣布大裁员;Meta发布人工智能模型!教书先生和压寨夫人的故事
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。