近期,高新技术企业成都数之联科技股份有限公司算法团队在SCI顶级期刊(中科院一区)《knowledge based systems》上发表了题为《基于联合高斯混合模型的通用深度视觉模型可解释性方法》的学术论文。论文对深度学习的可解释建模进行了深入的研究和探索,提出了一种通用的深度视觉模型可解释性工具——联合高斯混合模型(Joint Gaussian Mixture Model, JGMM),为破解人工智能大模型生成的“黑箱”,真正理清算法、模型和生成结果之间的逻辑关系提供方法。以深度学习为代表的人工智能技术的迅速发展推动了计算机视觉诸多领域的革命。目前人工智能的发展主要依赖于深度学习模型,它们重要的特点就是模型大、参数多(上亿参数)、计算复杂。比如现在发展如火如荼的语言大模型GPT-4,达到了上千亿参数。其他用于视觉识别、自动控制、人机交互的深度学习模型也有越来越大的趋势。然而在深度学习模型中,由于神经网络的结构和参数复杂性,导致了人们难以理解模型从数据学习到了哪些概念、逻辑、知识、规则。数之联的专家告诉记者,这就好比一位运动员能熟练地完成技术动作,背后涉及了人体上百亿个神经细胞;但运动员自己却不一定知道自己复杂的身体是如何运转的、这些神经元是如何作为协作的、它们的能力范围如何。对于人工智能而言,人们用大规模数据和特定的任务去训练复杂的人工智能模型,却并不真的理解它学习到了什么概念和知识、内部在运行着什么规则、哪些场景是它还不理解的。这个问题被称做模型的不可解释性问题。而对于用于生产生活的人工智能模型来说,这种不可解释性会带来安全性、公平性等方面的问题。数之联近期的这项研究工作就是针对深度学习模型,特别是视觉模型的可解释性研究。数之联提出的联合高斯混合模型(Joint Gaussian Mixture Model, JGMM)是一种基于高斯混合模型(Gaussian Mixture Model)的概率模型,对深度模型的中间层特征建模,挖掘特征分布规律和特征间的关联关系。并利用混合高斯分布良好的性质,生成直观、可理解的代理模型和可解释样本。图1 JGMM对深度模型中间特征x和y建模,训练以条件分布q关联的两个高斯混合模型(1)代理模型,用一个更简单、更容易理解的逻辑关系替代复杂的黑盒模型。(2)原型样本,让AI用典型的例子来说明自己学习到的概念。
(3)反事实样本,让AI告诉我们如何通过修改数据来改变它的决策。
目前深度视觉模型领域流行的模型注意力可视化、对抗样本生成、深度特征可视化等方法,往往专用于某一种模型解释类型,难以确保模型解释的一致性、不同类型的模型解释之间缺乏关联,无法用统一的框架进行验证。JGMM从概率模型出发,利用其在概率密度可计算性、模型复杂度可扩展性、采样高效性等方面的良好性质,提供了更丰富、更具有一致性的模型解释方法。并且,JGMM具有良好的可扩展性,基于改进的EM算法进行训练,可以面对深度模型高维度、大数据量的中间层特征。图2 MNIST数据集训练的VGG模型中间层表征的隐变量条件概率分布和可解释样本图3 ImageNet数据集训练的ResNet模型可解释样本实验验证显示,JGMM具有较高的模型解释真实性(Faithfulness,通过代理模型在测试集数据的准确率体现),同时可以高效地利用代理模型解释特征间的关联、生成全局和局部可解释样本,可以作为研究者、工程师或普通使用者理解深度视觉模型、引导人类-模型交互、提升模型效果的有力工具。专家还告诉记者,目前基于深度学习的人工智能打一个不太恰当比方就像历史上的炼金术。AI研究者们也会自嘲是“炼丹”。大多数人都在讨论加什么料(数据)、用什么炉子(模型)、用多大火候(GPU)。但站在后世的角度看,炼丹术无疑是经验主义的、缺乏系统的科学理论指导的。我们需要的是化学,是认识到物质作为分子、原子这种基本组成元素,并研究它的结构和性质,理解分子间的转化规律,最后再来解释宏观现象。回到AI,AI要继续长远发展下去,就必须要找到一个科学的理论框架来用理论替代经验。而模型可解释性研究正涵盖了一些有希望探索人工智能底层原理的方向。下一步,数之联会将模型解释应用到缺陷检测、遥感图像解译、语义检索、问答模型等具体业务中,让它真正能服务于AI的使用者,促进技术研究发展。据了解,近年来数之联除了在模型可解释性这一前沿方向发力并取得成果外,在其他方向也在积极投入,在轻量化、多模融合、未知目标识别、复杂背景下的微小目标识别及信号处理等方向上取得了初步研究成果。数之联表示,接下来将结合自身在知识表示、知识图谱领域的技术和工程优势,向知识+数据联合驱动模型方向开展研究。特别是,将大模型和知识图谱结合,建立解释性更好的领域大模型和领域知识图谱,支撑各类垂直应用。