Redian新闻
>
基于信息论的校准技术,CML让多模态机器学习更可靠

基于信息论的校准技术,CML让多模态机器学习更可靠

公众号新闻

机器之心专栏

机器之心编辑部
多模态机器学习的初衷和实际还相符吗?


多模态机器学习在各种场景下都取得了令人瞩目的进展。然而,多模态学习模型的可靠性尚缺乏深入研究。「信息是消除的不确定性」,多模态机器学习的初衷与这是一致的——增加的模态可以使得预测更为准确和可靠。然而,最近发表于 ICML2023 的论文《Calibrating Multimodal Learning》发现当前多模态学习方法违法了这一可靠性假设,并做出了详细分析和矫正。



  • 论文 Arxiv:https://arxiv.org/abs/2306.01265

  • 代码 GitHub:https://github.com/QingyangZhang/CML


当前的多模态分类方法存在不可靠的置信度,即当部分模态被移除时,模型可能产生更高的置信度,违反了信息论中 「信息是消除的不确定性」这一基本原理。针对此问题,本文提出校准多模态学习(Calibrating Multimodal Learning)方法。该方法可以部署到不同的多模态学习范式中,提升多模态学习模型的合理性和可信性。



该工作指出,当前多模态学习方法存在不可靠的预测置信度问题,现有多模态机器学习模型倾向于依赖部分模态来估计置信度。特别地,研究发现,当前模型估计的置信度在某些模态被损坏时反而会增加。为了解决这个不合理问题,作者提出了一个直观的多模态学习原则:当移除模态时,模型预测置信度不应增加。但是,当前的模型却倾向于相信部分模态,容易受到这个模态的影响,而不是公平地考虑所有模态。这进一步影响了模型的鲁棒性,即当某些模态被损坏时,模型很容易受到影响。



为了解决上述问题,目前一些方法采用了现有的不确定性校准方法,例如 Temperature Scaling 或贝叶斯学习方法。这些方法可以构建比传统训练 / 推理方式更准确的置信度估计。但是,这些方法只是使最终融合结果的信心估计与正确率匹配,并没有明确考虑模态信息量与信心之间的关系,因此,无法本质上提升多模态学习模型的可信性。


作者提出了一个新的正则化技术,称为 “Calibrating Multimodal Learning (CML)”。该技术通过添加一项惩罚项来强制模型预测信心与信息量的匹配关系,以实现预测置信度和信息量之间的一致性。该技术基于一种自然的直觉,即当移除一个模态时,预测置信度应该降低(至少不应该增加),这可以内在地提高置信度校准。具体来说,提出了一种简单的正则化项,通过对那些当移除一个模态时预测置信度会增加的样本添加惩罚,来强制模型学习直观的次序关系:




上面的约束为正则损失,当模态信息移除信心上升时作为惩罚出现。


实验结果表明,CML 正则化可以显著提高现有多模态学习方法的预测置信度的可靠性。此外,CML 还可以提高分类精度,并提高模型的鲁棒性。



多模态机器学习在各种情境中取得了显著的进展,但是多模态机器学习模型的可靠性仍然是一个需要解决的问题。本文通过广泛的实证研究发现,当前多模态分类方法存在预测置信度不可靠的问题,违反了信息论原则。针对这一问题,研究人员提出了 CML 正则化技术,该技术可以灵活地部署到现有的模型,并在置信度校准、分类精度和模型鲁棒性方面提高性能。相信这个新技术将在未来的多模态学习中发挥重要作用,提高机器学习的可靠性和实用性。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《心是一片宁静的海》&《虞兮叹》汇聚机器学习发展前沿,「第十九届中国机器学习会议」即将开幕加快制造业可靠性提升 助力制造业高质量发展——《制造业可靠性提升实施意见》解读会议通知 | 首届机器学习与统计会议暨中国现场统计研究会机器学习分会成立大会Apple 机器学习和视觉生态系统更新:Core ML、Create ML 和 VisionKit从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统港大张老师:基于机器学习的量化交易方法研究|收获一作论文与导师推荐信!新加坡管理大学刘教授:基于机器学习的量化交易策略|收获一作论文与导师推荐信!智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手著名儿童文学作家与儿童教育专家联手打造,让汉字学习更科学、更轻松ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2人在江湖会议预告 | 首届机器学习与统计会议暨中国现场统计研究会机器学习分会成立大会腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态沉痛悼念!信息论领域巨头蔡宁教授逝世,享年76岁对机器学习感兴趣?不如先来实践一下!|《ChatGPT聊天机器人语义情绪波动检测》【北台湾老街】(2)艋舺 - 台北市发源地· 龙山寺顶尖实验室王教授:多模态医疗影像数据的配准技术|收获一作论文与导师推荐信!微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」​ICML 2023 | 可证明的动态多模态融合框架:一个简单而有用的理论达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作多模态大语言模型综述来啦!一文带你理清多模态关键技术我厉害吗?他比我更厉害!《Python机器学习》畅销书作者又出新书了,全方位扩展你的机器学习知识ACL 2023 |信息减加法:基于特征去噪和主题增强的多模态关系抽取ICML 2023|CMU大牛全面总结「多模态机器学习」六大挑战:36页长文+120页PPT,全干货!【宏观市场】政策预期的校准期—6月宏观经济指标预测与7月政策前瞻为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT上海交大ACM班总教头团队重磅新作,带你动手学机器学习!带娃跑了3家医院,确诊了!亲身经历告诉你,这件事比学习更重要ICML 2023 | 拓展机器学习的边界I bond利率再大降, 杀出一匹狼
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。