Redian新闻
>
能找神经网络Bug的可视化工具,Nature子刊收录

能找神经网络Bug的可视化工具,Nature子刊收录

公众号新闻

机器之心报道

编辑:娄佳琪、大盘鸡

近来,《自然》子刊收录了一项能找出神经网络在哪里出错的研究成果。研究团队提供了一种利用拓扑学描述神经网络的推断结果与其分类之间关系的可视化方法。这项成果能够帮助研究人员推断神经网络推理过程中发生混淆的具体情况,让人工智能系统更加透明。

研究人员发现,在神经网络推理的某些数据图中存在尖峰,这些尖峰往往出现在神经网络判断模糊与产生错误的地方。观察这些尖峰,研究人员可以更容易发现人工智能系统中的故障点。


从分析癌症突变的原因到决定谁应该获得贷款,在解决这些问题的过程中,仿照人脑的神经网络比人类表现得更加快速、准确、公正。但是由于人工智能的工作并不透明,难以得知它们推理判断的过程,这引发了对人工智能可靠性的担忧。现在,一项新的研究提供了一种发现神经网络的错误出在哪里的方法。这项研究为揭示神经网络在出错时正在进行怎样的操作提供了可能。


神经网络在对数据集进行计算时,会将注意力集中在样本上,例如图像中是否包含人脸。编码这些细节的数字串被用来计算样本属于某个特定类别的概率。在本例中,计算的是图像中是否有一个人,以及这个人的脸是否显示出来。


然而,神经网络从哪些样本数据细节中习得了解决问题的方法,仍是未解之谜。神经网络的「黑盒」特性使得研究者难以判断神经网络给出的答案是否正确。


论文作者,普渡大学的计算机科学教授 David Gleich 认为:「当你向一个人询问解决某个问题的方法,他可以给出一个你能理解的答案。」但是神经网络不会给出他们的解题过程。


在这项新研究中,Gleich 和同事们没有追踪实验中神经网络对单个样本的决策过程,而是试图将系统对于整个数据库的所有决策结果与样本之间的关系进行可视化。


Gleich 表示:「我仍然对这项技术在帮助我们理解神经网络的可解释性。」研究团队用 ImageNet 数据库中的 130 万余张图片对神经网络进行了训练。他们开发了一种能够拆分与合并样本分类的方法,用以识别有高概率属于多个分类的图像。


在此基础上,研究团队运用拓扑学,绘制出了神经网络的推断结果与每个分类之间的关系图。拓扑学的知识能够帮助他们识别不同数据集之间的相似性。Gleich 表示:「基于拓扑数据分析的工具曾在分析乳腺癌中的特定亚群与基因是否有关的问题中发挥作用。」



论文链接:https://www.nature.com/articles/s42256-023-00749-8


在根据新研究成果生成的关系图中,每个点代表神经网络认为有关联的图像组,不同分类的图由不同的颜色表示。点之间的距离越近,神经网络认为每组图像越相似。这些地图的大部分区域都显示了单一颜色的点群。



两个不同颜色的重叠点表示有高概率属于多个分类的图像。「我们的方法能够构建出类似地图的关系图,放大某些数据区域。」 Gleich 表示,「这些区域通常是某几个分类边界不明显的地方,在这些地方,解决方案可能并不那么清晰。不过,它能突出值得进一步研究的特定的数据预测。」


由新方法生成的地图能够显示网络无法分类的区域。这种方法提供了「让研究者能够运用人类与生俱来的思维方式来推测神经网络的推理思路」的途径。Gleich 表示道:「这使我们可以根据已知的网络来预测它将如何响应全新的输入。」


研究团队发现神经网络特别容易混淆如胸腔的 X 光片、基因序列以及服装等类别的图案。例如,当一个网络在 Imagenette 数据库(ImageNet 的一个子集)测试时,它反复地将汽车的图片归类为磁带播放器。他们发现这是由于这些图片是从网购列表中提取的,含有汽车音响设备的标签。


该团队的新方法有助于揭示「错误出在哪里」。Gleich 介绍说:「在这个层面上分析数据,可以让科学家们从仅仅在新数据上得到一堆有用的预测,深入理解神经网络可能是如何处理他们的数据的。」


「我们的工具似乎很擅长帮助发现训练数据本身是否包含错误,」Gleich 表示。「人们在手工标注数据时确实会犯错误。」


这种分析策略的潜在用途可能包括特别重要的神经网络应用。比如说,神经网络在医疗保健或医学中的应用,以研究败血症或皮肤癌。


批评者认为,由于大多数神经网络都是根据过去的决定训练出来的,这些决定反映了对人类群体本来存在的偏见,因此 AI 系统最终会复制过去的错误。Gleich 说,如果能找到一种方法来使用新工具「了解预测中的偏见或成见」,可能是一个显著的进步。


Gleich 表示,这一新工具可与神经网络一起使用,通过小数据集生成特定预测,例如「基因突变是否可能有害」。但目前为止,研究人员还没有办法将它应用于大语言模型或扩散模型。


了解更多内容,请参考原论文。


参考内容:

https://spectrum.ieee.org/ai-mistakes

https://www.cs.purdue.edu/homes/liu1740/

https://www.cs.purdue.edu/homes/tamaldey/

https://www.cs.purdue.edu/homes/dgleich/




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Nature子刊 | 清华大学孙前文实验室揭示DNA引物酶促进转录复制间的竞争并影响基因组稳定性的新机制郑强教授,卸任后首篇Nature子刊!Nature子刊 | 西湖大学党波波团队开发单一主链酰胺键位点选择性的蛋白质化学偶联方法Nature子刊 | 晁彦杰课题组开发iRIL-seq新技术并解析了肠道病原菌RNA互作图谱与非编码RNA功能反向Debug了解一下?揭秘Java DEBUG的基本原理Nature子刊 | 曹雪涛团队发现抗病毒先天免疫启动促炎细胞因子表达的新机制秦始皇都没能找到长寿的方法,如今找到了!Nature子刊刊登最新研究发现限制饮食减缓大脑衰老并延长寿命的原因AI并没有学习!Nature子刊最新研究解码人工智能黑盒Nature子刊 | Sc3.0重要进展,酿酒酵母染色体臂的精简与合成重构Nature子刊|孙蕾/杨海涛/姜标/陈新文/张磊砢合作开发基于宿主因子的抗新冠病毒广谱性疗法又一款更快、更好、更稳定的 Redis 可视化工具开源了!!!Hans Clevers合作团队新进展!Nauture子刊:具备免疫系统的类器官可评估肿瘤免疫治疗脱靶效应AI测出你几岁死亡?Transformer「算命」登Nature子刊,成功预测意外死亡Nature子刊 | 西湖大学施一公团队揭示剪接体进行分支位点选择、校正的分子机理想要越老越聪明?Nature子刊:低剂量补充它,不仅延长寿命30%,还能提高认知能力娃生越多老越快!Nature子刊发现生育多胎可能会增加女性肥胖、患糖尿病的风险,甚至加速衰老!30+高级图表一键生成!Bloomberg“御用”可视化工具真绝了kaiming初始化很好,但我准备用新招!权重选择:用大神经网络的权重初始化小神经网络Nature子刊:CAR-T + mRNA疫苗两大技术联手,强攻癌症获得突破Nature子刊 | 范高峰和王皞鹏课题组揭示T细胞发育调控基因THEMIS作用机制Nature子刊|复旦大学周玉峰/钱莉玲/韩晓:揭示m6A修饰在过敏性哮喘气道炎症中调控巨噬细胞稳态的新机制非必要不做CT!Nature子刊:多国超94万人数据,每多做一次CT,患这种癌症的风险高43%《推开这扇门》&《又是一年冬天》Nature子刊|复旦大学郁金泰/程炜/董强/冯建峰:首次揭示下丘脑结构的遗传基础及其与神经精神疾病的关系《英语900句》主持人何丽达去世6048 血壮山河 卢沟桥之变 17新冠后总觉得累、更易疲劳?Nature子刊最新:“长新冠”患者持续疲劳的原因找到了!Memory of this dayNature子刊 | 清华大学陈立功/刘万里合作发文揭示MCT1转运蛋白在IgG抗体类别转换中的功能Nature子刊最新发文 | 新冠抗体mRNA选择性递送到肺部!Nature子刊 | 张萍/刘超/杨超团队核膜蛋白SUN2通过调节NS1介导的细胞骨架重组促进黄病毒复制为什么尿尿是黄色的?2024年Nature子刊刊登发现尿液是黄色的潜在机理,破解百年难题!大规模神经网络优化:神经网络损失空间“长”什么样?30+高级图表一键生成!Bloomberg“御用”可视化工具好绝夏婳:两情难相知(完结篇)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。