Redian新闻
>
三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法

三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】现有的语义分割技术在评估指标、损失函数等设计上都存在缺陷,研究人员针对相关缺陷设计了全新的损失函数、评估指标和基准,在多个应用场景下展现了更高的准确性和校准性。


优化语义分割模型常用的损失有Soft Jaccard损失,Soft Dice损失和Soft Tversky损失,但它们都和软标签不兼容,所以无法支持一些重要的训练技术(例如标签平滑,知识蒸馏,半监督学习,多标注员等)。


另一方面,语义分割常用的评价指标有mAcc和mIoU,但是因为它们都会偏向数据集中尺寸较大的物体,所以会严重的影响它们对模型安全性能的评估。


为了解决这些问题,鲁汶大学和清华的研究人员首先提出了JDT损失。JDT损失是原有损失函数的变体,包括了Jaccard Metric损失,Dice Semimetric损失和Compatible Tversky损失。JDT损失在硬标签下与原有的损失函数等价,但能完全兼容软标签。


研究人员将JDT损失应用于软标签的四个重要场景:标签平滑、知识蒸馏、半监督学习和多标注员,展示了它们提高模型准确性和校准性的能力。


论文链接:https://arxiv.org/pdf/2302.05666.pdf


论文链接:https://arxiv.org/pdf/2303.16296.pdf


除此之外,研究人员还提出了细粒度的评价指标。这些细粒度的评价指标对大尺寸物体的偏见较小,能提供更丰富的统计信息,并能为模型和数据集审计提供有价值的见解。


并且,研究人员进行了一项广泛的基准研究,强调了不应基于单个指标进行评估的必要性,并发现了神经网络结构和JDT损失对优化细粒度指标的重要作用。


论文链接:https://arxiv.org/pdf/2310.19252.pdf

代码链接:https://github.com/zifuwanggg/JDTLosses


现有的损失函数


由于Jaccard Index和Dice Score是定义在集合上的,所以并不可导。为了使它们可导,目前常见的做法有两种:一种是利用集合和相应向量的Lp模之间的关系,例如Soft Jaccard损失(SJL),Soft Dice损失(SDL)和Soft Tversky损失(STL)。


它们把集合的大小写成相应向量的L1模,把两个集合的交集写成两个相应向量的内积。另一种则是利用Jaccard Index的submodular性质,在集合函数上做Lovasz拓展,例如Lovasz-Softmax损失(LSL)。



这些损失函数都假定神经网络的输出x是一个连续的向量,而标签y则是一个离散的二值向量。如果标签为软标签,即y不再是一个离散的二值向量,而是一个连续向量时,这些损失函数就不再兼容。


以SJL为例,考虑一个简单的单像素情况:



可以发现,对于任意的y > 0,SJL都将在x = 1时最小化,而在x = 0时最大化。因为一个损失函数应该在x = y时最小化,所以这显然是不合理的。


与软标签兼容的损失函数


为了使原有的损失函数与软标签兼容,需要在计算两个集合的交集和并集时,引入两个集合的对称差:



注意两个集合的对称差可以写成两个相应向量的差的L1模:



把以上综合起来,我们提出了JDT损失。它们分别是SJL的变体Jaccard Metric损失(JML),SDL的变体Dice Semimetric 损失(DML)以及STL的变体Compatible Tversky损失(CTL)。



JDT损失的性质


我们证明了JDT损失有着以下的一些性质。


性质1:JML是一个metric,DML是一个semimetric。

性质2:当y为硬标签时,JML与SJL等价,DML与SDL等价,CTL与STL等价。

性质3:当y为软标签时,JML,DML,CTL都与软标签兼容,即x = y ó f(x,y) = 0。


由于性质1,它们也因此被称为Jaccard Metric损失和Dice Semimetric损失。性质2说明在仅用硬标签进行训练的一般场景下,JDT损失可以直接用来替代现有的损失函数,而不会引起任何的改变。


如何使用JDT损失


我们进行了大量的实验,总结出了使用JDT损失的一些注意事项。


注意1:根据评价指标选择相应的损失函数。如果评价指标是Jaccard Index,那么应该选择JML;如果评价指标是Dice Score,那么应该选择DML;如果想给予假阳性和假阴性不同的权重,那么应该选择CTL。其次,在优化细粒度的评价指标时,JDT损失也应做相应的更改。


注意2:结合JDT损失和像素级的损失函数(例如Cross Entropy损失,Focal损失)。本文发现0.25CE + 0.75JDT一般是一个不错的选择。


注意3:最好采用一个较短的epoch来训练。加上JDT损失后,一般只需要Cross Entropy损失训练时一半的epoch。                                      

                    

注意4:在多个GPU上进行分布式训练时,如果GPU之间没有额外的通信,JDT损失会错误的优化细粒度的评价指标,从而导致其在传统的mIoU上效果变差。


注意5:在极端的类别不平衡的数据集上进行训练时,需注意JDL损失是在每个类别上分别求损失再取平均,这可能会使训练变得不稳定。


实验结果


实验证明,与Cross Entropy损失的基准相比,在用硬标签训练时,加上JDT损失可以有效提高模型的准确性。引入软标签后,可以进一步提高模型的准确性和校准性。



只需在训练时加入JDT损失项,本文取得了语义分割上的知识蒸馏,半监督学习和多标注员的SOTA。





现有的评价指标


语义分割是一个像素级别的分类任务,因此可以计算每个像素的准确率:overall pixel-wise accuracy(Acc)。但因为Acc会偏向于多数类,所以PASCAL VOC 2007采用了分别计算每个类别的像素准确率再取平均的评价指标:mean pixel-wise accuracy(mAcc)。


但由于mAcc不会考虑假阳性,从PASCAL VOC 2008之后,就一直采用平均交并比(per-dataset mIoU, mIoUD)来作为评价指标。PASCAL VOC是最早的引入了语义分割任务的数据集,它使用的评价指标也因此被之后的各个数据集所广泛采用。


具体来说,IoU可以写成:



为了计算mIoUD,我们首先需要对每一个类别c统计其在整个数据集上所有I张照片的true positive(真阳性,TP),false positive(假阳性,FP)和false negative(假阴性,FN):



有了每个类别的数值之后,我们按类别取平均,从而消除对多数类的偏好:



因为mIoUD把整个数据集上所有像素的TP,FP和FN合计在一起,它会不可避免的偏向于那些大尺寸的物体。


在一些对安全要求较高的应用场景中,例如自动驾驶和医疗图像,经常会存在一些尺寸小但是不可忽略的物体。


如下图所示,不同照片上的汽车的大小有着明显的不同。因此,mIoUD对大尺寸物体的偏好会严重的影响其对模型安全性能的评估。



细粒度的评价指标


为了解决mIoUD的问题,我们提出细粒度的评价指标。这些指标在每张照片上分别计算IoU,从而能有效的降低对大尺寸物体的偏好。


mIoUI


对每一个类别c,我们在每一张照片i上分别计算一个IoU:



接着,对每一张照片i,我们把这张照片上出现过的所有类别进行平均:



最后,我们把所有照片的数值再进行平均:



mIoUC


类似的,在计算出每个类别c在每一张照片i上的IoU之后,我们可以把每一个类别c出现过的所有照片进行平均:



最后,把所有类别的数值再进行平均:



由于不是所有的类别都会出现在所有的照片上,所以对于一些类别和照片的组合,会出现NULL值,如下图所示。计算mIoUI时先对类别取平均再对照片取平均,而计算mIoUC时先对照片取平均再对类别取平均。


这样的结果是mIoUI可能会偏向那些出现得很频繁的类别(例如下图的C1),而这一般是不好的。但另一方面,在计算mIoUI时,因为每张照片都有一个IoU数值,这能帮助我们对模型和数据集进行一些审计和分析。



最差情况的评价指标


对于一些很注重安全的应用场景,我们很多时候更关心的是最差情况的分割质量,而细粒度指标的一个好处就是能计算相应的最差情况指标。我们以mIoUC为例,类似的方法也可以计算mIoUI相应的最差情况指标。


对于每一个类别c,我们首先把其出现过的所有照片(假设有Ic个这样的照片)的IoU数值进行升序排序。接着,我们设q为一个很小的数字,例如1或者5。然后,我们仅用排序好的前Ic * q%张照片来计算最后的数值:



有了每个类c的数值之后,我们可以像之前那样按类别取平均,从而得到mIoUC的最差情况指标。


实验结果


我们在12个数据集上训练了15个模型,发现了如下的一些现象。


现象1:没有一个模型在所有的评价指标上都能取得最好的效果。每个评价指标都有着不同的侧重点,因此我们需要同时考虑多个评价指标来进行综合的评估。


现象2:一些数据集上存在部分照片使得几乎所有的模型都取得一个很低的IoU数值。这一方面是因为这些照片本身就很有挑战性,例如一些很小的物体和强烈的明暗对比,另一方面也是因为这些照片的标签存在问题。因此,细粒度的评价指标能帮助我们进行模型审计(发现模型会犯错的场景)和数据集审计(发现错误的标签)。


现象3:神经网络的结构对优化细粒度的评价指标有着至关重要的作用。一方面,由ASPP(被DeepLabV3和DeepLabV3+采用)等结构所带来的感受野的提升能帮助模型识别出大尺寸的物体,从而能有效提高mIoUD的数值;另一方面,encoder和decoder之间的长连接(被UNet和DeepLabV3+采用)能使模型识别出小尺寸的物体,从而提高细粒度评价指标的数值。


现象4:最差情况指标的数值远远低于相应的平均指标的数值。下表展示了DeepLabV3-ResNet101在多个数据集上的mIoUC和相应的最差情况指标的数值。一个值得以后考虑的问题是,我们应该如何设计神经网络结构和优化方法来提高模型在最差情况指标下的表现?



现象5:损失函数对优化细粒度的评价指标有着至关重要的作用。与Cross Entropy损失的基准相比,如下表的(0,0,0)所示,当评价指标变得细粒度,使用相应的损失函数能极大的提升模型在细粒度评价指标上的性能。例如,在ADE20K上,JML和Cross Entropy损失的mIoUC的差别会大于7%。



未来工作


我们只考虑了JDT损失作为语义分割上的损失函数,但它们也可以应用在其他的任务上,例如传统的分类任务。


其次,JDT损失只被用在标签空间中,但我们认为它们能被用于最小化任意两个向量在特征空间上的距离,例如用来替代Lp模和cosine距离。


参考资料:
https://arxiv.org/pdf/2302.05666.pdf
https://arxiv.org/pdf/2303.16296.pdf
https://arxiv.org/pdf/2310.19252.pdf


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
梅西百货拒绝了两家投资公司联合提出的58亿美元私有化收购要约简单好用!北大、普林斯顿联合提出即插即用的大语言模型加速方法NeurIPS 2023 & MICCAI 2023:可兼容软标签的语义分割损失函数一文解析 ODPS SQL 任务优化方法原理史诗级学术欺诈!骨科教授狂编 300 篇论文,被揭发后自杀,造假论文还有人在引用…参演《胡桃夹子》遭遇乌龙事件攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析用什么表真心?顶刊MIA 2023!PUNet:参数高效医学图像分割的提示微调AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响WWW 2024 | 港理工等联合提出线性时间图神经网络,适用于大规模推荐系统哪里要动点哪里!腾讯联合清华、港科大推出全新图生视频大模型EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型也题Magnolia封面美女上海通管局关于车联网网络安全防护定级备案和评测评估审核结果的通告扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略ICLR 2024 首个!Harvard FairSeg:第一个用于医学分割的公平性数据集Hinton、Bengio等联合中国专家达成AI安全共识:AI系统不应违反红线ICLR 2024 | 微软提出全新LLM剪枝方法:参数减少25%,大幅提升计算效率EMBO Mol Med | 开发出新方法来评估短期培养的 CAR-T 细胞的安全性普林斯顿博士生高天宇指令微调进展速览:数据、算法和评估普京:“毫无疑问,台湾是中华人民共和国不可分割的一部分”。在哈佛的清华博士突然被终身禁止入美,只因一篇论文草稿…济州岛被中国打工人玩成后花园?“快成江浙沪不可分割的一部分了”李想发全员信自我批评,小米等联合制定单层HDR图像标准,微软等巨头对抗苹果,Epic将登陆iOS和安卓,这就是今天的其他大新闻!离谱!在哈佛的清华博士突然被终身禁止入美,只因一篇论文草稿…强化学习第十三篇:使用深度学习解决迷宫问题,完整步骤和代码送行的饺子接风的面!中国电建2024招聘开启!鲁班奖获得公司,五百强国企,六险一金,免费食宿,适合留学生无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造再看芙蓉镇8个图神经网络论文创新点汇总【附161篇论文PDF】一级投资基金业绩图像化展示和评估的一种方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。