Redian新闻
>
ICLR 2024 首个!Harvard FairSeg:第一个用于医学分割的公平性数据集

ICLR 2024 首个!Harvard FairSeg:第一个用于医学分割的公平性数据集

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【医学影像】交流群

扫码加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

近年来,人工智能模型的公平性问题受到了越来越多的关注,尤其是在医学领域,因为医学模型的公平性对人们的健康和生命至关重要。高质量的医学公平性数据集对促进公平学习研究非常必要。现有的医学公平性数据集都是针对分类任务的,而没有可用于医学分割的公平性数据集,但是医学分割与分类一样都是非常重要的医学AI任务,在某些场景分割甚至优于分类, 因为它能够提供待临床医生评估的器官异常的详细空间信息。在本文中,我们提出了第一个用于医学分割的公平性数据集,名为Harvard-FairSeg,包含10,000个患者样本。此外,我们提出了一种公平的误差界限缩放方法,通过使用最新的Segment Anything Model(SAM),以每个身份组的上界误差为基础重新加权损失函数。为了促进公平比较,我们利用了一种新颖的评估公平性在分割任务的标准,叫做equity-scaled segmentation performance。通过全面的实验,我们证明了我们的方法要么具有优越性,要么与最先进的公平学习模型在公平性能上相当。

在这里和大家分享一波我们ICLR 2024中稿的工作 “Harvard FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling

在本次工作中, 我们提出了第一个研究医疗分割算法的公平性的大型数据集 并且提出了方法尝试提升不同组别的公平性 (让不同组别的准确率接近)。

: https://arxiv.org/pdf/2311.02189
代码地址: 
https://github.com/Harvard-Ophthalmology-AI-Lab/Harvard-FairSeg
数据集网站:
https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k/    
数据集下载链接: 
https://drive.google.com/drive/u/1/folders/1tyhEhYHR88gFkVzLkJI4gE1BoOHoHdWZ
Harvard-Ophthalmology-AI-Lab 致力于提供高质量公平性数据集 更多公平性数据集 请点击lab的数据集主页:https://ophai.hms.harvard.edu/datasets/

背景:

随着人工智能在医学影像诊断中的应用日益增多,确保这些深度学习模型的公平性并深入探究在复杂的现实世界情境中可能出现的隐藏偏见变得至关重要。遗憾的是,机器学习模型可能无意中包含了与医学图像相关的敏感属性(如种族和性别),这可能影响模型区分异常的能力。这一挑战促使人们在机器学习和计算机视觉领域进行了大量的努力,以调查偏见、倡导公平性,并推出新的数据集。

截至目前,只有少数公共公平性数据集被提出用于研究公平性分类,主要的是,这些数据集中的大多数都只是表格数据,因此不适合开发需要影像数据的公平计算机视觉模型。对计算机视觉公平性的缺失尤其令人关注,特别是考虑到依赖此类数据的深度学习模型的影响力日益增强。在医学影像领域,只有少数数据集被用于公平学习。然而,这些数据集大多没有专门为公平性建模而设计(目前仅有的医疗图像数据集我们列在了table 1)。它们通常只包含有限范围的敏感属性,如年龄、性别和种族,因此限制了检查不同人群公平性的范围。此外,它们也缺乏全面的基准测试框架。更重要的是,尽管这些先前的数据集和方法为医学分类提供了解决方案,但它们忽视了医学分割这一更为关键的领域。

然而,为公平学习创建这样一个新的大型数据集面临着多重挑战。首先,缺乏大规模、高质量的医学数据以及手工像素级注释,这些都需要大量劳动力和时间来收集和标注。其次,现有提升公平性的方法主要是为医学分类设计的,当适应分割任务时,其性能仍然存疑。同样不确定的是,分割任务中存在的不公平是否可以通过算法有效地缓解。最后,评估医学分割模型公平性的评判标准 (evaluation metric)仍然难以捉摸。此外,将现有为分类设计的公平性指标适应到分割任务上也可能存在挑战。

为了解决这些挑战,我们提出了第一个大规模医学分割领域的公平性数据集, Harvard-FairSeg。该数据集旨在用于研究公平性的cup-disc segmentation,从SLO眼底图像中诊断青光眼,如图1所示。青光眼是全球不可逆盲目的主要原因之一,在40-80岁年龄段的患病率为3.54%,大约影响了8000万人。尽管其重要性,早期青光眼通常无症状,这强调了及时进行专业检查的必要性。对cup-disc的准确分割对于医疗专业人员早期诊断青光眼至关重要。值得注意的是,与其他群体相比,黑人患青光眼的风险加倍,然而这一人群的分割准确率通常最低。这激励我们整理一个数据集,以研究分割公平性问题我们提出的Harvard-FairSeg数据集的亮点如下:(1)医学分割领域第一个公平性学习数据集。该数据集提供了SLO眼底成像数据的cup-disc分割;

(2)该数据集配备了从现实医院临床情景中收集的六种敏感属性,用于研究公平性学习问题;

(3)我们在我们提出的新数据集上评估了多个SOTA公平性学习算法,并使用包括Dice和IoU在内的多种分割性能指标进行了评估。

如何获得大量的高质量分割标注:

本研究中测试的对象来自于一家大型学术眼科医院,时间跨度为2010年至2021年。本研究将发布三种类型的数据:(1)SLO眼底扫描图像;(2)患者人口统计信息 包含了六种不同的属性;(3)由OCT机器自动标注以及由专业医疗从业者手工评级的像素级标注如何获得大量高质量分割标注一直是医疗分割的很重要分体。   

我们新颖的通过把 cup 和disc区域的像素标注首先从OCT机器获得,其中disc边界在3D OCT中被分割为Bruch’s膜开口,由OCT制造商软件实现,cup边界被检测为内限膜(ILM)与导致最小表面积的平面之间的交叉点和disc边界在平面上的交叉点。大致上,cup边界可以被认为是ILM上最靠近视盘边界的位置,即被定义为Bruch’s膜开口。由于Bruch’s膜开口和内限膜与背景之间的高对比度,它们很容易被分割。因此因为OCT制造商软件利用了3D信息,利用oct机器对cup和disc的分割通常是可靠的。相比之下,眼底照片上的2Dcup和disc分割可能因包括衰减的成像信号和血管阻塞等各种因素而具有挑战性。然而,由于OCT机器相当昂贵且在初级保健中较少见,因此我们提议将这些注释从3D OCT迁移到2D SLO眼底图片,以在初级保健领域的早期青光眼筛查中产生更广泛的影响。具体来说,我们首先使用NiftyReg工具将SLO眼底图像与OCT衍生的眼底图像(OCT眼底)对齐随后,将NiftyReg的仿射度量应用于OCT眼底图像的cup-disc掩码,使其与SLO眼底图像对齐。这一过程有效地产生了大量高质量的SLO眼底掩码注释,避免了劳动密集型的手工像素标注过程。值得注意的是,这种medical registration的操作在现实世界场景中展示了相当高的精确度,我们的经验观察表明,medical registration成功率大约为80%。在这一自动化过程之后,生成的掩码经过严格审查,并由五名医学专业人员小组手动评级,以确保cup-disc区域的精确标注,并排除位置错误的cup或disc掩码和registration失败的情况。

数据特征:我们的Harvard-FairSeg数据集包含来自10,000名受试者的10,000个样本。我们将数据分为包含8,000个样本的训练集和包含2,000个样本的测试集。数据集的平均年龄为60.3 ± 16.5岁。在该数据集中,包含了六个敏感属性,用于深入的公平性学习研究,这些属性包括年龄、性别、种族、民族、首选语言和婚姻状况。在种族人口统计学上,数据集包括来自三个主要群体的样本:亚洲人,有919个样本;黑人,有1,473个样本;白人,有7,608个样本。在性别方面,女性占受试者的58.5%,其余为男性。民族分布以90.6%的非西班牙裔,3.7%的西班牙裔和5.7%的未说明。在首选语言方面,92.4%的受试者首选英语,1.5%首选西班牙语,1%首选其他语言,5.1%未确定。从婚姻状况的角度来看,57.7%的人已婚或有伴侣,27.1%是单身,6.8%经历过离婚,0.8%法律上分居,5.2%是丧偶,2.4%未说明。

我们的提升公平性的方法Fair Error-Bound Scaling:   

我们假设获得较小整体Dice损失的样本组意味着模型对该特定组的样本学习得更好,因此,这些样本组需要较小的权重。相反,整体Dice损失较大的样本组(即难处理的案例)可能导致更差的泛化能力并引起更多的算法偏差,这需要为这些样本组分配较大的学习权重。因此,我们提出了一种新的公平误差界限缩放方法,用于在训练过程中缩放不同人群组之间的Dice损失。我们首先定义预测像素得分和真实目标之间的标准Dice损失表示为:

          
         
为了确保在不同属性组之间的公平性,我们使用一种新颖的公平误差界限缩放机制来增强上述Dice损失。损失函数:         
         
         
         
通过用这些属性权重调节预测像素得分,这种损失确保不同属性组在模型训练过程中平衡地贡献于损失函数,从而促进公平性。

用于评估公平分割准确性的metric:传统的分割度量如Dice和IoU提供了对分割性能的洞察,但可能无法有效捕捉不同群体间的公平性。考虑到这一点,我们的目标是提出一种新的metric,既包括分割的准确性,也包括在不同群体间的公平性。这就产生了一个全面的视角,确保模型既准确又公平。

为了纳入群体公平性,我们需要单独评估群体的准确性。我们首先定义一个分割度量准确率差异∆,如下所示:

这里,∆度量了每个群体的准确性与总体准确性的总体偏差。当所有群体达到类似的分割准确性时,它接近零。

当我们考虑不同群体间的公平性时,我们需要计算总体分割准确性与每个人口统计群体内的准确性之间的相对差异。基于这个,我们定义了Equity-Scaled Segmentation Performance(ESSP)度量,如下所定义:

这种公式确保ESSP始终小于或等于I。随着∆减小(表示群体间的分割性能平等),ESSP趋于传统分割metric。相反,较高的∆表示群体间分割性能的更大差异,导致较低的ESSP得分。这种方法允许我们评估分割模型不仅在准确性(通过Dice、IoU等metric)上,而且在不同群体间的公平性上。这使得ESSP评分函数成为确保医学成像任务中分割准确性和公平性的关键指标。这种metric可以和传统的dice IoU拼到一起 成为ES-Dice和ES-IoU.

实验: 

我们选择了两个分割网络作为backbone 。其中,我们选择了最近推出的分割大模型 Segment Anything Model (SAM) 来实验SOTA的分割准确性,另一个backbone我们选择了TransUNet。

我们也利用了其他分割的metric例如 HD95 ASD 和NSD进行测试,下面是在种族上的结果:

在CVer微信公众号后台回复:论文,即可下载论文pdf和数据集链接!快学起来!

点击进入—>【CV技术和求职】交流群

医学影像交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-医学影像微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如医学影像+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
张郎郎先生发表在“九十年代”杂志的文集Learning Curve: Young Teachers Strive as Class Leaders晚讯 |《自然-医学》盘点 2024 年有望改变医学的 11 个临床试验、全球首个新型细胞化瓣膜“补心”成功分割一切「3D高斯」版来了:几毫秒完成3D分割、千倍加速鸿发超市「2000 万美元」买下82街前Walmart超市!开设第4家Hông Phát分店!刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!文革受难群体之一: 有宗教信仰的人分割一切"3D高斯"来了!上交&华为提出SAGA:几毫秒完成3D分割一切!ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG:通过不确定性建模,两行代码完成部署百度大模型这一年:文心一言国内首个用户破亿,飞桨开发者超千万​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能一起“自杀”身亡的十六对夫妻New Year's fireworks 2024 LIVE: NYC's Times Square ball drop我和槐花基本立场差不多。区别在,A, Harvard + first gen; B, Fordham + 老留娃,槐花毫Pick one: $100K or a degree from Harvard普京:“毫无疑问,台湾是中华人民共和国不可分割的一部分”。ICLR 2024得分888居然被拒?Area Chair的Meta review完全事实性错误?ICLR 2024 | 根据压缩比率控制生成样本难度,NUS等提出首个无损数据集蒸馏方法Harvard CS Median earnings $$256,539伦敦2月UNCLE合租,仅£369/周;适合UCL/LSE/KCL的Studio仅£304/周;转租更便宜! (1月22日更新)史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训杜克/哥大/耶鲁/Emory/布朗大学和解违规诉讼,总额高达1.045亿美元!透明度与公平性在大学申请中真的存在吗?LLaMA2+RLHF=脆皮大模型?ICLR 2024高分投稿:多样性驱动的红蓝对抗顶刊MIA 2023!PUNet:参数高效医学图像分割的提示微调​ICLR2024得分888居然被拒?Area Chair的Meta review完全事实性错误?巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024ICLR 2024 | 图领域首个通用框架!任意数据集、分类问题都可搞定!华盛顿大学&北大&京东出品ICLR 2024 放榜!接收率31%!清华LCM论文作者:讲个笑话,被拒了。。。三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法头像|𝐒𝐡𝐚𝐫𝐞·招桃花头像2023年医学生物领域年度热词“突破”,2024年预期热词“融合”。附:2023 年七大医学突破ICLR 2024接收率31%,清华LCM论文作者:讲个笑话,被拒了ICLR 2024 | LLM Agent领域第一高分论文,全网Star数最高的多智能体框架图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东【上海人在海外】在蒙特利尔我和我的赌徒老乡(中)老海龟陈梦家和赵萝甤ICLR 2024录用率31%!北大张铭、田渊栋、ResNeXt一作谢赛宁等大佬晒出成绩单ICLR 2024 | 机器人领域首个开源视觉-语言操作大模型!RoboFlamingo框架激发开源VLMs更大潜能2024 rav4 油车 le四驱
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。