Redian新闻
>
CVPR 2024 | 知识感知注意力!用于组织病理学全幻灯片图像分析

CVPR 2024 | 知识感知注意力!用于组织病理学全幻灯片图像分析

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

重磅!CVer学术星球最大优惠!限时送新用户50元优惠券(下方左图),老用户7折+20元续费券(下方右图),每天分享最新最优质的AI/CV内容,助力你的科研和工作!快抢!

李嘉文 



清华大学,深圳国际研究生院硕士生

转载自:AI TIME 论道


论文标题

Dynamic Graph Representation with Knowledge-aware Attention for Histopathology Whole Slide Image Analysis

概述

组织病理全切片图像(WSIs)分类已经成为医学显微成像处理中的基础任务。现有方法涉及学习WSIs作为实例-袋表示,强调显著实例但难以捕捉实例之间的交互。此外,传统的图表示方法利用显式空间位置构建拓扑结构,但限制了在任意位置之间的实例的灵活交互能力,尤其是在空间上距离较远时。为此,作者提出了一种新颖的动态图表示算法,将WSIs构想为知识图结构的一种形式。具体而言,作者基于实例之间的头部和尾部关系动态构建邻居和有向边嵌入。然后,作者设计了一个知识感知注意机制,该机制可以通过学习每个邻居和边的联合注意力得分来更新头节点特征。最后,通过更新的头节点的全局池化过程获得图级嵌入,作为WSI分类的隐式表示。我们的端到端图表示学习方法在三个TCGA基准数据集和内部测试集上均超过了最先进的WSI分析方法。


论文链接:

https://arxiv.org/pdf/2403.07719.pdf


代码链接:

https://github.com/WonderLandxD/WiKG






1. 研究背景


在医学领域,特别与显微成像相关的病理学研究中,传统的病理学分析主要依赖于显微镜下的实体切片观察,这种方法费时且人力成本高,通常需要一至两天才能得出初步的筛查结果。然而,随着光学显微成像技术的进步,现在已经能够将这些实体切片高效地扫描成全视野切片(Whole slide image,简称WSI),并通过电脑进行数字化诊断,这一技术极大地提高了筛查效率和诊断准确性。为了实现这种现代化的数字诊断方式,关键技术包括高通量快速切片扫描仪的开发、计算机辅助诊断软件系统的构建以及人工智能辅助诊断工具的应用。当前研究正在积极探索利用人工智能模型,对WSI进行分类、检测、分割和预测,以提供更准确、更高效的定量定性诊断结果,助力病理专家更准确地评估患者的病情和预后。






由于计算资源的限制,特别是在处理WSI这种大规模高分辨率图像时,传统的人工智能方法面临一定的挑战。WSI通常具有非常高的分辨率,如10万×10万或更大,这也导致了大量的硬盘存储和显存需求。由于这些特点,从传统的自然图像处理技术直接应用到组织病理学分析中变得困难。


为了克服这些挑战,通常采用的方法是首先使用预处理和分割技术来识别图像中的前景区域,这些区域通常包括组织的轮廓、腺体、细胞等。之后,这些分割出的区域(通常称为“patch”)被输入到神经网络中进行训练,以实现更高效的分析。


以前的方法主要依赖于全监督学习的方案,通过为这些patch打上相应的标签并使用可学习的聚合器或传统的非学习聚合器进行预测,以实现WSI的分类。然而,这种方法需要大量的patch级别的标注,这在病理学领域是难以接受的,因为医院的病理专家通常难以为研究者提供足够的标注数据。


为了解决这个问题,当前的研究趋势是将WSI分析方法扩展到弱监督学习领域。现在最常见的方法是基于特征嵌入级别的多示例学习(Multiple instance learning,简称MIL)。MIL首先使用预训练的特征提取器来提取patch的相关特征嵌入,然后将这些嵌入输入到可学习的聚合器中,以学习WSI级别的全局表示,最后通过这些表示进行进一步的分析,得到下游任务的相关指标。这种方法允许在较少的标注数据下实现更高效的分析和诊断。



目前利用MIL对WSI进行分析的研究通常都是在基于注意力机制下的聚合方法进行设计的。然而,这些方法难以有效建模patch之间的相互作用,因为注意力机制主要关注于各自patch的特征。为了解决这一问题,基于图表示的WSI分析方法被逐渐重视起来,因为它可以将patch表示成节点,通过建模节点之间的拓扑关系来实现patch之间的内部上下文关联。具体而言,这种方法通过建模节点间的空间位置关系来设计图层级网络,从而更新特征,包括最终的聚合,以获取WSI级别的全局图表示。这种图结构的方法能够更好地捕捉patch之间的内部关系,从而提高模型的性能和准确性。


典型应用


基于图表示的方法已在多个应用场景中显示了其有效性和潜力。首先,应用图结构方法,能够成功地预测癌症患者的生存率,为临床医学研究提供了有力的工具。其次,还能够对病理免疫组化相关指标进行评分,这对于准确评估疾病的严重性和患者的治疗需求至关重要。第三,也可以应用于基本癌症的检测,辅助医生更准确地区分切片的良恶性,从而为个体化治疗提供指导。最后,也可以用于组织肿瘤的分型和分期,这将帮助医生进一步提高诊断的准确性和治疗的针对性。



总的来说,与传统的MIL对WSI进行分析的方法相比,图表示方法在众多研究中已被证明具有更高的准确性和可靠性。这些研究结果进一步验证了作者所提方法的有效性,显示出其在医学诊断和研究中的巨大潜力。

2. 研究动机


本文的研究动机主要源于对传统图模型建模方法的挑战。上述的图表示方法研究多数集中在利用空间级别的显式位置关系进行建模,即通过构建固定边来提取嵌入,并进行更新。然而,本文认为这种空间级别的建模方式很难捕捉到远距离的快速相互作用,为此,作者旨在设计一种动态的建模方式,它能够解除固定邻居带来的构边限制,这是第一个考虑点。


第二个考虑点是,作者认为在每个patch间的关系中应该存在有向的相互作用,而不仅仅是通过无向图来表示。为此,作者希望设计一种有向边的图表示方法,这能够更准确地传递patch之间的信息,从而更有效的建模拓扑结构。


3. 所提方法


因此,基于上述两个动机,这篇工作中引入了一个名为"WiKG"(WSI is Knowledge Graph)的方法。该方法将WSI视为知识图谱的形式来进行表示。本文的框架主要由四个部分构成。


首先,通过预训练的特征提取器来提取patch的特征,然后与之前基于空间位置的建模方式不同,本文首先将这些特征映射到每一个patch级别的头和尾嵌入。接着,计算这些头和尾嵌入之间的相似度,以构建有向边。其次,受到知识图谱在推荐系统中的应用启发,作者利用知识感知的注意力机制来融合相关的节点信息,有效地捕获patch之间的复杂相互作用。最后,通过这种融合的过程,得到了WSI级别的全新表示,为病理学分析提供了更准确和有信息量的结果。

3.1 映射Patch的头-尾嵌入,并根据两者之间的相似度构建邻边


具体而言,作者首先介绍了如何映射patch到图嵌入,从而构建一个动态图模型。作者将每个patch表示为X_1,X_2,⋯X_N,其中每个X都代表每个patch之间的特征响应或者嵌入。


第一步,作者通过一个线性变换来提取每个patch的头嵌入和尾嵌入。这些嵌入表示了patch在特征空间中的位置。第二步,使用了softmax形式计算这些头和尾嵌入之间的相似度,在计算softmax之前,首先对这两个嵌入进行点积运算。第三步,根据计算出的相似度分数,选取前K个最相似的patch作为每个patch的邻居。这样,就构建了一个动态的有向图,其中每个节点都有其邻居。最后,作者认为仅有头和尾的嵌入是不够的,因此需要充分表示有向边。为此,文章在原有的基础上,根据先前计算出的相似度分数,对头和尾嵌入进行加权求和,以得到有向边的表示。



3.2 利用知识感知注意力融合节点嵌入,并通过Readout获取WSI嵌入


第二部分是基于之前提到的头和尾嵌入组合的。作者利用知识感知机制的注意力来融合这些嵌入,并通过图注意力层来获取动态图的全局表示。


首先,作者利用非线性变换来融合三元组的特征。这个融合过程能够更好地捕捉到三元组中的关系特性。其次,使用softmax来获取在三元组条件下的知识注意力权重,并通过这些权重对邻居的特征进行加权融合。然后,采用双向交互的融合策略来更新每个patch的投影嵌入,可以在全局范围内更好地捕捉patch之间的相互作用。最后,根据这些头嵌入通过一个池化层来直接获得全新的表示,并通过交叉熵损失函数进行相应的分析和分类。



4. 实验和结果


在实验部分,本文主要在四个不同的数据集上进行了实验验证。前三个数据集是公开的TCGA数据集,包括食道癌、肾癌和肺癌。对于每个数据集,作者进行了两个主要的实验:分型实验和分期实验。分期实验包括了1、2、3、4四个不同的阶段,而分型实验则是根据不同癌症的分型指标进行多分类。


除了这三个公开数据集外,作者还与中山大学附属第一医院合作,收集了一个内部数据集。这个数据集包含了冰冻切片的肺癌两类亚型:肺腺癌和鳞状细胞癌。这个内部数据集被作为最终的测试集,以验证所提模型在肺癌分型方面的泛化性能。


具体的实验细节在文章中有详细描述。本文采用的方法与之前的研究是一致的,使用20倍物镜下的256*256的patch进行实验。在主要的实验中,作者使用了预训练的ImageNet模型,但在最后的实验中也尝试了其他特定的模型以验证结果。文章设置的k值为6用于嵌入编码。模型在GPU上完成训练,与常规的WSI分析方法相一致,只需使用一张3090或4090的卡即可完成。



在实验比较中,作者与三种类型的方法进行了对比:常规的MIL方法,包括ABMIL、DSMIL、TransMIL和DTFTMIL;两种无向边的固定图表示,包括GTP和PATCN-GCN;以及应用在WSI级别上的Transformer模型HIPT。


结果显示,所提出的WiKG模型在分型和分期上都表现出了非常好的效果,具体指标都有1-3个点的提升。这表明本文方法不仅在复杂的图结构上有优势,而且在实际的病理学分析中也具有较高的准确性和效率。

具体分析

作者进一步探索了不同的特征提取器对模型性能的影响。选择合适的特征提取器对模型性能是至关重要的,可以发现,领域特定的特征提取器往往能获得更好的效果。具体来说,作者使用了ImageNet预训练的两种模型ViT-Small和ResNet50,在病理图像进行全监督预训练的KimiaNet,以及在所有TCGA数据上进行DINO自监督预训练的ViT-Small。可以发现,两个病理领域特定的特征提取器在最终效果上都带来了质的飞跃,尤其是使用自监督预训练的特征提取器,领域特定的特征提取器表现得更加出色。

然而,由于本文的主要目标是探究图模型的表现能力,所以主要实验都是使用ImageNet的ViT-Small这个特征提取器。尽管如此,本文的实验结果对未来的研究和工作仍具有参考价值,尤其是在选择合适的特征提取器方面。

在第二个实验中,文章重点探索了模型在不同编码构造下的有效性能力。作者分别采用了K-NN的Cosine相似度以及欧式距离作为比较基准,结果显示,这些编码构造在性能上都明显优于之前采用的两种动态图建模方式。

在第三个实验中,作者探索了图中连接的零点数量对模型效果的影响。在WSI级别分类任务中,作者发现图表示方法里,每个节点与多少个边相连的这一参数对结果的影响可能并不显著。不论是本文模型还是传统的GCN等图神经网络模型,在这个参数上的表现都没有达到显著的统计学意义。



本文也深入探讨了图神经网络模型中的过拟合问题,这在长时间训练的情况下尤为常见。可以观察到,像GTP这样的传统模型在面对这个过拟合问题时表现得非常明显。然而,本文提出的WiKG模型不仅在性能上有显著提升,而且在过拟合现象方面也表现得相对稳定。值得注意的是,WiKG模型在参数量和训练时间上都相对较小,这为其在实际应用中提供了更高的效率和可行性。

此外,作者还关注了模型的可解释性。文章选择了两张WSI,并对它们的构边进行可视化。能够观察到,在不同的训练Epoch下,模型对相同的Patch连接会产生不同的表示。这进一步验证了动态图模型的有效性,表明它在捕获数据特征方面具有较高的灵活性和鲁棒性。


最后,本文探索了模型在自建数据集上的表现,这有助于了解模型的泛化能力。作者观察到一个有趣的现象:许多WSI分析模型,可能都存在泛化能力较差的问题。例如,虽然在某些癌症类型上,如TransMIL,模型的AUC非常高,但在准确率和F1分数上的表现却相当不理想。进一步分析后,作者发现TransMIL模型在识别某些类型的癌症,如鳞状细胞癌,表现非常强,但在肺腺癌的识别上则表现较差。


5. 未来工作


作者对于未来的研究方向有以下几点思考:首先,深探究WiKG模型在WSI级别上的可解释性,特别是与其他图表示方法相比,它在解释性上的优势。其次,作者认识到图表示方法的图池化层可能会对结果产生影响。本文研究中,作者采用了最常见的平均池化结构,但实际上已经有一些研究专注于探索更有效的图池化方式,特别是在WSI级别上,这也是一个值得进一步研究的方向。最后,作者强调了模型在WSI级别分析上的泛化能力,一个泛化能力较差的模型对于实际的临床应用而言是难以接受的,因此探究模型在实际临床部署中的应用具有重要意义。

重磅!CVer学术星球最大优惠!限时送新用户50元优惠券(下方左图),老用户7折+20元续费券(下方右图),每天分享最新最优质的AI/CV内容,助力你的科研和工作!快抢!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2024 多伦多国际车展( II ) Exotic LuxuryCVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your NoiseCVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法何处安放你我的期待CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR、AAAI、ICLR 2024优秀论文!CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoTCVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作饮食高球味,人间烟火情(12)高球道“野鸟”多CVPR 2024 满分论文!LiSA:引入语义感知的激光雷达点云视觉定位网络医学顶刊TMI 2024!首个研究医疗AI算法公平性的眼科图像分类数据集※※※2024【花样女神节】活动合辑※※※【长篇小说】县委副书记(061)CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构大三本科生在CVPR 2024上发表论文!CVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计CVPR 2024 | DrivingGaussian:环视动态自动驾驶场景重建仿真CVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题2024 Toronto International Auto Show( II ) Exotic Luxury我兒子今年(2024)進了MITCVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架2024 多伦多国际车展( II ) 异国风情与豪华CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!CVPR 2024 | 知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024联邦政府百色人生(二)精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力过月地游:南意+克罗地亚(9)— 飞往西西里岛
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。