ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
©作者 | 李康团队
来源 | 华西医院生物医学大数据中心
论文标题:
Medical Image Understanding with Pretrained Vision Language Models: A Comprehensive Study
https://arxiv.org/pdf/2209.15517
医疗图像领域一直存在着数据缺乏的问题:医疗图像数据的标注相较于自然图像,需要更加专业的从业人员进行标注;针对一些罕见病例的数据很难形成规模;涉及到道德隐私等因素使得数据无法汇总公开。
这一切都使得医疗图像领域迟迟没能发展出自己的大型预训练模型 PLM (Pretrained Large Model)。因此,借助自然图像上的大型预训练模型进行迁移学习成为了一个顺理成章的选项。但是由于医疗图像和自然图像存在着较大的域跨度 (Domain Gap),迁移训练模型的域泛化往往受到限制。
通过视觉--语言的跨模态对齐训练,视觉语言模型 (VLM) 让模型具有了更好的泛化能力。多个 VLM 在小样本及零样本任务中表现良好。然而,现有的研究没有调查这些 VLM 是否能够理解较为少见的医学概念。部分研究显示,通过设计好的提示 (Prompt),VLM 能够识别同一个概念的不同视觉风格(比如能够识别一个物体的彩色照片,素描,或是卡通风格的图片)甚至是没有见过的概念(Unseen Concept)。
我们认为,这种泛化能力主要归因于语言文字模态在跨域图像中具有一定的不变性,而由于视觉语言模型 (VLM) 对于语言和视觉模态的表达高度绑定,通过语言 Prompt 便能激活相应的视觉表达学习能力。简言之,如果我们设计的 prompt 具有对物体的形状、颜色、纹理或位置等表达属性 (Expressive Attribute) 的描述,即使面对一个全新的医疗领域的概念,视觉语言模型也能够识别出相应的物体。
医疗prompt的设计:从手动到自动
正如前文所说,想要激活预训练 VLM 的泛化能力,一个具有表达属性描述的 Prompt 显得尤为重要,但是如何获得这种 Prompt 是一个关键的问题。事实上,虽然现在自然语言处理 (NLP) 领域已经提出了不少从 PLM 当中提取知识的 Prompt 生成手段,但是它们无一是针对视觉任务而设计的。
我们的 prompt 设计重点在于获得一个事物或概念的属性描述。我们设计了一个格式模板,让这种生成过程更加规律。例如,我们对息肉 (Polyp) 这一医学概念设计的 Prompt 是:'In rectum, Polyp is an oval bump, often in pink color.' 我们分别插入了对位置,形状,和颜色的描述。
但是手工设计这些 prompt 费时费力,且需要设计者具有一定的专业知识,于是我们进一步提出了自动生成 prompt 的流程。第一种方法是通过具有领域专业知识的预训练语言模型 (LM) 去做掩码预测任务。例如,我们把属性单词设为 Mask -- 'Polyp is in [Mask] color'. 有研究表明这种方法相比于问答式的方法能更有效地抽取出对应的知识。这种方法我们称之为 MLM (masked language model)。
上述方法是能够提取出一个概念或事物的综合属性,但是有一些属性可能具有多样性,所以我们需要对每张图单独的进行一次属性的筛查。在这方面,我们借助了生成式的预训练 VLM,让它去回答我们针对属性的问题。例如我们提问:'What color is this Polyp',就可以得到针对这张图的属性词。这种方法我们称之为 VQA (Visual Question Answering)。
最终,我们也尝试将前面两种方式进行一定的融合,比如针对一些较为固定的属性(比如位置纹理)使用 MLM 方法来提取,针对一些不固定的属性(比如颜色形状)使用 VQA 方式来提取。这种方法我们称之为 Hybrid 方法。
经实验验证,上述的几种方法在小样本或零样本检测任务中均取得了远高于仅使用目标事物或概念名称作为 prompt 的基线方法的表现。其中,自动设计的 prompt 和手动设计的 prompt 相比也有着不俗的成绩,但自动生成的方式时间成本要低得多。
▲ 图1. Hybrid方法
为了全面地验证我们提出的 prompt 方法,我们收集了 13 个公开的医疗数据集,并且这些数据横跨了不同的医疗图像模态(CT, MRI, 超声,内窥镜,病理图像等)。其中,虽然放射图像数据集由于和自然图像的域跨度较大,但我们发现仅需要少量样本微调(finetune)就能取得不错的效果,结果显示我们的方法在小样本的情况下表现大幅领先于传统的检测模型。
▲ 图2. 小样本的情况下表现大幅领先于传统的检测模型
在内窥镜,病理图像等其它数据中,我们发现无论是零样本的直接迁移还是小样本的微调迁移,VLM 都取得了异常惊艳的表现。在零样本的场景下,我们通过手工模板和以及自动生成的方式获得了充满表达属性的 prompt。我们主要对比了上述方式获得的 prompt 和仅使用目标事物或概念名称作为 prompt 的零样本检测效果。
结果显示,我们的方法要远胜于使用概念名称作为 prompt 的基线方法。在小样本和全样本的场景下,我们的方法相比于传统的检测模型也具有较大的优势。
▲ 图3. 小样本和全样本的场景下本方法优于传统的检测模型
▲ 图4. 部分可视化结果
我们认为视觉语言预训练模型的泛化能力能够有效缓解医疗图像领域存在的数据稀缺及领域跨度大的问题。合理的利用语言描述当中表达属性词在不同域中的不变性,是利用好视觉语言预训练模型的关键。我们用多个数据集和大量实验验证了我们的猜想。
我们提出了含有表达属性词的提示设计模板,并根据这一模板将设计流程自动化。提出了三种基于不同需求的自动 prompt 生成方式。
我们的方法对比传统检测模型在小样本检测任务下表现出了全面的优越性;对比仅使用目标事物名称作为提示词的方式,我们设计的提示在零样本检测任务上带来了巨大的提升。
大数据中心科研助理秦紫元、易华挥和北京邮电大学劳琪成研究员为该文共同第一作者,李康研究员和劳琪成研究员为该论文共同通讯作者。
华西医院生物医学大数据中心人工智能和医疗机器人实验室开展人工智能和医学影像/电子病历、医疗机器人(手术机器人和康复机器人)、生物力学、可穿戴传感器、医疗人因工程等医工交叉领域的研究。本实验室联合商汤科技等国内人工智能顶级机构,建立了华西医院-商汤联合实验室,开展重大医学人工智能技术问题联合攻关和核心技术研究开发以及医学人工智能学科建设和人才培养。联合实验室由华西医院大数据中心人工智能和医疗机器人实验室、四川大学、电子科技大学、西南交通大学10多名工科教授和商汤科技研究院10余名研究员及多位临床科室专家组成。联合实验室与骨科、神经内科、康复医学中心、放射科、超声科、心内科、心外科等多个临床科室基于临床实际问题的技术研发,重点攻关、成果转化和应用推广等,实现先进、便捷的辅助诊断、治疗和康复,共同探索和搭建诊-疗-愈流程的人工智能医疗解决方案。承担多项国家重点研发计划和省级重点课题。聚焦多个临床应用场景,瞄准机器人+人工智能+医疗产业发展需求,促进机器人+人工智能+医疗领域的科技创新和技术升级。
如果有兴趣加入华西医院生物医学大数据中心人工智能和医疗机器人实验室和华西医院-商汤联合实验室,请将个人简历发送至 [email protected],或者加微信HXRobotAIrecruit。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者