Redian新闻
>
ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究

ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究

公众号新闻


©作者 | 李康团队

来源 | 华西医院生物医学大数据中心


近两年,视觉语言模型 (VLM) 逐渐兴起,并在小样本学习 (Few-shot Learning) 和零样本推理 (Zero-shot Inference) 上取得了令人注目的成果。那么这些在自然图像上取得成功的大规模预训练视觉语言模型,是否能成功应用到医疗领域呢?

抱着这样的疑问,四川大学华西生物医疗大数据中心人工智能和医疗机器人实验室,华西医院-商汤科技联合实验室,上海人工智能实验室,以及北京邮电大学的联合研究详细全面地验证了,在合适的提示 (Prompt) 的帮助下,在自然图像上训练得到的视觉语言预训练模型能否在小样本甚至零样本的条件下迁移到医疗图像领域。相关论文已经被人工智能顶级会议 ICLR 2023 (International Conference on Learning and Representation) 接收。


论文标题:

Medical Image Understanding with Pretrained Vision Language Models: A Comprehensive Study

论文链接:

https://arxiv.org/pdf/2209.15517





医疗大模型的稀缺性

医疗图像领域一直存在着数据缺乏的问题:医疗图像数据的标注相较于自然图像,需要更加专业的从业人员进行标注;针对一些罕见病例的数据很难形成规模;涉及到道德隐私等因素使得数据无法汇总公开。

这一切都使得医疗图像领域迟迟没能发展出自己的大型预训练模型 PLM (Pretrained Large Model)。因此,借助自然图像上的大型预训练模型进行迁移学习成为了一个顺理成章的选项。但是由于医疗图像和自然图像存在着较大的域跨度 (Domain Gap),迁移训练模型的域泛化往往受到限制。



多模态预训练模型与语言不变性

通过视觉--语言的跨模态对齐训练,视觉语言模型 (VLM) 让模型具有了更好的泛化能力。多个 VLM 在小样本及零样本任务中表现良好。然而,现有的研究没有调查这些 VLM 是否能够理解较为少见的医学概念。部分研究显示,通过设计好的提示 (Prompt),VLM 能够识别同一个概念的不同视觉风格(比如能够识别一个物体的彩色照片,素描,或是卡通风格的图片)甚至是没有见过的概念(Unseen Concept)。

我们认为,这种泛化能力主要归因于语言文字模态在跨域图像中具有一定的不变性,而由于视觉语言模型 (VLM) 对于语言和视觉模态的表达高度绑定,通过语言 Prompt 便能激活相应的视觉表达学习能力。简言之,如果我们设计的 prompt 具有对物体的形状、颜色、纹理或位置等表达属性 (Expressive Attribute) 的描述,即使面对一个全新的医疗领域的概念,视觉语言模型也能够识别出相应的物体。

为此,我们首先人工设计了一套 prompt 的模板,并在此基础上提出了多套自动生成 prompt 的方法来为不同的医疗概念生成对应的 prompt。我们在 13 个公开的医疗图像数据集上验证了我们的想法,即一个含有丰富表达属性的 prompt 能够很好的帮助 VLM 在零样本或小样本的任务中获得巨大的表现提升。



医疗prompt的设计:从手动到自动


正如前文所说,想要激活预训练 VLM 的泛化能力,一个具有表达属性描述的 Prompt 显得尤为重要,但是如何获得这种 Prompt 是一个关键的问题。事实上,虽然现在自然语言处理 (NLP) 领域已经提出了不少从 PLM 当中提取知识的 Prompt 生成手段,但是它们无一是针对视觉任务而设计的。


我们的 prompt 设计重点在于获得一个事物或概念的属性描述。我们设计了一个格式模板,让这种生成过程更加规律。例如,我们对息肉 (Polyp) 这一医学概念设计的 Prompt 是:'In rectum, Polyp is an oval bump, often in pink color.' 我们分别插入了对位置,形状,和颜色的描述。


但是手工设计这些 prompt 费时费力,且需要设计者具有一定的专业知识,于是我们进一步提出了自动生成 prompt 的流程。第一种方法是通过具有领域专业知识的预训练语言模型 (LM) 去做掩码预测任务。例如,我们把属性单词设为 Mask -- 'Polyp is in [Mask] color'. 有研究表明这种方法相比于问答式的方法能更有效地抽取出对应的知识。这种方法我们称之为 MLM (masked language model)


上述方法是能够提取出一个概念或事物的综合属性,但是有一些属性可能具有多样性,所以我们需要对每张图单独的进行一次属性的筛查。在这方面,我们借助了生成式的预训练 VLM,让它去回答我们针对属性的问题。例如我们提问:'What color is this Polyp',就可以得到针对这张图的属性词。这种方法我们称之为 VQA (Visual Question Answering)


最终,我们也尝试将前面两种方式进行一定的融合,比如针对一些较为固定的属性(比如位置纹理)使用 MLM 方法来提取,针对一些不固定的属性(比如颜色形状)使用 VQA 方式来提取。这种方法我们称之为 Hybrid 方法。


经实验验证,上述的几种方法在小样本或零样本检测任务中均取得了远高于仅使用目标事物或概念名称作为 prompt 的基线方法的表现。其中,自动设计的 prompt 和手动设计的 prompt 相比也有着不俗的成绩,但自动生成的方式时间成本要低得多。


▲ 图1. Hybrid方法



在小样本及零样本任务中的全面优越性

为了全面地验证我们提出的 prompt 方法,我们收集了 13 个公开的医疗数据集,并且这些数据横跨了不同的医疗图像模态(CT, MRI, 超声,内窥镜,病理图像等)。其中,虽然放射图像数据集由于和自然图像的域跨度较大,但我们发现仅需要少量样本微调(finetune)就能取得不错的效果,结果显示我们的方法在小样本的情况下表现大幅领先于传统的检测模型


▲ 图2. 小样本的情况下表现大幅领先于传统的检测模型


在内窥镜,病理图像等其它数据中,我们发现无论是零样本的直接迁移还是小样本的微调迁移,VLM 都取得了异常惊艳的表现。在零样本的场景下,我们通过手工模板和以及自动生成的方式获得了充满表达属性的 prompt。我们主要对比了上述方式获得的 prompt 和仅使用目标事物或概念名称作为 prompt 的零样本检测效果。


结果显示,我们的方法要远胜于使用概念名称作为 prompt 的基线方法。在小样本和全样本的场景下,我们的方法相比于传统的检测模型也具有较大的优势。


▲ 图3. 小样本和全样本的场景下本方法优于传统的检测模型


▲ 图4. 部分可视化结果



总结

我们认为视觉语言预训练模型的泛化能力能够有效缓解医疗图像领域存在的数据稀缺及领域跨度大的问题。合理的利用语言描述当中表达属性词在不同域中的不变性,是利用好视觉语言预训练模型的关键。我们用多个数据集和大量实验验证了我们的猜想。


我们提出了含有表达属性词的提示设计模板,并根据这一模板将设计流程自动化。提出了三种基于不同需求的自动 prompt 生成方式。


我们的方法对比传统检测模型在小样本检测任务下表现出了全面的优越性;对比仅使用目标事物名称作为提示词的方式,我们设计的提示在零样本检测任务上带来了巨大的提升。



作者简介


大数据中心科研助理秦紫元、易华挥和北京邮电大学劳琪成研究员为该文共同第一作者,李康研究员和劳琪成研究员为该论文共同通讯作者。 


华西医院生物医学大数据中心人工智能和医疗机器人实验室开展人工智能和医学影像/电子病历、医疗机器人(手术机器人和康复机器人)、生物力学、可穿戴传感器、医疗人因工程等医工交叉领域的研究。本实验室联合商汤科技等国内人工智能顶级机构,建立了华西医院-商汤联合实验室,开展重大医学人工智能技术问题联合攻关和核心技术研究开发以及医学人工智能学科建设和人才培养。联合实验室由华西医院大数据中心人工智能和医疗机器人实验室、四川大学、电子科技大学、西南交通大学10多名工科教授和商汤科技研究院10余名研究员及多位临床科室专家组成。联合实验室与骨科、神经内科、康复医学中心、放射科、超声科、心内科、心外科等多个临床科室基于临床实际问题的技术研发,重点攻关、成果转化和应用推广等,实现先进、便捷的辅助诊断、治疗和康复,共同探索和搭建诊-疗-愈流程的人工智能医疗解决方案。承担多项国家重点研发计划和省级重点课题。聚焦多个临床应用场景,瞄准机器人+人工智能+医疗产业发展需求,促进机器人+人工智能+医疗领域的科技创新和技术升级。


如果有兴趣加入华西医院生物医学大数据中心人工智能和医疗机器人实验室和华西医院-商汤联合实验室,请将个人简历发送至 [email protected],或者加微信HXRobotAIrecruit。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
王兴投资王慧文 ChatGPT 项目;谷歌发布全球最大视觉语言模型 PaLM-E;自如考虑赴港上市 | 极客早知道哈工大讯飞联合实验室发布图文多模态预训练模型VLE红豆年糕大规模语言训练模型应用,如何让文档问答系统快速拥有“高智商”?2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一​ICLR 2023 | LightGCL: 简单且高效的图对比学习推荐系统让大模型的训练和推理,比更快还更快!谷歌2022年终总结第四弹ACL 2023长文 | 先计划再求解:提升大型语言模型的零样本链式推理ImageNet零样本准确率首次超过80%!OpenCLIP:性能最强的开源CLIP模型ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器征稿 | ACM MM 23 Workshop - 基于大语言模型的多模态研究和应用Eruope 2023ImageNet零样本准确率首次超过80%,地表最强开源CLIP模型更新国际要闻简报,轻松了解天下事(03OFA-Chinese:中文多模态统一预训练模型转:2023 回国探亲(5)多模态 | 视觉-语言预训练入门指南深入了解视觉语言模型ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架​ICLR 2023 | 基于知识图谱的多模态类比推理ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型2015千人计划变2023千屏突破了MLNLP前沿综述分享第五期 | 胡琳梅@北京理工大学:知识增强的预训练语言模型前沿研究进展ICLR 2023 | 3D UX-Net:超强的医学图像分割新网络生活在佛州,你得学好西班牙语北京内推 | 腾讯微信事业群招聘NLP算法工程师/预训练模型加速工程师首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升ICLR 2023杰出论文奖得主分享:用于密集预测任务的通用小样本学习器XTREME榜单第一,多粒度对齐的多语言预训练模型VECO 2.0MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型卡麦尔的警察和二手店SparK项目原作解读:卷积模型的首个BERT预训练零门槛复现ChatGPT:预训练模型数据集直接用,包含完整RLHF流程,在线可体验第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%CVPR 2023 | 基于CLIP的微调新范式!训练速度和性能均创新高!美国普林斯顿大学,校园印象ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录2023 春 祝姐妹们周末快乐!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。