21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
新智元报道
新智元报道
【新智元导读】多模态大语言模型(MLLM)在医学视觉问答(VQA)领域展现出巨大潜力,通过提供针对医学图像的具体临床问题的回答,有助于提高医疗专业人员的工作效率。然而,现有医学VQA数据集规模较小且问题过于简单,限制了模型训练和微调。为了解决这一问题,研究团队提出了Medical-CXR-VQA,这是一个大规模的X光胸片问答数据库,覆盖了更广泛的问题类型,包括异常、存在、位置等七种问题类型,为构建更准确的医学VQA模型提供了基础。
如图1所示,现有的ImageCLF VQA-MED数据集仅包含「这张图像里主要异常是什么?」和「这张图片里看到了什么?」这两种完全相当于分类任务的问题。
Medical-CXR-VQA,这个数据库覆盖了更大范围的问题类型,包含异常、存在、位置、级别、拍摄角度和类型,共7种类型的问题。
数据集介绍
数据集介绍
数据集构建的方法
数据集构建的方法
Baseline模型介绍
Baseline模型介绍
为深入挖掘解剖结构和病灶之间的关系,作者设计了一种包含三种关系的图网络结构:空间关系、语义关系和隐含关系。
总结与讨论
总结与讨论
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章