Redian新闻
>
多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

公众号新闻

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯


编辑 | 白菜叶

许多临床任务需要了解专业数据,例如医学图像、基因组学,这类专业知识信息在通用多模态大模型的训练中通常不存在。

在上一篇论文的描述中,Med-Gemini 在各种医学成像任务上超越 GPT-4 系列模型实现了 SOTA

在这里,Google DeepMind 撰写了第二篇关于 Med-Gemini 的论文。

在 Gemini 的多模态模型的基础上,该团队为 Med-Gemini 系列开发了多个模型。这些模型继承了 Gemini 的核心功能,并通过 2D 和 3D 放射学、组织病理学、眼科、皮肤病学和基因组数据的微调,针对医疗用途进行了优化:

1、Med-Gemini-2D:能够处理放射学、病理学、皮肤科、眼科图像;
2、Med-Gemini-3D:能够处理 CT 图像;
3、Med-Gemini-Polygenic:能够处理基因组「图像」。

该研究以「Advancing Multimodal Medical Capabilities of Gemini」为题,于 2024 年 5 月 6 日发布在 arXiv 预印平台。

来自生物样本库、电子健康记录、医学成像、可穿戴设备、生物传感器和基因组测序等不同来源的医疗数据正在推动多模态人工智能解决方案的开发,从而更好地捕捉人类健康和疾病的复杂性。

虽然医学领域的人工智能主要专注于具有单一输入和输出类型的狭窄任务,但生成人工智能的最新进展显示出在解决医疗环境中的多模态、多任务挑战方面的前景。

以 Gemini 等强大模型为代表的多模态生成人工智能拥有彻底改变医疗保健的巨大潜力。虽然医学是这些新模型快速迭代的数据来源,但由于其高度专业化的数据,通用模型在医学领域应用时通常表现不佳。

基于 Gemini 的核心功能,DeepMind 推出了 Med-Gemini 系列的三个新模型,Med-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenic。

图示:Med-Gemini 概述。(来源:论文)

来自 370 万张医学图像和病例的超过 700 万个数据样本用于训练模型。使用各种视觉问答和图像字幕数据集,包括一些来自医院的私人数据集。

为了处理 3D 数据 (CT),使用了 Gemini 视频编码器,其中时间维度被视为深度维度。为了处理基因组数据,各种性状的风险评分被编码为图像中的 RGB 像素。

图示:使用个人的 PRS 图像和人口统计信息预测冠状动脉疾病的示例。(来源:论文)

Med-Gemini-2D

Med-Gemini-2D 根据专家评估,为基于人工智能的胸部 X 射线(CXR)报告生成制定了新标准,超过了之前两个独立数据集的最佳结果,绝对优势为 1% 和 12%,其中 AI 的正常病例报告为 57% 和 96%,异常病例报告为 43% 和 65%,与原始放射科医生的报告相比质量「相当」甚至「更好」。

图示:Med-Gemini-2D 在胸部 X 射线分类任务上的性能。(来源:论文)

Med-Gemini-2D 在分布胸部 X 射线分类任务上优于通用的较大 Gemini 1.0 Ultra 模型(在训练期间看到了来自同一数据集的示例)。对于分布外的任务,性能各不相同。

图示:Med-Gemini-2D 组织病理学图像分类性能。(来源:论文)

在组织病理学分类任务上,Med-Gemini 的表现大多优于 Gemini Ultra,但未能超越病理学特定的基础模型。

图示:PAD-UFES-20 分类任务的性能。(来源:论文)

在皮肤病变分类上,观察到类似的趋势(特定领域模型 > Med-Gemini > Gemini Ultra),尽管 Med-Gemini 与特定领域模型非常接近。

图示:Med-Gemini-2D、Gemini Ultra 和使用眼底图像分类附加数据进行训练的监督模型的性能比较。(来源:论文)

对于眼科分类,再次看到类似的情况。请注意,特定领域模型是在约 200 倍的数据上进行训练的,因此相比之下,Med-Gemini 的表现相当不错。

图示:VOA 任务的评估详细信息。(来源:论文)

该团队还评估了医学视觉问答(VQA)方面的 Med-Gemini-2D 模型。在这里,他们的模型在许多 VQA 任务上都非常强大,经常击败 SOTA 模型。Med-Gemini-2D 在 CXR 分类和放射学 VQA 方面表现良好,在 20 项任务中的 17 项上超过了 SOTA 或基线。

图示:评估详细说明了胸部 X 光检查报告的生成。(来源:论文)

除了对医学图像的简单狭义解释之外,作者还评估了 Med-Gemini-2D 在胸部 X 射线放射学报告生成方面的表现,并观察到它根据放射学专家的评估实现了 SOTA!

Med-Gemini-3D

图示:头部 CT 体积报告生成的人工评估结果。(来源:论文)

Med-Gemini-3D 不仅仅适用于 2D 图像,还应用于自动化端到端 CT 报告生成。根据专家评估,其中 53% 的 AI 报告被认为是临床可接受的,尽管需要进行额外的研究来满足专家放射科医生的报告质量,但这是第一个能够完成此任务的生成模型。

Med-Gemini-Polygenic

最后,根据各种性状的多基因风险评分,对 Med-Gemini-Polygenic 的健康结果预测进行了评估。该模型通常优于现有基线。

图示:使用 Med-Gemini-Polygenic 与分布不均和分布外结果的两个基线进行比较的健康结果预测。(来源:论文)

以下是 Med-Gemini 支持的多模态对话的一些示例!

图示:通过开放式问答的 2D 医学图像对话示例。(来源:论文)

在组织病理学、眼科和皮肤科图像分类中,Med-Gemini-2D 在 20 项任务中的 18 项中超越了基线,并接近特定任务的模型性能。

结语

总体而言,这项工作在通用多模态医疗人工智能模型方面取得了有益的进展,但显然还有很大的改进空间。许多特定领域模型的性能优于 Med-Gemini,但 Med-Gemini 能够在数据较少和更通用的方法下表现良好。有趣的是,Med-Gemini 在依赖更多语言理解的任务(例如 VQA 或放射学报告生成)上似乎表现得更好。

研究人员设想未来所有这些单项功能都集成到综合系统中,从而执行一系列复杂的多学科临床任务。AI 与人类一起工作,从而最大限度地提高临床疗效并改善患者的治疗结果。

论文链接:https://arxiv.org/abs/2405.03162

相关内容:https://twitter.com/iScienceLuvr/status/1789216212704018469 

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2024春假伦敦邮轮行之汉堡赋予机器人思考能力!北大提出自纠正多模态大模型,赋能端到端机器人操作AI早知道|谷歌推出文生视频模型Veo;百度发布全球首个支持 L4 级自动驾驶的大模型多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性谷歌推出前沿安全框架:评估AI模型严重风险,4个领域影响最大苹果确认计划“在未来”集成谷歌Gemini模型;意大利AI初创公司iGenius寻求融资6.5亿欧元丨AIGC日报改变先秦●沧海一粟GLM-4开源版本终于来了:超越Llama3,多模态比肩GPT4V,MaaS平台也大升级超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源37岁离异女贷款17万找对象;王婆说媒:我爱你才会有机会中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响雷军回应小米SU7迟迟不公布价格,极氪回应展车撞伤人,苹果放弃屏幕项目,谷歌推出学术搜索插件,这就是今天的其他大新闻!谷歌重磅提出Med-Gemini :医学大模型里程碑之作!医学航母正式起航!Transformer升级之路:多模态编码位置的简单思考李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 2024GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4爆打多模态王者 GPT-4V、Gemini Pro!这个小小端侧模型杀疯了!AI早知道|月之暗面回应Kimi推出付费方案;面壁智能推出多模态模型华为Pura 70系列迎来重大升级,带给行业的三个启示【行业日报】瑞银集团将出售80 亿美元瑞士信贷资产!谷歌推出AI 加速器计划!一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%GPT-4o 与 Gemini 能否用多模态撬开下一代 AI 的新进程?“爱因斯坦”亲自授课,香港科技大学推出“AI 讲师”;消息称OpenAI将推出多模态人工智能数字助理丨AIGC日报北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生不懂就问,申请大学的时候怎么指定申请pre国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座ICLR上新 | 强化学习、扩散模型、多模态语言模型,你想了解的前沿方向进展全都有Pre Med 是牛蛙的游戏​Gemini终于赢了GPT-4o!Video-MME首个视频多模态基准来了!《出生的地方》&《听悲伤的情歌》OpenAI 将与 Reddit 开展数据合作;传高合汽车将获十亿美元重组资金;iPhone 电池或迎来重大升级 | 极客早知道面壁发布多模态小钢炮仅仅 8B 参数规模,超越 GPT-4V 和 Gemini Pro面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用天才创始人对谈AI教父Hinton:多模态是AI的未来,医疗将发挥AI最大的潜力
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。