Redian新闻
>
清华校友立功!谷歌发布首个全科医疗大模型,14项任务SOTA

清华校友立功!谷歌发布首个全科医疗大模型,14项任务SOTA

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

全球首个全科医疗大模型正式发布:

由谷歌Research和DeepMind共同打造的多模态生成模型Med-PaLM M,懂临床语言、懂影像,也懂基因组学。

在14项测试任务中,Med-PaLM M均接近或超过现有SOTA,前提是所有任务都使用一组相同的模型权重

而在246份真实胸部X光片中,临床医生表示,在高达40.50%的病例中,Med-PaLM M生成的报告都要比专业放射科医生的更受采纳,这表明Med-PaLM M并非“纸上谈兵”,用于临床指日可待。

对此,谷歌也自己给出了评价:

这是通用医学人工智能史上的一个里程碑。

所以,Med-PaLM M具体什么来头?

全球首个全科医疗大模型来了

在正式了解Med-PaLM M之前,我们先简单介绍谷歌自建的多模态医学测试基准MultiMedBench

谷歌表示,在MultiMedBench之前,市面上缺乏这样一个全面的多模态医学基准。

该基准由12个开源数据集和14个单独的任务组成,用于测量通用生物医学AI执行各种临床任务的能力。

其中12个数据集共包含了六种生物医学数据模式(文本、放射学(CT、MRI和X光)、病理学、皮肤病学、乳房X光检查和基因组学),14个任务则涵盖五种类型(问题回答、报告生成和摘要、视觉问题回答、医学图像分类和基因组变体调用)


Med-PaLM M就在上面进行了微调。

正如其名“M”代表多模态,Med-PaLM M相比之前谷歌发布的Med-PaLM、Med-PaLM-2等医疗大模型,是一个主打全科、通才的医疗AI,不仅能回答各种医学问题,还能直接看片、懂基因组学。

它的基本架构是PaLM-E(多模态语言模型),并采用ViT预训练模型作为视觉编码器,具体实现了三种组合:

-PaLM 8B+ViT 4B(PaLM-E 12B)
-PaLM 62B+ViT 22B (PaLM-E 84B)
-PaLM 540B+ViT 22B (PaLM-E 562B)

通过MultiMedBench对PaLM-E模型进行微调,并将其与生物医学领域对齐,Med-PaLM M得以诞生。以下是一些实现细节:

(1)数据集和预处理方面,将MultiMedBench中所有图像大小调整为224×224×3,同时按需使用填充来保留原始纵横比。

(2)由于谷歌的目标是训练一个通用的生物医学AI模型,使用统一的模型架构和模型参数,用多模式输入执行多个任务。为此,他们为Med-PaLM M提供了特定于各种任务的指令以及一个纯文本的“一次性示例”。

如下图所示的胸部x光解读和皮肤病变分类任务所示,这些指令有一种写提示语的味道,以“你是一个很给力的放射科助理”开头。

(3)训练过程中,作者对PaLM-E进行了端到端的微调。在多模态任务中,图像标记与文本标记交错,以形成对PALM-E模型的多模式上下文输入。对于所有微调任务,多模式上下文输入最多包含1个图像,然而Med-PaLM M能够在推理过程中处理具有多个图像的输入。

14项任务接近or超SOTA,临床战胜40%放射科医生

性能评估阶段,作者主要测试Med-PaLM M的“多面手”(即全科)能力、突发涌现能力以及放射学报告生成质量(与真实放射科医生进行对比)

结果显示:

(1)与专业SOTA模型和无生物医学领域微调的广义模型(PaLM-E 84B)相比,Med-PaLM M在MultiMedBench上的所有任务、数据集和指标组合(共计14项)中,性能均基本接近SOTA或超过SOTA。

需要注意的是,该结果是在没有任何特定任务定制的情况下使用相同的模型权重集实现的。

(2)在scale实验中,三个不同规模的Med-PaLM M对各类任务的影响各不相同:
粗略来看,对于纯语言任务和需要调整的多模式任务来说,模型越大越好;但对图像分类和胸部X光报告生成任务来说,84B的效果比562B表现反而更好一些。

(3)零样本思维链推理能力涌现。Med-PaLM M可以通过胸部X射线图像检测没有训练过的结核病,与针对该类数据集进行专门优化过的SOTA结果相比,它的准确率已相差不大。

不过,它给出的具体报告还是存在具体错误,说明还有不足。

(4)放射性报告生成测试中,80B参数的Med-PaLM M平均有40.50%的报告比放射科医生做的更好(被临床医生采纳),而12B和562B,分别为34.05%和32.00%。

另外,遗漏和错误率测试显示,Med-PaLM M 12B和84B模型平均每份报告的遗漏率最低,为0.12,其次是562B模型为0.13。这一结果与MIMIC-CXR上人类放射科医生基线报告的相当。

多久能实用?

作为人类首个全科医学大模型,Med-PaLM M多久能投入实用,想必也是大家关心的问题。

虽然它被“自诩”为里程碑(主要是因为靠一组模型权重在各种生物医学任务上接近或超过SOTA),但谷歌也指出目前还有不少局限性待解决。

比如缺乏高质量的测试基准。谷歌表示,这是迄今为止通用生物医学人工智能发展的关键瓶颈,因为只有高质量的基准才能在很大程度上促进相关领域的发展。

而目前的MultiMedBench还存在单个数据集大小有限以及模式和任务多样性有限(比如缺乏转录组学和蛋白质组学)等问题。

再比如,扩展(scale)多模态AI模型也具有挑战性。

在语言领域,这一操作可以显著提高性能和应急能力。然而,谷歌在Med-PaLM M上的初步实验表明,由于医学数据的稀缺性,这对于生物医学任务领域的多模态广义模型来说并没有这么简单。

作者介绍

目前,谷歌仅发布了Med-PaLM M的论文。

它一共有两位共同一作,其中一位叫Tao Tu。

他本科毕业于北理工(2010年),硕士毕业于清华大学,博士为美国哥伦比亚大学,专业都是医学工程。目前已在谷歌担任软件工程师快两年。

论文地址:
https://arxiv.org/abs/2307.14334

「AIGC算力全景与趋势报告 · 量子位智库」下载

AIGC时代,算力成为「硬通货」。当前大模型的发展对算力产生新的需求,算力行业迎来变革机会。机遇当前,量子位智库发布《AIGC算力全景与趋势报告》,扫描下方二维码即可查看完整报告。

8月9日,我们将在北京举办「量子位AIGC行业沙龙——AIGC时代的算力基石」,欢迎感兴趣的企业联系~

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【动脉严选新品鉴第22期】深睿医疗:医疗大模型推动下医学AI能力生成与应用服务平台刷新20项代码任务SOTA,Salesforce提出新型基础LLM系列编码器-解码器Code T5+SuperAlignment in Medical Science: 中文医疗大模型评估基准CMBOpenAI等推出AI语音翻译;百度发布首个量子领域大模型;微软或将用核电供能AI数据中心丨AIGC大事日报LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归百度发布首个量子领域大模型,5分钟内可完成上万字专利文档谷歌发现大模型「领悟」现象!训练久了突然不再死记硬背,多么痛的领悟为了你走遍草原 第二十三章比AlphaFold2快一个数量级!蛋白质通用大模型来了,13个任务取得SOTA丨百图生科&清华比亚迪:预计上半年净利润超百亿;索尼与微软达成协议;携程发布首个旅游行业垂直大模型“携程问道”;腾讯客服回应微信号被回收...比亚迪或搁置印度建厂计划,16家网约车平台被约谈,推特无法在苹果应用商店改名X,谷歌发布新AI机器人模型这就是今天的其他大新闻!校友活动丨十八芳华绽放 正青春向未来:清华经管EMBA内蒙古校友会年会暨内蒙古校友会成立18周年纪念活动校友风采|热烈祝贺清华经管EMBA校友企业蓝箭航天全球首枚液氧甲烷火箭发射成功!做了亿万富翁才有安全感为了你走遍草原 后 记MySQL 调整版本控制模型,发布首个创新版本 8.1.0独家!中期协重磅发布,事关网络信息安全!四大类21项任务曝光,这些要求年内完成谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类校友活动丨清华经管EMBA山东校友会校友企业参访系列活动医疗大模型火了!谷歌、微软全All in蛤蟆传战地恋情(三)着力深化特殊经济功能区与现代化新城建设,新片区取得了这些成效!新一轮支持政策将有29项任务举措苹果发布新一代智能手机iPhone 15系列;腾讯健康公布医疗大模型;中国民营企业500强发布……击败40%临床医生!谷歌首次验证「全科医学AI系统」,看病难真要成历史?以小时为单位更新,国内首款医疗大模型如何炼成医疗大模型:转瞬即逝的昙花还是跨时代的变革?【2023WAIC】Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务马斯克官宣成立xAI!挖角谷歌+OpenAI豪华天团,清华校友加入,解密宇宙终极答案「42」阅文发布首个网文行业大模型“阅文妙笔”,辅助网文创作、提效IP打造|甲子光年C919、ARJ21齐聚!这项任务全面展开→推理效率比ControlNet高20+倍!谷歌发布MediaPipe Diffusion插件,「移动端」可用的图像生成控制模型国产百亿大模型再增一员!400亿参数孟子GPT发布,各项任务平均提升10-15%机器人可“自我学习”!谷歌DeepMind发布首个机器人算法模型,“潘多拉魔盒”打开了?真能听懂人话!机器人ChatGPT来了,谷歌发布又一AI大模型黑科技
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。