Redian新闻
>
谷歌最新《自然》论文:大语言模型构建的AI医生,比人类医生更出色

谷歌最新《自然》论文:大语言模型构建的AI医生,比人类医生更出色

公众号新闻


导读


人工智能迎来了“井喷期”,全球科技大厂都在各显神通。最近,Google让大语言模型(LLM)做AI界的“妙手仁医”。


7月13日,Google和DeepMind的科研人员在《自然》杂志上发表了一项研究,提出了MultiMed QA评估基准,用于评估大语言模型在编码临床知识方面的表现。

这个评估基准包括专业医疗、研究和消费者查询等六个方面,力图从多方面把AI培养成一名合格的医生。


最终,研究人员发现大语言模型构建的AI医学在很多方面都强于人类医生。


人工智能迎来了新风口,即便是公认复杂的医学领域也有AI来“敲门”。无论是在知识检索还是临床决策支持方面,此前AI都交出过不俗的答卷。

但即便AI功能如此强大,我们也要有足够的辨别能力,别被它的一些假象给“迷惑”了,有时AI会装作很专业的样子,给你提供错误的医疗信息,往往搞得你一头雾水。

那么,怎样才能评估AI的回答呢?目前评价医疗AI的方法主要依赖单个的医疗测试得分,就好像把AI当成一个“医学考生”一样来测试它的水平。

但在真实的医疗场景中,AI能否灵活应对就成了一个未知数。如何能把AI从一个医学考生锻炼成一名合格的AI医生呢?构建一个更全面的评估体系变得尤为必要。
01

谷歌最新的基准评估医疗大语言模型


7月13日,来自Google的Shekoofeh Azizi及其团队建立了一个名为MultiMedQA的测试基准,专门用来评估大语言模型在临床知识方面随机应变的能力。

这个基准综合了六个现有医疗问答数据集,包括专业医疗、研究和消费者查询等多个方面。

此外,研究者还添加了一个全新的数据集Health Search QA,光这一个数据集就包含了3173个在线搜索医学问题。


接着,研究人员就对大语言模型PaLM以及其变体Flan-PaLM进行了测试,测试的系统MultiMedQA整合了美国医师执照考试问题

测试结果令研究人员很满意,在一些数据集中,Flan-PaLM的表现更是一骑绝尘。Flan-PaLM取得的分数比之前最先进的大语言模型还要高17%,在多选题方面表现尤为出色。

Flan-PaLM和现有最新技术的比较

但美中不足的是,Flan-PaLM在回答“消费者医疗问题”方面的水平有待提高。

于是研究人员采用了一种“设计指令微调”的方法,Med-PaLM也应运而生。

Med-PaLM系统介绍

调试之后的Med-PaLM在专业领域中的发挥变得更加出色,在试行评估中的结果也更加突出。

比如说在长篇回答方面,Flan-PaLM与医生评分的科学共识一致程度仅为61.9%,而Med-PaLM的回答评分高达92.6%,几乎与医生的回答一致(92.9%)。

同样地,Flan-PaLM有29.7%的回答被评为可能导致有害结果,而Med-PaLM仅为5.8%,接近医生回答的水平(6.5%)。

Flan-PaLM、Med-PaLM和临床医生答案评价对比
尽管这些结果都在暗示“AI+医疗”未来大有可为,但研究人员还是认为,医疗类的大语言模型需要进一步的评估。
02

“AI+医疗”:Google正在领跑


“AI+医疗”近年来已经成为热门领域,Google正是这个赛道的领跑者。

今年5月,Google对Med-PaLM模型再一次升级,推出了全新的Med-PaLM 2模型,在MultiMedQA测试上,Med-PaLM 2甚至可以达到“专家”的水准。


在诸多医学问题回答上,Med-PaLM 2显得更为人性化、患者接受度更高。

在1000多个真实医疗场景的测试中,Med-PaLM 2在9项基准测试中有8项表现良好,并且相比于人类医生的回答,Med-PaLM 2的回答更受认可。

除了人性化以外,Med-PaLM 2的准确度也提了上来。在测试中,Med-PaLM 2有72.9%的回答被认为是和医生回答相对一致的。

与其他通用大型模型如ChatGPT相比,Med-PaLM 2在医疗领域的表现更优。

图源 社交网络

未来医学AI模型在回答医学问题方面有巨大的潜力,但在临床应用之前,医疗大型语言模型仍然面临准确度和隐私保护等问题。

无论如何,医学AI的发展无疑是医疗领域的一大进步。未来,也许每个人都可以拥有一个专属的“AI医生”。

作者:周晨
来源:深究科学

版权声明:部分文章在推送时未能与原作者取得联系。若涉及版权问题,敬请原作者联系我们。联系方式:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
编花篮:与文学城小编对谈大语言模型综述全新出炉:51页论文带你盘点LLM领域专业化技术直播预告|基因编辑敲入细胞模型构建的挑战和解决方案大语言模型的多语言机器翻译能力分析WAIC 2023 | 张俊林:大语言模型带来的交互方式变革张俊林:大语言模型带来的交互方式变革QCon 15 年特别策划:大语言模型如何给前端开发者带来新体验大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新今日云讲堂 | 李想:基于大语言模型构建智能Agent煤怎么能吃呢?硬核科普:大语言模型,都是如何生成内容的大语言模型友好的 API:借助集体智慧构建更好的软件架构手机里的心理医生,ChatGPT能胜任吗?|《自然》长文微软发布 Guidance 语言,用于控制大语言模型是不是:划时代的《自然》论文比 Spark 快 9 倍,超越 ClickHouse,在大语言模型时代构建全新数据平台Google提出LaCLIP:大语言模型重写本文输入,让CLIP重焕光彩!孔炜教授团队与合作者发表的《Circulation》论文获美国心脏协会Joseph Loscalzo年度最佳基础/转化科学论文奖字节李航等发表最新《可信赖的大型语言模型》综述,提出七大维度大语言模型会偷懒?新研究:上下文太长,模型会略过中间不看 | 本周论文推荐InfoQ:大语言模型综合评测报告2023百度肖阳:大语言模型重构搜索引擎,让搜索越来越懂用户母亲节话母亲节竹间智能总裁兼COO孙彬:大语言模型如何在企业落地幻象 or 事实 | HaluEval:大语言模型的幻象评估基准【硅谷的故事】购买豪车记ChatGPT的朋友们:大语言模型经典论文一次读到吐深度学习三巨头之一 Yann LeCun:大语言模型带不来 AGI《自然》长文:叫停同行评审,学者表示“要下车”!【尘封档案】系列之160:华南特案组之(二)李代桃僵(下)符尧最新研究:大语言模型玩砍价游戏?技巧水涨船高!学习生成式大语言模型,东北大学自然语言处理实验室有一堂课ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成MIT团队打造未来实验室:大语言模型与人类优势互补,全程紧密配合
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。