ChatGPT能够颠覆医疗AI吗?
2023年以来,围绕ChatGPT的火热探讨重新燃起了市场对于医疗AI的兴趣。
过去,医疗健康领域的人工智能模型大多只能处理单一模态的数据,解决相对狭窄的医学问题,如识别胸部CT中的黑点,而ChatGPT能够接受多重数据类型的训练,使之像一名医生一样提供完整的医学建议。
然而,坊间对于ChatGPT价值认可各不相同。一部分观点相信大型语言模型(LLM)能够颠覆AI的推理逻辑,优化算法对于医学影像、医学文本的推理,另一部分观点则认为这项技术已经出现多年,如今不过是老调重弹,量变有余,质变不足。
为了明晰ChatGPT能否重构全球医疗AI格局,探明行业的未来发展前景。动脉网与业内多位专家进行了对话,尝试一一解答上述问题。
过得了审批,进不了临床
IBM Watson的退场曾对整个生命科学领域予以警示:在面对一种可能的新兴技术时,我们不能单单借助非医疗行业的“主观印象”判断该技术的颠覆性及可用性,还需考虑其应用于医疗领域后,如何切入的诊疗流程、如何面临的审评审批、如何实现商业化等实际问题。
审评审批是决定AI能否存在于市场的重要环节,也是ChatGPT切入临床难以会回避的核心关卡。我们不妨假设:如果基于ChatGPT的AI要以医疗器械的方式实现辅助诊断,需要依赖怎样的审批路径?参照怎样的医疗器械标准?
MedTech Dive曾对FDA批准的AI产品进行了全面的统计。截至2022年10月5日,FDA总计授权了521份AI/ML医疗器械申请,其中绝大部分走的510(k)这一路径,小部分拿到PMA授权,仅18款器械通过的是de novo审批程序。毕竟,510(k)简化了医疗AI的审批流程,尤其是对于不少影像设备厂商,他们的AI应用可能只作用于某一特定模块,只要开发人员能够证明他们的设备与已经上市的设备“基本等效”,就不需要再重新进行临床试验。
NMPA对于AI/ML医疗器械的授权相对谨慎,没有类似于510(k)这样的快速通道可供使用。但随着审批制度的不断完善,大量第二类、第三类智能医疗器械在2018年后涌现,尤其是在科亚医疗“深脉分数”获得三类证,将“深度学习”首次写入注册证基础信息后,医疗人工智能产品的审批迎来爆发式增长。
NMPA、FDA历年批准的人工智能医疗器械数量(NMPA仅统计第三类医疗器械)
因此,仅谈论审批路径,NMPA、FDA均对有价值的AI技术张开怀抱。若有企业将基于ChatGPT的AI植入自身的设备之中,并能其与已经上市的设备“基本等效”,那么它很有可能借助510(k)成功上市;2022年3月NMPA发布的《人工智能医疗器械注册审查指导原则》扩展了人工智能核心算法审批的范围,如果LLS能够证明它的价值,亦有可能借助现有框架进入审批流程。
再谈ChatGPT可能的应用场景。NMPA与FDA在审批项目组成上的组成大致相似,截至2022年10月5日,FDA 授权的521份AI/ML医疗器械申请中,超过75%是辅助诊断产品,13%是辅助治疗产品;NMPA授权的70份AI/ML医疗器械申请,超过71%是辅助诊断产品,24%是辅助治疗产品。
辅助诊断产品与辅助治疗类产品严格依赖于临床证据,要求算法能够复现给出的结果,并能给出相应的证据。反观目前ChatGPT模型的应用情况,它能够根据关键词输入给出一个确定的输出结果,但同一关键词的多次输入并不具备一致性。换句话说,当输入信息过于复杂且追求精度时,ChatGPT无法精准复现给出的答案,因而很难用于上述两个领域。
新一代临床辅助决策系统(CDSS)是ChatGPT最有可能颠覆的赛道之一。新一代CDSS依赖于NLP的助力,只能处理文本信息。相较之下,支撑ChatGPT的LLM不仅包含了NLP,还包含众多其他系统,使其具备整合电子病例,图像,检查数据、基因组,甚至微生物组序列信息的能力。
动脉网对2020-2022年期间FDA批准的AI项目整理后发现,尽管辅助诊断与辅助治疗类AI仍占据着主流位置,但CDSS类产品的过审数量较2020年前已显著上升(国内CDSS通常不需要经过NMPA审评审批,仅森亿智能的VTE风险评估软件医疗器械获得了第二类医疗器械认证)。
2020-2022年FDA批准AI医疗器械(部分)
对于整个医疗体系而言,AI带来的监督功能与对于基层医疗的赋能能够有效提高疾病预防的效率,通过推动疾病早治疗,从长期之中减少医保账户支出,从这个角度而言,基于ChatGPT的应用或许存在落地的潜力。
谁来为ChatGPT的决策背书?
美国初创公司Ansible Health的研究人员发布于《PLOS数字健康》杂志的研究结果。ChatGPT能够在执照考试中取得"大约60%的通过门槛"。另一项研究利用45个病例对ChatGPT诊断疾病的表现进行了评估,实验结果发现,ChatGPT能够在39个病例中找出正确诊断(准确率87%),远高于以前的症状检测工具,也高于老版ChatGPT的判别能力(82%),因此,在不少专家看来,CDSS是ChatGPT有效的落地路径。
数据支持下,ChatGPT显然能够充当一个有效的临床辅助决策工具,但要真正落地于临床,AI需要拿出手的不单单是一个比率。
“无论是百度还是谷歌,当你向它进行提问,它会给你大量网页作为回答,让你自己进行甄别过滤,但ChatGPT不同,它像一个进化版的搜索引擎,会给你一个唯一的答案。”惠每科技CTO王实告诉动脉网。“这是它的优点,也是它落地的隐患。”
医院目前使用的CDSS主要由人机交互、推理机、知识库三个核心部门组成。机器借助NLP去理解医生的输入,过程中处理的是交互问题,没有涉及真正意义上的以AI替代医生的决策,这并非在某些特定场景AI 无法超越医生,而是AI无法对任何可能的错误负责。
王实表示:“我们正在经历智慧型医疗的发展,尤其在2018年-2020年间,国家卫健委陆续出台了电子病历评级、互联互通评级、智慧医院评级等政策,以评促建来推动医疗机构全面向数字化转型升级,在这个过程中也运用到了很多新兴技术,其中,CDSS作为高级别评审的核心项目之一,也对CDSS的建设机制作出了严苛的规定,那就是必须是基于循证医学证据的。
因此,CDSS的提示与建议是在符合诊疗规范的前提下,综合指南参考,辅助医生决策。相比之下,ChatGTP在某些问题的回答上可能给出一个更好的答案,但它没法对自己作出的回答援引资料进行背书,没法对自己可能出现的错误负责,也没有医生愿意为算法的错误买单。”
这对于ChatGPT的技术落地而言是一个致命考验。和当年的IBM Watson相似,ChatGDP的颠覆在于它能够像医生一样作出决策,而医生则希望AI做好份内的信息处理工作,自己握住决策权。
成本,制约ChatGPT的关键所在
从CNN、NLP的发展路径看,技术开发者总是能在应用之中对技术进行取舍,使最终的成品满足市场的需求,若要全心围绕LLM技术开发医疗应用,取得成果也是必然。只是对于开发者们,不是哪一家初创企业都像Open.AI一样,能在模型的训练上投入海量的金钱。
公开数据显示,OpenAI过去推出的LLM模型GPT-3拥有1750亿个参数,与之对应的训练费用高达1200万美元(单次成本约140万美元),关于ChatGPT的训练费用说法不一,但大致可推测在200万美元-1200万美元这一区间之内。
对于需要建立类似模型的医疗等细分垂直赛道而言,先是必须拥有GPT级别的基础模型。然后才是耗费大量时间、精力,以及资金对基础模型进行长期且持续的计算和数据训练,以创建新的模型。实现以上条件,国内只有BAT级别的企业才有资本涉猎其中。
同时,高昂训练费用下,即便是大企业也没办法对已经完成训练的模型进行明确指向的调整,如果ChatGPT这样体量的模型在医疗领域的探索中误入歧途,相关的研究者们想要继续挖掘LLM的潜力,可能只有等待下一个模型出现。
种种影响因素之下,ChatGPT乃至其他LLM在医疗临床中的价值可能都会相当有限。仅讨论当下,与搜索相关的科普、互联网医院都场景显然更有潜力。脱离临床,ChatGPT的特立独行或许能够为上述场景打开新的增长空间。
总的来说,关于ChatGPT应用于临床的讨论或许让人有些失望。ChatGPT并非完全为医疗而生,基于ChatGPT的AI也难以像打磨多年的辅助诊断、辅助治疗AI一样深入临床环节。
但从长远来看,LLM仍然具备颠覆现有AI的能力。如果它能跨越电子病例、影像、基因组等多模态医学数据,构建综合性的分析能力,它必定能够打破当下AI面临的局面,重新定义AI的价值。
*封面图片来源:123rf
微信扫码关注该文公众号作者