Redian新闻
>
以小时为单位更新,国内首款医疗大模型如何炼成

以小时为单位更新,国内首款医疗大模型如何炼成

财经

AI医生核心解决的是成本问题。


|《中国企业家》记者 谭丽平

编辑米娜

头图来源|受访者
当AI医生与真人医生进行一致性评测,结果会如何?
今年6月30日,国内互联网医院医联就做了这样一件事——他们在成都高新海尔森医院搭起了线下义诊,由医生助理与患者面对面沟通,将患者的主诉分别传达给真人医生与AI医生,多轮沟通之后,“医生们”为患者开具检查单或诊断,患者现场完成检查后复诊,再由AI医生及真人医生提供临床诊断及治疗方案。一百多位患者参与了问诊,形成了91份有效病例。
最后,来自北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授,从多个评价维度对这些有效病例进行打分。结果显示,真人医生综合得分为7.5分,AI医生综合得分为7.2分——AI医生与三甲主治医生在比分结果上的一致性达到了96%。

来源:受访者
这令王磊所在的医联MedGPT研发团队兴奋不已。自2022年11月由OpenAI推出的ChatGPT火爆全球,一个多月后,王磊领导团队也加入了“百模大战”。
与ChatGPT这类通用型的大语言模型产品不同,MedGPT聚焦的是医疗场景——严肃且谨慎的领域,更强调准确性与安全性,对问题的容错率更低。而用王磊自己的话说:“大模型一定是不准确的”,如何尽可能实现诊断的准确性,做出更有效的医学决策,是MedGPT在很长一段时间内持续面临的挑战。
为此,医联的研发团队不断打磨,版本最快是“以小时为单位更新”。按照指南、临床路径、教材、医生5年和10年医疗相关的临床经验,打磨出了一套大模型系统和一套专家系统。
当然,训练是一个持续的过程。医联MedGPT产品经理廉泽良也表示,系统还在持续更新,专家联盟和医学团队也在持续调优,随着医生专家系统不断的迭代,准确性会越来越高。除此之外,MedGPT的定位是在真实医疗场景中发挥实际诊疗价值,也就是“不是纯技术研究,而是要投入实际应用”,这也对MedGPT的深度学习能力提出了更高的要求。


“最后缺失的一块”


王磊感觉,生成式AI的出现,像是打通了“任督二脉”。
在此之前,医联对于AI领域一直比较看重。内部团队认为这是医联数字医院板块“最后缺失的一块”,有了就“武功大成”,没有就做不下去。
医联的数字医院主要分为两块:医联MedGPT和互联网医院。AI医生会提供整个决策能力,帮患者看病,同时提供大量的医患来源。互联网医院则是一个“订单消化中心”,也是前者的“供应链体系”。
“如果没有依托互联网医院,AI医生只能提供有限的诊疗服务,而无法做到闭环;但没有AI医生,互联网医院没有大量的医患来源;供应链价格就很难下去。”王磊认为,AI医生核心解决的是成本问题。以往线上问诊需要众多医生,对应的是巨额的成本,如果AI医生能够解决,成本便能大幅下降,多出来的钱也可以全部进入互联网医院补贴患者,“这是一个最佳闭环”。
早在2017年,医联就开始接触大数据。2017年12月,医联拿到了4亿元C轮系列融资,并与被业内称为医疗大数据国家队的中电数据达成战略合作。参与了大量医疗大数据的清洗工作,从那时起,意识到数据重要性的医联,也有意识开始沉淀医疗数据。
2018年,医联应用NLP(自然语言处理)、CV(计算机视觉)等AI技术,落地了一系列的应用场景。包括智能健康终端、智能分诊、智能导诊、口腔影响识别、智能辅助应用等。智能医助也是在当时有了“雏形”。但彼时智能医助的尝试“是失败的”,当时的诊断决策信息收集主要通过选择题完成,长达四五十项的冗长内容,让用户和医生都不买单。“我们认为是方向,但技术突破不了。”
2019年,团队感觉“有点受挫了”。但在通用全科AI上一直“受挫”后,团队开始针对单病种、分阶段建立AI诊疗模型,比如在疾病预防阶段,建立疾病早筛模型;也不做全病种,而是做肝病等专病。
到2021年时,医联初步形成了一套基于互联网医院的AI诊疗系统。王磊介绍,虽然当时在自然语音处理这一块存在很大瓶颈,用户体验不是很好,但从线上的检验检测、智能硬件和保险等整个链条已经打通。“包括当时也已经积累了海量的数据,可以认为我们基本的能力都准备好了。”
问题只剩下一个——始终没有办法解决自然顺畅的AI疾病诊疗全流程。直到去年年底,ChatGPT出现了。
“发布时我们就关注了它,但最初我们有些后知后觉;过了一个月,我们就突然反应过来了,基于Transformer架构大语言模型出来之后,好像我们自然语言沟通能力、识别能力这些问题就自然解决了。”王磊解释道,过去冗长的选择题,是不断排除可能存在的病因,最后下疑似诊断,但勾选体验不好,大模型出来之后,就能通过医患之间的多轮问询做鉴别诊断。
大语言模型就像“最后一块拼图”。疑似诊断之后,可以继续开检测单确诊,之后是下诊断,后面的逻辑与此前已经具备的大病管理体系也就“大差不差”了。
很快,医联研发团队基于Transformer架构,开发了国内首款医疗大语言模型——MedGPT,并于今年5月正式发布。


医生当起“训练师”


对于医疗类大模型而言,不仅准确度要求更高,且医疗领域的数据获得相对来说更为稀缺。
医联的优势是,通过过去几年数据的清洗与标注工作,已经形成了结构化、规则化的一些数据,同时也会投喂大量医学文献、临床指南、药品库的信息,以及此前大量脱敏的线上线下的医患对话数据。此外,还会让医生将真实的医患数据加工成MedGPT预训练过程中需要的数据。
“到晚上,我们会让医生为真实的医患数据打标签,比如哪句话是患者的主诉,哪句话是现病史,整个对话的目的。”王磊说,训练的重点主要以很多大病种、高质量的医患对话数据去微调。
当然,这依然无法避免大模型的不准确性。医联组织了大量的医生、专家对其进行调教。比如,一位医生就曾提到一个很关键的观点,有患者主诉有胸痛,此时AI还在一直问,问得特别细。“但对于胸痛的患者,一定要先把急症和重症排除,胸痛有可能是心绞痛、心肌梗死,问题都非常大。一定不能将急病和重病漏掉,要让他及时做相关的处理。”
王磊表示,MedGPT主要由两个系统组成:大模型系统与专家系统。其中,大模型完成了60%的工作,专家系统完成最终的40%。以此来不断优化医学的准确性、有效性。
据介绍,医联MedGPT目前的参数规模处于行业领先地位,预训练阶段使用了超过20亿的医学文本数据,微调训练阶段使⽤了800万条的高质量结构化临床诊疗数据,并投入超过100名医生参与人工反馈监督微调训练。
在廉泽良看来,目前所说的人工智能时代来临,非常重要的技术突破和变革就是机器能够和人类没有障碍地进行交流,而且是在具有相当的智力和智能的前提之下——
AI的1.0时代,可以称为“黑暗时代”。是由很多强规则化的、非常零散的、孤岛式的AI应用所构成。因为每一个特定的任务场景都需要花大量的时间去做数据的清洗、数据的结构化,再去写特定的规则,从而实现一个非常特定的场景任务,是一个很机械的过程。
AI的2.0时代的技术突破,便是以Transformer架构为代表的大语言模型技术。它的核心特点是,可以把所有的完全非结构化的文本语料进行输入,让其自身从数据里面自学习。能够把很多过往的技术、学科和知识串联起来,进行所谓的高并发、长距离的分析和应用。
由此得到的效果是,AI医生一方面复制了真人医生的知识、经验和诊疗能力;另一方面,它实现了像真人医生一样的自然语言的沟通和理解能力。
如果将AI医生类比真人医生,双方的成长之路有许多共通之处。
AI医生的预训练阶段,对应的是真人医生在医学院长达数年的学习阶段。AI医生会被投喂大量医学教材、指南,各种各样高质量的临床病例数据,不仅学医学知识,也要学多学科知识,最后形成对医学的理解与分析能力。
AI医生的二次监督训练,对应的是真人医生的规培。医学生进入临床将所学知识应用到实际医疗当中,AI医生也会接触到用户的实际反馈。
最后,医学生开始独立接诊,在实践中提高自己的专业能力,以满足不断变化的医疗需求和挑战;AI医生也会形成“数据飞轮”——也就是接待的患者越多,积累的用户数据越多,积累用户数据和反馈越多,模型能力更强,模型能力更强,就可以供更多的患者使用。

来源:受访者
据介绍,目前医联MedGPT已经覆盖ICD10(国际疾病分类第十版)的60%疾病病种,并在近期将研发重心倾斜在多发疾病,以提升数字医院的普惠率。预计在2023年底,可以覆盖80%病种的就诊需求。


AI的价值所在


在医联的未来设想中,MedGPT在医疗场景的应用,未来会在患者和医生两侧体现。
医生侧,MedGPT会帮助医生提升诊断效率和诊断的质量。可以帮助医生进行患者管理,比如,在诊前、诊中、诊后,以及患者随访、复诊,和长期的患者管理都可以发挥作用;同时可以做很多医学文本和数据的整理工作,帮助医生从诸多机械的常规接诊工作中解放出来,更多地投入到更深入的医学研究中。
患者侧,在优质医疗资源匮乏的农村偏远地区,或者城市的基层社区这类医疗资源有限的地方,MedGPT可以提供不受时间和空间限制的高质量医疗服务。
对于真人医生和AI医生的关系,廉泽良认为,二者绝对不是对立的关系,而是由AI医生帮助医生解放生产力。人工智能的核心意义,是帮助人类去做更多更有创造力的、非机械重复类的生产性的工作。
目前,市面上的所有大模型,医联研发团队都测试过。廉泽良观察到,许多大模型产品更多的是技术验证,对于MedGPT,是在真实医疗应用层面发挥实用价值的应用型人工智能产品。
廉泽良认为,接下来的人工智能时代,应用是远大于底层技术的,局限在底层技术只是在重复造文字。“就像是最后只有iOS和安卓这两个常用的操作系统一样,最后核心的产业和给社会创造的价值都是基于一个个APP。”
MedGPT的未来规划是,通过大量的工程调优和应用的框架、应用的控制让它去实现最真实的诊疗能力,同时不断地跟真实世界进行验证和反馈,再去强化它的诊疗能力,还要把很多第三方的多模态能力整合起来,最后实现数字医院的能力。
无独有偶,在MedGPT做的这次一致性评测之后不久,美国当地时间7月12日,Google和DeepMind的科研人员在《自然》杂志上发表一项研究,提出了MultiMed QA评估基准,用于评测大语言模型在临床知识方面的表现。研究人员发现,大语言模型构建的AI医生在很多方面与人类医生相当。尽管结论一致,但是两者的不同在于,MedGPT的评测是基于真实患者的真实世界测评,而不是针对“医学问题”的回答。
廉泽良认为,尽管在应用层找到真实有效应用场景并构建出来的大模型还很少,MedGPT也还处于“刚起步”阶段,但后续AI在医疗健康领域的发展仍然值得期待。

新闻热线&投稿邮箱:[email protected]

END 
值班编辑:王怡洁 审校:吴莹 制作:张怡然

关注“中国企业家”视频号

 看更多大佬观点和幕后故事


[ 推荐阅读 ]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类全球首发多模态医疗大模型砭石,智慧眼迈向数字医疗新征途大模型刷新教育赛道,网易有道发布国内首个教育大模型“子曰”对对子入门:平仄史上最「吸粉」色彩营销,席卷全球的芭比粉是如何炼成的?持有到退休!15年间新高不断,这只"国民基金"是如何炼成的?以色列:“奇迹之国”是如何炼成的?全球票房10亿美元,芭比IP如何炼成的用户4亿,年轻人占83%,国产策略卡牌第一IP是如何炼成的?【动脉严选新品鉴第22期】深睿医疗:医疗大模型推动下医学AI能力生成与应用服务平台斩获全美Top1文理学院录取,美本申请六边形战士是如何炼成的?姜文式分镜需要几步,如何炼成?喜茶:联名营销界的天花板是如何炼成的?KIT 72 | 威廉姆斯录取:斩获Top1文理学院offer,美本申请六边形战士是如何炼成的?开源中文医疗大模型华佗GPT来了,真人医生盲测效果优于ChatGPT史上最「吸粉」色彩营销!席卷全球的芭比粉是如何炼成的?SuperAlignment in Medical Science: 中文医疗大模型评估基准CMBAI大模型如何在行业实际落地:企业对话场景拥抱大模型之路1300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4专访 SeaTunnel:首个国人主导的数据集成领域 Apache 顶级项目是如何炼成的国内首款开源交通大模型TransGPT(致远),可免费商用今天,国内首个数学千亿大模型 MathGPT 上线开启公测一曲青春的挽歌——读《鱼挂到臭,猫叫到瘦》医疗大模型:转瞬即逝的昙花还是跨时代的变革?【2023WAIC】游戏电影是如何炼成的?5070 血壮山河之武汉会战 黄广战役 2以色列:“奇迹之国”是如何炼成的?| 国家经济系列忆核黄素国内首个医疗大语言模型问世!多模态打通诊疗全流程,别再叫我做题家一个专业的“品油师”是如何炼成的清华校友立功!谷歌发布首个全科医疗大模型,14项任务SOTA国内首款球囊封堵微导管获批,“输送+封堵”一体化,环心医疗瞄准百亿红海市场食品行业“偏爱”的超级单品,是如何炼成的?4个月狂揽两千万,国内首个披露营收的大模型来了!娘親舅大 (三)自立天地
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。