以小时为单位更新，国内首款医疗大模型如何炼成

2023-07-14 00:07

AI医生核心解决的是成本问题。

文｜《中国企业家》记者 谭丽平‍

编辑｜米娜

头图来源｜受访者

当AI医生与真人医生进行一致性评测，结果会如何？

今年6月30日，国内互联网医院医联就做了这样一件事——他们在成都高新海尔森医院搭起了线下义诊，由医生助理与患者面对面沟通，将患者的主诉分别传达给真人医生与AI医生，多轮沟通之后，“医生们”为患者开具检查单或诊断，患者现场完成检查后复诊，再由AI医生及真人医生提供临床诊断及治疗方案。一百多位患者参与了问诊，形成了91份有效病例。

最后，来自北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授，从多个评价维度对这些有效病例进行打分。结果显示，真人医生综合得分为7.5分，AI医生综合得分为7.2分——AI医生与三甲主治医生在比分结果上的一致性达到了96%。

来源：受访者

这令王磊所在的医联MedGPT研发团队兴奋不已。自2022年11月由OpenAI推出的ChatGPT火爆全球，一个多月后，王磊领导团队也加入了“百模大战”。

与ChatGPT这类通用型的大语言模型产品不同，MedGPT聚焦的是医疗场景——严肃且谨慎的领域，更强调准确性与安全性，对问题的容错率更低。而用王磊自己的话说：“大模型一定是不准确的”，如何尽可能实现诊断的准确性，做出更有效的医学决策，是MedGPT在很长一段时间内持续面临的挑战。

为此，医联的研发团队不断打磨，版本最快是“以小时为单位更新”。按照指南、临床路径、教材、医生5年和10年医疗相关的临床经验，打磨出了一套大模型系统和一套专家系统。

当然，训练是一个持续的过程。医联MedGPT产品经理廉泽良也表示，系统还在持续更新，专家联盟和医学团队也在持续调优，随着医生专家系统不断的迭代，准确性会越来越高。除此之外，MedGPT的定位是在真实医疗场景中发挥实际诊疗价值，也就是“不是纯技术研究，而是要投入实际应用”，这也对MedGPT的深度学习能力提出了更高的要求。

“最后缺失的一块”

王磊感觉，生成式AI的出现，像是打通了“任督二脉”。

在此之前，医联对于AI领域一直比较看重。内部团队认为这是医联数字医院板块“最后缺失的一块”，有了就“武功大成”，没有就做不下去。

医联的数字医院主要分为两块：医联MedGPT和互联网医院。AI医生会提供整个决策能力，帮患者看病，同时提供大量的医患来源。互联网医院则是一个“订单消化中心”，也是前者的“供应链体系”。

“如果没有依托互联网医院，AI医生只能提供有限的诊疗服务，而无法做到闭环；但没有AI医生，互联网医院没有大量的医患来源；供应链价格就很难下去。”王磊认为，AI医生核心解决的是成本问题。以往线上问诊需要众多医生，对应的是巨额的成本，如果AI医生能够解决，成本便能大幅下降，多出来的钱也可以全部进入互联网医院补贴患者，“这是一个最佳闭环”。

早在2017年，医联就开始接触大数据。2017年12月，医联拿到了4亿元C轮系列融资，并与被业内称为医疗大数据国家队的中电数据达成战略合作。参与了大量医疗大数据的清洗工作，从那时起，意识到数据重要性的医联，也有意识开始沉淀医疗数据。

2018年，医联应用NLP（自然语言处理）、CV（计算机视觉）等AI技术，落地了一系列的应用场景。包括智能健康终端、智能分诊、智能导诊、口腔影响识别、智能辅助应用等。智能医助也是在当时有了“雏形”。但彼时智能医助的尝试“是失败的”，当时的诊断决策信息收集主要通过选择题完成，长达四五十项的冗长内容，让用户和医生都不买单。“我们认为是方向，但技术突破不了。”

2019年，团队感觉“有点受挫了”。但在通用全科AI上一直“受挫”后，团队开始针对单病种、分阶段建立AI诊疗模型，比如在疾病预防阶段，建立疾病早筛模型；也不做全病种，而是做肝病等专病。

到2021年时，医联初步形成了一套基于互联网医院的AI诊疗系统。王磊介绍，虽然当时在自然语音处理这一块存在很大瓶颈，用户体验不是很好，但从线上的检验检测、智能硬件和保险等整个链条已经打通。“包括当时也已经积累了海量的数据，可以认为我们基本的能力都准备好了。”

问题只剩下一个——始终没有办法解决自然顺畅的AI疾病诊疗全流程。直到去年年底，ChatGPT出现了。

“发布时我们就关注了它，但最初我们有些后知后觉；过了一个月，我们就突然反应过来了，基于Transformer架构大语言模型出来之后，好像我们自然语言沟通能力、识别能力这些问题就自然解决了。”王磊解释道，过去冗长的选择题，是不断排除可能存在的病因，最后下疑似诊断，但勾选体验不好，大模型出来之后，就能通过医患之间的多轮问询做鉴别诊断。

大语言模型就像“最后一块拼图”。疑似诊断之后，可以继续开检测单确诊，之后是下诊断，后面的逻辑与此前已经具备的大病管理体系也就“大差不差”了。

很快，医联研发团队基于Transformer架构，开发了国内首款医疗大语言模型——MedGPT，并于今年5月正式发布。

医生当起“训练师”

对于医疗类大模型而言，不仅准确度要求更高，且医疗领域的数据获得相对来说更为稀缺。

医联的优势是，通过过去几年数据的清洗与标注工作，已经形成了结构化、规则化的一些数据，同时也会投喂大量医学文献、临床指南、药品库的信息，以及此前大量脱敏的线上线下的医患对话数据。此外，还会让医生将真实的医患数据加工成MedGPT预训练过程中需要的数据。

“到晚上，我们会让医生为真实的医患数据打标签，比如哪句话是患者的主诉，哪句话是现病史，整个对话的目的。”王磊说，训练的重点主要以很多大病种、高质量的医患对话数据去微调。

当然，这依然无法避免大模型的不准确性。医联组织了大量的医生、专家对其进行调教。比如，一位医生就曾提到一个很关键的观点，有患者主诉有胸痛，此时AI还在一直问，问得特别细。“但对于胸痛的患者，一定要先把急症和重症排除，胸痛有可能是心绞痛、心肌梗死，问题都非常大。一定不能将急病和重病漏掉，要让他及时做相关的处理。”

王磊表示，MedGPT主要由两个系统组成：大模型系统与专家系统。其中，大模型完成了60%的工作，专家系统完成最终的40%。以此来不断优化医学的准确性、有效性。

据介绍，医联MedGPT目前的参数规模处于行业领先地位，预训练阶段使用了超过20亿的医学文本数据，微调训练阶段使⽤了800万条的高质量结构化临床诊疗数据，并投入超过100名医生参与人工反馈监督微调训练。

在廉泽良看来，目前所说的人工智能时代来临，非常重要的技术突破和变革就是机器能够和人类没有障碍地进行交流，而且是在具有相当的智力和智能的前提之下——

AI的1.0时代，可以称为“黑暗时代”。是由很多强规则化的、非常零散的、孤岛式的AI应用所构成。因为每一个特定的任务场景都需要花大量的时间去做数据的清洗、数据的结构化，再去写特定的规则，从而实现一个非常特定的场景任务，是一个很机械的过程。

AI的2.0时代的技术突破，便是以Transformer架构为代表的大语言模型技术。它的核心特点是，可以把所有的完全非结构化的文本语料进行输入，让其自身从数据里面自学习。能够把很多过往的技术、学科和知识串联起来，进行所谓的高并发、长距离的分析和应用。

由此得到的效果是，AI医生一方面复制了真人医生的知识、经验和诊疗能力；另一方面，它实现了像真人医生一样的自然语言的沟通和理解能力。

如果将AI医生类比真人医生，双方的成长之路有许多共通之处。

AI医生的预训练阶段，对应的是真人医生在医学院长达数年的学习阶段。AI医生会被投喂大量医学教材、指南，各种各样高质量的临床病例数据，不仅学医学知识，也要学多学科知识，最后形成对医学的理解与分析能力。

AI医生的二次监督训练，对应的是真人医生的规培。医学生进入临床将所学知识应用到实际医疗当中，AI医生也会接触到用户的实际反馈。

最后，医学生开始独立接诊，在实践中提高自己的专业能力，以满足不断变化的医疗需求和挑战；AI医生也会形成“数据飞轮”——也就是接待的患者越多，积累的用户数据越多，积累用户数据和反馈越多，模型能力更强，模型能力更强，就可以供更多的患者使用。

来源：受访者

据介绍，目前医联MedGPT已经覆盖ICD10（国际疾病分类第十版）的60%疾病病种，并在近期将研发重心倾斜在多发疾病，以提升数字医院的普惠率。预计在2023年底，可以覆盖80%病种的就诊需求。

AI的价值所在

在医联的未来设想中，MedGPT在医疗场景的应用，未来会在患者和医生两侧体现。

医生侧，MedGPT会帮助医生提升诊断效率和诊断的质量。可以帮助医生进行患者管理，比如，在诊前、诊中、诊后，以及患者随访、复诊，和长期的患者管理都可以发挥作用；同时可以做很多医学文本和数据的整理工作，帮助医生从诸多机械的常规接诊工作中解放出来，更多地投入到更深入的医学研究中。

患者侧，在优质医疗资源匮乏的农村偏远地区，或者城市的基层社区这类医疗资源有限的地方，MedGPT可以提供不受时间和空间限制的高质量医疗服务。

对于真人医生和AI医生的关系，廉泽良认为，二者绝对不是对立的关系，而是由AI医生帮助医生解放生产力。人工智能的核心意义，是帮助人类去做更多更有创造力的、非机械重复类的生产性的工作。

目前，市面上的所有大模型，医联研发团队都测试过。廉泽良观察到，许多大模型产品更多的是技术验证，对于MedGPT，是在真实医疗应用层面发挥实用价值的应用型人工智能产品。

廉泽良认为，接下来的人工智能时代，应用是远大于底层技术的，局限在底层技术只是在重复造文字。“就像是最后只有iOS和安卓这两个常用的操作系统一样，最后核心的产业和给社会创造的价值都是基于一个个APP。”

MedGPT的未来规划是，通过大量的工程调优和应用的框架、应用的控制让它去实现最真实的诊疗能力，同时不断地跟真实世界进行验证和反馈，再去强化它的诊疗能力，还要把很多第三方的多模态能力整合起来，最后实现数字医院的能力。

无独有偶，在MedGPT做的这次一致性评测之后不久，美国当地时间7月12日，Google和DeepMind的科研人员在《自然》杂志上发表一项研究，提出了MultiMed QA评估基准，用于评测大语言模型在临床知识方面的表现。研究人员发现，大语言模型构建的AI医生在很多方面与人类医生相当。尽管结论一致，但是两者的不同在于，MedGPT的评测是基于真实患者的真实世界测评，而不是针对“医学问题”的回答。

廉泽良认为，尽管在应用层找到真实有效应用场景并构建出来的大模型还很少，MedGPT也还处于“刚起步”阶段，但后续AI在医疗健康领域的发展仍然值得期待。