国内首个医疗大语言模型问世！多模态打通诊疗全流程，别再叫我做题家

科技

2023-05-26 06:05

新智元报道

编辑：编辑部

【新智元导读】医疗AI的门槛如此高，如何克服关键痛点？这家互联网医疗公司深耕9年，终于推出国内首个医疗领域大语言模型MedGPT。

ChatGPT带火了大模型之后，全世界大厂都卷了起来。

强大的语言理解能力、生成能力、逻辑推理能力，让大模型在医疗领域大有可为。

是的，硅谷巨头们早已意识到，GPT在医疗领域的无限潜力。

早在今年2月，ChatGPT在美国医学执照考试中，以60%准确度的回答，已经接近真人医生。

话虽如此，但只要深入调查这个行业就会发现，目前市面上真正能够投入使用的医疗大模型，还寥寥无几。

原因就在于，医疗AI的门槛相当之高，在这个交叉领域要想成功做出产品，既要懂医疗，又要懂技术。

国内的医疗大模型之路该如何走？让我们先看看国外大厂的发展路线。

硅谷巨头，纷纷入局医疗GPT

当前，大型语言模型的发展，已经有足够的潜力给医疗保健整个行业带去更加深远、广泛的变革。

比如，远程问诊效率、准确度提升，简化医疗文档，甚至还可以帮助医疗人员减少工作量提高效率。

GPT-4、PALM 2作为当前最先进的语言模型，微软、谷歌等硅谷巨头必然将它的能力拓展到医疗领域。

上个月，微软和Epic Systems宣布，将GPT-4引入医疗保健领域，用于医护人员对患者的消息回复，分析医疗记录，以及寻找新的趋势。

另外，今年夏天，微软和Nuance将把GPT-4引入医疗保健文档技术。微软称，整合后GPT-4提⾼了AI模型的整体准确性，但没有透露准确率。

此外，谷歌过去几年里也一直在探索如何用AI来改善医疗保健，比如帮助早期发现疾病，扩大医疗服务范围等等。

刚刚过去的谷歌I/O大会上，谷歌在医疗领域的微调模型Med-PaLM也升级到了第二代。

值得一提的是，Med-PaLM 2一出手，就成为首个在USMLE（美国医师执照考试）上达到「专家」水平的模型，得分为85.4%。

甚至，它比迭代之前的Med-PaLM性能提高了18%，远超同类AI模型。

那么，现在通用的大语言模型，在回答医学问题方面表现怎样呢？我们来实测一下。

MedPaLM的表现很专业，然而，如果从应用场景看，MedPaLM还没有那么高的实用性，因为它主要还是以做题为主。

要说回答问题，那当然少不了当红大模型ChatGPT。

可以看到，它的回答就比较中规中矩，没有太多惊喜。

而一旦给它上点难度，问一道国家执业医师资格考试真题，它就寄了……

可见，类似ChatGPT这样的通用类LLM，高度依赖文本统计概率生成答案，因此回答的准确性无法保证。

但是，在医疗应用场景中，准确性和一致性是底线，绝不能出错。

垂直医疗大模型，难在哪?

从谷歌和微软做医疗大模型的发展路线，可以看到，要想让LLM在医疗领域充分发挥能力，有一些关键的难点。

1. 数据孤岛

首先，最致命的难点就是，垂直领域的大模型，如何突破数据「卡点」？

而垂直医疗领域AI大模型，只关注医疗这个特定的领域或者场景。它能够利用医疗的数据和知识，提供更精准和高效的解决方案。

然而现实是，整个医疗服务的数据信息碎片化，还有的被严重分割，医疗数据异构性、难流通。

一方面，不同医疗机构采用不同的系统，每个系统标准不一，因此缺乏统一化的数据格式，或交互界面。

另一方面，医疗数据较为敏感与特殊。为更好的保护病人隐私，大多数医院不会为利益交出数据，甚至将数据库只接入局域网。

再加上，患者差异、疾病繁多、医护人员经验识别差异，都导致数据的不完整、不统一。

由此可见，医疗数据具有一定的门槛，而且业内没有统一的的数据标准，都将是训练更专的垂类模型的绊脚石。

2. 复合型人才稀缺

值得注意的是，对于「AI+医疗」这一专业性极强的交叉领域，对复合型人才的需求极大。

医疗专业的知识本身非常精细，再加上与算法的深度融合，AI医疗这一高精尖技术，对人才综合能力要求甚高。

3. 行业标准难统一

除了以上两点，在大量涌入AI医疗的企业中，AI+医疗标准缺失也是一大痛点。

而在医疗领域中，最重要的就是准确度，否则可能会给数百万患者带来风险。

目前，还没有统一的行业标准能证明AI医疗的有效性，如何保证真正的对患者结果负责就成为了行业中的难点。

总而言之，在医疗这一特殊领域，如果没有打通这些痛点，并不是每个大模型的玩家都能玩转的。

国内首款医疗大模型MedGPT

据媒体报道，昨日医联正式发布了国内首个医疗领域自研大语言模型——MedGPT。

具体来说，MedGPT基于Transformer架构，目前参数规模为1000亿，可支持医疗场景下的多模态输入和输出。

其中，预训练阶段使⽤了超过20亿的医学文本数据，微调训练阶段使⽤了800万条的高质量结构化临床诊疗数据，并投入超过100名医⽣参与⼈⼯反馈监督微调训练。

还记得ChatGPT一上来「翻车」了的问题吗？

MedGPT秒秒钟就给出了正确答案，并且还配上了每个选项的详尽分析。

上下滑动查看全部

在经典的医学应试能力评测上，MedGPT顺利过关。

不仅如此，MedGTP的创新之处在于，它不再是简单的AI问答，而是以「治愈」为目的实现有效问诊。

值得注意的是，MedGTP不仅整合了1000+多模态能力，具备强大的技术路径，而且还成功实现了众多首次突破。

- 首次突破了AI医生无法与真实患者连续自由对话的难点。

- 首次开出检验检查单，首次由AI给出准确诊断与治疗方案。

- 首次利用多种医学多模态，首次打通从问诊到医学检查的流程。

- 首次与医联互联网医院打通，实现药品到家的诊疗闭环。

为了保证诊断的准确率，MedGPT采用了一致性校验机制。

也就是说，MedGPT在为患者输出正式答案之前，会先经过临床医学规则器的校验，确保医学的准确性。

这个医学专家系统，采用了一个多维度的诊疗准确性评测体系，从多方面来分析与评测MedGPT在诊疗全过程中的一致性与准确性。

当然，用机器去判断仍然是不够的，这个过程中，还有一个基于专家评议的真实世界医生一致性对标机制。

医联团队会招募真实的医生坐在电脑进行诊断，然后把MedGPT和真实医生的结果交由专家委员会评议，将MedGPT的水平对标真实医生。

有了这样一套完整的体系，我们得到的也就不再是一个做题家，而是真正能帮患者治病的AI。

为了验证MedGTP全流程疾病诊疗的能力，团队通过真实患者的脱敏病例，对诊疗过程进行了模拟。

相比于上一代产品给患者「查知识库」的感觉，通用型LLM ChatGPT急于给结论的表现，以及真实医生在线问诊会卡在检查这一步的问题，MedGTP在这些方面都有了改进。

它会通过多轮问诊引导，收集足够完善的诊断决策因子，足够循序渐进。

在医联专家的要求下，它必须搜集到足够的决策因子，才能给患者建议。

之后，MedGPT还会继续检查、治疗、康复的步骤。

据统计，在第一阶段测试532名院内复诊患者病案中，MedGPT诊断的吻合率超过了97.5%，覆盖了3000种疾病的全科首诊能力。

缺少行业标准，何以壮大并持续发展

标准缺失意味着行业约束和规范的缺失，意味着无法统一规范，也不会被市场所认可。而医疗行业的准确性和⼀致性是医疗底线。

作为致力于疾病全流程诊疗的医疗专业大语言模型，医联MedGPT形成了一套独有的「DIAE」医疗AI建设方法论，分别从Disease（病种覆盖）、Intelligence（智能化）、Accuracy（准确性）、Efficiency（就医效率）四个维度来建设与打磨产品，不断提升MedGPT的实际医疗应用价值。