特别策划丨大模型上岗三甲医院，给每个医生都配个 “病历质控助手”

公众号新闻

2024-06-27 12:06

已经可以做到 “快准狠” 了。

金磊梦晨发自凹非寺

量子位丨公众号 QbitAI

家人们，撰写和修改病历这事儿，那个让无数医生耗时耗力的环节——

病历内涵质控，现在有了大模型来当得力帮手。

所谓病历内涵质控，简单来说指的就是对病历内容的质量控制。

那它为什么会让医生们如此耗时耗力呢？

首先，病历本身就会完整、真实地反映出诊疗的全过程，不论对于患者或者医生，还是对医院的管理而言，重要程度都不言而喻。

毕竟从前期的出诊，到后期的治疗方案、查房、手术等众多环节，病历都会贯穿其中，收纳、承载和呈现所有相关信息。每一份病历涉及到的信息量都是非常大，也是非常关键的。

而病历内涵质控，强调的是一种逻辑质控，难点就是逻辑非常抽象，定义和规则也不通俗；要把控它的质量就需要深厚且全面的临床经验和知识。

也正因如此，一般人还真做不了这事，医院传统的 “解法” 就是——

组建专家团队，定时对归档病历（尤其是重点病患）进行人工质控。

这种解法自然费时费力，而且它还很难对所有病历进行遍历，更多时候只能针对少部分病历进行抽查。

正如我们刚才提到的，现在这件难事儿，已经靠大模型的辅助，找到了一种能兼顾效率和质量的解法。

而且纵观整个 “AI+ 医疗” 赛道，很多医疗信息化厂商都将大模型应用落地的箭头指向类似病历内涵质控这样的应用 “靶点”。

之所以如此，是因为处理病历这项工作，正与大模型的 “气质” 极其相符——专治繁琐、量大的信息处理工作。

由此便可以让医生从中解放出更多的时间，投入到更匹配其专业方向的工作中。

那么具体效果如何？是否能达到医院的标准呢？

医疗大模型，已经可以做到 “快准狠” 了

在专攻用大模型搞病历内涵质控这件事上，惠每科技可以说是拥有相当丰富的经验，是已经在多家医院（包括三甲医院）“上岗” 并收获大量好评的那种。

医疗大模型效果如何，我们不妨来看下惠每科技交出的 “作业”。

基于不同质控规则的大模型缺陷定位实例

在惠每科技医疗大模型的加持之下，现在从医生书写病历开始，它就会伴随在旁，像个隐形的 “专家级” 助手，同步就会开始纠错、提醒的工作了。

例如在上图的三个场景中，分别对应的情况是：

初步诊断中提及 “前列腺术后”，但在现病史、既往史、手术外伤史中均缺少相关描述
主诉 “发现皮疹 45 分钟”，但现病史中的症状描述与主诉大相径庭
病历记录患者 “否认手术外伤史”，但体格检查中明确记载有大腿可见局部手术瘢痕

这些细节内容要是放在之前，都是需要医生们仔细比对校验，并根据经验知识来甄别、挑错的，可实际上，不同医生在经验、资历甚至是专业方向上的差别，都会让这些细节的发现、校验和应对变得异常复杂。

但现在，有了医疗大模型的辅助，这个助手总会默默地在合适的时机出现，把可能存在问题的内容给 pick 出来，供医生们快速做判断。

具体到病历内涵质控的运行机制，惠每科技则是以数据中台为核心，向下对接医院的医院信息系统（HIS）、影像归档和信息系统（PACS），以及电子病历归档系统（EMR）等。

在自动抓取内容信息之后，会通过自然语言处理、术语标准化后构建患者画像，再经由惠每医疗大模型推理计算做出提醒或预警，同时大模型还可以基于用户的反馈持续进行优化。

惠每科技病历内涵质控方案架构

最终，在界面的呈现上，惠每科技这个系统会有医生端和管理端两种：

医生在医生端快速做错误检测和处理，专家在管理端做更进一步的专业性查缺补漏。

由此，原先那种费时费力、费人费脑的病历内涵质控，不但实现了自动化，而且效率也一下子就有了翻天覆地的变化，更重要的是，质控之后的病历质量也随之同步提升。可谓一箭双雕，甚至是一箭三雕！

眼见为实！咱们瞧瞧来自一线用户的真实反馈。

以某三甲医院为例，上线了惠每科技的这套方案之后，病历内涵质控效果的 “打开方式” 就变成了这样：

全院的甲级病历（下图中的绿色曲线）从原先的 75% 直接暴涨到了 95%！

病历质量的大幅提高就像 “作用力与反作用力”，此举反过来也让医生诊疗工作的规范性和病案管理质量得到了提高。

由此双管齐下，有问题的病历数量就变得越来越少，以某医院为例——

仅 10 个月时间，病历平均问题数从最开始的 7.42 个，下降到了 3.28 个，下降比率高达 55.79%！

像这样的实际应用效果还可以从某省级病案管理质量控制中心的病历质控监测指标看出。

方案在该省某医院落地后，病案首页质量相关的主要诊断编码正确率从 78% 提升至 97%、病历文书的手术相关记录完整率从 92% 提升至 99%、CT/MRI 检查记录完整率从 81% 提升至 90%、抗菌药物使用记录符合率从 82% 提升至 91%，不合格复制病历发生率则从 12% 下降至 8%，很好地满足了该中心的质控监测要求。

某医院多项病历质控监测指标的变化趋势

那么接下来的一个问题是，毕竟医疗场景涉及患者隐私，就这么交由大模型来训练和推理，够安全吗？

对此，惠每科技也有自己深入的理解和切实可靠的实践路径：

私有化部署，数据不出医院。

惠每医疗大模型技术架构

具体而言，惠每科技是以 ChatGLM 等流行的基座大模型为基础，铺于医学知识库和医学知识图谱等，还结合了 RAG（检索增强生成）技术，在垂直领域做模型的训练和微调等工作。

与此同步，专家的反馈也会通过 RLHF（人类反馈强化学习）技术加入到上述过程，并最终形成面向不同医疗场景的医疗大模型。

而这整个过程中都采用的是私有化部署的方式，微调也是基于 SFT（监督微调）来展开，因此便更好地保障了安全性。

由此总结来看，医疗大模型 “上岗” 医院后，在病历内涵质控这件事上起码做到了三点：

更专业、更安全、更效率。

但有一说一，在这个医疗大模型和系统的背后，还有一个关键因素在默默发力。

不仅能力到位，更要轻松落地

医疗大模型方案要想真正落地并发挥价值，除了算法模型本身要够强大之外，还必须克服私有化部署所面临的种种挑战。

不论是出于数据与隐私安全、业务便捷还是成本考量，部署在本地、把控在自己手上，始终是越来越多行业用户的期盼。

特别是对医疗行业来说，私有化的部署和落地更是一种 “刚需”。

毕竟不同医院的病历格式本身差异就较大，加之涉及患者隐私，惠每科技的私有化部署策略，几乎成了医疗大模型落地的最基本前提。

这样一来，在基础设施的选择上，又面临一系列问题。

成本角度上，现代化医院本来就是各行业信息化领域的主力军，此前多年在通用计算类 IT 基础设施上曾有大量投入，在此基础上再导入专用 AI 加速器需要额外投入，而且这些加速器如今获取难度还在不断加大（你懂的）。

从性能角度看，也要求硬件平台能满足 AI 模型推理所需的性能，特别是要满足实时性或近实时性标准。

那么有没有一种方案，既可以让医疗大模型更顺滑地落地，还能充分利用现有软硬件设施，并同时兼顾性能、总拥有成本和获取难度呢？

面对这一系列难题，惠每科技可谓是 “有备而来”。

它选择了与英特尔合作，基于英特尔® 至强® CPU Max 系列处理器、OpenVINO™ 工具套件及开源大模型加速库 IPEX-LLM，打造了一套” 高性价比医疗大模型私有化落地方案”。

作为业界首款内置高带宽内存 (HBM) 的 x86 架构 CPU，至强® CPU Max 系列集成了高达 64GB 容量的 HBM2e 内存，其理论带宽可达主流 DDR5 内存的 4 倍，足以应对大模型推理时对内存性能的严苛要求。

此外，该处理器还内置有英特尔® AMX（英特尔® 高级矩阵扩展）加速技术，经特定优化后，其每时钟周期可完成多达 2048 个 INT8 运算，较上一代同类指令实现了 8 倍性能飞跃。

英特尔® 至强® CPU Max 系列处理器

除硬件优势之外，在软件方面，英特尔也为惠每科技提供了成熟的优化工具与技术支持。

例如借助 IPEX-LLM 大模型库实现推理加速的低精度量化方案，以及基于 OpenVINO™ 工具套件开展的非量化优化方案，双管齐下，能让医疗大模型在至强® 平台上的推理效率得到显著提升。

据惠每科技实测，经非量化方案优化后，当输入文本为 2K 时，模型首词时延由优化前的 4.03 秒骤降至 2.1 秒，性能提升达 1.92 倍。平均时延则由 182.86 毫秒每 Token 缩短至 47.96 毫秒每 Token，提升幅度高达 3.81 倍。而这，已经十分接近专用 AI 加速芯片的性能水平了。