AI对决真人医生，表现让人“很兴奋”？

社会

2023-09-18 10:09

▲ 2019年6月21日，广州，某行业展会展出的应用在医疗领域的智能机器人。（视觉中国 / 图）

全文共5690字，阅读大约需要13分钟

“一位医生能够握住病人的手，向他分享自己的情绪，这在很多时候是价值非凡的。AI也许能够输出表达同情的文本，但无法输出人性。”
无论从模型质量还是患者隐私的角度，监管层都应将大模型的数据库纳入监管。医疗数据的品质关系到AI医疗决策的安全性，现阶段的大模型产品依然依赖人类医生的贡献。
即使只是以辅助决策的身份介入，AI也会为复杂的中国医患关系平添波澜。比如，当医生建议与AI不同时，患者可能会怀疑医生“另有考虑”，从而恶化互信关系。
根据相关规定，以辅助诊断产品申请三类证是医疗大模型最有可能走的审批道路。若按此规定，医疗大模型就必须经国家药监局审批，并开展临床试验。

本文首发于南方周末未经授权不得转载

文｜南方周末记者海阳

南方周末实习生梁成媛

责任编辑｜曹海东

它展现出了真人医生一样的问诊素养。

“您说的甲状腺结节四年前是怎么发现的？当时有什么症状？这四年来结节有没有变大或其它症状？您是否定期复查？最近一次复查什么时候？”

这些连珠炮似的提问，令从医十余年的李惠感到惊讶。因为提问来自一款医疗大语言模型（下称“大模型”）MedGPT，又称AI（人工智能）医生。李惠是一位肾内科副主任医师。

就在2023年6月底，李惠与9位来自心内科、消化内科、呼吸内科、内分泌科、肾脏内科、骨科、泌尿外科等科室的医生，联手挑战MedGPT。后者于2023年5月推出，号称国内首款医疗大模型。

这场在成都的一家医院举行的测试，也被业内誉为人类与AI在医学领域的一次公开比拼。

最终经过7位专家的评审，真人医生综合得分为7.5分，AI医生综合得分为7.2分。AI医生与三甲主治医生在比分结果上的一致性达到了96%。

考虑到大模型不断自我学习成长的能力，眼前的成果难免令人对AI医生的应用前景浮想联翩。据南方周末记者不完全统计，2023年5月以来，国内已至少有医联、商汤科技、京东健康、联影智能、上海联通等企业相继发布了医疗AI大模型。7月27日，谷歌亦发布全球首个全科医疗AI大模型Med-PaLM M。

不过，在医疗大模型投入应用前，从诊断的准确性和可解释性，到医疗数据的来源，再到AI医生与真人医生的关系，许多伦理问题仍待厘清。

医疗大模型亟须人机一致性测试

和大火的ChatGPT一样，MedGPT的界面也是一组简洁的对话框，可见对话与问答功能是其核心所在。在一则现场问诊视频中，患者与MedGPT、真人医生的对话气泡分别用蓝色和绿色表示。但即使不借助颜色，二者之间也有着显见的差别。

问诊中，病人自诉腰疼，AI会追问，左侧还是右侧？“如果是单侧疼痛，也有可能是肾周感染，但更要考虑结石或肿瘤。”李惠告诉南方周末记者，AI在不能查体的情况下，能通过对话弥补一部分差距。

从文本上看，人类医生的表述更加口语化也更简洁。MedGPT则透露着机器特有的耐心和客气。它的回复往往以“您好！感谢您的配合”开场，接着是长篇大段的解答，有时也会连续发问。

“问诊比较详细，它对于每个细节都很注重，作为临床医生的补充是非常有帮助的。”作为评委的北京阜外医院心内科主任医师杨跃进表示，“但详细有时候意味着重点不突出，有些问题就需要一查到底，未来还需要继续凝练。”

“我们没想到一致性得分会这么高，大家都很兴奋很满意。”互联网医疗企业医联MedGPT项目负责人王磊表示。

从最近层出不穷的新品发布消息来看，医疗大模型正经历着前所未有的繁荣。5月17日，上海市算力网络数字医疗创新实验室发布医疗大模型“Uni-talk”；5月20日，智慧眼发布多模态医疗大模型“砭石”；7月7日，联影智能宣布，正与复旦大学附属中山医院携手开发多模态、多病种的“全病程智医诊疗大模型”；7月13日，京东健康发布医疗大模型“京医千询”。

一位业内人士对南方周末记者表示，不排除有公司在开发过程中内部进行人机一致性测试，但医联是第一家将结果公之于众的。

黄锦是香港某大学一位从事医疗大模型研究的博士生。他也表示，内地许多厂商并未公布其大模型的有效数据，而仅仅“发了篇通稿”了事。黄锦很赞赏MedGPT的公开测评，“不管最后真实效果如何，它做了尝试，我觉得确实是非常强有力的自证。”

从死板到智能

在医疗大模型面世之前，资源匮乏的国内基层医生已经在求助于机器的智慧。西部地区某县人民医院的一位内科医生向南方周末记者坦言，由于该院两名医生承担着全县5万多常住人口的内科门诊需求，自己会使用一款医学知识库软件来辅助诊疗。

在王磊的设想中，如果MedGPT以三甲医院医生的要求继续精进学习，终有一天可以被部署进乡村卫生院中，辅助知识结构不佳的村医，进而解决医患资源不匹配的问题。

长期关注医疗AI的亿欧大健康总裁高昂表示，诊疗大模型可以结合病人的病历数据、影像学数据、基因学组数据等多模态数据，全面掌握病人的健康状况。评估结果会对下决策的医生提供信息支持，进而优化患者的就医体验。

事实上，医疗是一个考验知识储备的应用场景，而储存和管理信息正是机器的优势所在。

早在1972年，英国利兹大学就研发了AAPHelp用于腹部剧痛的辅助诊断。但是早期的强规则化AI，本质是一套树状结构的问答系统，患者通过回答一系列选择题，最终导向一个预设的诊断结果，显得十分死板。

2010年后，自然语言处理（NLP）与深度学习理念的兴起令AI具备了“听懂”人类语言的能力。但由于运算量巨大，因此模型无法处理长文本，也难以进行连续对话。2017年，谷歌推出的transformer架构使用注意力机制来建构文本。同等算力下，模型的参数规模呈几何级数扩大，AI模型开始能够理解、创造大段非结构化的自然语言。

最为人所知的例子就是通用大模型ChatGPT——2018年诞生的GPT-1有着1.17亿参数量。到了2023年，有着1750亿参数量的GPT-3.5已经能够理解人类语义，并生成大段的高质量内容。

对王磊来说，过往的AI医生产品效果难如人意的原因就在于语义理解。“传统诊疗中，医生相当于临床指南的翻译，负责将病人的口语化表述与临床指南的专业性表述对应起来，从而确定疗法。”他和同事们在看到GPT-3.5后意识到，最后的一块拼图被大语言模型补齐了。

“AI医生”的标准配方呼之欲出：一个transformer架构的大模型基底，再佐以大量的医学语料训练集。

替代人类为时尚早

大模型真能媲美真人医生吗？

王磊表示，MedGPT目前对于合并症和并发症的诊断还显不足。更重要的是，此次测试没有体现MedGPT的多模态能力。模态的大意是数据类型，即是说MedGPT与患者之间仍以文字交流为主，而不能像真人医生一样实施“视触叩听”这几种基本的体格检查方法。据王磊称，研发团队正在为MedGPT接入这些能力。

作为对比，谷歌发布的Med-PaLM M已是系列第三代产品，名字末尾的M即是多模态（multimodal）的意思——除文字外，还能读懂X光片和皮肤病图片、识别基因变体，因此被冠以“全科AI医生”之名。谷歌发布的论文显示，在14项单独的任务里，Med-PaLM M的表现都接近或超越了当下的最前沿水平（state-of-the-art）。

不过，除了生成的医学影像报告有超过40%被认为优于人类放射科医生外，Med-PaLM并未像MedGPT一样针对真实病人和医生开展比较测试，而是在谷歌自建的多模态医学测试基准MultiMedBench上进行，相当于做了一套模拟卷。黄锦表示，这可能是国外学界伦理审查更严的缘故。

大模型拔高了数据量，但也令一些新的技术问题凸显出来。许多使用过ChatGPT的人都体会过，模型有时会编造不存在的事实，“睁眼说瞎话”，这一现象被称为幻觉。

黄锦解释，由于大模型的本质是基于上文计算下一个单词的概率分布，因此无法保证生成的结果符合某种底层规则。大模型因此被视作一个黑箱，使用者只能得到一段逼真的内容，但无从得知它是如何生成的。

这样的“信口开河”在临床诊疗中无疑是十分危险的。黄锦表示，目前学界努力的方向是研发出一套独立机制，在大模型可能出现幻觉时提醒用户。

也有采访对象注意到了医生“总是安慰”的职责。哈佛医学院医学助理教授Zahir Kanjee曾测试过GPT-4在医学诊疗上的潜力，并给出了肯定的评价。他对南方周末记者表示，人类医生最不可替代的一项特质是他们安抚病人的能力。“一位医生能够握住病人的手，向他分享自己的情绪，这在很多时候是价值非凡的。AI也许能够输出表达同情的文本，但无法输出人性。”

2023年7月6日，上海世博展览馆，2023世界人工智能大会，AI+智慧医疗。（视觉中国 / 图）

数据质量、患者隐私是根本

由于transformer架构原理清晰，Llama等通用大模型又早早宣布开源，厂商们开发模型基底并不困难，真正拉开各家差距的是参数量和训练集数据。

南方周末记者发现，虽然不是每家厂商都公布了诊疗大模型的详细参数规模，但在数据来源上，都不约而同强调医患对话数据来自真实世界。正因此，首批诊疗大模型厂商中不乏曾开展在线问诊的互联网医疗企业身影。

根据官方宣传，京东健康的“京医千询”训练数据中有着“来自京东健康互联网医院所积累的超过亿级的真实医患问诊的高质量数据”。在线问诊平台春雨医生的“春雨慧问”，也使用了春雨医生在过去十余年的服务中积累的“数以亿计的真实、完整、优质的医患交流问诊数据”。

王磊对南方周末记者解释，MedGPT训练用数据的主要来源有三部分。第一部分是已经结构化的资料，“教材、科普文章和临床指南，这些只要花一点钱就能轻松得到”；第二部分是线下的真实医患对话数据，来自医联参与发起的企鹅医生线下诊所等平台；第三部分是医生提供的“模拟问诊”，“我们跟医生合作，让他晚上的时候回想白天看到的经典诊疗案例，再以临床指南的要求，以中文对话或是模拟检查的方式记录下来”。

公开资料显示，MedGPT模型参数达千亿，训练所用医学文本数据有20亿条，临床诊疗数据多达800万条，并由众多医生进行调校。

事实上，对于医患对话数据的使用已涉及隐私问题。根据国家质检总局与标准化委员会发布的《信息安全技术-健康医疗数据安全指南》，数据的控制者在使用或披露个人健康医疗数据时，应获得数据主体的个人授权。

西南政法大学民商法学院教授汪青松告诉南方周末记者，无论从模型质量还是患者隐私的角度，监管层都应该将大模型的数据库纳入监管。医疗数据的品质关系到AI医疗决策的安全性，但用来训练算法的原始数据的准确性通常难以保证，更无法避免因数据集过窄而导致的数据偏见。

更重要的是，如果一个AI医生占据主导地位的医疗体系成真，那么人类医生做出的医疗决策占比就会下降。而AI医生做出的诊断会被输回到数据库中，对模型进行强化训练。如此偏见将会愈发加深，错误决策的发生概率持续升高。

因此，现阶段的大模型产品依然依赖人类医生的贡献。除了医联会让医生在MedGPT前扮演病人外，商汤科技副总裁张少霆也对南方周末记者表示，他们组建了一支近百人的医学专家团队全程参与中文医疗大语言模型“大医”的数据标注、模型训练及测试。商汤还基于医学专家标注数据训练了一套“智能评判系统”，用系统裁判系统，针对准确率、效率、全面性等多个维度对“大医”输出的答案进行评判，通过持续的评价与反馈，让模型输出更加符合临床专业要求以及人类价值观的回答。

重构患者、医生、AI三方关系

细究起来，医学决策是一个暧昧含混的过程。患者、医生、AI三方的意见彼此渗透，其中牵涉的权责归属问题，并非一句“辅助关系”能够轻松解决。

汪青松指出，AI医疗决策结果目前只应作为辅助判断的依据，“否则医生特殊职业角色、医疗决策信息供给乃至医患信任机制均会被AI医疗决策所侵蚀，医患关系将面临巨大考验”。

伦理学者们尝试为新的三方关系提供解决方案。中国社科院哲学所科技哲学研究室主任段伟文对南方周末记者表示，根据患者自主原则要求，病人对辅助诊断产品的介入首先要保证基本的知情权。

患者自主原则的基本内容是让病人有独立的、自愿的决定权。在汪青松的设想中，如果引导得当，AI的加入能够增加患者的决策信息来源，让以前患者不可见的数据和知识转化为可操作的见解，从而增强医生与患者之间的互动和互信，最终巩固以患者为中心的决策体制。

不过，以辅助决策的身份介入，AI也可能会为复杂的医患关系平添波澜。一位专事人工智能伦理研究的学者表示，当医生建议与AI不同时，患者可能会怀疑医生“另有考虑”，从而恶化互信关系。因此，赋权医生去更正大模型的判断，在现实中也可能会推进困难。

退一步讲，即使医生与大模型意见一致，在伦理上也不能掉以轻心。汪青松就提出，患者应当得到保证，即医疗服务提供方的诊疗意见与AI医疗决策技术的诊疗意见一致不能作为医疗服务提供方的免责事由。

显然，从上述角度而言，究竟应该相信人还是机器，并不是断言谁更优秀就能粗暴解答的。

更重要的是，作为AI医疗跑道上的新事物，诊疗大模型尚未有监管部门审批先例可循。根据相关规定，以辅助诊断产品申请三类证是大模型们最有可能走的道路。2020年1月，科亚医疗的冠脉血流储备分数计算软件获得了国家药监局发出第一张医疗AI器械注册证。

2018年8月1日起施行的新版《医疗器械分类目录》规定，如果诊断软件通过算法对病变部位进行自动识别，并提供明确诊断提示，则按照第三类医疗器械进行管理，必须经国家药监局审批，并开展临床试验。而根据国家药监局2022年出台的《人工智能医疗器械注册审查指导原则》，通过提供诊疗活动建议辅助用户（如医务人员、患者）进行医疗决策的，可归类为辅助决策软件。

但与以往过审的辅助诊断产品不同，诊疗大模型正向着多学科、多模态的方向发展，这对审批提出不小的挑战。“目前主要按照单个疾病或单个适应症来进行审批，针对泛疾病类辅助诊断产品的审批短期内会比较难。”一位行业观察人士表示。

（应采访对象要求，文中李惠、黄锦为化名）

其他人都在看：

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章