Redian新闻
>
SuperAlignment in Medical Science: 中文医疗大模型评估基准CMB

SuperAlignment in Medical Science: 中文医疗大模型评估基准CMB

科技
©PaperWeekly 原创 · 作者 | 王熙栋
单位 | 香港中文大学(深圳)& 深圳市大数据研究院
研究方向 | NLP、医疗AI



近期,中文医疗大模型研发如火如荼,出现了很多有影响力的工作(BenTsao [7],MedicalGPT [4],Med-ChatGLM [5],HuatuoGPT [1] 等)。但是因为缺乏标准化的基准,进步的量化与模型的进一步迭代方向变得模糊。CMB 从临床医学工种职业发展过程中的真实考核出发,通过选择题和复杂病历问诊任务对模型医学知识和诊断能力进行了全面评估。我们真诚地希望,CMB 基准可以给医学大模型开发者提供细粒度足够高的反馈,加快模型迭代速度,推动中文医学领域语言模型进一步发展和应用。

论文题目:
CMB: A Comprehensive Medical Benchmark in Chinese

论文链接:
https://arxiv.org/abs/2308.08833

代码链接:
https://github.com/FreedomIntelligence/CMB

官网链接:
https://cmedbenchmark.llmzoo.com/




研究背景


医疗技术的进步极大地延长了人类的寿命。医学依赖于知识和经验,而语言模型依赖于数据,这种一致性给予了医学大模型帮助缓解医疗资源短缺的可能性。


虽然医学 LLM 应用前景广阔,模型的评估仍有许多挑战,在医院中部署 LLM 会带来重大的伦理问题,使得实际反馈变得困难。现有的模型评价通常使用自动评估(GPT-4),考虑到医疗的准确性和专业性要求,这种没有参考答案的评估欠缺说服力。而专业的人工评判昂贵而不易扩大规模。


BioLAMA 拥有参考答案,但它是为了评估掩码语言模型而不是自回归模型。MultiMedBench 包括问题解答、报告总结、视觉问题回答、报告生成和医疗图像分类,但 MultiMedBench 只有英文版本,直接翻译一方面需要对中英文医学和文化有深入了解,另一方面难以覆盖中医医学知识。

为此,我们提出了中文医疗模型评估基准 CMB,其包括了不同临床职业、不同职业阶段考试中的多项选择题(CMB-Exam)和基于真实病例的复杂临床诊断问题(CMB-Clin)。通过测评实验,我们发现:(1)GPT-4 在医学领域表现出显著优越性,于此同时中文通用大模型也表现得相当出色;(2)医疗大模型在性能方面仍然落后于通用模型,还有很大的提升空间(3)有参考答案和评分标准的问诊自动评估与专家评估高度对齐,提供了一个医学领域超级对齐的初步尝试。




数据集详细介绍


为了分别评测模型医疗知识掌握程度和临床问诊能力,我们分别构建了 CMB-Exam 和 CMB-Clin 集。

CMB-Exam 的构建理念是反映真实医疗领域的考核体系,覆盖了医生、药剂师、医技科室、护士岗位,对于一致的大学学科知识考试和研究生入学考试进行了合并,归纳出了六个类别。类别中依据职业阶段进行子目录的划定,子目录中又针对不同科室提供了细粒度更小的标签。


其数据的来源主要为历年真题、模拟题、课程练习题和章节测试题。其中一部分来自于医学题库网(https://www.medtiku.com/),获得了维护者的支持。为了确保数据质量,我们采用了一套规范的数据预处理流程,包括数据去重、清洗,针对原数据无法确认问题质量的地方,我们还进行了人工校验,纠正文法错误。同时,利用中国医疗试题库提供的评论系统,实行了严格的选题和删题过程,保证了问题中蕴含知识的准确度。


CMB-Clin 基于 74 个复杂真实案例,考察模型在真实诊断和治疗情境中的知识应用水平,评测其是否可以利用知识真正帮助解决临床复杂问题。其中,每个案例包含病历详情和 1~3 个问题,共 208 个问题。模型需要理解病人信息,包括主诉、病史概要、体格检查。根据这些信息来解答与诊断和治疗相关的问题,有些问题可能彼此关联。模型也需要能提供问题的解决方案。在与考官进行的对话模拟中,模型需要展现出其诊断和治疗能力。




实验结果和分析


我们选用了 7 个中文开源医疗模型(HuatuoGPT [1],BianQue-2 [2],ChatMed-Consult [3],MedicalGPT [4]ChatGLM-Med [5],Bentsao [7],DoctorGLM [6]),2 个中文通用模型(ChatGLM-2 [8],Baichuan-13B-Chat [9])以及 ChatGPT 和 GPT-4,在对齐超参的条件下,在 CMB-Exam 和 CMB-Clin 上对比他们的表现。


3.1 CMB-Exam实验

我们对比了  Zero-shot  条件下各模型的表现,在通用语言模型中,GPT-4 在医学领域的表现远超过其他模型,但仍然有很多问题回答错误。中文通用模型 ChatGLM2-6B 和 Baichuan-13B-chat 紧随 GPT-4 之后。值得一提的是,参数量仅为 6B 的 ChatGLM2 模型甚至超过了 ChatGPT,显示了国产大规模模型的快速迭代能力和专业知识领域的卓越表现。


在医疗领域的模型中,中文医疗模型的发展似乎落后于通用大型模型。其中,BianQue-2 [2] 和 DoctorGLM 由于输入长度的限制和指令跟随能力的不足,使得无法在模型回答中抽取答案,导致了分数较低。


在不同临床职业的评分中,LLM在各个临床专业领域表现不一,如药剂师相关问题得分较低,而护士相关得分较高。这可能是因为护士需要的基础知识相对直接,而药剂师需要处理的药名和药效差别较大。尽管在专业领域中的表现存在差异,但模型表现出一致的趋势,不特别偏向特定职业。这些发现对于我们的研究和优化工作至关重要。

另外,研究还检验了 AI 模型和人类对考试难度感知上的一致性(Figure 2)。结果显示,医师和护士模型的准确率随着职业等级的提升而降低,但医学技术人员则呈现出相反的趋势,其主管技师考试的准确率最高。这可能是因为此类考试更侧重于人员管理和交流,而这并非医学专业的内容,而是可以从大量的通用语料库中学习的。而对于药师,我们发现涉及到传统医学的问题难度较大,这也说明了为中文医学领域开发大模型的必要性。


此外,我们还探索了 Few-shot 和 CoT 策略的效果,我们发现 CoT 并不总能提高模型的精度,可能其反而会给模型带来不相关的背景信息,妨碍了模型的推理能力。而 Few-shot prompting 策略在模型已经展现出较高准确性的情况下效果最明显。在表现欠佳的模型中,使用这种策略可能反而会损害模型的结果。后者的原因可能有两个:一是模型在处理大段输入时遇到困难,二是模型可能需要进一步的优化,以更好地利用上下文中的示例。


3.2 CMB-Clin实验

我们从四个维度(流畅性、相关性、完整性、医学知识专业性),用人工评估和自动评估的方式对语言模型在 CMB-Clin 评测数据集上的输出进行打分。上表是 GPT-4 基于参考答案和评分标准得出的模型分数。同时我们对自动评估和专家评估的一致性进行了量化统计,发现自动评估和专家评估之间的结果存在高度的一致性,两者的结果排名 Spearman 系数为 0.93(Figure 3),分数的 Pearson 系数为 0.84(Figure 4)。

其次,CMB-Exam 和 CMB-Clin 两组数据的排名结果也非常一致,Spearman 系数达 0.89。我们希望模型在 CMB-Exam 的训练集上进行微调后,仍然能在 CMB-Clin 上获得不错的分数,与社区的期望进行对齐:既有足够的医学知识,有能和患者进行有效的交流帮助解决实际问题。

我们还探索了不同解码温度下的结果之间的差异。我们发现,当解码温度从 0 增加到 1.5 时,模型的整体表现有所下滑,这可能是因为较高的温度会导致输出的随机性(多样性)增加,而在医学领域,我们更偏好准确的内容。同时,我们也发现在不同的解码温度下,模型的排名结果的稳定性都非常高。




总结


CMB 从现实医学考核和临床应用出发,结合选择题和复杂病历问诊来全面检验模型在医学知识与诊断能力上的表现。我们真诚地希望,CMB 可以为医学大模型的研发者们提供有力的反馈,帮助更快地完善模型,促进中文医学领域语言模型的持续创新和应用。


相信在我们的共同努力下,未来医疗大模型的社会接受度和应用场景将不断扩大,为人口老龄化,医疗资源分配不均,医生超负荷工作和成长空间受限等问题,提供 AI 社区的缓解方案。



参考文献

[1] Hongbo Zhang, Junying Chen, Feng Jiang, Fei Yu, Zhihong Chen, Jianquan Li, Guiming Chen, Xiangbo Wu, Zhiyi Zhang, Qingying Xiao, et al. 2023a. Huatuogpt, towards taming language model to be a doctor. arXiv preprint arXiv:2305.15075
[2] Yirong Chen, Zhenyu Wang, Xiaofen Xing, Zhipei Xu, Kai Fang, Sihang Li, Junhong Wang, and Xiangmin Xu. 2023. Bianque-1.0: Improving the "question" ability of medical chat model through finetuning with hybrid instructions and multi-turn doctor qa datasets. Github.
[3] Chatmed: A chinese medical large language model. https://github.com/michael-wzhu/ChatMed.
[4] Medicalgpt: Training medical gpt model. https://github.com/shibing624/ MedicalGPT.
[5] Haochun Wang, Chi Liu, Sendong Zhao Zhao, Bing Qin, and Ting Liu. 2023b. Chatglm-med: 基于 中文医学知识的chatglm模型微调. https://github.com/SCIR-HI/Med-ChatGLM.
[6] Honglin Xiong, Sheng Wang, Yitao Zhu, Zihao Zhao, Yuxiao Liu, Qian Wang, and Dinggang Shen. 2023. Doctorglm: Fine-tuning your chinese doctor is not a herculean task. arXiv preprint arXiv:2304.01097
[7] Haochun Wang, Chi Liu, Nuwa Xi, Zewen Qiang, Sendong Zhao, Bing Qin, and Ting Liu. 2023a. Huatuo: Tuning llama model with chinese medical knowledge.
[8] Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, and Jie Tang. 2022. Glm: General language model pretraining with autoregressive blank infilling. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 320–335.
[9] https://github.com/baichuan-inc/Baichuan-13B


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Computer Science 还是 Artificial IntelligenceChinese Children Trapped in Myanmar Scam Centers: Report科技大厂 | Amazon 2024 Summer Data Science Internship招聘中,多地有岗中国医疗队在坦桑尼亚记实 (八)全新中文大模型多任务基准CMMLU:评估中文多任务语言理解能力67个主题,11528 个问题,全新中文大模型多任务基准CMMLU发布医疗大模型:转瞬即逝的昙花还是跨时代的变革?【2023WAIC】𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~苹果发布新一代智能手机iPhone 15系列;腾讯健康公布医疗大模型;中国民营企业500强发布……阿里云在AI大模型评估中获6项满分 | 绿研院日报复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类医疗大模型爆火!微软、谷歌全All in挪威霍宁斯沃格(Honningsvag),挪威最北的城市NUS、NTU团队发布医疗大模型综述,全面介绍大模型在医疗领域的最新研究进展Popstar Jay Chou’s Fans Fume as Scalpers Cash in on Concert Hype全面的中文大语言模型评测来啦!香港中文大学研究团队发布后院日记(四)普林斯顿国际数理学校-Princeton International School of Mathematics&Science清华校友立功!谷歌发布首个全科医疗大模型,14项任务SOTA【动脉严选新品鉴第22期】深睿医疗:医疗大模型推动下医学AI能力生成与应用服务平台晚讯 |HIV首个长效注射治疗方案在中国获批、美国FDA将评估基因组编辑疗法的安全性Meta发布大规模视觉模型评估基准FACET!开源视觉模型DINOv2允许商用白石镇的加拿大国庆日OpenAI的Superalignment策略:计算为王幻象 or 事实 | HaluEval:大语言模型的幻象评估基准上海交大发布大模型双语编程评估基准CodeApex,机器真的开始挑战人类写代码了吗?专访丨积家CEO Catherine Rénier:情感联结和艺术表达对腕表也至关重要DISC-MedLLM:复旦大学团队发布中文医疗健康个人助手,开源47万微调数据医疗大模型火了!谷歌、微软全All in面向真实用户需求的中文大语言模型评测第二期(LLMEVAL-2)发布以小时为单位更新,国内首款医疗大模型如何炼成Shakespearean Science华盛顿大学 University of Washington - 我心中的大学OpenAI 设立 Superalignment 团队:让 AI 对齐人类价值观,预防潜在风险陈丹琦新作:一个LLM的评估基准LLMBar华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。