Redian新闻
>
首个中文医学知识LLM:真正的赛华佗—华驼(HuaTuo)

首个中文医学知识LLM:真正的赛华佗—华驼(HuaTuo)

公众号新闻
出品 | OSC开源社区(ID:oschina2013)
先划重点:中文医学知识不是「中医」。

自从 Meta(原 Facebook)的 LLaMA 大语言模型发布以来,相信大家看到了许多以“驼类动物”命名的 LLM。比如斯坦福用了 Alpaca,伯克利用了  Vicuna,Joseph Cheung 等开发者团队用了 Guanaco。

据说南美洲的无峰驼类动物一共就是上图列出的 4 种 —— 已经被各家的大模型命名使用。

不得不承认这些以“驼类动物”命名的 LLM 都很厉害,但如果,我是说如果,我拿出下面这个 LLM,阁下又当如何应对?

没错,正是「华驼」。

见名知意,华驼肯定跟医学有关——这是一个基于中文医学知识的LLaMA 微调模型。

说到这,这个 LLM 的命名很难不让人拍案叫绝,将神医华佗与基于“羊驼”的大语言模型巧妙地结合在一起。

此项目开源了经过中文医学指令精调 / 指令微调 (Instruct-tuning) 的 LLaMA-7B 模型。

通过医学知识图谱和 GPT 3.5 API 构建了中文医学指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在医疗领域的问答效果。

据介绍,医学知识库围绕疾病、药物、检查指标等构建,字段包括并发症,高危因素,组织学检查,临床症状,药物治疗,辅助治疗等。知识库示例如下:

{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], "所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}

然后利用 GPT3.5 接口围绕医学知识库构建问答数据,并设置了多种 Prompt 形式来充分利用知识。指令微调的训练集数据示例如下:


"问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?"
回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物,以防止病情加重。"


该项目提供模型的训练数据集共计八千余条,需要注意的是,虽然训练集的构建融入了知识,但是仍存在错误和不完善的地方。

基于相同的数据,项目团队还训练了医疗版本的 ChatGLM 模型:ChatGLM-6B-Med。
这些模型在医疗领域的问答效果得到了显著提升,下面是不同模型的效果对比:
由此可见,指令微调在医疗领域具有很大的应用潜力。
同时,该项目还尝试将医学文献的【结论】融入多轮对话,在此基础上对 LLaMA 进行指令微调,以进一步提高模型的实用性。

目前,项目团队只开放针对"肝癌"单个疾病训练的模型参数。未来计划发布融入文献结论的医学对话数据集,并且会针对“肝胆胰”相关 16 种疾病训练模型。这将有助于广泛应用于更多疾病的诊断和治疗建议。

下面是训练样本的示例:


华驼项目团队称下一个发布的新模型会被命名为扁鹊 (PienChueh)


往期推荐



Windows 11 默认文件系统将由 ReFS 取代 NTFS
LLVM&Swift 之父宣布全新 AI 开发编程语言"Mojo",兼容 Python,且快 35000 倍
电子垃圾 Chromebook



🌟 活动推荐


2023 年 5 月 27-28 日,GOTC 2023 全球开源技术峰会将在上海张江科学会堂隆重举行。

为期 2 天的开源行业盛会,将以行业展览、主题发言、特别论坛、分论坛、快闪演讲的形式来诠释此次大会主题 ——“Open Source, Into the Future”。与会者将一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题,以及 OSPO、汽车软件、AIGC、开源教育培训、云原生、信创等热门话题,探讨开源未来,助力开源发展。

长按识别下方二维码立即查看 GOTC 2023 详情/报名。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
第二届旧金山高中舞狮公开赛华埠举行清华ACL2023 | WebCPM:首个联网支持中文问答开源模型LLM-Pruner: 剪枝+少量数据+少量训练 = 高效的LLM压缩你了解的心理学知识,有多少靠得住北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%直播预告 | “INJECTING HOPE”人与疫苗两百年! 中英策展人与科学博主为你讲解疫苗科学知识AnalyticDB(ADB)+LLM:构建AIGC时代下企业专属Chatbot中文医学大模型“本草”(原名华驼):医学知识增强在中文大型语言模型指令微调上的初步探索以 LLM 为核心 LLM@Core:程序员的大语言模型技术指南11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 2023舒淇白客成CP、大鹏贡献神演技,这三部主竞赛华语片到底咋样?LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比Belmont公私校大对比:Belmont Hill vs Belmont High张一鸣、贝佐斯:真正的高手,都在延迟满足Dolly 2.0发布,首个真正开放、可商用的指令调优LLM浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能高考会不会考超纲的数学知识点??为什么重复学习科学知识点?科学素养从娃娃抓起!周有光:真正的教育不是培养专家,而是对完整人格的启发巴黎市长将重修Châtelet 广场以方便行人清华ACL 2023最新长文 | WebCPM:首个联网支持中文问答开源模型【城事】巴黎市长将重修Châtelet 广场以方便行人好未来开放小学数学知识图谱,英国教育部阻止削减留学生计划,荷兰加强针对中国留学生限制 ...一周资讯为什么大学招生不光看你的成绩彭凯平:真正的教育中,知识永远和身心体验在一起纽约中央公园,休闲宝地山东“历史事件”探究之三文末送书 | 知乎盐选专栏9.4高分!世界的形状:读懂你一知半解的科学知识烟雨江南《天道》:真正的高手,都有“破局思维”When RS Meets LLM:推荐系统如何从大语言模型中取长补短?面向应用视角的全面综述一黑一白两口子和两只黑猫谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉开源中文医疗大模型华佗GPT来了,真人医生盲测效果优于ChatGPTLLM:“离开红圈后,月薪6位数,爽翻!”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。