复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集
机器之心发布
机器之心编辑部
主页地址:https://med.fudan-disc.com Github 地址:https://github.com/FudanDISC/DISC-MedLLM 技术报告:https://arxiv.org/abs/2308.14346
可靠丰富的专业知识。我们以医学知识图谱作为信息源,通过采样三元组,并使用通用大模型的语言能力进行对话样本的构造。 多轮对话的问询能力。我们以真实咨询对话纪录作为信息源,使用大模型进行对话重建,构建过程中要求模型完全对齐对话中的医学信息。 对齐人类偏好的回复。病人希望在咨询的过程中获得更丰富的支撑信息和背景知识,但人类医生的回答往往简练;我们通过人工筛选,构建高质量的小规模指令样本,对齐病人的需求。
去除口头表达,提取统一表达方式,纠正医生语言使用中的不一致之处。 坚持原始医生回答中的关键信息,并提供适当的解释以更加全面、合乎逻辑。 重写或删除 AI 医生不应该发出的回复,例如要求患者预约。
单轮 QA 评测:为了评估模型在医学知识方面的准确性,我们从中国国家医疗执业医师资格考试(NMLEC)和全国硕士研究生入学考试(NEEP)西医 306 专业抽取了 1500 + 个单选题,评测模型在单轮 QA 中的表现。 多轮对话评测:为了系统性评估模型的对话能力,我们从三个公共数据集 —— 中文医疗基准评测(CMB-Clin)、中文医疗对话数据集(CMD)和中文医疗意图数据集(CMID)中随机选择样本并由 GPT-3.5 扮演患者与模型对话,提出了四个评测指标 —— 主动性、准确性、有用性和语言质量,由 GPT-4 打分。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章