ChatGPT时代的开源解法，「白泽」一作亲自解读

2023-04-17 05:04

ChatGPT 等聊天模型已显示出令人印象深刻的功能，并已在众多领域被迅速采用。然而，这些模型只能通过受限的 API 访问，这为该领域的进一步研究和进步设下了重重障碍。此外，由于缺乏多轮对话的高质量聊天语料，更是加剧了这个问题，进而限制了改进和评估这些模型的可能性。

不久之前，Meta「开源」了一个新的大模型系列 ——LLaMA（Large Language Model Meta AI），参数量从 70 亿到 650 亿不等。130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3。然而从 ChatGPT 和 GPT-4 的发展中我们可以看到，高质量的标注数据仍然至关重要，OpenAI 对数据和标注工作下了很大力气。

对于学界来说，很难在短期做同样的事。我们不禁会问有没有更好的方法呢？此前，机器之心报道的一篇文章中，来自加州大学圣迭戈分校、中山大学和微软亚研的研究者提出了「白泽」。具体来说，他们提出了一个自动收集 ChatGPT 对话的流水线，通过从特定数据集中采样「种子」的方式，让 ChatGPT 自我对话，批量生成高质量多轮对话数据集。其中如果使用领域特定数据集，比如医学问答数据集，就可以生成高质量垂直领域语料。

白泽目前包括四种英语模型：白泽 -7B、13B 和 30B（通用对话模型），以及一个垂直领域的白泽 - 医疗模型，供研究 / 非商业用途使用，并计划在未来发布中文的白泽模型。白泽的数据处理、训练模型、Demo 等全部代码已经开源。

为了更好的帮助大家了解这项研究，机器之心最新一期线上分享（即本周二晚上 8-9 点）邀请到了论文一作许灿文，为大家解读他们近期的工作「白泽」。

分享主题：Baize 白泽 ——ChatGPT 时代的开源解法

嘉宾简介：许灿文，加州大学圣迭戈分校博士候选人，曾于 Hugging Face 任研究员，并在 Google Research、微软研究院等实习。屡次担任 ACL、EMNLP、NAACL、NeurIPS、ICML、ICLR、WWW 等顶会审稿人。

分享摘要：本次主要分享开源聊天模型 Baize 白泽提出的「自聊天」数据收集管线以及训练细节，详细分析与其他开源聊天模型的异同。此外，作者还将分享通过训练 Baize 模型，获得的对于聊天模型的新理解、新发现，对于如何防止模型被滥用、如何减少有害输出方面的心得和思考。

相关链接

论文链接：https://arxiv.org/abs/2304.01196

Github 链接：https://github.com/project-baize/baize-chatbot

直播间：关注机动组视频号，立即预约直播。

交流群：本次直播有 QA 环节，欢迎加入本次直播交流群探讨交流。

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区，聚焦于学术研究与技术实践主题内容，为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动，欢迎所有 AI 领域技术从业者加入。

点击阅读原文，访问机动组官网，观看更多精彩分享；
关注机动组服务号，获取每周直播预告。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章