EMNLP 2023 | Explore-Instruct: 通过LLM的主动探索提高特定领域指令多样性
近期指令微调的研究工作表明,高质量且多样化的指令微调数据对于模型的性能至关重要。现有的指令数据生成方法如 Self-Instruct 在特定领域表现不佳,所生成的指令数据多样性和覆盖程度不足。
为了解决该问题,本工作提出一种 Explore-Instruct 方法,通过使用 LLM 对领域空间进行主动探索,提高领域特定指令微调数据的覆盖度,从而大幅提升指令微调后的 LLM 性能,实验结果表明,Explore-Instruct 在 75% 以上的测试用例中优于 Self-Instruct 等方法。
论文题目:
Explore-Instruct: Enhancing Domain-Specific Instruction Coverage through Active Exploration
万凡琦,黄昕庭,杨涛,权小军,闭玮,史树明
中山大学,腾讯 AI Lab
https://arxiv.org/abs/2310.09168
https://github.com/fanqiwan/Explore-Instruct
https://huggingface.co/collections/Wanfq/explore-instruct-65280973f74b8bf3e9f9bd7e
Background & Motivation
1.1 Background
然而,这些方法生成的数据难以涵盖领域内所有潜在的指令。我们的前置实验对比了不同方法产生的指令中 top-15 动词-名词对的分布。如图 1 所示,无论是基于人工构建的 Domain-Specific Human-Curated 方法,还是基于模型生成的 Domain-Aware Self-Instruct 方法,动-名词对都过于集中在狭窄的范围内,限制了模型对该领域的全面理解。因此,急需研究一种自动拓展特定领域指令数据覆盖范围的方法,以提升微调后模型在处理各种任务时的性能。
3. 开源共建:我们将 Explore-Instruct 的探索框架代码完全开源,助力各领域多样化指令微调数据的探索。我们同时开源了头脑风暴,智能改写,数学解题领域的数据和模型。欢迎体验:
Method: Explore-Instruct
2.1 Domain Space Representation
2.2 Active Exploration Strategy
我们提出的主动探索策略包括两个核心操作:前瞻探索(Lookahead Exploration)和回溯探索(Backtracking Exploration)。
前瞻探索:沿深度方向探索领域空间,绘制出复杂的任务网络。具体来说,它通过 LLM 将任务分解为多个不同的子任务,这些子任务与现有任务存在差异。提示模板如图 2 所示:
▲ 图3. 前瞻探索的提示模板
2.3 Explore-Instruct Implementation
指令微调数据生成对于探索到的每个任务,我们使用 LLM 生成以任务为核心的指令微调数据,为每个任务产生一系列指令及其回复。
▲ 图4. 具体实现流程
Data-Centric Analysis
我们展示了各种方法生成的指令微调数据的基本统计信息,并有如下发现:
1. Explore-Instruct 生成的指令中,动名词对数量在所有领域均高于基线方法;
这证实了 Explore-Instruct 可以提高 LLM 生成领域特定指令微调数据的覆盖范围。
▲ 图6. 指令中动名词对的分布情况
我们在头脑风暴(Brainstorming),智能写作(Rewriting),以及数学解题(Math)领域使用各种方法产生的指令微调数据,对 Llama-7B 模型进行了训练。
自动评估的结果如下所示,可以发现:
1. 在相同训练数据量下,我们的 Explore-LM 在三个领域均优于其他基线模型;
▲ 图8. 自动评估实验结果
▲ 图9. 自动评估补充实验结果
在这篇文章里,我们介绍了 Explore-Instruct,一种提高特定领域指令覆盖率的方法。受经典搜索算法启发,Explore-Instruct 利用 LLM 主动探索领域空间,获取多样化的特定领域指令微调数据。
参考文献
[1] Chung H W, Hou L, Longpre S, et al. Scaling instruction-finetuned language models[J]. arXiv preprint arXiv:2210.11416, 2022.
[2] Wang Y, Kordi Y, Mishra S, et al. Self-instruct: Aligning language model with self generated instructions[J]. arXiv preprint arXiv:2212.10560, 2022.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者