Redian新闻
>
总结当前开源可用的Instruct/Prompt Tuning数据

总结当前开源可用的Instruct/Prompt Tuning数据

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | PaperWeekly
作者 | 李雨承
单位 | 英国萨里大学
研究方向 | Conceptual Reasoning

最近在做大模型的尝试和评测,之前写了一篇总结可用大模型的文章,反响很好,有很多有价值的反馈:

https://zhuanlan.zhihu.com/p/611403556

本文总结开源可用的 Instruct Prompt 数据(截止19.03.2023)。

Natural Instruction/Super-Natural Instruction-Allen AI

Allen AI. 是第一批尝试 Instruction 做 prompt 并微调 LLMs 的机构。

在 Natural Instruction 论文里可以基本了解 instruction 的标注思路:

https://aclanthology.org/2022.acl-long.244.pdf

在其提出的数据集中,包含了 61 和不同的 NLP tasks。

Super-Natural Instruction 是 Natural Instruction 的超级加量版,其包含了超过 1600 个不同的 NLP 任务,光是不同种类的 NLP 任务(例如:分类,抽取,序列标注)就超过 76 个:

https://arxiv.org/pdf/2204.07705.pdf

Natural/Super-Natural Instruction 数据均在以下网址开源:

https://instructions.apps.allenai.org/

PromptSource/P3-BigScience

BigScience 由 Hugging Face 和法国 CNRS,IDRIS,GENCI 等联合组织,是当下最大的开源 LLMs 组织之一。

BigScience 在 2021 年末开发了PromptSource项目,开源了一系列工具 toolkits,帮助研究者基于现有NLP 任务构建 prompt。截止目前,PromptSource 项目包含了 270 个 NLP 任务的超过 2000 个 prompt 模版:

https://github.com/bigscience-workshop/promptsource

在此基础上,BigScience 构建了 P3 数据集。在 Hugging Face Hub 上你可以找到 P3 数据,P3 的数据规模在 100M-1B 之间:

https://huggingface.co/datasets/bigscience/P3

xMTF - BigScience

BigScience 在英语 prompt 的基础上,扩展其 prompt 到多种非英语语言。

https://arxiv.org/pdf/2211.01786.pdf

https://github.com/bigscience-workshop/xmtf

该项目包含了 13 个 NLP 任务,并采用了 46 个不同的语言的版本。对应的 prompt 包含的语种个数不定。

在 multilingual 的基础上微调后,BLOOM 和 T0 都变现出了理想的多语言能力。

HH-RLHF - Anthropic

Anthropic 公司旗下的 Claud 是 ChatGPT 的主要竞品之一。

Anthropic 开源了其在自己产品线中使用的 RLHF 数据集:

https://huggingface.co/datasets/Anthropic/hh-rlhf

HH-RLHF 项目的初衷在于训练 Helpful and Harmless(HH)的 LLMs。故该项目除了回复质量外,是否为有害信息也体现在了其 human feedback 中:

https://arxiv.org/pdf/2204.05862.pdf

论文中记录了如何使用 RLHF 数据 Align 模型的 behaviour 到人类的价值观上,同时记录了数据集的构建方式和标准。

Unnatural Instruction

https://arxiv.org/pdf/2212.09689.pdf

https://github.com/orhonovich/unnatural-instructions

使用 LLMs 自主生成 instruction 数据是 instruct-tuning 领域较为活跃的一个方向。

Unnatural Instruction 使用 GPT3(text-davinci-002)生成了 64k 的 instruction prompt 数据。并使用同样的模型将 64k 的 prompt 进行改写,最终得到了 240k 条 instruction 数据。

论文中显示,在 Instruct-Tuning 中 LLMs 自主生成的 prompt 表现出了良好的效果,甚至超过了在 P3 等数据上进行微调的 T0 等模型。

Self-Instruct

https://arxiv.org/pdf/2212.10560.pdf

https://github.com/yizhongw/self-instruct

Self-Instruct 同样是使用 LLMs 生成 prompt 进行 instruct-tuning 的思路。不过使用了更 fine-grained 的生成流程。

Task pool 和 Quality filtering 等概念被引入,部分缓解了 self-intrauct 类型数据的 noise 问题。

UnifiedSKG - HKU

https://arxiv.org/pdf/2201.05966.pdf

UnifiedSKG 在 Text-to-Text 的框架中加入了 knowledge grounding,也就是在 prompt-output 的框架中,加入了结构化数据做辅助。

举个例子,某些 NLP 任务非常依赖结构化的知识库/数据库。UnifiedSKG 的思路是将需要的数据库序列化,并嵌入到 prompt 中。如下图所示。

UnifiedSKG 代表了 LLMs 领域中尝试使用结构化知识增强性能的一个方向。

我在 EMNLP 上和作者本人聊天时,被这个项目的思路吸引,感觉这是个很有前途的方向(好像作者本人也在知乎,当时忘了加好友很可惜)。

该项目的网站如下,网站上有较为详细的使用说明:

https://unifiedskg.com/

Flan Collection-Google

Google 在这个项目中将自己的 Flan 2021 数据与一些开源的 instruction 数据(P3,super-natural instruction 等)进行了合并:

https://github.com/google-research/FLAN/tree/main/flan/v2

https://arxiv.org/pdf/2301.13688.pdf

在 Flan Collection 的论文中,google 也总结了 Flan 系列模型训练/推理中的一些关键点,可能会有不错的参考价值。

InstructDial

https://arxiv.org/pdf/2205.12673.pdf

https://github.com/prakharguptaz/Instructdial/tree/main/datasets

InstructDial 是在特定的一种任务类型上进行指令微调的尝试。实验结果表明,在对话指令数据上微调后,模型在对话任务上的表现强于在超大规模任务集上的结果。

Alpaca -Stanford

https://github.com/tatsu-lab/stanford_alpaca

Stanford release 的 Alpaca 是在 Meta Ai LLaMA 模型基础上进行 instruct-tuning 的微调模型。

Alpaca 使用 GPT-3.5 自动生成了 52k 的指令数据,并用其微调 LLaMA 模型。实验结果表明,其能够达到/甚至超过 GPT-3.5 在一些任务上的效果。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Google 内部文件泄漏:我们和 OpenAI 都没护城河,开源可以打败 ChatGPT母亲说 六五万字综述!Prompt Tuning:深度解读一种新的微调范式650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目VCE 高数 | Proof By Induction Sample Exam Question讲解长跑不是“long run”,短跑也不是“short run”!正确的表达是...Visual Instruction Tuning: 用LLaVA近似多模态GPT-4Amid Uproar, Ctrip Pulls Plug on Women-Only Train Compartments“回到希腊去!”,也叫文艺复兴。“非秦汉文不读”,也叫古文运动。“不读或少读中国书”,也叫五四新文化运动。在赵谦书札中找字样,找在Brunch&Bistro和淄博烧烤之间,是阶层的裂缝还是共同的隐痛?登渣甸山BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTACharging Your Electric Car is Becoming More Expensive in China美元霸权,天下苦之久也再接再厉一下【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条!巨巨巨好穿 !!简直就是辣妹顶配,食品级冰箱收纳盒【一日团】Brokerage Apps Allowing Overseas Trading Pulled From App StoresJournal of Structural Biology | 郭强课题组开发适用于组织样品原位结构研究的方法Tech Addiction Leaves China’s Rural Youth Wired for Distraction关于Prompt Engineering你该了解啥?OpenAI应用研究负责人帮你梳理了PromptAppGPT重磅更新!AI助手0门槛开发+运行:几十行代码即可实现AutoGPT全面讲解 C 语言的结构体(struct),一网打尽曙光VCE 高数 | Proof By Induction Sample Exam Question讲解微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型Prompt Engineer也保不住工作了!Midjourney发布图片生成Prompt功能“Describe”Cross-border M&A crucial for APAC CP companies’ growthGPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升Hurun Most Successful Chinese Living Artists 2023𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~Tipping Livestreamers ‘Out of Control’: China State Broadcaster一个通用的自适应prompt方法,突破了零样本学习的瓶颈Standing Tall: A Runner’s Unlikely Journey to the Top — of TreesDatabricks来搅局了:0门槛克隆ChatGPT,完全开源可随意修改商用Court Ruling Sparks Debate Over Promoting Work on Social Media
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。