Redian新闻
>
用魔法打败魔法 Prompt2Model:大模型辅助小模型

用魔法打败魔法 Prompt2Model:大模型辅助小模型

公众号新闻

知乎:养生的控制人(已授权)
深度学习自然语言处理 分享
链接:https://zhuanlan.zhihu.com/p/653647768

大模型在各方面的表现都还可以,但是在很多垂直领域反而是一种浪费,因为很多时候我们并不需要它是个通才,只需要专注于特定任务。今天分享一篇文章,主要思想就是借助LLM来辅助训练一个特定任务的小模型。

论文:PROMPT2MODEL: Generating Deployable Models from Natural Language Instructions
地址:https://arxiv.org/abs/2308.12261

进NLP群—>加入NLP交流群

本文提出了一种名为Prompt2Model的框架,它可以接受自然语言任务描述,然后训练一个特定目的且便于部署的模型。该方法结合了检索现有数据集、预训练模型、使用LLM生成数据集,并在这些数据上进行微调。实验结果显示,与gpt-3.5-turbo相比,Prompt2Model训练的模型性能提高了20%,但模型大小减少了700倍。

Prompt2Model框架

  • 数据集检索:根据任务相关性收集训练数据
  • 数据集生成:利用LLM(称为“教师模型”)生成伪标签数据集,进而训练一个“学生”模型来模仿教师模型
  • 模型检索:根据提示选择一个预训练的语言模型,进一步微调和评估

详细步骤

1. 提示解析

  • 目的:将用户提供的提示分为“指令”和“示范”两部分。
  • 方法:使用LLM(在实验中为gpt-3.5-turbo-0613)进行上下文学习,对用户提示进行分段。如果指令是非英语的,将其使用DeepL API翻译成英语。

2. 数据集检索器

  • 目的:为给定的提示找到相关的数据集。
  • 方法:采用Viswanathan等人(2023)引入的DataFinder系统。通过提取Hugging Face Datasets中的用户生成的数据集描述,使用DataFinder的双编码器检索器对数据集进行排序。用户可以从前k个数据集中选择最相关的数据集或指定没有合适的数据集,并指定数据集模式中的输入和输出列。

3. 数据集生成器

  • 目的:快速、低成本地生成高质量的样本。
  • 方法
    • 高多样性的少量提示:使用自动提示工程生成多样的数据集,增加用户提供的示例与随机样本,以增加多样性并避免重复。
    • 温度退火:根据已生成的示例数量,从低到高调整采样温度,以鼓励多样性。
    • 自洽解码:使用自洽过滤来选择伪标签,为每个独特的输入创建一个共识输出。
    • 异步批处理:使用zeno-build并行化API请求,并使用动态批处理大小和节流机制优化API使用。

4. 模型检索器

  • 目的:选择一个适当的预训练模型进行微调。
  • 方法:将选择预训练模型的问题框架为搜索问题。使用用户的指令作为查询,搜索Hugging Face上的所有模型文本描述。使用gpt-3.5-turbo创建一个假设的模型描述,然后应用BM25算法计算查询-模型相似度分数。

5. 训练

  • 目的:训练模型。
  • 方法:将检索和生成的数据集合并,然后进行混洗,使用AdamW优化器进行训练。

6. 评估

  • 目的:评估模型的性能。
  • 方法:使用Exact Match、ChrF++和BERTScore三种指标自动评估模型。其中,BERTScore使用XLM-R作为编码器,支持多语言评估。

7. Web应用创建

  • 目的:为用户提供一个与模型互动的界面。
  • 方法:使用Gradio自动创建一个图形用户界面,然后可以轻松地在服务器上公开部署。

有意义讨论部分


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
XM announces plans to become model city for express delivery九剑一魂 - 第24回 汉胡同源 九剑一魂(十一)NTU华科等最新研究:全自动化「提示越狱」,能打败大模型的只有大模型!登安全顶会NDSS危险!Tesla「紧急大召回」Model S、Model X均在其中!特斯拉车主注意!ChatGPT重大更新!prompt推荐瞬间解释超导,GPT-4成默认模型1句指令+5美元+20分钟,就能训练出小型专业模型,Prompt2Model了解一下学好 Prompt,和大模型双向奔赴!| 极客时间特斯拉最高直降22万!全新Model 3发布价格调整/百万Model S/X大降价AutoDev 1.1.3 登场,个性化 AI 辅助:私有化大模型、自主设计 prompt、定义独特规则特斯拉又降价了!Model 3、Model Y在美售价再降!接入Llama 2等33个大模型,上线Prompt模板,百度智能云千帆大模型平台重磅升级赏莲的季节AutoDev 1.4 规模化 AI 研发辅助:团队 Prompts、自定义活文档、代码检视MarketUP:ChatGPT prompt指令模型大全《原神》冰箱贴:神子&宵宫&申鹤&甘雨&刻晴&优菈&莫娜7位角色!Molecular & Cellular Proteomics | 上海交大肖华课题组揭示核酸结合蛋白在衰老进程中的重要作用54百亿参数大模型进化树重磅更新!85页盘点LLM发展史,附最详细prompt技巧俄乌战争,支持乌克兰!陶哲轩用大模型辅助解决数学问题:生成代码、编辑LaTeX公式都很好用大模型Prompt的中文教程来了!参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架OpenAI假设被推翻!给定计算量,较小模型打败大模型,Llama 2训练与GPU计算关联度小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大用魔法打败魔法,南洋理工大学学者首次实现全自动化攻陷各大厂商大模型聊天机器人[9月26日]科学历史上的今天——金·赫尔尼(Jean Amédée Hoerni)Llama2等30+模型接入千帆大模型平台,推理成本降50%!还有超全Prompt模板开放体验长篇小说《如絮》第一百五十一章 哈尔滨-1960年 2 一碗蛋炒饭当代家长用魔法打败魔法章鹏:大模型只是少数人的机会,小模型才是大多数人的机会究竟应该说someone faces problems还是problems face someone?三谈耶稣5小时get大模型时代提效神器:写出高价值大模型Prompt!“降糖新星”再跨界?研究发现:SGLT2i可显著降低T2DM/HF患者痛风风险北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型大模型外挂知识库优化-大模型辅助向量召回
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。