Redian新闻
>
通俗易懂chatGPT原理

通俗易懂chatGPT原理

公众号新闻
来自:无数据不智能

目前关于chatGPT的资料过于零散,没有详尽所有知识点、系统概述的文章,因此,笔者作了这篇总结性文章。


  • 训练过程总览

  • 理清演化路径

  • 预训练(pretrain)

    • GPT-3概述

    • GPT 3模型的理念

    • GPT-3如何学习

    • 数据集

  • 指令微调 (Instruction Fine-Tuning,IFT)

  • 有监督微调 (Supervised Fine-tuning, SFT)

  • 人类反馈强化学习 (Reinforcement Learning From Human Feedback,RLHF)

  • 其他方法

    • 思维链 (Chain-of-thought,CoT)

  • 与chatGPT类似的工作

  • 引用


进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

训练过程总览

OpenAI 使用了 175B参数的大型语言模型(LM) 和 6B参数的奖励模型 (RM)。除预训练之外,训练过程分为三步:

  1. 收集NLP各种任务的数据集,加上任务描述和提示组装成新的数据集,并使用这些数据微调预训练的大型语言模型。包括指令微调有监督微调
  2. 从上述数据集中采样,使用大型语言模型生成多个响应,手动对这些响应进行排名,并训练奖励模型 (RM) 以适应人类偏好。
  3. 基于第一阶段的有监督微调模型和第二阶段的奖励模型,使用强化学习算法进一步训练大型语言模型。
img

理清演化路径

GPT-3.5 参数量仍然为175B,总体进化树如下:

img
img

预训练(pretrain)

GPT-3概述

  • GPT-3是一种自回归模型,仅使用解码器,训练目标也是预测下一个单词(没有判断下一句任务)。
  • 最大的GPT-3模型有175B参数,是BERT模型大470倍(0.375B)
image-20230221144754842

GPT 3模型的理念

  • 不需要接新的模型结构:如bert用于NER任务一般接LSTM+CRF

  • 不需要微调

  • 一个模型解决NLP多种任务

  • NLP任务都可以用生成模型解决

  • 和人类一样,只需要看极少数量的样例就能学会

GPT-3如何学习

  • 零样本学习:提供任务描述、提示
  • 单样本学习:提供任务描述、一个样例、提示
  • 少样本学习:提供任务描述、几个样例、提示


数据集

模型发布时间参数量预训练数据量
BERT-large2019 年 3 月3.75 亿约3.3GB
GPT2018 年 6 月1.17 亿约 5GB
GPT-22019 年 2 月15 亿40GB
GPT-32020 年 5 月1,750 亿45TB
  • BERT-large:BooksCorpus 800M words、 English Wikipedia 2.5Bwords

  • GPT:WebText2, BooksCorpus、Wikipedia超过 5GB。

  • GPT-2:WebText2, BooksCorpus、Wikipedia总量达到了40GB。

  • GPT-3:**WebText2, BooksCorpus、Wikipedia、Common Crawl **等数据集45TB数据。

    image-20230221153905277

指令微调 (Instruction Fine-Tuning,IFT)

收集NLP各种任务的数据集,加上任务描述和提示组装成新的数据集。chatGPT使用到的数据集如下:

image-20230221113507381

相关的一些论文:

  • Unnatural Instructions (Honovich 等, '22): https://arxiv.org/abs/2212.09689
  • Super-natural instructions (Wang 等, '22): https://arxiv.org/abs/2204.07705
  • Self-Instruct (Wang 等, '22): https://arxiv.org/abs/2212.10560
  • T0 (Sanh 等, '22): https://arxiv.org/abs/2110.08207
  • Natural instructions 数据集 (Mishra 等, '22): https://arxiv.org/abs/2104.08773
  • FLAN LM (Wei 等, '22): https://arxiv.org/abs/2109.01652
  • OPT-IML (Iyer 等, '22): https://arxiv.org/abs/2212.12017

有监督微调 (Supervised Fine-tuning, SFT)

此步骤未为了防止遇到敏感话题时,回复【不知道】这种无意义的回答,以加入一些人工标注数据,增加回复安全性,百级别的数据集即可完成。

相关的一些论文:

  • Google 的 LaMDA:附录 A https://arxiv.org/abs/2201.08239
  • DeepMind 的 Sparrow: Sparrow :附录 F https://arxiv.org/abs/2209.14375

人类反馈强化学习 (Reinforcement Learning From Human Feedback,RLHF)

描述:

  • 策略 (policy) :一个接受提示并返回一系列文本 (或文本的概率分布) 的 LM。
  • 行动空间 (action space) :LM 的词表对应的所有词元 (一般在 50k 数量级) ,
  • 观察空间 (observation space) 是可能的输入词元序列,也比较大 (词汇量 ^ 输入标记的数量) 。
  • 奖励函数是偏好模型和策略转变约束 (Policy shift constraint) 的结合。

此过程分为两步

  1. 聚合问答数据并训练一个奖励模型 (Reward Model,RM)
  2. 用强化学习 (RL) 方式微调 LM

开源数据集:

Anthropic/hh-rlhf · Datasets at Hugging Face

OpenAI 使用的是用户提交的反馈。

image-20230221111329526

其他方法

这部分简单介绍一下和chatGPT使用的微调并列的一些方法

思维链 (Chain-of-thought,CoT)

如下图所示使用一些带有逐步推理的数据集进行微调

橙色是任务描述,粉色是问题和答案,蓝色是推理过程

思维链提示 (Wei 等, '22): https://arxiv.org/abs/2201.11903

与chatGPT类似的工作

  • Meta 的 BlenderBot: https://arxiv.org/abs/2208.03188
  • Google 的 LaMDA: https://arxiv.org/abs/2201.08239
  • DeepMind 的 Sparrow: https://arxiv.org/abs/2209.14375
  • Anthropic 的 Assistant: https://arxiv.org/abs/2204.05862

引用

  • TRANSFORMER MODELS: AN INTRODUCTION AND CATALOG

  • WebGPT: Browser-assisted question-answering with human feedback

  • Training language models to follow instructions with human feedback

  • https://mp.weixin.qq.com/s/b0AI01-pUnXVWPPXix-hew

  • https://openai.com/blog/chatgpt/

  • https://mp.weixin.qq.com/s/eYmssaPFODjC7xwh1jHydQ

  • https://mp.weixin.qq.com/s/mXViN_GB9VC1WrXP1Q1iug

  • https://mp.weixin.qq.com/s/y9Jy9AyAyTCgCOKyMgTo3w

  • https://zhuanlan.zhihu.com/p/595891945

  • https://www.hpc-ai.tech/blog/colossal-ai-chatgpt

  • https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

  • https://arxiv.org/pdf/1706.03762.pdf

  • https://arxiv.org/pdf/2005.14165.pdf

  • https://arxiv.org/pdf/1810.04805.pdf



进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

加入星球,你将获得:

1. 每日更新3-5篇最新最优质的的论文速读

2. 最新入门和进阶学习资料

4. 每日1-3个NLP、搜广推、CV等AI岗位招聘信息



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT 进军 B 端?消息称微软将允许企业创建定制版 ChatGPT一分钟弄懂ChatGPT最近很火的ChatGPT究竟是什么?本文解释得非常全面,还通俗易懂!兔年伊始,帮妈妈赚了我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!跟ChatGPT,聊聊ChatGPT下载量暴增10倍!微软必应集成ChatGPT后需求大爆发;4省份上调最低工资标准;淘宝已屏蔽ChatGPT关键词丨邦早报打4次疫苗,感染2次,辉瑞新冠药救命!集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布轻松秒懂ChatGPT,人工智能会是下一个十年的最火行业吗?李强是谁?各种性朋友圈全是ChatGPT! ChatGPT概念股大火反击!Google 版 ChatGPT 首次亮相,有一个功能「碾压」ChatGPT一文看懂ChatGPT布局全景图:谁会成为中国的OpenAI?| 甲子光年ChatGPT 或导致 20 种工作失业?恐怕远远不止,比尔盖茨 :ChatGPT 将改变世界ChatGPT因访问量激增崩了;抖音否认3月1日上线外卖服务;百度将于3月推出ChatGPT产品丨邦早报中国最懂ChatGPT的那一小撮人,在这了金融民工会因为ChatGPT下岗吗?刚刚,我问了ChatGPT 24个金融圈灵魂问题重磅 | 我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患老頭有樂要趕快微信回应头像褪色,部分C刊不准隐瞒ChatGPT使用,微软推进裁员,Opera新版集成ChatGPT,这就是今天的其它大新闻!全球都为ChatGPT疯狂,它到底是风口还是虚火?深度解读风暴眼中的ChatGPT | 直播预约ChatGPT惹怒主流媒体!华尔街日报、CNN授权费都没付!马斯克:ChatGPT好得吓人;用户吐槽:它有时会一本正经的胡说八道ChatGPT通过谷歌程序员面试,薪资达18.3万美元!ChatGPT通过谷歌程序员面试,薪资达18.3万美元!百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此华尔街交易员为何不担心ChatGPT抢饭碗?ChatGPT:我预测不了市场见面Lite丨对话《AIGC:智能创作时代》作者,读懂ChatGPT背后的逻辑重磅!微软发布 ChatGPT 版搜索引擎,用上了比 ChatGPT 更强大的技术孟晚舟将首次出任华为轮值董事长/ 百度All in类ChatGPT项目/ 知乎因ChatGPT大涨50%…今日更多新鲜事在此ChatGPT能有意识吗:关于ChatGPT的误解与夸大紧急提醒!ChatGPT成神器!但这些“ChatGPT”是假的,小心被骗!ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇一图读懂ChatGPT和产业链冲击波
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。