Redian新闻
>
跟李沐学ChatGPT背后技术:67分钟读透InstructGPT论文

跟李沐学ChatGPT背后技术:67分钟读透InstructGPT论文

公众号新闻

机器之心报道

编辑:张倩

InstructGPT 和 ChatGPT 之间有很多一脉相承之处。因此,吃透 InstructGPT 论文对于想要在 ChatGPT 方向上做些工作的同学来说将大有裨益。

在 ChatGPT 走红之后,很多关注技术的同学都在问一个问题:有没有什么学习资料可以让我们系统地了解 ChatGPT 背后的原理?由于 OpenAI 还没有发布 ChatGPT 相关论文,这一问题变得棘手起来。


不过,从 OpenAI 关于 ChatGPT 的博客中我们知道,ChatGPT 用到的方法和它的兄弟模型 ——InstructGPT 一样,只不过 InstructGPT 是在 GPT-3 上微调的,而 ChatGPT 则是基于 GPT-3.5。在数据收集工作上,二者也存在一些差别。


博客链接:https://openai.com/blog/chatgpt/

InstructGPT 的论文发布于 2022 年 3 月,不过 OpenAI 早在 1 月份就发布了相关博客(参见《GPT-3 胡言乱语怎么办?OpenAI:我们重新调教了一下,新版本更「听话」》)。当时,OpenAI 明确提到,InstructGPT 利用了人类反馈的强化学习方法(RLHF)对 GPT-3 进行微调,使得该模型的输出更加符合人类偏好,这点在 ChatGPT 的训练中得到了延续。


论文链接:https://arxiv.org/pdf/2203.02155.pdf

除此之外,InstructGPT 和 ChatGPT 之间还有很多一脉相承之处。因此,吃透 InstructGPT 论文对于想要在 ChatGPT 方向上做些工作的同学来说将大有裨益。这也是我们力荐李沐这节精讲课的原因。


课程地址:https://jmq.xet.tech/s/2lec6b  (点击「阅读原文」可直达)

李沐博士是亚马逊的资深首席科学家,之前和 Aston Zhang 等人共同撰写了《动手学深度学习》。最近两年,他一直通过视频向大家介绍各种 AI 知识,制作了几十篇论文的精读课程。很多同学已经养成了跟着李沐精读论文的习惯。

李沐博士在 B 站的账号是「跟李沐学 AI」。

这节针对 InstructGPT 的解读课程总共 67 分钟,基本按照论文撰写的顺序进行介绍。


看过 ChatGPT 博客的同学都知道,它的技术原理基本用一张图就能概括,这也是 InstructGPT 论文中就已经出现的一张图(二者有细微差别)。在解读论文的摘要和引言部分时,李沐详细介绍了图上的三个步骤。

ChatGPT 博客中的技术原理图。


InstructGPT 论文中的技术原理图。

在论文的第三章,InstructGPT 的作者首先介绍了他们的数据获取方法和过程,李沐也带着大家详细读了一下。这部分在工程方面非常有价值。正如李沐所说,如果你之前没有做过这样的事情(数据标注等),需要找人帮你标数据,那么你可以看它的附录部分,里面有很多模板可以直接拿来用,论文作者甚至描述了他们标注网站的 UI 长什么样,非常值得借鉴。

接下来,李沐重点解读了第三章写到的 3 个模型(见 3.5 Models )——SFT (Supervised fine-tuning) 模型、RM (Reward modeling) 模型和 RL (Reinforcement learning) 模型,包括这些模型涉及的参数和目标函数等细节。

最后,李沐总结说,从技术上来讲,InstructGPT 还是一个非常实用的技术。它告诉了大家一个方法:给定一个大型语言模型,你怎样通过一些标注数据迅速地提升它在某一个你关心的领域中的性能,使它达到实用的程度。所以,它给想用生成模型做产品的人提供了一个可操作的思路。

当然,正如李沐博士所说,科研工作是循序渐进的,InstructGPT 也是建立在之前研究的基础上,所以想要吃透 ChatGPT 的同学不免还要回头去读更多论文。在之前的课程中,李沐也详细解读过 GPT、GPT-2、GPT-3 的论文:


课程地址:https://jmq.xet.tech/s/2lec6b  (点击「阅读原文」可直达)

另外,机器之心机动组官网也收录了李沐的《动手学深度学习》完整课程,欢迎大家前往观看。


课程地址:https://app6ca5octe2206.pc.xiaoe-tech.com/

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT背后的技术工作原理ChatGPT背后大模型如何高效训练?京东探索研究院、悉大、中科大60页论文详述五大类训练方法从大神Alex Smola与李沐离职AWS创业融资顺利,回看ChatGPT大模型时代“底层武器”演进谈谈ChatGPT背后的核心论文ChatGPT背后:一个天才、百亿融资和1亿月活|全球独角兽参加为体育生开办的训练营佛罗伦萨,乌菲齐、老廊桥、及其建筑师FastTrack Universität 2023莱比锡大学公立语言项目招生简章ChatGPT背后股东竟有英国首相岳父!人工智能热潮来袭,伦敦成全球AI第一城...ChatGPT论文通过图灵测试:是AI太聪明,还是学界太灌水?Visual Instruction Tuning: 用LLaVA近似多模态GPT-4每秒最高1w+使用量,「AI绘画」成抖音年度爆款,背后技术秘籍现已公开ChatGPT背后的男人:8岁会编程、19岁当老板;法意计划向乌移交远程反导系统;美媒称拜登拟重组经济团队|一周国际财经ChatGPT背后的女人:Open AI美女CTO Mira MuratiChatGPT背后的开源AI框架Ray,现在值10亿美元ChatGPT背后的男人:16岁出柜,斯坦福辍学,疯狂工作一度患上败血症ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇经观社论 | ChatGPT背后的创新焦虑ChatGPT背后:一个天才、百亿融资和1亿日活|全球独角兽【南北碰碰胡】北方#43《穿过你的黑发的我的手》8岁编程,16岁出柜,20岁从斯坦福退学,ChatGPT背后的男人有故事!ChatGPT背后:一个天才、百亿融资和1亿月活Tired of Cafeterias, Students Go for Lunch at Construction SitesHangzhou Plans Easing ‘Hukou’ Restrictions to Attract TalentChatGPT 核心技术大起底——InstructGPT:研究人类反馈数据比加大模型规模更重要!爱的雕像周小平:ChatGPT背后的“世界网络东林党”现形,史上最强的新型阶级固化工具诞生,文明永夜将至~跟李沐导师:动手学深度学习!不赚钱,靠梦想,嫖技术:ChatGPT的成功密码?【双龙喜相逢】贺春龙12+《最远的你是我最近的爱》斜阳FT.碧蓝天深入浅出,解析ChatGPT背后的工作原理ChatGPT背后:一个天才、百亿融资和1亿日活!大神李沐、快手元老李岩被曝离职后转投大模型,ChatGPT掀起AI创业狂飙ChatGPT背后的标注人:在非洲只管「鉴黄」,时薪不到两美元‘It’s Insane’: China’s Doctors Struggle to Cope Amid COVID Surge
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。