Redian新闻
>
特斯拉前AI总监教你手搓GPT大模型,教学视频已出

特斯拉前AI总监教你手搓GPT大模型,教学视频已出

公众号新闻
机器之心报道
编辑:泽南
「从零开始,用代码直接写。」


说到目前最火的 AI 技术,ChatGPT 肯定位列其中。此类大语言模型(LLM)因为能从海量数据中学到知识,被认为是人工智能突破的方向,人们正在尝试用它来做各种复杂的事,甚至包括数学推理。


对于机器学习从业者来说,大模型的门槛很高:因为体量太大难以训练,很长时间里这个方向一直被大公司垄断。不过最近,简化 GPT 模型的方法越来越多了。


近日,前特斯拉 AI 高级总监、自动驾驶 Autopilot 负责人 Andrej Karpathy 发布了从零开始构建 GPT 模型的完整教程。消息一出,立即受到了人们的关注。


在长达近两小时的教学视频中,Karpathy 会教你根据 NLP 领域经典论文《Attention is All You Need》构建一个 transformer,再以此为基础完成一个类似 OpenAI 的 GPT-2 / GPT-3 的生成式预训练 GPT 模型。


  • 视频的 Google colab :https://colab.research.google.com/drive/1JMLa53HDuA-i7ZBmqV7ZnA3c_fvtXnx-?usp=sharing

  • GitHub:https://github.com/karpathy/ng-video-lecture

  • 视频链接:https://www.youtube.com/watch?v=kCc8FmEb1nY&list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ&index=7


在该教学的前半部分,Andrej Karpathy 会从构建基本的语言模型开始讲起,随后引入 transformer 的核心「注意力」机制,作为有向图中节点之间的一种通信 / 消息传递。


在视频的后半部分,你将学会构建 Transformer 的更多细节,包括多头自注意力、MLP、残差连接、layernorm 等。然后将学会训练一个 GPT 模型并将其与 OpenAI 的 GPT-3(模型体量大约小 1 万 - 100 万倍,但神经网络相同)和 ChatGPT 进行比较。


在跟随视频的指引结束后,你将得到一个约 1000 万参数的语言模型,在 1 块 GPU 上训练大约需要 15 分钟,将所有莎士比亚作品串联成一个 1MB 大小的文件。然后我们就可以利用 AI 来生成模仿莎士比亚的语句了。


Andrej Karpathy 建议你在学习完课程之后进行一些练习:


  • 练习 1:n 维张量掌握挑战:将 “Head” 和 “MultiHeadAttention” 组合成一个并行处理所有头部的类,将头视为另一个批量维度(答案在 nanoGPT 中)。

  • 练习 2:在自己选择的数据集上训练 GPT, 还有哪些其他数据可能会很有趣?(如果你愿意,可以训练所有可能的 3 位数加法问题并以相反的顺序预测和。看看你的 Transformer 是否学习了正确的加法算法,是否正确地泛化到验证集上?)。

  • 练习 3:找到一个很大的数据集,大到你看不到 train 和 val 损失之间的差距。在此数据上预训练 transformer,然后使用该模型进行初始化,并在莎士比亚数据集上以较少的步骤和较低的学习率对其进行微调。看看能否通过使用预训练获得较低的验证损失?

  • 练习 4:阅读一些 transformer 论文并实践他们提出的改进,探索提高 GPT 性能的可能性。


该教学中提到的 GPT 模型是前几天 Andrej Karpathy 发布的 NanoGPT。它是对 minGPT 的重写,也是目前用于训练和微调中型尺度 GPT 最简单、最快的库。NanoGPT 代码设计目标是简单易读,其中 train.py 是一个约 300 行的代码;model.py 是一个约 300 行的 GPT 模型定义,它可以选择从 OpenAI 加载 GPT-2 权重。


目前该项目在 GitHub 上已经有超过 8000 的 Star 量:https://github.com/karpathy/nanoGPT


2022 年 7 月,Andrej Karpathy 宣布辞任特斯拉高级人工智能总监职位,目前他仍然没有公开自己的去向。在这段时间里 Karpathy 也没闲着,他在 YouTube 上发布的「Neural Networks:Zero to Hero」系列视频,从反向传播开始讲起,如今已经出到了第七部。


Karpathy 曾在推特上表示:只要你懂 Python,并能模糊记起高中学过的求导知识,看了我的视频你还不理解反向传播和神经网络核心要点的话,那我就吃一只鞋。


如果你对于深度学习感兴趣,可以跟着他从头学起。


参考内容:

https://twitter.com/karpathy/status/1615398117683388417


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谷歌这样恶搞细颈瓶,咸鱼翻身待何时GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?特斯拉前AI高级总监宣布重回OpenAI,马斯克曾为挖他被逐出董事会国产类ChatGPT密集开测,单卡能跑大模型,生成式AI热潮爆发魅族20系列官宣,蔚来试驾车致伤亡,威马回应全员停薪留职,北京将支持企业打造对标ChatGPT的大模型,这就是今天的其它大新闻!GPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!特斯拉前CEO批马斯克:喜欢随机炒员工;库克今年将降薪3.5亿;阿里去年裁员19000人 | AI一周资讯特斯拉前AI总监Andrej Karpathy再度回归OpenAI!CEO奥特曼热烈欢迎没有百亿参数的大模型,不敢奢谈ChatGPT孟晚舟将首次出任华为轮值董事长/ 百度All in类ChatGPT项目/ 知乎因ChatGPT大涨50%…今日更多新鲜事在此外国语名校必读书!《黑布林英语阅读》教学视频、音频来了!百度官宣类ChatGPT大模型新项目:文心一言小破本也能炼GPT!300行代码搞定,GitHub获6k星,来自特斯拉前AI总监ChatGPT教你写AI包教包会,7段对话写个识别模型,准确度最高达99.7%北京支持头部企业打造对标ChatGPT大模型GitHub Copilot代码笔刷火了,一刷修bug加文档,特斯拉前AI总监:我现在80%的代码由AI完成大神李沐、快手元老李岩被曝离职后转投大模型,ChatGPT掀起AI创业狂飙本科生60行代码教你手搓GPT大模型,技术介绍堪比教程关于ChatGPT与大模型,我们要办场严肃的技术大会特斯拉前AI总监Karpathy疯狂点赞:单张A100,10秒训练CIFAR-10,破世界纪录!幼升小全摇号之下,维多利亚、上海耀中、蒙特梭利园长教你手把手择园薅电商"羊毛"还录"教学视频"网售,被判七年布隆伯格呼吁美国大学录取恢复SAT和ACT首个“开源ChatGPT”来了:基于谷歌5400亿参数大模型,华人小哥出品,网友吐槽:这谁能跑?董车日报|比亚迪秦 PLUS 上新 / 特斯拉前 AI 负责人宣布加入 OpenAI练一节就有效的写字教学视频,写好整学期的字只要几十元|开团ChatGPT背后的大模型,需要怎样的芯片?走马观花蒙特利尔香港,城市街景再次加入OpenAI,特斯拉前AI总监Andrej Karpathy刚刚官宣!ChatGPT 带火大模型!深度解读人工智能大模型在产业中的服务新态势字节开展类 ChatGPT 研究;特斯拉前自动驾驶主管加入 OpenAI;GitHub 裁员 10% | 极客早知道从大神Alex Smola与李沐离职AWS创业融资顺利,回看ChatGPT大模型时代“底层武器”演进复旦放大招,国内首个类ChatGPT大模型开放测试!《流浪地球》MOSS照进现实俄乌战争的最大贡献
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。