Redian新闻
>
速揽2500星,Andrej Karpathy重写了一份minGPT库

速揽2500星,Andrej Karpathy重写了一份minGPT库

公众号新闻

机器之心报道

编辑:陈萍
时隔两年,GPT的Pytorch训练库minGPT迎来更新!
作为人工智能领域「暴力美学」的代表作,GPT 可谓是出尽风头,从诞生之初的 GPT 1.17 亿参数,一路狂飙到 GPT-3 1750 亿参数。随着 GPT-3 的发布,OpenAI 向社区开放了商业 API,鼓励大家使用 GPT-3 尝试更多的实验。然而,API 的使用需要申请,而且你的申请很有可能石沉大海。

为了让资源有限的研究者也能体验一把玩大模型的乐趣,前特斯拉 AI 负责人 Andrej Karpathy 基于 PyTorch,仅用 300 行左右的代码就写出了一个小型 GPT 训练库,并将其命名为 minGPT。这个 minGPT 能够进行加法运算和字符级的语言建模,而且准确率还不错。

时隔两年,minGPT 迎来更新,Karpathy 又上线新版本,并命名为 NanoGPT,该库用于训练和微调中型大小的 GPT。上线短短几天,狂揽 2.5K 星。


项目地址:https://github.com/karpathy/nanoGPT

在项目介绍中,Karpathy 这样写道:「NanoGPT 是用于训练和微调中型尺度 GPT 最简单、最快的库。是对 minGPT 的重写,因为 minGPT 太复杂了,以至于我都不愿意在使用它。NanoGPT 还在开发当中,当前致力于在 OpenWebText 数据集上重现 GPT-2。

NanoGPT 代码设计目标是简单易读,其中 train.py 是一个约 300 行的代码;model.py 是一个约 300 行的 GPT 模型定义,它可以选择从 OpenAI 加载 GPT-2 权重。」


为了呈现数据集,用户首先需要将一些文档 tokenize 为一个简单的 1D 索引数组。

$ cd data/openwebtext
$ python prepare.py

这将生成两个文件:train.bin 和 val.bin,每个文件都包含一个代表 GPT-2 BPE token id 的 uint16 字节原始序列。该训练脚本试图复制 OpenAI 提供的最小的 GPT-2 版本,即 124M 版本。

$ python train.py

假如你想使用 PyTorch 分布式数据并行(DDP)进行训练,请使用 torchrun 运行脚本。

$ torchrun --standalone --nproc_per_node=4 train.py

为了让代码更有效,用户也可以从模型中进行取样:

$ python sample.py

Karpathy 表示,该项目目前在 1 个 A100 40GB GPU 上一晚上的训练损失约为 3.74,在 4 个 GPU 上训练损失约为 3.60。在 8 x A100 40GB node 上进行 400,000 次迭代(约 1 天)atm 的训练降至 3.1。

至于如何在新文本上微调 GPT,用户可以访问 data/shakespeare 并查看 prepare.py。与 OpenWebText 不同,这将在几秒钟内运行。微调只需要很少的时间,例如在单个 GPU 上只需要几分钟。下面是运行微调的一个例子

$ python train.py config/finetune_shakespeare.py

项目一上线,已经有人开始尝试了:

想要尝试的小伙伴,可以参考原项目运行。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软称ChatGPT版Bing将登陆Android和iOS平台,Bing App下载量一夜间猛增10倍谷歌大脑深度学习调参(炼丹)指南出炉,Hinton点赞,一天收获1500星妈妈病危 (一)In China, Copycats are Trying to Cash in on ChatGPT Hype他来了!Nike x Tiffany重磅联名球鞋,现已开始抽签!每秒1000000000000000000次运算!Cerebras新超级计算机打造世界最大1350万核心AI集群退休老人的福利还是梦魇特斯拉自动驾驶专家Andrej Karpathy 加入OpenAI,欲研发ChatKPT提速40倍!bug更少了,我们用Rust重写了自家项目邓小平对中共不是犯错而是背叛Redpanda:用C++重写的Kafka到底有多牛逼。。。斯坦福5.5万人研究:30年,男人长(cháng)了3厘米,但并非好事A Beijing Theater Is Committed to Screening Movies for the BlindBeats by Dr. Dre MU982ZM/A urBeats3 Earphones 3.5mm[电脑] The Grand Beyond The Grand —— 华硕ROG HYPERION创世神 装机SHOW!她用ChatGPT写了一篇文章,日赚14000元在我的指导下,ChatGPT写了一个“木马”!丹麦德国合拍的战争反思片,值得一看hǎo xiǎng “rua” 🤩微软称 ChatGPT 版 Bing 将登陆 Android 和 iOS 平台,Bing App 下载量一夜间猛增 10 倍谷歌推出深度学习调优手册,不到一天狂揽1200星,Hinton转发|GitHub天赋“易昺(bǐng)”,创造历史!Why Wind and Solar Are Ready to Power China’s Next 40 Years再次加入OpenAI,特斯拉前AI总监Andrej Karpathy刚刚官宣!光杆司令狂揽2亿美元!大佬一人搞ChatGPT创业,两天已现独角兽模样FastTrack Universität 2023莱比锡大学公立语言项目招生简章"𝙇𝙚𝙖𝙙 𝙏𝙝𝙚 𝘾𝙝𝙖𝙧𝙜𝙚"广告#创译挑战Burberry重启旧logoWaiting for Wealth: China’s Gen Z Wants Careers Before ChildrenCloudflare用Rust重写Nginx C模块,构建没有Nginx的未来特斯拉前AI总监Andrej Karpathy再度回归OpenAI!CEO奥特曼热烈欢迎我请ChatGPT写了一个新年小故事特斯拉前AI总监Karpathy疯狂点赞:单张A100,10秒训练CIFAR-10,破世界纪录!Andrej Karpathy 回归 OpenAI:ChatGPT 重新让 AI 科学家变得值钱夫妻隔海相望41年
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。