国际科技财经博客移民网络热点娱乐民生时事公众号

>

《Python 机器学习》作者新作：从头开始构建大型语言模型，代码已开源

《Python 机器学习》作者新作：从头开始构建大型语言模型，代码已开源

公众号新闻

2024-06-22 05:06

机器之心报道

机器之心编辑部

自 ChatGPT 发布以来，大型语言模型（LLM）已经成为推动人工智能发展的关键技术。

近期，机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又写了一本新书 ——《Build a Large Language Model (From Scratch)》，旨在讲解从头开始构建大型语言模型的整个过程，包括如何创建、训练和调整大型语言模型。

最近，Sebastian Raschka 在 GitHub 上开源了这本新书对应的代码库。

项目地址：https://github.com/rasbt/LLMs-from-scratch/tree/main?tab=readme-ov-file

对 LLM 来说，指令微调能够有效提升模型性能，因此各种指令微调方法陆续被提出。Sebastian Raschka 发推重点介绍了项目中关于指令微调的部分，其中讲解了：

如何将数据格式化为 1100 指令 - 响应对；
如何应用 prompt-style 模板；
如何使用掩码。

《Build a Large Language Model (From Scratch)》用清晰的文字、图表和示例解释每个阶段，从最初的设计和创建，到采用通用语料库进行预训练，一直到针对特定任务进行微调。

具体来说，新书和项目讲解了如何：

规划和编码 LLM 的所有部分；
准备适合 LLM 训练的数据集；
使用自己的数据微调 LLM；
应用指令调整方法来确保 LLM 遵循指令；
将预训练权重加载到 LLM 中。

作者介绍

个人主页：https://sebastianraschka.com/

Sebastian Raschka 是一名机器学习和人工智能研究员，曾在威斯康星大学麦迪逊分校担任统计学助理教授，专门研究深度学习和机器学习。他让关于 AI 和深度学习相关的内容更加容易获得，并教人们如何大规模利用这些技术。

此外，Sebastian 热衷于开源软件，十多年来一直是一个充满热情的开源贡献者。他提出的方法现已成功应用于 Kaggle 等机器学习竞赛。

除了编写代码，Sebastian 还喜欢写作，并撰写了畅销书《Python Machine Learning》（《Python 机器学习》）和《Machine Learning with PyTorch and ScikitLearn》。

参考链接：https://twitter.com/rasbt/status/1802327699937009807

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

华中科技大学生命学院张珞颖/薛宇团队利用大型语言模型助力解析睡眠等群体活动的分子特征从头设计抗体，腾讯、北大团队预训练大语言模型登Nature子刊突发！谷歌 Python 团队全体被裁，急得 PyTorch 之父爆粗 ControlNet作者新作爆火：P照片换背景不求人，AI打光完美融入深圳/香港/上海内推 | 商汤研究院基础语言模型团队招聘大语言模型算法研究员大陆行-去武昌看大学谷歌Python团队全员被裁——负责内部Python所有基础设施、曾对数亿行代码执行自动重构新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型 “从头开始训练模型，几乎没有意义”从解放军新兵到美军少校庆祝中国人民解放军渡江战役胜利暨南京市解放七十五周年(zt)GPT搜索引擎原型曝光！新模型GPT4-Lite驱动，虽然鸽了发布会但代码已上传【五律】此春今日arXiv最热大模型论文：首个面向AI的python编程框架，提升大模型编程能力新思路 ICLR上新 | 强化学习、扩散模型、多模态语言模型，你想了解的前沿方向进展全都有首个GPU高级语言，大规模并行就像写Python，已获8500 Star 首个GPU高级语言，大规模并行就像写Python，已突破1万 Star！NUS、清华提出STAR：一句话生成高质量4D Avatar，代码已开源仅剩3席｜全面掌握Python, SQL等数据分析语言、工具和拓展包，高效斩获心仪offer！谷歌裁掉整个 Python 团队！PyTorch 创始人急得直骂人：“WTF！核心语言团队无可替换”WizardLM新作！ArenaLearning: 通过模拟LLM竞技场来构建大规模数据飞轮 Python和AI可以在线学习了！掌握Python多线程编程：从入门到实战全攻略《魅羽活佛》第375章捡匕首的女孩突发！谷歌Python团队解散，PyTorch之父震惊 70B模型秒出1000token，代码重写超越GPT-4o，来自OpenAI投资的代码神器Cursor团队小模型狂飙！6家巨头争相发布小模型，Andrej Karpathy：大语言模型的尺寸竞争正在倒退...清华系细胞大模型登Nature子刊！能对人类2万基因同时建模，代码已开源多组学泛癌+机器学习模型构建！湘雅医院团队刚发表6+分SCI！(有发文福利）超越思维链：大型语言模型的X链范式综述 AI早知道｜B 站开源轻量级 AI 语言模型；阿里通义Qwen2成最强开源大模型深入理解Python多进程：从基础到实战谷歌突破2万亿美元里程碑，却被曝裁掉整个Python团队？PyTorch之父怒批离谱我，3天刷完清华大学《Python教学书》，Citi让我下周入职？LeCun新作：分层世界模型，数据驱动的人型机器人控制

热点事件追踪