Redian新闻
>
重磅!谷歌发布《深度学习调优手册》!Hinton转发点赞!

重磅!谷歌发布《深度学习调优手册》!Hinton转发点赞!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>CV微信技术交流群

丰色 Pine 发自 凹非寺
转载自:量子位(QbitAI)

各位炼丹er们,调参是你们最头疼的环节吗?

现在,一份上线不到一天就狂揽1200+星的《深度学习调优手册》来了。

数字还在飞速上涨,估计马上就要登热榜了

这可能是市面上首个如此全面的炼丹宝典,由5位谷歌工程师大佬合作总结。

这些大佬们都已在深度学习领域“踩坑”多年、工作成果应用从语音识别到天文学都有涉

为了这份手册,他们总结了自己在训练网络、带新工程师、以及和同事交流时get到的各种经验和技巧。

连“深度学习之父”Geoffrey Hinton都来盛赞:

来看看具体都有些啥。

谷歌炼丹宝典,聚焦超参数调整

本手册适用范围为:对系统地最大化深度学习模型性能感兴趣的工程师和研究人员,包括个人和团队。

默认翻开这本手册的都掌握了机器学习基本知识和深度学习概念。

其中内容主要聚焦超参数调整,因为这是作者们在工作中耗时最多、收获也最多的环节。

具体一共分为四大部分:

开始新项目

第一部分从训练一个新的模型开始,教大家如何选择:

(1)模型架构(2)优化器(3)batch size(4)初始配置。

比如,在选择优化器时,由于所有类型的机器学习问题和模型架构中都不存在最好的那一个,那么我们就坚持选择时下最流行、最成熟的那一个(尤其对于新项目来说)

这里作者们推荐(但不限于):SGDM和更通用的Adam、NAdam,特别提醒:Adam有4个可调超参数 ,它们都很重要。

而在选择batch size时,需要注意它只是决定训练速度,不应该直接用于调整验证集的性能。

因为有研究表明,只要所有超参数都经过良好调整(尤其是学习率和正则化超参数)并且训练步数足够,任何batch size值都应该可以获得相同的性能。

通常来说,理想的batch size是可用硬件支持的最大值。

具体如何选择,手册在这里作出了非常详细的解释:

初始配置方面,指导原则是找到一个简单、相对快速、资源消耗相对较低的配置,好获得一个“合理”的结果。

所谓简单,就是切记不要在开始时就添加一些花里胡哨的东西,现阶段没用不说还浪费时间。

比如在找到一个合适的学习率之前,就不要想着各种花式的decay schedule。

科学提高模型性能

本部分的经验建立以下两点前提之上:

  • 我们已经有一个完全运行的训练pipeline以及能够获得合理结果的配置;

  • 有足够的计算资源用于进行有意义的调整实验、用于并行运行多个训练项目。

具体一共分为7个小部分:

第1部分标题为“逐步调整策略”,即从一个简单的配置开始,逐步进行改进,需要重复以下四个步骤:

  • 为下一轮实验确定范围适当的目标;

  • 设计并运行实验,朝着目标取得进展;

  • 分析结果;

  • 考虑是否推出新的最佳配置。

后续部分就是围绕上面四个步骤进行详细的展开,超参数如何选择和修改也在本节作为重点出现。

比如不管我们的实验目标是什么,我们都需要将超参数分为三类:科学超参数、nuisance超参数和固定超参数。

如果我们的目标是“确定具有更多隐藏层(hidden layer)的模型是否会减少验证错误”,那么隐藏层数就是一个科学超参数,这是我们在设计新实验时需要首先确定的。

需要修改的主要是第二类。

当我们进行到第三步,也就是分析结果时,需要额外问自己以下几个问题:

搜索空间是否足够大?是否从里面采样了足够多的点?该模型是否存在优化问题?我们可以从最佳试验的训练曲线中学到什么?

具体怎么判断和解决这些问题,手册也有非常详细的解释。

最后,当我们确定好了应该调整哪些超参数,就可以善用贝叶斯优化工具了。

不同工作负载如何设置训练步数

在这部分,手册根据工作负载的不同分了两部分来展开,分别为:

  • 工作负载为计算密集型(CPU密集型)时,训练步数如何设置?

  • 工作负载为非计算密集型(IO密集型)时,训练步数如何设置?

通俗来讲,计算密集型与非计算密集型就是受不受计算量的限制。而我们要解决的问题,就是无论在哪种情况下,如何让模型都能达到最佳效果。

也不多说废话,直接举个栗子来看宝典中是如何讲的?

当工作负载受计算限制时,也就是说计算资源成为主要的限制因素,首先面临的问题就是:

如果训练损失在无限期的改善,有没有必要这样一直训练下去?

宝典给出的答案是:没有! 多轮调整最明智,1~3轮最实用。

并且还附有两轮调整的具体建议:

  • 第1轮:较短的运行时间以找到好的模型和优化器超参数

  • 第2轮:不要在良好的超参数点上长时间运行以获得最终模型
    (详见手册)

关于当工作负载不受计算限制时,调整的部分主要围绕max_train_steps,具体这里就不再赘述。

其他补充

到这里,宝典差不多就接近尾声了,谷歌研究员们还贴心地给出了一份pipeline训练的补充指南,内容包括:

  • 优化输入pipeline

  • 评估模型性能

  • 保存检查点并回顾性地选择最佳检查点

  • 建立实验跟踪

  • Batch规范化实现细节

  • multi-host pipelines的注意事项

在“优化输入pipeline”部分,宝典列出了导致输入pipeline的一些常见原因,并给出了一些小tips。

关于“评估模型性能”,也给出了详细的操作步骤。

……

宝典全文的链接也已附在文末,感兴趣的朋友可以扔进收藏夹了。

mem it~

关于作者

一共4位谷歌在职大佬,1位哈佛的在读博士生(以前也在谷歌工作了5年多)

Varun Godbole,目前是谷歌AI的一名软件工程师,主要经验集中在建模和构建处理大型数据集的基础设施方面。

之前,他的研究领域是计算机视觉和医学图像的交叉点,合著的论文“International evaluation of an AI system for breast cancer screening”曾登上Nature。

George E. Dahl,是谷歌大脑团队的研究科学家,他的研究集中在高度灵活的模型上,并且他还对语言、感知数据以及化学、生物和医学数据的应用感兴趣。

George在多伦多大学攻读博士学位时,主要解决语音识别、计算化学和自然语言文本处理等问题的深度学习方法,其中包括一些首次成功的深度声学模型。

Justin Gilmer,谷歌大脑的研究科学家,他在Google Scholar上引用已经破万,主要研究方向为深度学习、组合型、随机图论。

量子位前不久的《几十年数学难题被谷歌研究员意外突破!曾因不想搞数学自学编程,当年差点被导师赶出门》讲的正是这位科学家。

Christopher Shallue,目前正在攻读哈佛大学的天体物理学博士学位,在此之前,他曾在谷歌工作了5年10个月。

在谷歌工作的那段时间,Shallue有3年多的时间在谷歌大脑担任机器学习研究工程师,研究的内容包括:

  • 开发识别系外行星的机器学习技术(包括神经网络首次发现行星)

  • 加快超级计算机规模的机器学习培训

  • 实证研究机器学习中的优化算法和超参数调整

  • TensorFlow 中的开源参考模型实现(图像字幕、句子嵌入、系外行星探测)

Zachary Nado,谷歌大脑的研究工程师,本科就读期间,曾先后在谷歌和SpaceX实习,研究领域包括数据挖掘与建模、机器智能、NLP等。

宝典传送门:
https://github.com/google-research/tuning_playbook

点击进入—>CV微信技术交流群


CVPR/ECCV 2022论文和代码下载


后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载ECCV 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译《中国空间站装修手册》@市县领导,这份《基层防疫参考手册》请转给广大基层干部ICML 2023禁止使用大型语言模型写论文!LeCun转发:中小型模型可以用吗?ICML征稿禁止使用大型语言模型,LeCun转发:中小型模型可以用吗?教育部平安留学|行前护航——《留学德国安全手册》发布何时起,“骰子”不读shǎi,改读tóu了?Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发梳理机器学习常用算法(含深度学习)《新冠阳性人员自我应对手册》退休后我为什么没做义工?重磅!又一国内高校布局美国!网友:有这个钱不如多给我们发点奖学金!大年初三,都给我去看《深海》!!!ChatGPT 又遇劲敌!谷歌发布史上最大 AI 模型 PaLM-E:5620 亿参数,无需特殊训练即可操纵机器人看剧了解一点美国历史 - 《美国夫人》洛杉矶市中心危险吗?火车站,流浪人,中国城……【本纪】学霸与学渣的距离谷歌推出深度学习调优手册,不到一天狂揽1200星,Hinton转发|GitHub国际合作中心副主任常皓带队赴中国航天科工二院开展学习调研天赋“易昺(bǐng)”,创造历史!法国《电影手册》2022年度十佳公布「深度学习+」阶段来了!百度王海峰:深度学习多维度逐渐成熟,创新创造大有可为终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人CV发论文的机会来了!南洋理工项目招生(仅限深度学习,AI,机器学习,迁移学习方向)积木式深度学习的正确玩法!新加坡国立大学发布全新迁移学习范式DeRy,把知识迁移玩成活字印刷|NeurIPS 2022多地调整疫情防控措施!《个人防疫手册》请查收深度学习先驱者 Geoffrey Hinton 发布新深度学习算法一册在手答案全有!《个人防疫手册》直接访问超5300万今天的午餐和晚餐Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍【最新】总结全球城市当前面临的挑战和机遇!联合国人居署官网上线2022版《上海手册》《北医三院新冠防护手册》PDF谷歌大脑深度学习调参(炼丹)指南出炉,Hinton点赞,一天收获1500星ChatGPT与搜索引擎合体,谷歌都不香了,LeCun转发|在线可玩如何提升深度学习算法效率,谷歌有这些绝招
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。