Redian新闻
>
挑战单卡单日训练BERT,ViT作者推荐

挑战单卡单日训练BERT,ViT作者推荐

公众号新闻
Pine 发自 凹非寺
量子位 | 公众号 QbitAI

单个GPU,只花一天时间,能把BERT训练成什么样?

现在,终于有研究人员做这件事了,在有限的计算条件之下看看语言模型的真实性能如何。

要知道在以往,大多数专业人员的关注点都在极端计算的条件下的语言模型性能。

但这样的语言训练模型环境,对很多研究人员和从业人员是不可能存在的。

因此这个单天单个GPU的挑战,就有网友称是一个最希望看到的基准。

连ViT作者,谷歌大脑研究员Lucas Beyer都发文推荐,称这是一个令人耳目一新的转变。

具体的过程和结果如何,一起来看看~

挑战过程

这次研究的目标也很明确,就是反其道行之:缩小语言训练模型的算力,在有限的计算量的情况下如何达到BERT的性能水平

既然要缩小计算量,那第一步肯定是对模型作出一些限定。

这也还是之前提到的,限定时间和GPU个数:单天单个GPU。

关于GPU,研究人员分别选取了3个进行测试,即rtx2080ti、rtxa4000和rtxa6000,每个单元有4个CPU核和32GB内存。

在限定计算量之后,就要对模型的其他参数进行一些调整,以进一步对BERT的实际适用性进行评估

这些调整包括初始数据设置、模型架构、训练以及数据集的改进。

并且在调整的过程中,整体基调都是围绕“实际使用”进行的,避免跳转到专业的设置,为此,研究人员将所有内容都保持在PyTorch框架的实现级别上。

先来说说初始数据设置,这部分可以简单概括为以下几点:

  • 将标记化的数据打包成长度为128的随机序列,不相关的片段用

    分割;
  • 删除< cls > 标记,因为在训练前训练中加入它并没有对性能产生多大影响;

  • 将序列长度为64到96微小批量累积到大批量再处理。

然后是对架构的修改,下图显示了不同模型在随着token数量的增加MLM任务损失的变化。

结果很显然,一个模型损失的衰减很大程度地取决于模型的大小,而不是模型的类型。

并且,因为每个token的性能与模型大小之间的关系紧密耦合,若想通过改变Transformer模型的大小和类型来获得巨大性能增益是不太可能的。

不过对于同大小的所有模型,每个梯度效率是几乎保持不变的,因此可以在保证模型大小不变的情况下,选择能够通过快速搜索加速计算的架构。

具体的优化和其他调整如下:

  • 减少注意力头的数量来降低梯度成本:禁用所有QKV偏差;

  • 禁用所有线性层偏差,通过加速梯度计算,不会对模型大小产生明显影响;

  • 实现比例正弦位置嵌入,相较于学习或非比例正弦嵌入有增量收益;

  • LN的预标准化比后LN更有益;

  • 去除非线性头部并无影响。

接下来便要对训练进行设置,具体也就不再赘述,直接来看相关调整:

  • 优化器依旧是Adam;

  • 设定Learning Rate计划和批量大小;

  • 丢掉Dropout环节。(因为Dropout会导致每秒更新的净减少)

而在数据集方面,研究团队采用了两种基于数据的途径来更好地缩小规模,分别是以各种方式过滤、处理或排序现有的数据交换数据源,具体可以看下表。

性能接近最初的BERT

在调整完各种参数后,这个单卡一天的BERT性能到底如何?直接看看最终的数据!

在下游性能评估时是通过GLUE来进行的,下表能够看到在3个不同显卡上的得分,非常接近最初的BERT。

而当模型训练计算量为16倍时,即(2天,在8个GPU),依旧是一样的数据和设置,最终得到的结果比最初的BERT提高了很多,达到了RoBERTa的性能水平。

如果想了解更多,可以点击下面链接查看论文原文~

论文原文:
https://arxiv.org/abs/2212.14034

参考链接:
https://twitter.com/giffmana/status/1608568387583737856

「2022人工智能年度评选」榜单揭晓

领航企业TOP50


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2719元,撼讯RX6700XT竞技版,单卡套包,以及性能演示开源模型、单卡训练,带你了解爆火的文本指导音频生成技术AudioLDMChinese Court Clarifies NFTs Are ‘Virtual Property’MLPerf排名榜刷新:相同GPU配置训练BERT,飞桨用分布式技术拿下世界第一​COLING 2022 | PCBERT: 用于中文小样本NER任务的BERT模型【投票】请问下6700XT的单卡方案是不是有兴趣?培养情绪力,TED 演讲者推荐的这部动画片比砸钱上培训班更管用!(附免费资源)黑龙江为什么要换省会?一日一卡挑战:RTX2080Ti搞定大模型训练,算力节省136倍,学界欢呼马斯克被曝想原价卖推特!封杀5个记者推特账户,联合国和欧盟警告!马斯克:史上最大金融危机......封禁记者推特账号,马斯克被欧盟警告;贝佐斯、盖茨联手投资脑机公司;蔡崇信计划出售 2.6 亿美元阿里股票 | 极客早知道Chinese Courts Ask Divorcing Couples to Report Marital Property投资者推测央行降息时间 近期将随美联储继续加息​COLING2022 | PCBERT: 用于中文小样本NER任务的BERT模型加速训练定制化BERT,ExtremeBERT工具包助力轻松快速预训练【租房推荐】Watertown高档公寓推荐【家族往事】姐姐的婚事美国大学教授发现学生用ChatGPT作弊?!直言感到恐惧......超89%的学生使用ChatGPT作弊!斯坦福率先打响反击战BARTV推荐 | K先生助力与金援《正义迴廊》(The Sparring Partner) 2022票房黑马!悬疑犯罪新爽片!水墨《行万里》美国大学教授发现学生用ChatGPT作弊?!直言对AI代写感到恐惧......首战336,V168!做好这些,V上160是水到渠成的事用ChatGPT作弊,小心被抓,反剽窃水印技术让学生噩梦提前到来单卡就能跑的大模型等效GPT-3!Meta发布大语言模型LLaMA,大小从7B到65B不等单卡,2200元落袋!免费权益居然升级了餐饮业受重创,南加业者推广东“预制菜”,“省钱、省时、省事”吹爆!ChatGPT作为新晋懂王还能这么玩?湾区人惊呆了从BERT到ChatGPT,百页综述梳理预训练大模型演变史预付款超2亿美元,Vertex重押内体逃逸载体疗法,强势入局1型强直性肌营养不良症文革中批判邓小平的红卫兵说啥从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」畅游法国(35)-勃艮第之王数百家报纸停刊《呆伯特》(Dilbert)漫画,因其作者发表种族主义言论单卡就能运行AI画画模型,小白也能看懂的教程来了,还有100万卡时免费NPU算力可用丨昇思MindSpore
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。