让大模型的训练和推理,比更快还更快!谷歌2022年终总结第四弹
新智元报道
新智元报道
【新智元导读】性能不再是瓶颈,模型运行效率是问题的关键!
运行效率成关键
运行效率成关键
高效的模型架构
高效的模型架构
论文链接:https://openreview.net/pdf?id=jdJo1HIVinI
论文链接:https://arxiv.org/pdf/2210.06313.pdf
论文链接:https://arxiv.org/abs/2205.15317
训练效率
论文链接:https://arxiv.org/pdf/2202.00980.pdf
论文链接:https://arxiv.org/abs/2103.05896
数据效率
论文链接:https://arxiv.org/pdf/2301.12052.pdf
论文链接:https://arxiv.org/pdf/2006.07710.pdf
推理效率
论文链接:https://arxiv.org/abs/2301.12005
论文链接:https://arxiv.org/abs/2301.12245
论文链接:https://arxiv.org/abs/2207.07061
这样,模型只需要为最具挑战性的预测计算完整的解码器层堆栈,更简单的预测只需要计算几个解码器层。在实践中,该模型平均使用约三分之一的层进行预测,在保持同等水平的生成质量的同时,产生2-3倍的加速。
一个常用的自适应计算机制包括两个或多个基本模型的级联,其关键问题是决定是简单地使用当前模型的预测,还是将预测推迟到下游模型,学习何时推迟需要设计一个合适的损失函数,它可以利用适当的信号作为推迟决策的监督。
Google Research系统性地研究了现有的损失函数,证明由于标签平滑的隐式应用,它们可能不适合训练样本,文中还展示了可以通过延迟规则的事后训练来缓解这种情况,这种训练不需要以任何方式修改模型内部。
对于检索应用程序,标准的语义搜索技术对大型模型生成的每个嵌入使用固定的表示,也就是说,不管下游任务及其相关的计算环境或约束,表示的大小和能力大多是固定的。
Matryoshka 表示学习引入了根据部署环境调整表示的灵活性,强制表示在它的坐标中有一个自然的排序,这样对于资源受限的环境,只使用表示的最高的几个坐标;而对于更丰富和精度关键的设置,可以使用表示的更多坐标。
当结合标准近似最近邻搜索技术,如扫描神经网络,MRL 能够提供多达16倍的低计算相同的召回率和准确度量。
总结
总结
大型机器学习模型在多个领域都展现出具有变革性的结果,但训练和推理的效率正在成为使这些模型在现实世界中切实可行的关键需求。
通过开发新的基础技术,Google Research已经在使大型机器学习模型高效方面进行了大量投资,这也需要持续性的努力,未来将继续探索核心挑战,使机器学习模型更加健壮和高效。
微信扫码关注该文公众号作者