微软新出热乎论文:Transformer扩展到10亿token
机器之心报道
已经扩展到了10亿token,未来能否将整个互联网作为一个序列处理?
论文地址:https://arxiv.org/pdf/2307.02486.pdf 项目地址:https://github.com/microsoft/unilm/tree/master
首先,它为模型提供了大容量的记忆和感受野,使其能够与人类和世界进行有效的交互。 其次,更长的上下文包含了更复杂的因果关系和推理路径,模型可以在训练数据中加以利用。相反,较短的依赖关系则会引入更多虚假的相关性,不利于模型的泛化性。 第三,更长的序列长度可以帮助模型探索更长的上下文,并且极长的上下文也可帮助模型缓解灾难性遗忘问题。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章